第22版:TMT 上一版3  4下一版
 
版面导航

第01版
头版

第02版
要闻

第03版
要闻
 
标题导航
首页 | 版面导航 | 标题导航
2025年01月13日 星期一
3 上一篇 放大 缩小 默认
可用数据面临枯竭 大模型迭代或被迫按下暂停键

    在当前的大模型训练中,高质量数据获取的成本与难度越来越大。

    秦枭/摄影

    本报记者秦枭北京报道

    在人工智能飞速发展的当下,随着模型规模的不断扩大,一个严峻的问题正逐渐浮现——可用数据面临枯竭。数据,作为AI大模型的“血液”,其质量与数量直接决定了模型性能的上限。研究机构Epoch AI近日公布的研究预测,到2028年,用于训练AI模型的典型数据集的规模将达到公共在线文本总量的估计规模。这意味着,未来几年内,AI大模型可能会耗尽可用于训练的高质量数据资源。《自然》杂志最近也在头版敲响警钟——AI革命正“吸干”互联网数据的海洋。

    《中国经营报》记者在采访中了解到,虽然算力的提升使得大模型能够处理海量数据,但高质量、贴合特定场景的数据供应可能没有同步跟上。这并不意味着数据完全枯竭,而是符合需求的优质数据难以获取。同时,还会出现边际效益递减,即随着模型规模扩大,增加额外数据所带来的收益逐渐变小。如果想进一步提升模型能力,所需的数据可能需要更高质量、更有针对性,导致对数据的需求更为苛刻。

    互联网数据见底?

    AI大模型对数据的需求量是巨大的。以GPT-4为例,其参数量达到了万亿级别,需要海量的数据来进行训练。

    一位智算中心的工作人员告诉记者:“大模型的数据来源主要有几种,第一种互联网公开数据是常见的数据来源,涵盖网页、社交媒体、论坛、学术论文和开源数据集等,可通过爬虫或API获取。第二种是企业内部数据,包括用户行为、交易和产品日志等,对特定行业的大模型更有价值。第三种是第三方数据提供商则提供专业整理的行业数据。”

    然而,互联网上可用的高质量数据资源却十分有限。虽然互联网上每天都在产生大量的数据,但这些数据的生成速度远远无法满足AI大模型的需求。

    OpenAI原科学家苏茨克维尔曾表示,“我们只有一个互联网”,数据的增长正在放缓,而这一推动AI飞跃的“化石燃料”正逐渐枯竭。

    上述工作人员坦言:“互联网数据面临枯竭的说法并不准确,准确地说是目前高质量的数据已经见顶。社交媒体上的虚假信息、冗余内容,以及网络上的偏见言论以及AI自己生成的数据等,都严重影响了数据的质量。这些低质量的数据不仅无法为模型提供有效的训练素材,还可能对模型的判断产生误导,导致模型性能的下降。低质量数据对大模型来说不是养料,而是毒药。”

    他举例道:“之前(有报道称)Gemini说自己就是文心一言,听起来挺搞笑的,但背后就是互联网上的资料可能被AI严重污染了。”

    八友科技创始人、CEO梁斌表示:“在2023年的市场上,所有大模型的客户,包括各类企业,都在拼命购买数据,但他们并不完全了解那些数据是好或是坏。到了2024年,客户只购买那些有着严格标准的数据,例如购买图片时,他们会指定图片中景物的大小和所需包含的内容。因此,客户现在已经能够识别出什么是好的数据,也就是说高质量数据的重要性正在日益增加。”

    “而对于数据来源的后两者来说,获取的难度是极大的。”上述工作人员表示,“现在AI大模型用得越来越多了,数据所有者也开始管得越来越严,对内容的使用规则更加严格了。”

    工信部信息通信经济专家委员会委员、DCCI互联网研究院院长刘兴亮向记者分析道,隐私与安全法规是限制数据获取的主要原因之一,全球范围内对数据隐私和安全的关注度持续提升,如《欧盟通用数据保护条例(GDPR)》和《数据安全法》等法律法规限制了数据的采集、存储和使用。用户对隐私保护的需求增加,许多企业和平台不愿意或无法提供大规模用户数据。

    除上述原因之外,高质量数据获取的成本之高,使得企业难负其重。目前大模型厂商正在投入巨资清洗数据,但代价高昂。

    “原始数据中存在大量噪声,进行清洗和标注的成本极高,尤其是在一些高精度需求的领域(如医疗、法律)。”刘兴亮表示,“与此同时,数据获取还面临数据版权问题,许多高价值数据(如文学作品、科研论文等)受版权保护,导致数据获取和使用受到法律约束。”

    业内普遍认为,久久未能发布的GPT-5正是因为数据瓶颈显现,导致训练之路困难重重。

    不过,OpenAI、谷歌等几家头部公司也坚称,AI并没有遇到所谓的“壁垒”和“瓶颈”。他们依然对AI的前景感到乐观,并认为通过开发新型数据源、增加模型推理能力以及应用合成数据,AI模型将继续保持进步。

    突破数据瓶颈

    数据枯竭问题的渐显,为AI大模型的发展敲响了警钟。企业也开始正视这一问题,积极寻找解决之道。通过挖掘现有数据的潜力、利用合成数据、建立数据共享平台、加强数据治理以及探索新的数据来源等多方面的努力。比如,OpenAI成立了一个基础团队,该团队主要探索如何应对训练数据的匮乏,调整规模法则的应用,保持模型改进的稳定性。

    “现在大模型频繁地降价,一方面是成本因素,另一方面也是为了获得更多的数据。”上述智算中心的工作人员直言,“通过低价甚至免费吸引用户使用模型,从而获得更多的数据来优化模型效果,使用更多的数据能带来更出色的模型效果,进而吸引更多用户,形成良性循环。”

    在大部分业内人士看来,在数据资源有限的情况下,如何促进不同机构、不同行业之间的数据共享与合作,是解决数据荒的有效途径。通过数据共享平台,企业、研究机构等可以将自己的数据资源进行整合和共享,实现数据的互联互通。

    知名经济学者、工信部信息通信经济专家委员会委员盘和林认为:“最直接的办法,AI企业和互联网平台企业合作,共同打造AI大模型。互联网平台的算力、资金、数据都很充足。”

    中国科学院院士梅宏在接受记者采访时表示:“举个例子,现在的公交车、出租车、地铁等各种出行方式的数据,均是由各自独立的信息系统来汇聚的,形成了一系列的数据孤岛。如果要把这些数据汇在一起共享融合,需要实现各系统间的互操作。如果每个机构都做一遍,成本很高,效率也很低。因此,需要构建一套以数据为中心的新型基础设施,从根本上支撑数据在互联网上的互联互通,这就是所谓的数据基础设施,它本质上是互联网技术体系的一次拓展和延伸。”

    “鼓励建立行业间或科研领域的开放数据平台,同时制定合理的数据共享与使用规范,确保合规性。”刘兴亮表示,“‘数据荒’更像是数据获取和使用效率的问题,而非绝对的数据匮乏。隐私与安全法规确实对数据的自由流通提出了更高要求,但也推动了技术手段和商业模式的创新。未来,人工智能行业需要在数据获取效率、技术突破和法规遵循之间找到平衡点。”

3 上一篇 放大 缩小 默认
  © 版权所有 中国经营报社 合作伙伴:方正爱读爱看网
   第01版:头版
   第02版:要闻
   第03版:要闻
   第04版:贺信
   第05版:40年40人
   第06版:40年40人
   第07版:40年40人
   第08版:40年40人
   第09版:金融
   第10版:财富
   第11版:资管
   第12版:资管
   第13版:银行
   第14版:银行
   第15版:保险
   第16版:新金融
   第17版:区域·地产
   第18版:区域经济·文旅
   第19版:地产
   第20版:地产
   第21版:TMT
   第22版:TMT
   第23版:TMT
   第24版:能源·化工
   第25版:车视界
   第26版:车视界
   第27版:车视界
   第28版:医药·健康
   第29版:快消
   第30版:快消
   第31版:快消
   第32版:游戏
华为降价、苹果跟进、米OV上攻 争夺国内高端手机市场份额
可用数据面临枯竭 大模型迭代或被迫按下暂停键