中国经营报数字报刊平台

可用数据面临枯竭大模型迭代或被迫按下暂停键

在当前的大模型训练中，高质量数据获取的成本与难度越来越大。

秦枭/摄影

本报记者秦枭北京报道

在人工智能飞速发展的当下，随着模型规模的不断扩大，一个严峻的问题正逐渐浮现——可用数据面临枯竭。数据，作为AI大模型的“血液”，其质量与数量直接决定了模型性能的上限。研究机构Epoch AI近日公布的研究预测，到2028年，用于训练AI模型的典型数据集的规模将达到公共在线文本总量的估计规模。这意味着，未来几年内，AI大模型可能会耗尽可用于训练的高质量数据资源。《自然》杂志最近也在头版敲响警钟——AI革命正“吸干”互联网数据的海洋。

《中国经营报》记者在采访中了解到，虽然算力的提升使得大模型能够处理海量数据，但高质量、贴合特定场景的数据供应可能没有同步跟上。这并不意味着数据完全枯竭，而是符合需求的优质数据难以获取。同时，还会出现边际效益递减，即随着模型规模扩大，增加额外数据所带来的收益逐渐变小。如果想进一步提升模型能力，所需的数据可能需要更高质量、更有针对性，导致对数据的需求更为苛刻。

互联网数据见底？

AI大模型对数据的需求量是巨大的。以GPT-4为例，其参数量达到了万亿级别，需要海量的数据来进行训练。

一位智算中心的工作人员告诉记者：“大模型的数据来源主要有几种，第一种互联网公开数据是常见的数据来源，涵盖网页、社交媒体、论坛、学术论文和开源数据集等，可通过爬虫或API获取。第二种是企业内部数据，包括用户行为、交易和产品日志等，对特定行业的大模型更有价值。第三种是第三方数据提供商则提供专业整理的行业数据。”

然而，互联网上可用的高质量数据资源却十分有限。虽然互联网上每天都在产生大量的数据，但这些数据的生成速度远远无法满足AI大模型的需求。

OpenAI原科学家苏茨克维尔曾表示，“我们只有一个互联网”，数据的增长正在放缓，而这一推动AI飞跃的“化石燃料”正逐渐枯竭。

上述工作人员坦言：“互联网数据面临枯竭的说法并不准确，准确地说是目前高质量的数据已经见顶。社交媒体上的虚假信息、冗余内容，以及网络上的偏见言论以及AI自己生成的数据等，都严重影响了数据的质量。这些低质量的数据不仅无法为模型提供有效的训练素材，还可能对模型的判断产生误导，导致模型性能的下降。低质量数据对大模型来说不是养料，而是毒药。”

他举例道：“之前（有报道称）Gemini说自己就是文心一言，听起来挺搞笑的，但背后就是互联网上的资料可能被AI严重污染了。”

八友科技创始人、CEO梁斌表示：“在2023年的市场上，所有大模型的客户，包括各类企业，都在拼命购买数据，但他们并不完全了解那些数据是好或是坏。到了2024年，客户只购买那些有着严格标准的数据，例如购买图片时，他们会指定图片中景物的大小和所需包含的内容。因此，客户现在已经能够识别出什么是好的数据，也就是说高质量数据的重要性正在日益增加。”

“而对于数据来源的后两者来说，获取的难度是极大的。”上述工作人员表示，“现在AI大模型用得越来越多了，数据所有者也开始管得越来越严，对内容的使用规则更加严格了。”

工信部信息通信经济专家委员会委员、DCCI互联网研究院院长刘兴亮向记者分析道，隐私与安全法规是限制数据获取的主要原因之一，全球范围内对数据隐私和安全的关注度持续提升，如《欧盟通用数据保护条例（GDPR）》和《数据安全法》等法律法规限制了数据的采集、存储和使用。用户对隐私保护的需求增加，许多企业和平台不愿意或无法提供大规模用户数据。

除上述原因之外，高质量数据获取的成本之高，使得企业难负其重。目前大模型厂商正在投入巨资清洗数据，但代价高昂。

“原始数据中存在大量噪声，进行清洗和标注的成本极高，尤其是在一些高精度需求的领域（如医疗、法律）。”刘兴亮表示，“与此同时，数据获取还面临数据版权问题，许多高价值数据（如文学作品、科研论文等）受版权保护，导致数据获取和使用受到法律约束。”

业内普遍认为，久久未能发布的GPT-5正是因为数据瓶颈显现，导致训练之路困难重重。

不过，OpenAI、谷歌等几家头部公司也坚称，AI并没有遇到所谓的“壁垒”和“瓶颈”。他们依然对AI的前景感到乐观，并认为通过开发新型数据源、增加模型推理能力以及应用合成数据，AI模型将继续保持进步。

突破数据瓶颈

数据枯竭问题的渐显，为AI大模型的发展敲响了警钟。企业也开始正视这一问题，积极寻找解决之道。通过挖掘现有数据的潜力、利用合成数据、建立数据共享平台、加强数据治理以及探索新的数据来源等多方面的努力。比如，OpenAI成立了一个基础团队，该团队主要探索如何应对训练数据的匮乏，调整规模法则的应用，保持模型改进的稳定性。

“现在大模型频繁地降价，一方面是成本因素，另一方面也是为了获得更多的数据。”上述智算中心的工作人员直言，“通过低价甚至免费吸引用户使用模型，从而获得更多的数据来优化模型效果，使用更多的数据能带来更出色的模型效果，进而吸引更多用户，形成良性循环。”

在大部分业内人士看来，在数据资源有限的情况下，如何促进不同机构、不同行业之间的数据共享与合作，是解决数据荒的有效途径。通过数据共享平台，企业、研究机构等可以将自己的数据资源进行整合和共享，实现数据的互联互通。

知名经济学者、工信部信息通信经济专家委员会委员盘和林认为：“最直接的办法，AI企业和互联网平台企业合作，共同打造AI大模型。互联网平台的算力、资金、数据都很充足。”

中国科学院院士梅宏在接受记者采访时表示：“举个例子，现在的公交车、出租车、地铁等各种出行方式的数据，均是由各自独立的信息系统来汇聚的，形成了一系列的数据孤岛。如果要把这些数据汇在一起共享融合，需要实现各系统间的互操作。如果每个机构都做一遍，成本很高，效率也很低。因此，需要构建一套以数据为中心的新型基础设施，从根本上支撑数据在互联网上的互联互通，这就是所谓的数据基础设施，它本质上是互联网技术体系的一次拓展和延伸。”

“鼓励建立行业间或科研领域的开放数据平台，同时制定合理的数据共享与使用规范，确保合规性。”刘兴亮表示，“‘数据荒’更像是数据获取和使用效率的问题，而非绝对的数据匮乏。隐私与安全法规确实对数据的自由流通提出了更高要求，但也推动了技术手段和商业模式的创新。未来，人工智能行业需要在数据获取效率、技术突破和法规遵循之间找到平衡点。”

	第01版：头版
	第02版：要闻
	第03版：要闻
	第04版：贺信
	第05版：40年40人
	第06版：40年40人
	第07版：40年40人
	第08版：40年40人
	第09版：金融
	第10版：财富
	第11版：资管
	第12版：资管
	第13版：银行
	第14版：银行
	第15版：保险
	第16版：新金融
	第17版：区域·地产
	第18版：区域经济·文旅
	第19版：地产
	第20版：地产
	第21版：TMT
	第22版：TMT
	第23版：TMT
	第24版：能源·化工
	第25版：车视界
	第26版：车视界
	第27版：车视界
	第28版：医药·健康
	第29版：快消
	第30版：快消
	第31版：快消
	第32版：游戏

	华为降价、苹果跟进、米OV上攻争夺国内高端手机市场份额
	可用数据面临枯竭大模型迭代或被迫按下暂停键