本报记者秦枭哈尔滨报道
ChatGPT发布至今,AI大模型正在进入全新的生态模式,大模型时代,数据决定AI智能的高度。作为数据的载体,数据存储成为AI大模型的关键基础设施。
中国工程院院士倪光南表示:
“数据存储产业正成为国家的战略性、基础性产业与新的国际竞争高地,我们必须高度重视中国数据存储产业发展,抓住中国数据存储产业面临的重大机遇和挑战,实现科技自立自强,高质量发展,为科技强国建设和掌握数字经济竞争主动权提供坚实支撑。”
重算力,轻存力
随着大模型产业的快速发展,AIGC模型预训练数据量呈现指数级增长,带动算力需求爆发。《中国经营报》记者了解到,模型参数量从GPT-1的1.17亿增加到GPT-3的1750亿;训练数据量也由GPT-1的5GB,增加到GPT-3的45TB。这也就导致面向AI大模型的数据准备时间长、数据来源分散、归集慢。
数据统计显示,目前大模型算力成本约占整个成本的25%,而数据清洗、预处理等工作,在不算数据存储硬件的情况下,占到成本的22%。从这个角度看,数据机器存储过程,在大模型时代越来越重要。
“大家对算力的理解存在一定的片面性。”倪光南认为,真正的人工智能不仅需要算力,还需要存力、运力,三者缺一不可,只有三者平衡配置、均衡发展,才能充分发挥算力的作用。
倪光南表示:“经过存算比的测算,我国存力相对不足,存在重算力、轻存力的倾向。”在其看来,以数据存储能力、信息计算能力、网络运载能力为代表的存力、算力、运力都是我国信息产业发展的核心和基础,是建设科技强国的战略支撑。
不仅如此,国内的存力水平与海外相比也有一定差距,IDC公布的《2023年第一季度中国企业级存储市场跟踪报告》显示,中国企业级数据存储市场销售额同比增长3.45%至70.14亿元,全闪存储销售额15亿元,市场占比25%,混闪存储销售额38亿元,市场占比54%,相比全球全闪存储市场份额41.3%的局面,中国全闪存储市场还有很大的发展空间。
掌握先进数据存储主动权
IDC预计全球数据量到2025年将达到175ZB,其中我国的数据量也将由2018年的7.6ZB增至48.6ZB,跃居全球第一,而拥有强大、先进的数据存储产业作为支撑,才能有发展的主动权。
对此,倪光南建议,产业发展,标准先行。他提出,为促进产业更好发展,以“行标”或“团标”的方式,发布《算力中心建设指南》,提出“算力”与“存力”的适当比率范围。
我国算力总规模已位居全球第二。工信部发布的数据显示,截至2022年年底,我国数据中心标准机架总规模超过7000万架,服务器规模约2400万台,算力总规模达到180EFLOPS(每秒18000京次浮点运算)。
倪光南指出,要避免大力发展算力中心时出现某些倾向,均衡部署、均衡发展,抢占新一轮科技革命和产业变革的制高点。
而目前我国算力中心中采用SSD的占比较低,在我国存储市场中,闪存所占比例还较低,倪光南认为,要加强政策引导,力推SSD取代HDD。存储设备应优先支持SSD,不得以单一价格指标作为评标依据;重要基础设施的存储设备,应加强政策引导。
不仅如此,倪光南指出,国产数据存储产业正迎来发展窗口期。存储领域企业应以此为契机,重视对存储产品的安全审查,包括供应链安全、信息安全、数据安全等。尤其是对于存储整机、主控芯片、存储文件系统等关键核心技术,建议参照信创工作经验,实施“自主可控测评”。