本报记者 曲忠芳北京报道
“以GPT为代表的人工智能(AI)大模型,最大的影响力是凝聚了社会共识。事实上,大模型早在几年前就已经开始研发,只是没有像现在这么火热,当GPT带动大模型‘出圈’后,从产、学、研、政等维度达成高度的共识,从而投入更多的资源。”3月20日,在“人工智能涌现产业生态焕新”专题研讨会上,AI大模型在各个行业领域的赋能与应用引起了热烈讨论,作为AI初创企业代表的深言科技公共事务负责人王禹杰如是指出。
深言科技成立于2022年3月成立,孵化自清华大学NLP(自然语言处理)实验室和北京智源人工智能研究院。2023年6月,深言科技获得了腾讯、好未来的战略投资,到12月,该公司的自研大模型“语鲸”正式通过《生成式人工智能服务管理暂行办法》备案,面向社会公众开放服务。
在研讨会现场,王禹杰基于深言科技的AI大模型研发和落地应用的历程与感知,分享了对于中国AI发展现状的理解,同时就国内AI大模型面临的诸多挑战给出了建议与思考。
国产AI大模型升级面临的挑战
王禹杰表示,深言科技团队的创新理念秉承“高原上有高峰”。简单来说,高原是指要打造具有强大功能的基础模型能力,而高峰则是解决特定任务、特定领域问题的能力,走通“最后一公里”,做好场景驱动,形成数据闭环。
在深言科技看来,计算机科技应用的发展——从搜索到算法推荐,再到大模型带来的颠覆性创新,本质上都是在处理人与信息。深言科技提供的大模型产品“语鲸”,旨在为数亿脑力劳动者和数千万信息密集型组织重塑信息处理全流程。用户在面对繁杂冗余的信息时,通过“语鲸”能够在海量信息中提纲挈领,去繁取精,一键生成文章概述,高效准确总结关键信息,同时具备多级展开式大纲及个性化信息摘录存储,尤其在长文、研报、论文等深度阅读场景下,可以显著提升信息获取效率。
王禹杰坦言,当前国内AI大模型发展面临诸多难题的掣肘,其中比较突出的便是高质量数据集的缺位,阻碍大模型的效果提升。他解释道,大模型十分依赖大算力和高质量数据集的融合,据相关数据估算,互联网中文语料的质量和规模均大幅低于英文语料,英文文本和数据资料是中文的8倍左右,以公开渠道获取大批量、高质量的中文语料数据的难度较大。与此同时,数据孤岛问题仍然突出。数据作为新型生产要素已得到国家广泛重视,但数据获取和交换机制还远没有形成,特别是专业的行业应用数据集,更难获取和访问,数据集孤岛问题突出,限制了大模型可使用的数据量,从而对大模型效果提升形成阻碍。
建议统筹大规模数据集充分发挥应用场景优势
《中国经营报》记者了解到,大模型的语料库大多来 自 用 户生成 内容(UGC),但更为严谨的且获得反复验证的百科全书式的知识信息,才是大模型优质、可靠的语料库。全球的学术资料库中的论文、报纸期刊、图书等绝大多数以英语呈现,业界普遍认为,中国的大模型发展要实现突破,必然要依赖于中文语料库。
对此,王禹杰建议统筹大规模数据集建设。他认为,应推动用于公共治理、公益事业的公共数据有条件优先给大模型科技企业使用,支持大模型发展;探索企业数据授权使用新模式,发挥国有企业带头作用,优先授权大模型领军企业使用数据,进一步探索先行先试;促进图书馆、大学等具有公共、公益属性的数据进一步开放,支持国内大语言模型在国际占据领先位置。
除此之外,在应用场景方面,美国GPT系列模型已通过苹果版App、微软Office、Adobe等办公类软件、Azure云等方式,为政府、企业、个人用户提供服务,并通过全球上亿用户的反馈来迭代升级。王禹杰指出,中国在场景丰富度方面全世界首屈一指,在能源、水务、金融、政务、教育、汽车等重点领域都有场景优势,但目前国内大模型仍无法大规模面向公众和行业提供服务,用户反馈不足,从而严重影响迭代升级速度。他建议先行先试若干由政府机关、事业单位或国企主导的人工智能应用场景,大力推动公共服务、城市治理,以及千行百业的人工智能场景应用。支持大模型创新企业在“模型即服务”人工智能产业链中布局。例如,加强在金融垂直领域攻关,实现研报摘要、金融检索、智能客服等重点场景应用突破,贯彻创新驱动发展战略,丰富金融行业应用生态,助力建设金融强国。