本报记者秦枭北京报道
近年来,大模型已经成为整个AI(人工智能)产学界追逐的技术“宠儿”,“炼大模型”如火如荼,包括OpenAI、Google、微软、英伟达、百度、华为、阿里巴巴等企业巨头纷纷参与其中,各式各样参数不一、任务导向不同的“大模型”也陆续面市。一时间,“炼大模型”成为了当下AI产业发展的一个主旋律。
方融科技高级工程师、科技部国家科技专家周迪在接受《中国经营报》记者采访时表示,Al大模型历经了前几年的探索期、突破期,部分技术已经逐渐成熟,现在在一定程度上达到推广期了。各大企业纷纷发布AI大模型,就是抢抓这个时间节点,在这方面先取得入场门票。大模型具有效果好、泛化性强、研发流程标准化程度高等特点,正在成为人工智能技术及应用的新基座。
据中国信息通信研究院测算,2021年,算力核心产业规模超过1.5万亿元,关联产业规模超过8万亿元。其中,云计算市场规模超过3000亿元,IDC(互联网数据中心)服务市场规模超过1500亿元,人工智能核心产业规模超过4000亿元。
AI新基座
在过去,绝大部分人工智能企业和研究机构遵循算法、算力和数据三位一体的研究范式,即以一定的算力和数据为基础,使用开源算法框架训练智能模型。而这也导致了当前大部分人工智能处于“手工作坊式”阶段,面对各类行业的下游应用,AI逐渐展现出碎片化、多样化的特点,也出现了模型通用性不高的缺陷。这不仅是AI技术面临的挑战,也限制了AI的产业化进程。
“从各类电商平台的智能推荐到日常生活中的刷脸支付,现在我们生活的方方面面都离不开AI。为了满足这些需求,我们需要为每种特定场景收集大量的数据,再从中设计出专用于特定任务的模型,”周迪对记者说道,“AI大模型希望做到的就是能够基于这个模型整合各类需求,从而适应多种差异化的业务场景,解决AI在赋能千行百业中面临的碎片化、多样化问题。”
AI大模型提供了一种通用化的解决方案,通过“预训练大模型+下游任务微调”的方式,可以有效地从大量标记和未标记的数据中捕获知识,极大地扩展了模型的泛化能力。
华为 腾计算业务总裁张迪煊对记者表示,过去在一个单一的AI应用场景里面,其实是由很多模型组成的,通过多模型支撑一个场景来完成多个任务。而大模型是AI发展的趋势,也就是通过大模型能解决人工智能很多的问题,因为大模型具备很好的泛化性,可以通过大模型实现多个任务,原来场景需要多个小模型,现在大模型可以服务多个场景,这是生产效率的提升。现在国家相关部门也在牵头制定大模型的沙盘,避免科研机构、企业重复研发,通过各个领域的大模型与行业场景结合,可以更好地加速人工智能技术产业落地。
阿里巴巴资深副总裁、达摩院副院长周靖人则认为:“大模型模仿了人类构建认知的过程,这是当下我们面临的重要机遇。通过融合AI在语言、语音、视觉等不同模态和领域的知识体系,我们期望多模态大模型能成为下一代人工智能算法的基石,让AI从只能使用‘单一感官’到‘五官全开’,且能调用储备丰富知识的大脑来理解世界和进行思考,最终实现接近人类水平的认知智能。”
巨头角力
事实上,从2020年开始,全球各大公司和研究机构就已经开始了大模型的军备竞赛。2020年夏天,OpenAI 推出GPT-3,在自然语言处理方面,GPT-3展示出惊人的能力,它能写文章,做翻译,还能生成代码,甚至可以学习一个人的语言模式,并遵循这个模式与人进行谈话。
GPT-3的面市也使得全球范围内AI大模型迎来大爆发,参与企业越来越多,参数级别越来越大,成为新一轮AI竞赛的赛场。2021年谷歌发布了万亿级模型Switch Transformer,微软和英伟达也推出了包含5300亿个参数的自然语言生成模型。
国内的企业也不甘落后,华为、百度、阿里巴巴、浪潮等企业都相继推出了自己的大模型。
今年9月2日,阿里巴巴达摩院发布了最新“通义”大模型系列。周靖人介绍说,为了让大模型更加“融会贯通”,达摩院在国内率先构建了AI统一底座,在业界首次实现模态表示、任务表示、模型结构的统一。
同日,华为也发布了基于腾AI的全球首个三模态大模型“紫东太初”。据悉,“紫东太初”是具备跨模态理解与跨模态生成能力的千亿参数创新模型。除此之外,其首次使“以图生音”和“以音生图”成为现实,是从限定领域的弱人工智能迈向通用人工智能路径的一次重要探索。
据华为方面介绍,自2021年以来,国内产业界仅基于 腾AI就先后推出了鹏程·盘古、鹏程·神农、紫东·太初、武汉·LuoJia、华为云盘古系列等有影响力的大模型,并陆续在互联网、智慧城市、生物医药、金融、农业等行业孵化出多个解决方案,加速推动AI在各行各业的应用落地。
对此,周迪分析认为,Al大模型历经了前几年的探索和突破,一些技术已经逐渐成熟,现在在一定程度上达到推广期了。各大巨头纷纷发布AI大模型,就是抢抓这个时间节点,先取得入场门票。
挑战仍存
当然,AI大模型的发展也并非一蹴而就。大模型在实现全模态和全任务的通用性上仍存在许多技术难点,同时受算力资源限制,其训练与落地应用颇具挑战性。
清华大学计算机系教授唐杰认为,大模型训练面临着诸多的挑战,训练成本高昂,训练1750亿个参数的GPT-3,用到了上万块英伟达V100GPU(图形处理器),总成本据悉高达1200万美元。人力投入巨大,谷歌PaLM530B团队,前期准备29人,训练过程11人,整个作者列表68人。训练过程不稳定,易出现训练不收敛现象(训练过程中的损失值无明显下降趋势甚至上升),且调试困难。
周迪则认为,Al大模型的发展主要面临体量、评价、应用三大瓶颈。一是体量庞大,研发部署困难。Al大模型的参数量和计算量要求给开发、调优、部署等工程化环节带来极大压力,需要加强AI大模型轻量化技术研发。二是评价单一,运用效能难以显现。当前AI大模型的评价以学术榜单为主,在行业场景下的应用效果难以客观有效评价,建议完善AI大模型评估指标体系。三是应用受限,产品形态仍在探索。建议鼓励AI大模型应用服务创新。比如有的企业采用分行业分层体系,逐步进行AI大模型的落地。