文/李静
2023年国内各大科技厂商和创业公司纷纷投入到大语言模型的研发中。从2023年3月百度率先推出“文心一言”,到阿里巴巴、科大讯飞、华为、京东、字节跳动等公司陆续推出了大模型产品,国内市场呈现出“百模大战”的状态。
然而,在国内各大厂商激战大模型时,市场另有一种声音逐渐升起——以百度创始人兼首席执行官李彦宏为代表的业内人士多次发言表示:“卷大模型没有意义,卷应用机会更大。”
2023年年底,硅谷风头大盛的一款大模型应用——AI视频生成产品Pika,仅4个人的团队就撑起来2.5亿美元的估值。同一时期的另一个重要事件是,OpenAI切断了字节跳动的API接口。顺福资本创始合伙人、行行AI董事长李明顺对此解释道:“这实际上反映出大模型公司开始害怕强应用,因为大模型逐渐变成明牌,大家较量的不再是技术底座,而是有多少用户、多少场景、有多少的钱持续去找算力。用户数、场景、投资能力会成为这一波大模型竞争的核心,在此背景下,大模型本身的重要性降低了。”
技术进步明显
大模型是2023年中国互联网科技领域的一大关键词。在Chat-GPT的影响之下,由巨头引领,2023年千亿级参数规模大模型在国内陆续落地。具体来看,2023年3月百度发布“文心一言”;4月阿里发布“通义千问”,商汤科技发布“日日新”大模型;5月科大讯飞发布“星火大模型”;7月华为发布面向行业的“盘古大模型3.0”。赛迪顾问统计数据显示,仅在2023年1—7月,国内共计64个大模型发布。
2023年9—10月,百度、阿里、腾讯、科大讯飞等公司陆续推出了其大模型的最新版本,模型能力向GPT-3.5和GPT4看齐。
2023年11月,新华社研究院中国企业发展研究中心发布的《人工智能大模型体验报告3.0》显示,国内大模型厂商在技术实力上呈现出百家争鸣态势,与2023年8月相比,当前中国大模型产品进步显著。相比GPT-4等国际顶尖大模型,国内大模型起步较晚,但随着国内大模型的加速发展,参数量、训练量的堆积,部分国内大模型已经可以与国外大模型同台竞技。从参数量来看,智谱旗下Chat-GLM2-130B的参数量达到1.3万亿,仅次于GPT-4,“文心一言”4.0的参数量也跻身万亿级别;从性能来看,“文心一言”“商量”等大模型在CLiB测评中的表现要好于Meta的LLa MA-2-70B大模型,与GPT-4的差距较小。
“2023年大模型领域的最大变化是模型的规模和应用范围的迅速扩大,背后主要原因在于数据量的爆炸式增长和计算能力的提升。随着互联网的普及和数字化进程的加速,每天都在产生海量的数据,这些数据为训练更大、更复杂的模型提供丰富的‘食粮’,使大模型能更好地理解和模拟现实世界。”中国信息协会常务理事、国研新经济研究院创始院长朱克力说,随着深度学习技术的不断发展和成熟,模型的性能和效率也在不断提升,为大模型的广泛应用提供了技术基础。同时,云计算、边缘计算等技术的发展也为大模型的训练和部署提供了强大的计算资源和基础设施支持。这些因素,共同推动了大模型领域的快速发展和变化。
“智能对话很早就在学术界开始了研究,并且有落地的产品,比如微软小冰,但它无法完成复杂任务。直到2022年11月OpenAI发布了ChatGPT-3.5,其解决问题的能力震惊世界。国内外的大量资本都在进入,导致大模型行业快速发展起来,仅国内就催生近300家大模型公司和科研机构。”八友科技CEO梁斌博士认为,市场的最大变化是所有参与者对大模型全面改造世界的信心,这个信心在之前是没有的,但现在大家看到了重大机会,都敢于投入。
李明顺指出:“其实国内主流大模型和国外大模型的差距还在一年半以上,但这并不意味着国内大模型不行。国内的资本市场、以及做大模型的公司相对比较务实,商业化的考虑更多一些,更愿意结合场景做模型开发或者应用开发。而国外巨头更愿意在基础研究和前沿技术探索上投入。”
需要看到的是,大模型仍在继续向前发展中,行业也面临着一些亟待解决的难题。一览科技创始人兼CEO、工信部AI应用工作组成员罗江春对《中国经营报》记者指出,大语言模型在可扩展性、与人类价值的对齐、预训练成本、真实性和可信度方面也面临重大挑战。
梁斌还指出,算力被卡脖子是目前看来比较严峻的挑战。从数据的层面看,中国大模型对PGC数据(平台产生的数据)的处理能力和美国差距还很大,因为很多高科技内容、论文都是英文。
开发应用前景更好?
在“百模大战”的大环境之下,对于中小企业和创业者来说,卷入大模型的战争中有意义吗? 李彦宏多次发言表示:“百模大战是对社会资源的极大浪费,更多资源应该放在超级应用上。”
“就像搜索引擎一样,大模型最后可能也只有那么几家能做起来。”千里马招标大数据平台创始人兼CEO王剑波对记者表示。
从技术的角度来说,OpenAI只是选择了深度学习中的Transformer架构,然后进行了改进,最后出现了“智能涌现”。如亚马逊CEO杰夫·贝索斯所言,大语言模型更像是“发现”而不是“发明”。
猎豹移动董事长兼CEO、猎户星空董事长王小川表示:“了解大模型的原理之后,各个公司都能做大模型,训练并行都是工程化的事情。”
“大模型训练技术只是一方面的难题,另一方面还需要足够的语料和足够的算力,其实就是源源不断的钱。”中关村现代信息消费应用产业技术联盟副理事长包冉认为,“只要有钱,做大模型其实是一个简单粗暴就能做的事情,但这个投入却是百亿美元级别,无论是成熟公司还是初创企业,动用百亿美元做大模型的决策难度非常大。”
但需要直面的是,技术的快速发展已经引发了行业波动。“行业正在从对AI技术的探索阶段,转向深入理解如何将这些技术有效融入具体的业务流程和服务中。面对这种变化,关键在于找到并掌握真实的应用场景、即时有效的数据反馈体系、有效的技术应用开发能力以及相对完整的产业链支持。”罗江春说。
对于大模型公司来说,挑战是怎么找到应用场景,因为场景其实分散在各行各业。王剑波对记者说道,大模型公司离客户比较远,常常是拿着AI的榔头到处去找钉子,但很多场景可能是伪需求,AI创造新场景的概率也很小。
这也引发了一些大模型公司对于强应用、强场景公司的警惕。在2023年年底OpenAI就切断了字节跳动的API接口。“像字节跳动这样拥有巨大用户基础的公司是OpenAI所害怕的,因为像字节跳动的很多产品未来会嵌入AI。”李明顺说道,尤其剪映(海外版为capcut)这样的短视频制作工具使用AI后,未来可能会成为全球第一的短视频工具,远远超过今天大家看到的Pika。
对中小创业者来说,大模型领域的创新正转向提供针对性强、高度定制化的垂直行业解决方案,即使是小的创业团体,站在大模型的肩膀上也能做出很成功的AI应用产品。
2023年国内大模型市场还有一个比较明显的变化趋势是多样化和深度集成。“变得更加专注于特定行业的需求,提供更为精细化的服务,如法律、医疗和金融等,以及对应的深度集成趋势,这种深度集成使得AI技术能更好地服务于特定行业的特定需求。”罗江春说道,市场对这些新型技术工具的接受度也在不断提高,企业和消费者开始更多地依赖这些AI工具来提高工作效率和决策质量。同时,对于这些技术的适应性要求也在增加,即它们需要能够根据不同行业和应用场景的具体需求进行调整。
“2023年下半年,在工业、游戏、电商、酒店等场景里已经出现了一些大模型应用。2024年基于场景和AI结合,产生大模型应用的情况还会继续发生。”但李明顺适时指出,如今大模型在行业中的认可度已经越来越高,凭空地去做一些基于大模型的轻度应用已经很难建立自己的壁垒,创业者还是应该结合自身的场景能力,尤其是基于过去积累的资源,通过行业壁垒来结合大模型做应用创新才有机会。
“垂直行业大模型、大模型应用的训练需要大量的行业内的高质量数据,在此过程中,如何有效地获取和处理数据、如何提高模型的性能和效率、如何保障应用的安全性和可靠性,都是亟须解决的问题。”朱克力表示。