本报记者 曲忠芳北京报道
历史不会重演,但总会惊人的相似。
曾经,智能手机品牌在芯片核数、摄像头参数、屏幕尺寸、轻薄度、外部形态等各个维度激烈比拼,力求在残酷的市场竞争中标新立异、脱颖而出,如今相似的景象在AI大模型领域上演,围绕参数规模、开源、生成多模态、上下文窗口长度等维度的竞争日益升温。尤其引人关注的是,在过去的半个月里,AI新秀公司月之暗面宣布旗下大模型产品Kimi在上下文窗口技术上支持的长度提升至200万字;随后,阿里云旗下的通义千问宣布免费开放1000万字的长文档处理功能,360智脑则开始内测500万字长文本,并将50万字文本能力开源,而百度文心一言被曝将在本月向公众开放200万至500万字长文本能力。
事实上,国产大模型厂商“围猎”长文本能力的背后,意图自然是在竞争激烈的市场竞争中占据高地,在日益同质化的产品比拼中出一条差异化的道路。而广大用户对于五花八门的AI工具最为关心的显然是其实用性。最近一段时间以来,《中国经营报》记者从用户视角调研体验了多款大模型产品,同时结合不同的日常工作场景采访询问了不同职业的群体,通过呈现较有代表性的测试结果,试图向公众提供一些参考。
与用户预期仍有差距
除了显性、可量化的基础配置参数有所区别之外,绝大部分AI大模型在功能使用、性能方面的优势没有特别突出的表现。
市场上面向C端消费市场的大模型产品非常多,提供大模型服务的组织机构主要有三类,一是百度、阿里、360、抖音等互联网大厂,二是以月之暗面、智谱AI、百川智能、阶跃星辰等为代表的初创AI公司,三是来自高校和研究机构的相关团队。
从市场上既有的大模型来看,用户使用大语言模型的方式无外乎两种,第一是通过聊天对话的方式发出“指令”,由系统平台生成文本、图片甚至音乐、视频等内容作为回答交互。这里需要指出的是,聊天对话的“指令”包括上传特定格式的文件或联网的某个网址,要求大模型给出某个特定问题的答案,或者将全篇信息进行归纳总结等。第二则是通过平台工具生成各式各样的“智能体”(AI Agent),比如健身运动、文案写作、外语学习、创意设计等各类AI助手。
数名来自不同律师事务所的律师在接受记者采访时普遍提到,从去年年中开始已关注到各类生成式AI工具,这些产品的迭代升级速度很快,查询搜罗信息、生成回答的功能有所改善,但实质性的效能距离预期或理想中的“智能助手”仍有较大差距。其中,上海申伦律师事务所律师夏海龙表示,他现在会使用主流的大模型应用,就某个法律问题,对相关法律规定进行初步检索和简要分析。当被问及是否会用大模型解读PDF文件,他坦言:“不太信任AI解读的完整性和准确性,法律文书中最值得注意的往往不是字面内容,而在于个别字眼以及可能引发的歧义理解。”北京浩天(南京)律师事务所律师俞晓天也表示,自己试用的几款大模型在实际工作场景中效率不高。
基于现有的几款免费版本的大模型,记者先是随机找了某港股上市公司的2023年财报,这份财报为PDF格式,全篇采用繁体中文,共49页,然后将它分别“抛”给了文心一言、通义千问、智谱清言、月之暗面Kimi、天工AI、百川智能等大模型。几秒钟之内,各个平台都作出了回答,重点突出了营收增长、利润变化、成本控制、业务结构、现金流量、股息政策等核心数据指标。值得一提的是,在上传文档流程中,智谱清言显示可支持10个文件上传,且每个文件大小为20MB;通义千问上传按钮显示“可同时上传100个文件,每个150MB”,支持PDF、Word、Excel、Markdown、EPUB、Mobi、txt等格式,百川智能则显示“支持同时上传20个文件,且每个不超过50MB,支持的文件格式为PDF、doc、docx、txt”。
随后,记者又同步向体验测试的所有大模型输入了一模一样的对话指令,主要任务是让其根据可查的公开网络信息制作一张图表,涵盖主要大模型的名称、运营企业、创始人/CEO、首次发布时间、规模参数等信息。显而易见,相较于单纯的知识性问答、PDF财报解析,这一任务更为复杂,测试结果显示通义千问、智谱清言、Kimi、百川智能等基本生成了一张图表,但是在成立时间、创始人等信息上出现了错误。而大模型无法完成的内容会标识类似“未知明确信息”的字样。
综合多个测试问题、不同级别的任务处理,按同一指令语言“交给”大模型后,除了显性、可量化的基础配置参数有所区别之外,绝大部分AI大模型在功能使用、性能方面的优势没有特别突出的表现,同时整体在准确度、全面性、实时信息搜索提炼等方面均有较大的提升空间。
长文本成出圈“抓手”?
Kimi凭借长文本“破圈”,不仅直接带动了二级市场的相关股价上涨,而且引发了互联网大厂在长文本能力上的跟进。
据不完全统计,目前已通过备案、向公众开放的通用大模型产品已有20多款,市场竞争的激烈程度可见一斑。在比拼激烈、产品同质化的环境中,作为AI新秀的月之暗面率先找到了“长文本”这一抓手。3月18日,月之暗面宣布Kimi在上下文窗口技术方面取得突破,无损的上下文长度从20万字扩充到200万字,并开启内测。月之暗面创始人杨植麟认为,通往AGI(通用人工智能)的道路上,无损的上下文将是一项很关键的基础技术。历史上所有的模型架构演进,本质上都是在提升有效的、无损的上下文长度。“上下文长度可能存在摩尔定律,但需要同时优化长度和无损压缩水平两个指标才是有意义的规模化。”
Kimi凭借长文本“破圈”,不仅直接带动了二级市场的相关股价上涨,而且引发了互联网大厂在长文本能力上的跟进。其中,360集团创始人周鸿 公开指出,大模型在“卷文本长度,20万字、50万字,很快100万字就是标配了”,基于此,360智脑将把支持360KB——约50万字的上下文能力开源。
一位来自品牌营销领域的专业人士分析指出,在群雄逐鹿的市场竞争中,一方面是产品力的比拼,另一方面是用户体验的较量,即考验谁能真正解决用户痛点。“我们可以回想智能手机初期的争夺战,从CPU到大屏、从拍照功能到轻薄度,再到生物识别、NFC功能、外壳材质,直到现在仍在比拼的折叠屏,甚至AI,每一个维度的白热化竞争共同促成了智能手机的成熟与普及。”该人士也指出,单一维度的竞争在营销视角中容易占据用户心智,但后续仍需要产品创新与用户体验的支持才能长久,否则很容易被对手超越。
谦询智库创始合伙人龚斌认为,国内大模型厂商之所以能够在短期内找出长上下文的方法,主要是在原有技术积累的基础上进行了算法迭代,采用多种方法的混合优化,实现快速“超车”。具有长上下文的大模型通用性更强,用户将特定领域的知识通过上下文的方式输入模型中,模型即可以通过上下文学习掌握相应内容,一定程度上代替模型的微调。此外,长上下文模型能适应虚拟角色的个性化信息记忆、开发者的长提示词输入、AI Agent的多轮调用需求,以及垂直客户长文档输入需求等多种场景,有望为“AI+”应用带来新的突破机会。
与此同时,龚斌也指出,生成式AI、大模型无论从技术还是从应用方面仍处在初期阶段。现在资本圈里非常火热的一些C端产品,差不多相当于移动互联网早期一些迅速蹿红的现象级应用,而后来真正成为主流的“杀手级应用”目前还没有出现,仍有待持续观察。