中国经营报数字报刊平台

简单算术题难倒主流大模型大模型偏科严重

本报记者李玉洋上海报道

近日，音乐综艺《2024歌手》两名选手“13.8%和13.11%的得票率谁高”的话题吸引关注。该话题不仅暴露了一些网友堪忧的数学水平，也让大模型集体“扑街”。因为有媒体测试了12个国内外主流大模型，包括ChatGPT-4o、月之暗面kimi、智谱清言、阶跃星辰跃问、百川智能百小应等模型均答错了。

为什么这些大模型会在小学数学水平都能应付的比较数字大小问题上出错了？对此，月之暗面回应称：“其实我们人类对大模型的能力探索，无论是大模型能做到什么，还是大模型做不到什么，都还处于非常早期的阶段。我们非常期待用户在使用中能够发现和报告更多的边界案例（Corner Case），不管是最近的‘9.9和9.11哪个大、13.8和13.11哪个大’，还是之前的‘strawberry有几个r’，这些边界案例的发现，有助于我们增加对大模型能力边界的了解。”

“大模型有token（文本处理的基本单位）化和自回归的特性，有几类简单问题对大模型来讲都很难，比如问strawberry里有几个r，还有9.11和9.9谁大。这种看似简单，对大模型都算难题。”Mini-Max方面对《中国经营报》记者如此表示。

结合今年高考期间，有不少人用大模型去做高考题，包括GPT-4在内7个大模型在高考测试中语文和英语考试水平普遍不错，但数学全不及格，最高分也只有75分。为什么数学对于大语言模型（LLM）而言这么难？

一些行业人士将大模型们数学不好的原因归结于LLM的架构问题，大语言模型往往是通过预测下一个词的监督学习方式进行训练。对此，做智能客服这类大模型垂类应用的容联云大模型产品负责人唐兴才表示：“现在生成逻辑确实是这样的，大模型目前最擅长的还是语义理解。”

2024年被称为大模型应用落地元年，大模型如果连“9.9和9.11哪个大”这些简单的数学问题都出错，那么怎么去应用落地？“还是看应用场景，得在模型上去做迭代，引入新算法；或者之前有通过Ze-ro-shot-CoT增强推理能力。”唐兴才表示。

AI算法专家、资深人工智能从业者黄颂则表示，LLM虽然数学不太好，但应用落地“不影响，用它所长”，数学一定是和计算相关的，这不是LLM使用的Transformer架构所擅长解决的问题，“现在比较好的解法是调用外部工具”。

Transformer架构的数学差综合征

AI大模型聪明得令人难以置信，但同时也会蠢得令人震惊。这种矛盾充分体现在“9.11和9.9哪个大”的回答上。

在回答该问题时，比如大模型全球第一梯队的ChatGPT-4o认为小数点后面的数字“11大于9”，因此9.11大。而智谱清言的回答虽然提到9.11的十分位是1，而9.9的十分位是9，但仍得出结论“9.11整体大于9.9”。

诸如此类“一本正经地胡说八道”的回答，还出现在月之暗面Kimi、字节豆包、商汤商量等大模型产品上。

“理解和推理没问题，展开和演算可能不太行。”黄颂表示，生成式的大语言模型自诞生以来做算术就非常不靠谱，经常把一些简单的计算弄错。

大模型之所以在算术题上犯错，有人指出是因为上下文语境不清楚，提示词（prompt）也不够明晰。“提问的方法也很重要，你可以试试：9.11和9.9这两个日期哪个大？”蜜度首席技术官刘益东表示，在这个提问下，大模型明确指出“在数学语境下，9.9是更大的数值”，所以“问题本身就可能会有歧义，语义缺失也可能带来误导”。

“不是所有的大模型都能做好数学理解题。”市场研究机构Omdia AI首席分析师苏廉节表示，大模型是按照被输入的问题做推测，这些被输入的问题就是大家熟悉的提示词，好的提示工程师能调度大模型提供对的答案，像“9.11和9.9哪个大”这种问题的局限就是在于问题本身不是一个好的提示词，没办法让大模型完全掌握问题的语境。

事实上，如何让LLM给出“9.11和9.9哪个大”的正确答案，提示词很重要。比如把ChatG-PT-4o的人设确定为数学家，或者先提问“哪个更大”再给出具体数字，LLM就会给出对的答案。

然而，大模型为什么会把“9.11和9.9哪个大”算错，这却是一个值得思考的问题。对于包括GPT-4o和Claude3.5Sonnet等大模型在该问题上出错，腾讯元宝给出的一个解释是：“Tokenization误解：一些AI模型在处理小数时，由于Tokenization的方法，错误地认为小数点后的数字具有不同的权重，导致它们认为11大于9。”

而通义实验室产品经理王晓明也表示，大模型基于Transformer架构实现，本质是做next token prediction，而非直接进行算术计算，因此在处理比大小等简单数学题目时，依赖于预测模型的成功率。

此外，在处理类似“9.11比9.9大”的场景时，大模型通常会通过分词器（tokenizer）进行处理。分词器在解析这类表达时，可能会把数字辨认为日期或版本号进行比较，最终导致回答错误，这种处理方式是由分词器的特定算法和机制决定的。

如何让大模型数学变好

“问大模型关于简单的数字、字符串等问题，都是比较容易出错的。整个行业都在探索解决办法。”MiniMax方面表示。

根据第一财经的报道，新浪微博新技术研发负责人张俊林指出，早期LLM的Tokenizer一般不会对数字进行特殊处理，经常把连续的若干数字切在一起形成一个Token，比如“13579”，可能被切成3个Token，“13”是一个，“57”是一个，“9”是一个，哪些数字被切在一起组成Token，这取决于数据集合里的统计情况，在这种不确定哪些数字片段组成一个To-ken的情况下，LLM要想做多位数字数值计算，是非常困难的。

那么，大模型如何撕掉算术差等生的标签？在思维能力上，更核心的可能还是训练语料的问题。大语言模型主要通过互联网上的文本数据进行训练，而这些数据中数学问题和解决方案相对较少，导致模型在数学推理和问题解决技能上的训练机会有限。

王晓明表示，提高大模型数学能力的核心在于提供高质量的数据支持，特别是在数学计算和逻辑推理方面。例如，通义千问针对这类场景，有针对性地加入高质量数据进行训练，使得面对此类问题时保持较高准确率。

此外，黄颂也表示，调用外部工具也是现在克服大模型数学差的比较好的解法。他曾以“从出生到现在一共活了多少天？”这个算术问题询问ChatG-PT、Gemini、Claude3Sonnet、lla-ma3、文心一言、智谱GLM等10个大模型，答对的4个模型几乎无一例外使用了外部工具帮助（python脚本）。

唐兴才还特别提到，有的论文在尝试引入新的算法解决大模型数据计算差的问题。例如来自复旦大学、上海人工智能实验室的5名研究者在今年6月发表了一篇技术报告，展示了将大模型与蒙特卡洛树搜索（MCTS）算法相结合，从而使LLaMa-3 8B奥数水平拉到比肩GPT-4的高度。

该技术报告指出，为了解决LLMs在准确性和可靠性方面的挑战，特别是在策略和数学推理中，MCTSr利用系统性探索和启发式自我精炼机制来改善LLMs中的决策框架。该算法通过迭代过程的选择、自我精炼、自我评估和反向传播构建蒙特卡洛搜索树，并使用改进的上置信界（UCB）公式来优化探索—利用平衡。

在被业界称作大模型应用落地元年的2024年，复杂推理能力关乎可靠性和准确性，是大模型在金融、工业等场景落地需要的关键能力。“这可能得在模型上去做迭代，引入新算法。”唐兴才表示。

同时，月之暗面也表示：“要彻底解决问题，又不能仅仅依赖于逐一修复每个案例，原因在于这些情况就像自动驾驶会遇到的场景一样是很难穷尽的，我们更加要做的是不断提升底层基础模型的智能水平，让大模型变得更加强大和全面，能够在各种复杂和极端情况下依然表现出色。”

	第01版：头版
	第02版：要闻
	第03版：要闻
	第04版：要闻
	第05版：金融
	第06版：财富
	第07版：资管
	第08版：金融
	第09版：银行
	第10版：银行
	第11版：新金融
	第12版：新金融·保险
	第13版：区域·地产
	第14版：地产·家居
	第15版：智造·文旅
	第16版：地产
	第17版：文旅
	第18版：医药·健康
	第19版：能源·化工
	第20版：游戏
	第21版：TMT
	第22版：TMT
	第23版：TMT
	第24版：TMT
	第25版：车视界
	第26版：车视界
	第27版：车视界
	第28版：车视界
	第29版：快消
	第30版：快消
	第31版：快消
	第32版：快消

	从CV“四小龙”到大模型“四龙五虎”AI混战进行时
	简单算术题难倒主流大模型大模型偏科严重