

这项由独立研究者完成的研究于2026年6月发表在预印本平台arXiv上,论文编号为arXiv:2606.21884,感兴趣的读者可通过该编号查阅完整原文。
你有没有想过,如果你能写一套完美的操作手册,把解题步骤写得清清楚楚,那么一个足够聪明的学生只要照着手册练习,是不是就一定能学会?这个直觉听起来无懈可击,也正是近年来人工智能领域里一大批研究者押注的方向——用"链式推理"来训练小模型,让它学会一步步思考问题,就像一个学生照着解题步骤反复练习一样。
然而,这位独立研究者用一个精心设计的实验,清清楚楚地告诉了我们:这套逻辑有一个致命的盲区,而且这个盲区不会因为模型更大、训练更久、方法更聪明而消失。
**研究背景:把"解题步骤"塞进AI的脑袋**
在讲这个发现之前,先理解一下什么是"链式推理"(Chain-of-Thought,简称CoT)。假设你要问一个AI:"15块钱的三件衬衣,加税8%,总共多少钱?"一个普通AI可能直接蒙一个答案。但如果你训练它先把步骤写出来——"一件衬衣15元,三件45元,税是45乘以8%等于3.6元,总共48.6元"——它的准确率就会大幅提升。这个"先写步骤、再给答案"的做法,就是链式推理。
这个方向非常诱人,因为它看起来让AI变得"透明"了——你能看到它是怎么想的。更进一步,研究者们发现,可以先让一个超强大的AI(或者一个写好的程序)生成正确的解题步骤,然后把这些步骤喂给一个小模型去学习,小模型就能"继承"大模型的推理能力。这套方法叫做"推理蒸馏",就像是让一个厨艺大师把菜谱写下来,然后让厨艺一般的学徒照着练。
这位研究者决定认真测试这件事:如果我先用程序完美地解决一道题,再把程序的每一步翻译成人类能读懂的文字,然后让AI反复学习这些文字步骤——AI真的能学会这道题吗?
**实验设计:一个特别干净的实验室**
研究者选择了一个非常理想的测试场地:一场由NVIDIA和Kaggle联合举办的AI推理竞赛(NVIDIA Nemotron Model Reasoning Challenge,2026年),题目来自九类不同的推理任务,每一道题都是由固定的程序自动生成的。这意味着出题程序是确定的,训练集和测试集来自同一个程序,就像同一个模具铸出来的硬币,正面长得一样。这个特性让研究者能用训练数据的留出部分直接预测测试成绩,不需要等待比赛结果就能知道模型到底学没学会。
九类题目分别是:把整数写成罗马数字、线性单位换算、自由落体计算、单字母替换密码解码、8位二进制逻辑规则推断、数字方程归纳(已知运算符和未知运算符两类),以及密码算术(已知运算符和未知运算符两类)。研究者对每一类题目都逆向工程出了Python程序来求解,其中五类程序的准确率高达98%以上,而密码算术的程序则能解决大约71%的题目(剩余的从逻辑上就无法唯一确定答案)。
研究者使用的基础模型是一个叫做Nemotron-3-Nano-30B的混合架构模型(总参数300亿,但每次实际计算只激活约35亿),并在此基础上训练一个"轻量适配器"(LoRA,秩最大为32),就像在一件成品西装上打补丁而不是重新做一件新衣服。训练数据全部来自程序生成的合成样本,与测试题目完全不重叠,确保了实验的公正性。
**第一个发现:大多数题目"顺水推舟",链式推理确实管用**
研究者把九类题目按照一个核心标准分成了两类:这道题能不能写出一个"从左到右、一步接一步推出答案"的过程,而不需要走回头路、猜了又猜?
罗马数字、单位换算、自由落体这三类题就是最典型的"顺推题"。以单位换算为例,题目给你两个例子:"100厘米 = 1米,200厘米 = 2米",你马上能推断出换算公式,然后把新的输入数字代入公式,直接算出答案。整个过程是单向的,像滚下山坡的石头,一路向前不需要回头。
单字母替换密码看起来复杂一点,但研究者找到了一个关键优势:题目中所有可能的单词都来自一个只有77个词的固定词表!这就像在77扇门里找对的那扇,虽然需要一点推理,但只要把已知字母对应关系"传播"到其他单词,很快就能缩小范围,整个过程依然是向前推进的。
训练之后,这四类题的准确率都达到了99%甚至更高。程序能做到,模型也能做到——只要解题步骤能被写成一条直线,模型就能学会走这条线。
8位二进制逻辑规则推断(bit_manipulation)是一个有意思的中间案例。这道题要求你从若干个输入-输出的8位二进制字符串例子中,推断出隐藏的逻辑规则。研究者分析发现,这个规则实际上只来自一个小小的"函数词库":XOR(异或)、多数投票、或运算、带条件的组合……总共六种,可以用三个输入来组合。这些规则是可以被命名的,是有限的,从这个角度说,解题步骤也可以写成向前推进的过程。最终,经过一种叫做"STaR"的自我迭代训练(下文会详细解释),模型在这类题上达到了67.8%的准确率。
**第二个发现:密码算术彻底"撞墙"了**
然而,当研究者把同样的方法用在密码算术(cryptarithm)上,发生了令人沮丧的事情。
密码算术的结构是这样的:每道题给你若干个形如"▲☆ OP ◇■ = 结果"的算式,其中符号代表数字(0到9),运算符号则来自大约30种运算(加减乘除、取余、最大公约数等等),而且每道题的符号和数字之间的对应关系都是随机抽取的。你需要从这些算式中推断出:哪个符号对应哪个数字?用的是什么运算?然后用这个规则解答新的算式。
研究者为这类题写出了一个基于回溯搜索的Python程序,就像走迷宫时碰壁了就退回来换条路——这个程序能解决大约71%的题目(另外29%从逻辑上就无法唯一确定)。但当研究者把这个程序的每一步翻译成文字、让模型去学习时,结果是——无论怎么改写这些步骤,无论尝试多少种不同的表达方式,模型的准确率始终在1%到7%之间徘徊,从不超过这个范围。
研究者前前后后设计了11套不同版本的训练文本(每一套都代表一种不同的"讲解风格"),还尝试了强化学习(用程序来判断答案对不对,让模型自己摸索)和自我迭代训练,全部无功而返。71%的程序准确率和不超过7%的模型准确率之间,有一道跨不过去的鸿沟。
**为什么会这样?三堵墙,层层解剖**
研究者没有就此放弃,而是继续深挖:这道鸿沟的本质是什么?
第一个关键证据,是"前向可推导性"的测量。研究者问了一个问题:假设不允许回溯,只能用"传播已知约束"的方式向前推理,这个方法能解决多少道密码算术题?答案是:659道题里只有1道——大约0.15%。换句话说,这类题的本质就是搜索,没有一条直路通向答案,必须在所有可能的数字-符号对应关系组合里反复试错。而这个"反复试错"的过程,根本无法被写成一条从左到右的直线。
第二个关键证据,是"信息熵"的测量。密码算术里,每道题的符号-数字对应关系是随机抽取的,单从符号本身完全无法猜出对应数字。研究者计算了符号和数字之间的"互信息"(一种衡量两者相关性的指标):结果几乎为零,相当于随机洗牌。这意味着,任何企图用"这个符号看起来像数字8"之类的启发式方法都是徒劳的——没有任何捷径,只有搜索。
第三个关键证据,是"判决与证据脱钩"的发现。研究者对100份模型输出的文本进行了逐行审查,共计7566行,检查每一行的算术计算对不对,以及每一行得出的结论("这个候选答案被排除"或"这个候选答案保留")是否真的从这行的计算结果里推导出来了。
结果非常戏剧性:算术计算的准确率高达97%到100%,但结论的正确率只有16%到57%。也就是说,模型能正确地算出"6乘以4等于24,个位数是4,与目标相符",但随后它却写道"没有匹配项,排除"——在同一行里,它算出了正确答案,却得出了完全相反的结论。
研究者把这个现象命名为"判决即标记"(verdict-as-token)。这是怎么发生的?训练的时候,模型是在老师的带领下逐字逐句地读正确答案(这叫"教师强制训练")。在这种模式下,每一行的结论语句都出现在"正确"的上下文里,所以模型学会的是:"在这种场合,应该写这个结论"——但它学到的是这句话的形式,而不是这句话背后的逻辑。到了自由作答的时候,这些结论语句就像固定的模板一样被随机套用,不管算出来的数字是否真的支持这个结论。
一个非常直观的类比是:一个学生背诵了大量数学解题过程,能完整地写出每一步的格式,甚至能正确算出每一步的数字,但"因此这道方程无解"这句话对他来说只是一个固定的收尾套话,他并不真正理解它是什么意思、什么时候该写。
**关键实验:把答案的"钥匙"提前告诉模型**
为了把这个分析从"相关性"提升到"因果关系",研究者设计了一个非常巧妙的对照实验:在同样的密码算术题上,先不告诉模型任何密码规则,再告诉模型一半的密码规则,最后把完整的密码规则直接写在题目里。
结果非常清晰:不告诉规则时,准确率是3%。告诉一半规则时,准确率只有4.8%,几乎没有提升。但告诉完整规则时,准确率一跃到57.1%——提升了将近20倍,而且统计上非常显著。
为什么告诉一半规则几乎没用?因为只要还剩一半需要搜索,整个推导过程就不是"向前直走"的,剩余那一半仍然需要回溯试错,而这一回溯,"判决即标记"的错误就又被触发了。这个实验直接证明了:真正关键的不是"这道题难不难",而是"这道题的推导路径能不能被写成一条直线"。只要还有一丝搜索存在,整个机制就会崩溃。
**不是这款模型的问题,是所有模型的问题**
研究者最初怀疑,也许是他用的这个特殊的混合架构(Mamba-2加稀疏专家混合)导致了这个失败,因为这种架构用一个固定大小的"记忆格子"来压缩历史信息,理论上可能不擅长维护搜索状态。
为了验证这个猜想,研究者用完全一样的训练数据,分别在四个不同架构的模型上做了实验:原始的混合架构Nemotron(300亿参数)、两个纯Transformer架构的小模型(Llama-3.2-3B和Qwen3.5-4B),以及一个混合专家Transformer(gpt-oss-20b,约210亿参数)。四个模型在密码算术上的准确率全部不超过4%,完全一致地撞在同一道墙上。
研究者还测试了更大的模型:DeepSeek-V3.1(6710亿参数)和Nemotron-Super-120B,直接给它们题目(不经过专门训练)——前者的准确率是5%,后者直接因为输出太长而超出预算,准确率为0%。从30亿到6710亿参数,从微调到直接提问,全部结果相同:搜索不会因为模型变大而变得可以蒸馏。
这是一个架构无关的天花板,根源在任务本身,而不在模型。
**自我迭代的STaR方法:为什么在二进制任务上有效,在密码算术上无效**
研究者还测试了一种叫做STaR的方法。这个方法的思路是:与其让人类(或程序员)来写训练文本,不如让模型自己解题,把做对的那些答案收集起来,再拿来训练自己,形成正向循环。
在二进制逻辑规则推断上,STaR非常有效。第一轮收集之后,准确率从5.3%跳升到52.6%,第二轮达到了67.8%,而且模型输出超出预算的比例从18.6%降低到0.2%。为什么有效?因为这道题的搜索空间是有限的、可以被一个30亿参数的模型真正执行的——它偶尔能真的走通整个搜索过程,然后把这个"真实的成功路径"作为训练样本学习。这些路径是它自己真正执行过的,所以"判决"和"证据"之间的逻辑是真实的,不是套话。
但在密码算术上,STaR几乎无从入手——因为在真实题目上,模型几乎永远找不到一个正确答案,根本没有"成功路径"可以收集。强化学习(RLVR)也是同样的道理:在简化版题目上(只有纯粹的文字拼写,不需要数字运算)可以正常工作,但在真实密码算术题目上,奖励信号几乎永远是零,梯度没有任何可以抓住的地方。
**研究者手写的训练文本为什么也不管用?**
这里有一个非常值得深思的细节。研究者曾经亲手写了一批训练文本,里面清楚地描述了搜索过程——"尝试这个,失败,尝试那个,成功"。理论上说,这些文本已经把搜索步骤解释得非常清楚了,模型为什么还学不会?
研究者在逐行分析28个错误输出位之后,发现了一个共同的问题:每一份手写文本,在关键的决策点("这个候选规则是否与所有例子相符?")上,写作者总是在不知不觉间直接跳到了结论。因为写作者已经知道答案了,所以"明显排除这个选项"对写作者来说是毫不费力的一句话,但这句话背后的推理过程("我检查了所有例子,发现第三个例子矛盾")却没有被完整地展示出来。
模型学会的是"在这个位置写这句话的格式",而不是"在计算出矛盾之后才写这句话"。这是人类无法避免的盲区——你越熟悉一件事,就越难意识到自己在无意识地跳过步骤。唯有让模型自己真实地走过搜索过程,才能保证"判决"和"证据"之间的逻辑纽带是真实存在的。
**竞赛数据验证了这个天花板**
这场NVIDIA举办的竞赛最终吸引了4355支队伍参与。成绩分布非常耐人寻味:有2236支队伍达到了0.85分(满分1.0),只有66支队伍突破了0.87分,而只有最终冠军一支队伍达到了0.92分。
研究者的最佳成绩是0.85分(私榜0.86分),正好处于那个大平台上。有一支独立的开源团队使用了几乎完全相同的方法(同样逆向工程程序、同样用程序生成训练文本、同样的LoRA适配器参数),也得到了0.85分。两支独立的团队用不同的实现方式收敛到了同一个分数,强烈地说明0.85确实是"搜索蒸馏"这条路线的天花板,而不是任何一支队伍执行不力的结果。
研究者还注意到一个竞赛特有的陷阱:公开榜(public leaderboard)和私榜(private leaderboard)的成绩并不总是一致的。研究者自己有一个私榜成绩为0.860的模型提交版本,但在公开榜上它只有0.844分,相反,公开榜最高分的那个提交版本私榜只有0.832分。如果只靠公开榜来挑选提交版本,就会选中一个其实表现更差的模型,把真正好的模型留在桌子底下。这是一个值得所有AI竞赛参与者警惕的陷阱。
**冠军是怎么打破天花板的?**
那支以0.92分夺冠的队伍(NullSira)提供了一个非常重要的"存在性证明":搜索本身无法蒸馏,但搜索的结果可以被记住。
他们的核心思路是:把密码算术里"需要搜索的那部分"提前计算好,整理成一张查询表,然后让模型把这张表记住,解题时只需要查表,不需要搜索。具体来说,他们把所有两位数乘两位数在22种非拼接运算下的可能结果,按照符号的"签名模式"(比如ABCCCDD这种用字母代表不同符号位置的模式)分类整理,最终得到了4205条记录,每条记录对应一个签名模式和一个候选(规则、数字对应关系)列表。模型通过大量训练把这张表记住,解题时只需要"想起"候选列表,再用少量计算步骤验证哪个候选与剩余算式相符即可。
在二进制逻辑规则推断上,他们用了同样的思路:把所有5238种合法的8位逻辑规则序列列成一张表,解题时先从表里查出最可能的候选,再验证。
这个策略的本质是:搜索在模型训练之前就已经完成了,模型需要做的是"记忆"加"验证",而不是"搜索"。这正是这项研究最核心的结论的镜像:无法蒸馏的是搜索本身,但搜索的有限结构是可以被记忆和验证的。
**这对AI研究意味着什么?**
归根结底,这项研究告诉我们一件事:能写出程序解决一道题,并不等于能把这道题教给一个小模型。真正的分界线是:这道题的推导路径能不能被写成一条不走回头路的直线?
对于能写成直线的题目,链式推理管用,小模型也能学得很好。对于必须走回头路(即需要搜索、回溯、试错)的题目,链式推理会学到一具空壳:外表像推理,内核是套话。模型能正确算出每一个数字,却无法正确得出由这些数字支撑的结论——因为"结论"对它来说只是一个在特定场合出现的语言模式,而不是一个由证据推导出来的判断。
这个发现有一个三步筛选标准,可以在训练之前就预判一道题是否会遭遇这个天花板:第一,纯向前推导(不回溯)能否覆盖相当比例的题目?第二,题目的隐藏结构与可见信息之间是否存在有意义的相关性?第三,未训练的基础模型在这道题上是否会尝试正确方向的推理而不是直接崩溃?密码算术三个问题都回答"不";二进制逻辑推断和密码解码则都回答"是"。
这个研究还有一个非常实际的教训:如果你要训练AI学会一个推理任务,最好亲自测试一下模型在不经过训练时能不能在这道题上偶尔成功,然后用这些成功案例(而不是人类写的讲解文本)来训练它。一个模型只能从它真正执行过的过程中学到东西,而不是从一个别人告诉它"应该"如何执行的故事里学到东西。
说到底,这项研究给了我们一个清醒的提醒:AI链式推理的能力边界,不取决于模型有多大,也不取决于训练了多久,而取决于这道题本身的结构——它是否允许一条从题目到答案的笔直道路存在。当这条道路不存在时,再精心设计的训练文本也只是在教AI背台词,而不是教AI真正思考。
Q&A
Q1:什么是"链式推理蒸馏",为什么研究者认为它有局限性?
A:链式推理蒸馏是指先让程序或大模型写出详细的解题步骤,然后把这些步骤喂给小模型学习,让小模型也能"照步骤"解题。研究者发现,这个方法只对"一路向前、不走回头路"的题目有效。对于需要反复试错、回溯搜索的题目,小模型只能学会解题步骤的外表格式,却无法真正理解每一步结论背后的逻辑,导致"算对了数字,得出了错误结论"这种奇怪的失败模式。
Q2:密码算术为什么比其他推理任务难学得多?
A:密码算术里,每道题的符号和数字之间的对应关系是随机的,从符号外观完全无法猜出对应数字,两者之间几乎没有任何规律可循。要找出正确对应关系,唯一的办法是把所有可能的组合逐一试过,直到找到一套让所有算式都成立的方案。这个"逐一尝试、碰壁回头"的过程无法被写成一条直线,而AI的链式推理只能走直线,所以无论怎么训练都学不会这类题。
Q3:冠军团队是如何突破这个天花板的?
A:冠军团队(NullSira)的核心策略是把"搜索"这个步骤从AI需要做的事情里彻底移除。他们提前把所有可能的密码算术结果整理成一张4205条记录的查询表,让模型通过大量训练把这张表"记住",解题时直接"回忆"出候选答案,再用简单的验证步骤确认。这样,模型做的是"查表加验证",而不是"搜索",从而成功将私榜准确率提升到0.92分,跨过了其他所有队伍都在0.85分止步的那道坎。
盛达优配提示:文章来自网络,不代表本站观点。