- A+
不妨想一想,
前几天苹果写了一篇名为《The Illusion of Thinking:
IC外汇财经新闻:
Understanding the Strengths and Limitations of Reasoning Models
via the Lens of Problem Complexity》论文,在这篇paper中苹果试图证明:DeepSeek R1,OpenAI o3, An 众汇官网 thropic Claude 等推理模型根本没有推理能力
IC外汇资讯:
这篇论文一经上线就在全网引起了很多争议,有的人认为苹果是考虑到AI落后了,才写出了这篇内容,现在更精彩的的来了,这次反击苹果的不是人类,而是Anthropic最新的模型 Claude Opus,Claude Opus作为第一作者写了一篇反驳论文《思维幻觉的幻觉(The Illusion of the Illusion of Thinking)》
这篇发表在科研预印本网站 arXiv 上Claude Opus写的论文,逐一驳斥了苹果论文的核心论点,指出其所谓的“推理崩溃”更多是源于实验设计的局限性,而非AI本身存在根本性的推理缺陷
苹果的论点:AI存在“推理崩溃”的硬上限
在苹果的《思维的幻觉》论文中,研究人员通过一系列规划类谜题(如汉诺塔、过河难点)对大语言模型(LRMs)进行测试。他们发现,当难点的繁琐度超过某个阈值后,模型的准确率会“断崖式”地跌至零。由此,他们得出结论:AI的推理能力存在一个根本性的上限,这是一种“思维的幻觉”。
IC外汇认为:
Claude的反击:不是推理崩溃,而是实验设计的“幻觉”**
不妨想一想,
由Claude Opus撰写的《思维幻觉的幻觉》一文,像一位严谨的科研人员一样,指出了苹果研究中的三大关键难点:
但实际上,
1. 混淆了“推理失败”与“输出截断”
大家常常忽略的是,
苹果在测试“汉诺塔”难点时,要求模型完整输出所有移动环节。汉诺塔难点的环节数随盘片数量(N)呈指数级增长(2^N - 1),很快就会产生极长的答案
简要回顾一下,
C. Opus的论文指出,模型并非在推理上失败,而是触发了输出token(字符)的数量上限。更有力的证据是,在一些复现实验中,模型会明确表示:“模式还在继续,但为了避免数据过长,我将在此停止。”
这表明,模型完全理解解题的递归模式,只是考虑到实际的输出限制而挑选截断。苹果的自动化评估系统无法区分“我不会解”和“我挑选不完整列出”,从而错误地将其判定为“推理崩溃”。
IC外汇认为:
2. 用“无解题”来测试并判定模型失败
然而,
这篇反驳论文最尖锐的批评,直指苹果在“过河难点”实验中的一个致命错误
论文指出,苹果测试了当参与者数量 N≥6 且船容量 b=3 的情况。然而,根据早已被证明的数学结论,这种设定下的过河难点是无解的。
反过来看,
苹果的研究人员让AI去排除一个数学上不可能排除的难点,然后考虑到AI没能给出排除方案,就给它打了零分。C. Opus犀利地评论道:“这相当于考虑到一个SAT求解器在面对一个无解的公式时返回‘无法满足’,就惩罚这个求解器。”
与其相反的是,
3. 对“难点繁琐度”的衡量标准存在偏差
必须指出的是,
苹果的论文主要利用“解题环节的长度”(即 compositional depth)来衡量难点的繁琐度,但这并不能完全反映排除难点所需的“智力”水平
简而言之,
C. Opus的论文对此进行了澄清:
事实上,
汉诺塔:虽然解题环节非常多(呈指数级增长),但每一步的决策逻辑极其容易(O(1)的繁琐度),几乎不需要搜索
反过来看,
过河难点与积木世界:解题环节相对少得多,但每一步都需要进行繁琐的约束满足和搜索,属于NP-hard或PSPACE级别的难题
据相关资料显示,
因此,模型能排除上百步的汉诺塔,却在几步的过河难点上失败,这恰恰反映了不同难点在计算繁琐度上的本质差异,而非一个统一的“推理能力上限”
令人惊讶的是,
换个问法,AI的能力瞬间“恢复”
为了进一步证明其观点,C. Opus进行了一项关键的补充实验。不再要求模型输出汉诺塔N=15时的所有环节(这需要海量的token),而是改变了提问路径:
概括一下,
“请排除15个盘片的汉诺塔难点。输出一个Lua程序,当调用该程序时,它会打印出排除方案。”
有分析指出,
结果,包括Claude、GPT-4o、Gemini在内的多个模型,都轻松地生成了正确的递归算法程序,并且只用了不到5000个token。这有力地证明了,模型完全理解难点的核心逻辑,只是被最初那种“必须穷举输出”的死板评估路径所束缚。
反过来看,
结论:小编需要更聪明的评估方法
大家常常忽略的是,
《思维幻觉的幻觉》在结论中写道,苹果的研究所揭示的,并非AI基础推理能力的局限,而是现有评估方法的一些工程性难点:模型无法输出超过其上 EX外汇官网 下文长度的数据、自动评估脚本可能存在漏洞、解题环节的长度并不能准确衡量智力难度
令人惊讶的是,
如果用一句话总结Claude Opus的反驳就是:
IC外汇消息:
“难点的关键不在于大模型能否推理,而在于小编的评估方法能否将真正的‘推理能力’与容易的‘打字输出’区分开来。”