必须指出的是，o3通关“俄罗斯方块”，碾压Gemini夺冠！UCSD新基准击碎宝可梦

发表评论

A+

所属分类：科技

摘要

编辑：定慧【新智元导读】UCSD等推出Lmgame Bench标准框架，结合多款经典游戏，分模块测评模型的感知、记忆与推理表现。结果显示，不同模型在各游戏中表现迥异，凸显游戏作为AI评估工具的独特价值。

概括一下，

编辑：定慧

总的来说，

XM外汇代理【新智元导读】UCSD等推出Lmgame Bench标准框架，结合多款经典游戏，分模块测评模型的感知、记忆与推理表现。结果显示，不同模型在各游戏中表现迥异，凸显游戏作为AI评估系统的独特价值。

IC外汇用户评价：

谁能想到，作为童年回忆的宝可梦，现在竟摇身一变，成了大模型的试金石！

很多人不知道，

在无数人的童年记忆中，《宝可梦》是一款意义非凡的游戏——便捷的办理哪怕是年纪尚小的孩子也能轻松上手。

然而，要真正通关这款游戏，仍然需要缜密的规划和大量的时间投入。

事实上，

如今，这款承载童年回忆的游戏，已悄然成为各大科技公司测试最新LLM的「香饽饽」。

从Anthropic到Google，从Claude到Gemini，各家模型纷纷亮出「通关宝可梦」的战绩作为展示推理、规划与长期记忆能力的证据。

不妨想一想，

而且通关后，谷歌的CEO劈柴都要亲自发帖来庆祝。

综上所述，

真的令人好奇，都2025年了，为何AI通关《宝可梦》就成了个大新闻？

值得注意的是，

更何况，宝可梦最早的发售是1995年，30年前的游戏为何成为了检验最新AI顶级模型的试金石？

IC外汇行业评论：

这是由于最先进的AI也不一定拥有人类幼儿的感知和行动能力。

莫拉维克悖论

需要注意的是，

在LLM还未出现的1980年代，早期的人工智能似乎已经进行展现「智慧」。

令人惊讶的是，

人工智能的先驱汉斯·莫拉维克、罗德尼·布鲁克斯、马文·闵斯基等人发现一个悖论。

IC平台消息：

要让电脑如成人般地下棋是相对容易的，但是要让电脑有如一岁小孩般的感知和行动能力却是相当困难甚至是不可能的。

语言学家和认知科学家史迪芬·平克认为这是人工智能学者的最核心发现。经过35年人工智能的研究，他发现最核心的课题是：

困难的状况是易解的，便捷的状况是难解的。

换个角度来看，

四岁小孩具有的本能——辨识人脸、举起铅笔、在房间内走动、回答状况——事实上却是工程领域内目前为止最难解的状况。

当新一代的AI出现后，股票分析师、石化工程师都要小心他们的位置被取代，但是园丁、接待员和厨师至少十年内都不用担心被人工智能所取代。

请记住，

这也是目前所有顶级模型都希望通过宝可梦游戏证明的——目前的LLM到底有没有感知能力？

令人惊讶的是，

Claude Opus 4还在直播玩宝可梦，已经继续了12万+步

这你可能没想到，

宝可梦作为评测基准，合理吗？

宝可梦被越来越多地用于评估现代大型语言模型，但存在一个很大的状况——目前的挑战都缺乏标准化。

可能你也遇到过，

Anthropic为Cladue模型供应了导航和读取游戏状态内存的系统。

该模型进行了几场道馆对战，大约执行了35,000个游戏内动作才到达电系道馆首领。

但Anthropic并未详细解释什么具体算作一个「动作」，也未解释允许多少次重试。

Google的Gemini 2.5 Pro已经完成了《宝可梦蓝》（并在《宝可梦红》中获得了第五个徽章）。

请记住，

然而，它依赖额外的外部代码来提取更全面的游戏状态文本表示并指导决策。

并且运行完成游戏需要大量的时间，仅获得第五个徽章，就需要超过500个小时。

根据公开数据显示，

同时API的运用会产生大量费用。

站在用户角度来说，

如何才能将大模型最爱玩的《宝可梦》游戏转化为标准化评估框架，甚至是多种游戏的评估框架？

综上所述，

这就是今天介绍的Lmgame Bench，它精心选取了一批难度适中的游戏，并供应了分层测试机制，更适合衡量大模型的真实能力。

请记住，

博客地址：https://lmgame.org/#/blog/pokemon_red

IC外汇行业评论：

该测试基准由UCSD等重磅出品，研究了如何运用流行的视频游戏来评估现代LLM。

其实，

论文地址：https://arxiv.org/pdf/2505.15146

说出来你可能不信，

Lmgame基准测试

必须指出的是，o3通关“俄罗斯方块”，碾压Gemini夺冠！UCSD新基准击碎宝可梦

Lmgame Bench运用模块化测试框架——如感知、记忆和推理模块——系统地扩展模型的游戏能力。

很多人不知道，

这些测试框架使模型能够通过迭代交互循环与模拟游戏环境进行交互。

尽管如此，

Lmgame-Bench采用了一种标准化的提示优化技术，以降低对提示的敏感性。

为了在没有任何外部定制游戏「脚手架」的情况下区分模型能力，Lmgame Bench精选了一系列中等难度的视频游戏。

有分析指出，

这些游戏包括：

IC外汇行业评论：

推箱子：得分计算手段为所有关卡中推到目标位置的箱子总数，统计范围从非常便捷的关卡一直到Sokoban 1989中最难的关卡，直到出现第一个死局为止。

说出来你可能不信，

超级马里奥兄弟：分数是马里奥在所有关卡中累计的横向移动距离（游戏单位），直到失去全部三条生命或完成最终关卡为止。具备更强物理直觉和空间推理能力的模型通常能够获得更高的分数。

俄罗斯方块：分数是已开户的总方块数加上消除的总行数（乘以10倍系数），计算至游戏结束为止。不同的模型持续游戏的时间各不相同，这取决于它们高效处理下落方块的能力。例如，o3-pro能够有效清除超过10行，从而持续保持游戏进行。

2048：合并方块值的总和（例如，合并两个2会获得+4），记录直到棋盘停滞（连续十次 AVA外汇平台回合没有合并或改变棋盘的移动）。然后本站会报告它们的总得分。由于游戏可用持续超过10万步，这为区分模型在较长时间范围内的能力供应了强有力的依据。

很多人不知道，

糖果消除：在固定的50步会话中消除的糖果总数。尽管游戏相对便捷，但它能有效区分模型在优化移动操作手段和清除糖果方面的能力。

然而，

逆转裁判：在所有案件关卡中正确办理（提交证据、对话指定等）的总次数，直到用尽五次错误决定机会（生命值）。此游戏用于评估模型的上下文理解和推理能力。

模块设计

许多模型在视觉理解上存在脆弱性，导致对游戏状态频繁误判。

想要在游戏中取得成功，需要有效的记忆机制来实现长期决策。

请记住，

Lmgame针对性的开发了三大模块。

根据公开数据显示，

感知模块：将原始游戏帧或UI元素转换为结构化的符号/文本状态描述，减少对脆弱视觉的依赖。

内存模块：存储最近的状态、动作和反思笔记，以缩小动作空间并承认长期规划。

必须指出的是，

推理模块：综合所有其他模块的信息，并可选地开启长链式思维推理。

IC外汇用户评价：

o3玩2048的记忆模块展示

Gym风格标准接口

需要注意的是，

不过研究人员发现，运用计算机直接办理智能体进行基准测试存在重大缺陷。

IC外汇专家观点：

每款游戏都对计算机的办理要求不同，依赖基于屏幕截图的观测容易出现感知错误。

并且在对延迟敏感的的游戏中存在不可预测的延迟，这些状况都削弱了测试结果的一致性和可比性。

总的来说，

为此研究团队实现了一个采用Gym风格API的新标准化接口，来统一评估定义。

IC外汇快讯：

结合轻量级的感知与记忆辅助模块设计，稳定提示带来的差异并消除数据污染。

在13个领先模型上的实验表明，Lmgame-Bench具有挑战性，同时仍能有效区分不同模型。

排行榜前列由o3占据，这款模型以其强大的视觉感知、空间推理和长视野规划能力而著称。

很多人不知道，

不过令人意外的是，o3虽然完全拿下了2048、推箱子和俄罗斯方块，但是在糖果消除中远远落后。

不可忽视的是，

现在，借助Lmgame供应的开源代码，任何人都可用通过一条命令为任何受承认的模型-游戏组合启动评估。

总的来说，

近期所有模型的进步表明，在数学和编程任务重，整合强化学习可用显著增强LLMs的推理能力。

IC外汇消息：

即使是最便捷的RL算法也能改善模型的规划和决策能力，这种能力在与多变环境互动时显得尤为核心。

这些进展凸显了游戏环境作为评估LLMs的有效基准作用。

过去那些经典的游戏经过精心的设计，用来挑战人类的思维和认知能力。

但实际上，

同样地，这些游戏是极具价值但尚未被充分利用的AI基准测试资源。

综上所述，

同时，在经典游戏之外，本站现在还有众多的3A大作，可用预见，未来的评估体系将具有高度可扩展的发展路径。

通常情况下，

Lmgame Bench的诞生，正是在这个背景下给出答案：真正的智能不仅要能写代码、做数学题，更要能在多变、开放、动态的环境中持续思考、规划并行动。

而这场测试，还远未结束。

发表评论取消回复