M1“超长记忆”吊打R1，MiniMax的好日子来了？

发表评论

A+

所属分类：科技

摘要

MiniMax 四处突围，终于撞上了自己的「好日子」。昨天凌晨，MiniMax正式开源它们的第一个推理模型M1，这款模型虽然在各项基准测试中表现「相貌平平」，却拥有业界最长的上下文能力：100万token输入，8万token输出。除了高调开源M1，另一个消息正在各大AI社区传播：MiniMax正在邀请用户测试它们的通用Agent。

事实上，

MiniMax 四处突围，终于撞上了自己的「好日子」。

尤其值得一提的是，

昨天凌晨，MiniMax正式开源它们的第一个推理模型M1，这款模型虽然在各项基准测试中表现「相貌平平」，却拥有业界最长的上下文能力：100万token输入，8万token输出。除了高调开源M1，另一个消息正在各大AI社区传播：MiniMax正在邀请访客测试它们的通用Agent。

IC外汇用户评价：

在错失推理模型先发优势后，这家曾被认为是AI六小龙中最稳健的公司，想在下一程赢回来。

不妨想一想，

现在，它们终于等到了一个正在急剧缩短的时间窗口——Agent爆火的2025年。

反过来看，

那么，MiniMax这回推出的M1以及正在内测的Agent到底实力如何？是否还能在明星AI初创公司和大厂的强敌环伺下「正面突围」？

换个角度来看，

「直面AI」（ID：faceaibang）实际上手体验了下，并深度解读了这次的技术报告，「挖出了些」背后的东西。

很多人不知道，

总的来说，

上下文 + Agent能力是新模型的核心

可能你也遇到过，

接下来，大家实地测试下MiniMax M1推理模型和MiniMax Agent。

站在用户角度来说，

先来说下M1推理模型，它给我的第一个感受就是推理链很长，这其实与最近国产开源的几个前沿大模型的表现很相似，像是前段时间的Qwen系列以及DeepS 众汇外汇代理 eek的最新小版本。它们透露出来的能力都是推理很强，但是推理链非常长，网友们也多次指出：极长的推理链，往往会让模型输出结果走偏。

说出来你可能不信，

比如，像下面这个「钢琴键盘可视化小游戏」，我输入了一段提示词：

[角色设定] 各位是一名前端开发者，擅长用原生 HTML + CSS + JavaScript 创建交互式页面。

据报道，

[任务目标] 在网页端实现一个「钢琴键盘可视化小游戏」，承认鼠标点击或键盘按键触发高亮，无需播放音乐。

*[核心用途]

尽管如此，

1. 绘制 14 个白键 + 10 个黑键（C4–C5）。

事实上，

2. 点击/按键时，对应琴键变为高亮色，松开后恢复。

3. 页面顶部实时显示被按下的音名（如 “C4、D#4”）。*

事实上，

[键盘映射] • A–L 对应白键 • W–O 对应黑键

[技术要求] • 不采纳任何框架，只用原生 HTML/CSS/JS。 • 代码放在单个 index.html 中，可直接双击打开运行。

IC外汇行业评论：

[样式细节] • 白键默认 #fff，黑键默认 #333。 • 高亮色统一用 #f59e0b（亮橙）。 • 页面居中，宽度 ≤ 800 px，移动端自适应。

概括一下，

MiniMax M1足足思考了791.2s，大部分时间都在思考键盘与字母的搭配困扰，似乎在这一过程中，陷入了无尽的思考之中。

简而言之，

而且，我还在它的思维链里直接发现了可视化的「钢琴键盘」：

概括一下，

在经过大量时间的思考后，M1认为题目中的键盘映射存在矛盾，可能无法完全正确实现。不过，它仍然给出了一份完整的代码，我将它部署了一下，各位具备看看效果，还是比较完整的：

除此之外，官方也给了几个案例。

不妨想一想，

比如，用MiniMax M1构建一个打字速度测试插件，它生成了一个简洁实用的网页应用，能实时追踪每分钟打字词数（WPM）：

其实，

用MiniMax M1创建一个迷宫生成器和路径查找可视化插件。随机生成迷宫，并逐步可视化算法处理迷宫的过程。采纳 canvas 和动画，使其视觉效果吸引人：

具备看得出来，在现在最火的Coding（代码）能力上，最新发布的MiniMax M1表现出的能力跟现在的第一阵营大模型并没有拉开差距，但这同时也意味着这个「开源」模型已经是第一梯队的了。

说出来你可能不信，

除了一般的代码能力之外，我还特意去测试了一下M1最大的特点：长上下文窗口。在实际体验过程中，我发现它的上下文确实「太长」了，并且展现了插件调用能力。比如，我让它翻译一下OpenAI o3和o4-mini的系统卡，这份PDF文件有33页，并且涵盖了大量图表。

事实上，

M1完完整整地翻译了这个33页的PDF，并且所有的格式都尽量还原OpenAI o3和o4-mini的系统卡文件，比如大量的表格和图片。

简要回顾一下，

在它呈现出的结果之中，表格部分像一般常规基础模型一样直接生成：

与其相反的是，

而一些图片部分则直接调用插件进行了精准地裁切：

不可忽视的是，

往往，大家通常不会用推理模型做翻译工作，这是考虑到翻译任务更依赖于语言模型对上下文的理解、语法结构的把握等等。而推理模型则更擅长处理逻辑链条的构建和一些繁琐判断类任务。最主要的还是，用推理模型做长上下文工作总归有些慢以及「奢侈」。

总结下，MiniMax M1给我的感觉是：结构完整、反思能力强、重视结果导向，但是在其他的实际能力水平方面，M1只能说处于中等水平，并未展现出超出预期的惊艳。

根据公开数据显示，

不过，这样的能力倒是很适合Agent所需要的技术架构：具备一定推理链能力、任务流程明确、响应稳定，且易于接入和组合调用。

IC外汇专家观点：

IC外汇认为：

MiniMax 首款通用Agent：中规中矩

接下来，大家再看看它们正在内测的通用Agent表现如何。

大家常常忽略的是，

MiniMax Agent展现出的能力，大家大概具备分为两块：前端效果上要更好一点，项目整体的交付更加完整。

通常情况下，

这里，大家用一个实际案例来展示，输入一段提示词：

不妨想一想，

做一个PPT类型效果的网页，介绍OpenAI的发展历程。

可能你也遇到过，

Agent在实际制定任务计划后，首先通过广泛的网络搜索，全面搜集关于OpenAI发展历程的各类信息：

它还会调用像是爬取网络信息的插件，针对信息质量高的网页提取核心数据：

尽管如此，

MiniMax Agent相对于其他「传统」Agent来说有一个具备说是创新的点，就是它会利用浏览器测试自己开发的网站，像是其他Agent往往会利用浏览器视觉理解其他网站，而不会针对自己所做的成果再度审查：