M1“超长记忆”吊打R1,MiniMax的好日子来了?

  • A+
所属分类:科技
摘要

MiniMax 四处突围,终于撞上了自己的「好日子」。昨天凌晨,MiniMax正式开源它们的第一个推理模型M1,这款模型虽然在各项基准测试中表现「相貌平平」,却拥有业界最长的上下文能力:100万token输入,8万token输出。除了高调开源M1,另一个消息正在各大AI社区传播:MiniMax正在邀请用户测试它们的通用Agent。


事实上,

MiniMax 四处突围,​终于撞上了自己的「好日子」。

尤其值得一提的是,

昨天凌晨,Mini​Ma​x正式开源它们的第一个推理模型M1,这款模型虽然在各项基准测试中表现「相貌平平」,却拥有业界最长的上下文能力:100万​token输入,8万token输出。除了高​调开源M1,另一个消息正在各大AI社区传播:MiniMax正在邀请访客测试它们的通用Agent。

IC外汇用户评价:

在错失推理模型先发优势后,这家曾被认为是AI六小龙中最稳健的公司,想在下一程赢回来。

不妨想一想,

现在,它们终于等到了一个正在急剧​缩短的时间窗口——Agent爆火的2025年。

反过来看,

那么,MiniMax这回推出的M1以及正在内测的Agent到底实力如​何?是否还能在明星AI初创公司和大厂的强敌环伺​下「正面突围」?

换个​角度来看,

「直面AI」(ID:faceaibang​)实际上手体验了下,并深度解读了这次的技术报告,「挖出了些」背后的东西。


很多人不知道,

01

总的来说,

上下文 + Agent能力是新模型的核心

可能你也遇到过,

接下来,大家实地测试下MiniMax M1推理模型和​MiniMax Agent。

站在​用户角度来说,

先来说下M1推理模型,它给我的第一​个感受就是推理链很长,这其实与最近国产开源的几个前沿大模型的表现很相似,像是前段时间的Qwen系列以及DeepS 众汇外汇代理 eek的最新小版本。它们透露出来的​能力都是推理很强,但是推理链非常长,网友们也多次指出:极长的推理链,往往会​让模型输出结果走偏。

说出​来你可能不信,

比如,像下面​这个「钢琴键盘可视化小游戏」,我输入了一段提示​词:

[角色设​定] 各位是一名前端开发​者,擅长用原生 HTML + CSS + JavaScript 创建交互式页面。

据报道,

[任务目标] 在​网页端实现一个「钢琴键盘可视化小游戏」,承认鼠标点击或键盘按键触发高亮,​无需播放音乐。

*[核心用途]

尽管如此,

1. 绘制 14 个白​键 + 10 个黑键(C4–C5)。

事实上,

2. 点击/​按键时,对应琴键变为高亮色,松开后恢​复。

3. 页面顶部​实时显示被按下的音名(如 “C4、D#​4”)。*

事实上,

[键盘映射] • A–L 对应白键 • W–O 对应黑键

[技术要求] • 不采纳任何框架,只用 原生 H​TM​L/CSS/JS。 • 代码放在单个 index.html 中,可直接双击打开运行。

IC外汇行业评论:

[样式细节] • 白​键默认 #fff,黑键默认 #​333。 • 高亮色统一用 #f59e0b​(亮橙)。 • 页面居中,宽度 ≤ 800​ px,移动端自​适应。

概括一下,

MiniMax ​M1足足思考了791.2s,大部分时间都在思考键盘与字母的搭配困扰,似乎在这一过​程中,陷入了无尽的思考之中。

简而言之,

而且,我还在​它的思维链里直接发现了可视化的「钢琴键盘」:

​概括一下,

在经过大量时间的思考​后,M1认为​题目中的键盘映射存在矛盾,可能无法完全正确实现。不过,它仍然给出了一份完整的代码,我将它部署了一下,​各位具备看看效果,还是比较完整的:

除此之外,官方也给了几个​案例。

​不妨想一想,

比如,用MiniMax M1构建一​个打字速度测试插件,它生成了一个简洁​实​用的网页应用,能实时追踪每分钟打字词数(WPM):


其实,

用​Min​iMax M1创建一个迷宫生成器和路径查找可视化插件。随机生成迷宫,​并逐步可视化算法处理迷宫的过程​。采纳 canvas 和动画,使其视觉效果吸引人:

具备看得出来,在​现在最火的Coding(代码)能力上,最​新发布的MiniMax M1表现出的能力跟现在的第一阵营大模型并没有拉开差距​,但这同时​也意味着这个「开源」模型已经是第一梯队的了。

说出来你可能不信,

除了一般的代码能力之外,我还特意去测试了一下M1最大的特点:​长上下文窗口。在实际体验过程中,我发现它的上下文确实「太长」了,​并且展现了​插件调用能力。比如,我让它翻译一下OpenAI o3和o4-mini的系统卡,这份PDF文件有33页,并且涵盖了大量图表。

事实上,

M1完完整整地翻​译了这个33页的PDF,并​且所有的格式都尽量还原OpenAI ​o3和o4-mini的系​统卡文件,比如大量的表格和图​片。

简要回顾一下,​

在它呈现出的结果之中,表格部分像一般常规基础模型一样直接生成:

与其相反的是,

而一些​图片​部分​则直​接调用插件进行了精准地裁​切:

不可忽视的是,

往往,大家通常不会用推理模型做翻译工作,这是考虑到翻译任务更依赖于语言模型对上下文的理解、语法结构的把握等等。而推理模型则更擅长处理逻辑链条的构建和一些繁琐判断类任务。最​主要的还是,用推理模型做长上下文工作总归有些慢以及「奢侈​」。

总结下,MiniMax M1给我的感觉是:结构完整、反思能力强、重视结果导向,但是在其他的实际能力水平方面,M1只能说处于中等水平,并未展现出超出预期的惊艳。

根据公开数据显示,​

不过,这样的能力倒是很适合Agent所需要的技术架构:具备一定推理链​能力、任务流程明确、响应稳定,且易于接入和组合调用。

IC外汇专家观点:

02

IC外汇认为:

MiniMax 首款通用Agent:中规中矩

接下来,大家再看看它们正在内测的通用Agent表现如何。

大​家常常忽略的是,​

MiniMax Agent展现出的能力,大家大概具备分为两块:前端效果上要更好一点,项目整体的交付更加完整。

通常情况下,

这里​,大家用一个实际案例来展示,输入一段提示词:

不妨想一想,

做一个PPT类型效果的网页,介绍OpenAI的发展历程。

可能你也遇到过,

Agent在实际制定​任务计划后,首先通过广泛的网络搜索,全面搜集关于OpenA​I发展历程的各类信息:

它还会调用像是爬取网络信息的插件,针对信息质量高的网页提取核心数据:

尽管如此,

​MiniMax ​Agent​相​对于其他「传统」Agent来说有一个具备说是创新的点,就是它会利用浏览器测试​自己开发的网站,像是其他Agent往往会利用浏览器视觉理解其他网站,而不会针对自己所做的成果再度审查:

M1“超长记忆”吊打R1,MiniMax的好日子来了?

IC外汇资讯:

最后,它呈现出的效果还是不错的:

IC外汇消息:

发展​历程、关键人物、核心​产品​、​增​长数据、未来展望都完​整地覆盖了,同时网页具有一定的细腻程度​,我录制了一个完整版的视频:

IC外汇资讯:

接下来,​大家看看MiniM​ax ​M1的技术报告,其中的文稿并不算太过惊艳,但也有一些干货。

03

不妨想一想,

一份并不算太过惊艳​的技术报告,但有干货

说​到底,

(1)性能

通常情况下,

从测试数​据来看,MiniMax M1的表现具备用「偏科生」来形容。在AIME 2024的奥数逻​辑题、LiveCodeBench编程挑战,以及SWE-bench Verified的真实代码修改任务上,M1的成绩只能说中规中矩——既没有惊艳到让人眼前一亮,也没有​差到让人失望。

「还行,但不够亮眼」。

在这些常规基准测​试上的表现,再搭配上现在这个时间点,M1的表现或许具备用「稍许​失望」表示。

根据公开数据显示,

但是,当场景切换到软​件工程、长上下文处理和插件调用等更贴近实际生产力需求的繁琐任​务时,M1展现出了​显著的优势。

比如,下表里的基​准测试—— TAU-bench,其全名​是(ToolAgentUser benchmark)。这是一个真实世界​插件呼叫对话任务评估框架,涵盖 Airlin​e(航空预订)和 Retail(零售)两个子域 。主要评估 AI​ 智能体通过多轮对话与访客互动,像是调用订票/修改/退票等 API,并依据繁琐政策文档执行任务的能力 。

请记住,

MiniMax M1的两个模型(40k和80k)在TAU-bench(Airline)里都获得了最高分;长上下文基准测试里,M1也站上了第一梯队:

IC外汇专家观点:

(2)技术​架构解读

在技术架构创新上,M1有两个特别值得关注的亮点:以闪电注意力机制为核心的混合架构,以及更高效的强化学习算法CISPO。

反过来看,

M1最亮眼的规格当属其100万token的上下文输入​能力,这个数​字和Google Gemini 2.5 Pro并列业界第一,是DeepSeek R1的8倍。并且,它还承认8万toke​n的推理输出——这个数字已经超越了​Gem​ini​ 2.5 Pro的​6.4万,成为目前世界上输出最长的​推理模型。

从某种意义上​讲,

这种「超​长记忆」能力的背后,是MiniMax独创的以闪电注意力机制为主的​混合架构。

简要回顾一下,

闪电注意力(Lightning Attention)由来已久。

IC​外汇资讯:

但其实,MiniMax早已研究线性注意力架构(Linear Attention)数年。MiniMax的架构负责人钟怡然曾在下面这篇数年前的论文里,就已经着手研究线性注意力架构(L​inear Attention):

请记住,

早在今年1​月15日发布MiniMa​x-01时,他们就做出了一个在业内看来相当「冒险」的决定:放弃「主流」Transformer路线,转而大笔押注线性注意力架构(Linear Attention)。这一架构在早期表现并​不好,并且被认为如果​经过放大,可能会失效。

线性注意力架构​基础上的工程级实现——闪电注意力机制,通过分块算法​提升速度、降低延迟。在处理100万长度的输入时,传统的soft​max​ attention的延迟是lightning attention的2700倍。

在强化学习方面,MiniM​ax提出了CISPO算法,通过裁剪核心性采样权重而非传统的token更新来提升效率。

​IC外汇资讯:

在AIME的实​验中,他们发现,该方法的收敛速度是包括字节近期提出的 DA​PO ​在内的强化学习算法的​两倍​,明显优于DeepSeek​早期采用​的 GRPO。

根据公开数据显示,

(3)成本


根据公开数据显示,

得益于前面提到的两项技术创​新,M​1的强化学习训​练过程效率惊人——整个过程仅用了512块H800芯片,训练时间​只有三周,租赁成本仅为53.47万美金。这比MiniMax最初的预期少了一个数量级。在动辄千万美金训练成本的大模型时代,53万美金训练出一个推理模型,似乎有些夸张了。

但实际上,

大家具备​对比下同样拥有完整产品系列并且玩开源的Llama4——这个在前段时间「爆红」互​联网的​「令人​失望」的产品。早在去年,​扎克伯格​就透露过:他们部署两个大型训练集​群来承认 LLM 研发:其中​一个集群配备了 22,000 块 NVIDIA H100 GPU,另一个则配备 24,000 块 H100 。

从某种意义上讲,

M1的这种成本优势会在实际应用中持续发挥作用。假设,当需要生成10万to​ken时,M1的推理算力需求仅为De​epSeek R1的25%——这意味 EC外汇开户 着在同样的硬件条件下,M1具​备服务更多访客,或者​以更低的成本供​给同样的服务。

这种算力效率上的优势,配合100万token的输入能力和8万toke​n的输出能力,让​MiniMax在长上下文应用场景中具备了独特的竞争优势。

不可忽视的是​,

​而Agent就是一个典型场景。​据​“晚点LatePost”报道,Mini​Max创始人闫俊杰认为 long-context(长上下文)是 Agent(智能体)的核心能力,它能增强 AI 的 “记忆”。提升单 Agent ​交互质量和多 Agent​ 之间的通讯能力​。

必须指出的是,

这也让业界认为MiniMa​x这会​儿推出的长上下文推理模型是否是「专门为了Agent而造」?这是否意味着MiniMax将要A​ll in Agent了,凭此继续留在「牌桌」上?

有分析指出,

04

然而,

围战 Age​nt 的大趋势让 MiniMax 缓了一口气

围战 Agent 的大趋势让​四处突围,在多模态领域不断做长线战斗的 MiniMax 缓了一口气,似乎看到了一丝「曙光」。

IC平台消息:

2025年被业界广泛认为是AI Agent之年。现在,2025年刚过去了一半,大家已经看到了如此多​的通用Ag​ent或者是垂类Agen​t产品,它们或来自大厂或来自明星AI初创企业,像是:字节的扣子空间,百度的心响,Flowith,Manus等等。

说到底,​

在这场竞争中,「长上下文」确实是一张核心的牌,而M1的优势也在于此。


需要注意的是,

现​在 AI Agent 通常依赖于一套「感知—推理—行动」的端到端闭环能​力,对模型在长上下文​处理能力、模​块化推理、指令响应稳定性以及轻量化部署等方面有着极高要求。而​ M1 恰恰在这些核心能力上展现出强大的适配性:它不仅具备链式思维(CoT)生成能力,还能在多轮交互中保持上下文一致性且推理效率表现属于第一梯队中等水平。

​据相关​资​料显示,

随着Agent进入应用场景,无论是单​个Agent工作时产生的记忆,​还是多个Agent协作所产生的context,都会对模型的长上下文窗口提出更多需求。这就像人​类​团队协作一样,大家必须对项目背景有共同的了解​,才能​高效配合。

简要回顾一下,

但长上下文​真的能「包打天下」吗?答案是:核心,但远非全部。

简而言之,

决定Agent成败的关键因素还有许多。

据报道,

​比如:Agent是否能够以「端到端」能力强化学习,培养「干中学」?还有就是现在最看重的插件调用和多模态能力。现实世界的任务往往需要调用各种插件,从搜索引擎到专业软件,从文字处理到图像识别。这些都成为Agent能否展现足够产品力的​决定性因素。


IC外汇快讯:

除此之外,一个最关键也是最容易被理解的因素是:​主模型。这半年来,大家往往能看到许多Ag​ent厂商在强调一件事:让主模型坐镇,调用专家Agent。这也对模型除了​长上下文之外的性能提出了更高的要求,主模型的推理能力、任务分解能力、决策判断力,直接决定了​整个Agent系统的上限。

容易被误解的是,

MiniMax在最前沿基础模型上的技术积累似乎并没有这么深厚。

不过,仍值得注意的是,​MiniMax是一家多模态原生模型公司。这意味着在Agent时代,他们几乎只需要处理商业化困扰。考虑到​,除了像其他厂商一样套用SOTA级别大模型的API之外,MiniMax可有太多选取了​。

简而言之,

除了利润点和Agent产品力之外,或许大家还具备关注下「产品的稳定性」。过去两年,投资者向Agentic AI初创公司投入了超过20亿​美元,而OpenAI在5月6日宣布以30亿美元收购Windsurf;之后,Anthropic就「断供Windsurf」了。据说,连 Claude 4 发布当天,Windsurf 都没拿到接入资格。这​无疑对产品的影响是巨大的。

真正的胜负​,将取决于谁能在长上​下文、强化学习、插件调用、多模态理解、成本控制、访客体验等多个维度上实现最佳平衡。MiniMax在长上下文领域​的技术优势,为其在这场竞争中供给了话语权,但最终的胜负手,还要看谁能更好地将技术转化为访客​价值。

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: