M1“超长记忆”吊打R1，MiniMax的好日子来了？ M1“超长记忆”吊打R1，MiniMax的好日子来了？_财经热点

M1“超长记忆”吊打R1，MiniMax的好日子来了？ M1“超长记忆”吊打R1，MiniMax的好日子来了？

创始人

2025-06-18 16:01:23

MiniMax 四处突围，终于撞上了自己的「好日子」。

昨天凌晨，MiniMax正式开源它们的第一个推理模型M1，这款模型虽然在各项基准测试中表现「相貌平平」，却拥有业界最长的上下文能力：100万token输入，8万token输出。除了高调开源M1，另一个消息正在各大AI社区传播：MiniMax正在邀请用户测试它们的通用Agent。

在错失推理模型先发优势后，这家曾被认为是AI六小龙中最稳健的公司，想在下一程赢回来。

现在，它们终于等到了一个正在急剧缩短的时间窗口——Agent爆火的2025年。

那么，MiniMax这回推出的M1以及正在内测的Agent到底实力如何？是否还能在明星AI初创公司和大厂的强敌环伺下「正面突围」？

「直面AI」（ID：faceaibang）实际上手体验了下，并深度解读了这次的技术报告，「挖出了些」背后的东西。

上下文 + Agent能力是新模型的核心

接下来，我们实地测试下MiniMax M1推理模型和MiniMax Agent。

先来说下M1推理模型，它给我的第一个感受就是推理链很长，这其实与最近国产开源的几个前沿大模型的表现很相似，像是前段时间的Qwen系列以及DeepSeek的最新小版本。它们透露出来的能力都是推理很强，但是推理链非常长，网友们也多次指出：极长的推理链，往往会让模型输出结果走偏。

比如，像下面这个「钢琴键盘可视化小游戏」，我输入了一段提示词：

[角色设定] 你是一名前端开发者，擅长用原生 HTML + CSS + JavaScript 创建交互式页面。

[任务目标] 在网页端实现一个「钢琴键盘可视化小游戏」，支持鼠标点击或键盘按键触发高亮，无需播放音乐。

*[核心功能]

1. 绘制 14 个白键 + 10 个黑键（C4–C5）。

2. 点击/按键时，对应琴键变为高亮色，松开后恢复。

3. 页面顶部实时显示被按下的音名（如 “C4、D#4”）。*

[键盘映射] • A–L 对应白键 • W–O 对应黑键

[技术要求] • 不使用任何框架，只用原生 HTML/CSS/JS。 • 代码放在单个 index.html 中，可直接双击打开运行。

[样式细节] • 白键默认 #fff，黑键默认 #333。 • 高亮色统一用 #f59e0b（亮橙）。 • 页面居中，宽度 ≤ 800 px，移动端自适应。

MiniMax M1足足思考了791.2s，大部分时间都在思考键盘与字母的搭配问题，似乎在这一过程中，陷入了无尽的思考之中。

而且，我还在它的思维链里直接发现了可视化的「钢琴键盘」：

在经过大量时间的思考后，M1认为题目中的键盘映射存在矛盾，可能无法完全正确实现。不过，它仍然给出了一份完整的代码，我将它部署了一下，你可以看看效果，还是比较完整的：

除此之外，官方也给了几个案例。

比如，用MiniMax M1构建一个打字速度测试工具，它生成了一个简洁实用的网页应用，能实时追踪每分钟打字词数（WPM）：

用MiniMax M1创建一个迷宫生成器和路径查找可视化工具。随机生成迷宫，并逐步可视化算法解决迷宫的过程。使用 canvas 和动画，使其视觉效果吸引人：

可以看得出来，在现在最火的Coding（代码）能力上，最新发布的MiniMax M1表现出的能力跟现在的第一阵营大模型并没有拉开差距，但这同时也意味着这个「开源」模型已经是第一梯队的了。

除了一般的代码能力之外，我还特意去测试了一下M1最大的特点：长上下文窗口。在实际体验过程中，我发现它的上下文确实「太长」了，并且展现了工具调用能力。比如，我让它翻译一下OpenAI o3和o4-mini的系统卡，这份PDF文件有33页，并且涵盖了大量图表。

M1完完整整地翻译了这个33页的PDF，并且所有的格式都尽量还原OpenAI o3和o4-mini的系统卡文件，比如大量的表格和图片。

在它呈现出的结果之中，表格部分像一般常规基础模型一样直接生成：

而一些图片部分则直接调用工具进行了精准地裁切：

往往，大家通常不会用推理模型做翻译工作，这是因为翻译任务更依赖于语言模型对上下文的理解、语法结构的把握等等。而推理模型则更擅长处理逻辑链条的构建和一些复杂判断类任务。最主要的还是，用推理模型做长上下文工作总归有些慢以及「奢侈」。

总结下，MiniMax M1给我的感觉是：结构完整、反思能力强、重视结果导向，但是在其他的实际能力水平方面，M1只能说处于中等水平，并未展现出超出预期的惊艳。

不过，这样的能力倒是很适合Agent所需要的技术架构：具备一定推理链能力、任务流程明确、响应稳定，且易于接入和组合调用。

MiniMax 首款通用Agent：中规中矩

接下来，我们再看看它们正在内测的通用Agent表现如何。

MiniMax Agent展现出的能力，我们大概可以分为两块：前端效果上要更好一点，项目整体的交付更加完整。

这里，我们用一个实际案例来展示，输入一段提示词：

做一个PPT类型效果的网页，介绍OpenAI的发展历程。

Agent在实际制定任务计划后，首先通过广泛的网络搜索，全面搜集关于OpenAI发展历程的各类信息：

它还会调用像是爬取网络信息的工具，针对信息质量高的网页提取核心数据：

MiniMax Agent相对于其他「传统」Agent来说有一个可以说是创新的点，就是它会利用浏览器测试自己开发的网站，像是其他Agent往往会利用浏览器视觉理解其他网站，而不会针对自己所做的成果再度审查：

最后，它呈现出的效果还是不错的：

从发展历程、关键人物、核心产品、增长数据、未来展望都完整地覆盖了，同时网页具有一定的细腻程度，我录制了一个完整版的视频：

，时长00:30

接下来，我们看看MiniMax M1的技术报告，其中的内容并不算太过惊艳，但也有一些干货。

一份并不算太过惊艳的技术报告，但有干货

（1）性能

从测试数据来看，MiniMax M1的表现可以用「偏科生」来形容。在AIME 2024的奥数逻辑题、LiveCodeBench编程挑战，以及SWE-bench Verified的真实代码修改任务上，M1的成绩只能说中规中矩——既没有惊艳到让人眼前一亮，也没有差到让人失望。

「还行，但不够亮眼」。

在这些常规基准测试上的表现，再搭配上现在这个时间点，M1的表现或许可以用「稍许失望」表示。

但是，当场景切换到软件工程、长上下文处理和工具调用等更贴近实际生产力需求的复杂任务时，M1展现出了显著的优势。

比如，下表里的基准测试—— TAU-bench，其全名是（ToolAgentUser benchmark）。这是一个真实世界工具呼叫对话任务评估框架，涵盖 Airline（航空预订）和 Retail（零售）两个子域。主要评估 AI 智能体通过多轮对话与用户互动，像是调用订票/修改/退票等 API，并依据复杂政策文档执行任务的能力。

MiniMax M1的两个模型（40k和80k）在TAU-bench（Airline）里都获得了最高分；长上下文基准测试里，M1也站上了第一梯队：

（2）技术架构解读

在技术架构创新上，M1有两个特别值得关注的亮点：以闪电注意力机制为核心的混合架构，以及更高效的强化学习算法CISPO。

M1最亮眼的规格当属其100万token的上下文输入能力，这个数字和Google Gemini 2.5 Pro并列业界第一，是DeepSeek R1的8倍。并且，它还支持8万token的推理输出——这个数字已经超越了Gemini 2.5 Pro的6.4万，成为目前世界上输出最长的推理模型。

这种「超长记忆」能力的背后，是MiniMax独创的以闪电注意力机制为主的混合架构。

闪电注意力（Lightning Attention）由来已久。

但其实，MiniMax早已研究线性注意力架构（Linear Attention）数年。MiniMax的架构负责人钟怡然曾在下面这篇数年前的论文里，就已经开始研究线性注意力架构（Linear Attention）：

早在今年1月15日发布MiniMax-01时，他们就做出了一个在业内看来相当「冒险」的决定：放弃「主流」Transformer路线，转而大笔押注线性注意力架构（Linear Attention）。这一架构在早期表现并不好，并且被认为如果经过放大，可能会失效。

线性注意力架构基础上的工程级实现——闪电注意力机制，通过分块算法提升速度、降低延迟。在处理100万长度的输入时，传统的softmax attention的延迟是lightning attention的2700倍。

在强化学习方面，MiniMax提出了CISPO算法，通过裁剪重要性采样权重而非传统的token更新来提升效率。

在AIME的实验中，他们发现，该方法的收敛速度是包括字节近期提出的 DAPO 在内的强化学习算法的两倍，明显优于DeepSeek早期采用的 GRPO。

（3）成本

得益于前面提到的两项技术创新，M1的强化学习训练过程效率惊人——整个过程仅用了512块H800芯片，训练时间只有三周，租赁成本仅为53.47万美金。这比MiniMax最初的预期少了一个数量级。在动辄千万美金训练成本的大模型时代，53万美金训练出一个推理模型，似乎有些夸张了。

我们可以对比下同样拥有完整产品系列并且玩开源的Llama4——这个在前段时间「爆红」互联网的「令人失望」的产品。早在去年，扎克伯格就透露过：他们部署两个大型训练集群来支持 LLM 研发：其中一个集群配备了 22,000 块 NVIDIA H100 GPU，另一个则配备 24,000 块 H100 。

M1的这种成本优势会在实际应用中持续发挥作用。假设，当需要生成10万token时，M1的推理算力需求仅为DeepSeek R1的25%——这意味着在同样的硬件条件下，M1可以服务更多用户，或者以更低的成本提供同样的服务。

这种算力效率上的优势，配合100万token的输入能力和8万token的输出能力，让MiniMax在长上下文应用场景中具备了独特的竞争优势。

而Agent就是一个典型场景。据“晚点LatePost”报道，MiniMax创始人闫俊杰认为 long-context（长上下文）是 Agent（智能体）的重要能力，它能增强 AI 的 “记忆”。提升单 Agent 交互质量和多 Agent 之间的通讯能力。

这也让业界认为MiniMax这会儿推出的长上下文推理模型是否是「专门为了Agent而造」？这是否意味着MiniMax将要All in Agent了，凭此继续留在「牌桌」上？

围战 Agent 的大趋势让 MiniMax 缓了一口气

围战 Agent 的大趋势让四处突围，在多模态领域不断做长线战斗的 MiniMax 缓了一口气，似乎看到了一丝「曙光」。

2025年被业界广泛认为是AI Agent之年。现在，2025年刚过去了一半，我们已经看到了如此多的通用Agent或者是垂类Agent产品，它们或来自大厂或来自明星AI初创企业，像是：字节的扣子空间，百度的心响，Flowith，Manus等等。

在这场竞争中，「长上下文」确实是一张重要的牌，而M1的优势也在于此。

现在 AI Agent 通常依赖于一套「感知—推理—行动」的端到端闭环能力，对模型在长上下文处理能力、模块化推理、指令响应稳定性以及轻量化部署等方面有着极高要求。而 M1 恰恰在这些核心能力上展现出强大的适配性：它不仅具备链式思维（CoT）生成能力，还能在多轮交互中保持上下文一致性，且推理效率表现属于第一梯队中等水平。

随着Agent进入应用场景，无论是单个Agent工作时产生的记忆，还是多个Agent协作所产生的context，都会对模型的长上下文窗口提出更多需求。这就像人类团队协作一样，大家必须对项目背景有共同的了解，才能高效配合。

但长上下文真的能「包打天下」吗？答案是：重要，但远非全部。

决定Agent成败的关键因素还有许多。

比如：Agent是否能够以「端到端」能力强化学习，培养「干中学」？还有就是现在最看重的工具调用和多模态能力。现实世界的任务往往需要调用各种工具，从搜索引擎到专业软件，从文字处理到图像识别。这些都成为Agent能否展现足够产品力的决定性因素。

除此之外，一个最关键也是最容易被理解的因素是：主模型。这半年来，我们往往能看到许多Agent厂商在强调一件事：让主模型坐镇，调用专家Agent。这也对模型除了长上下文之外的性能提出了更高的要求，主模型的推理能力、任务分解能力、决策判断力，直接决定了整个Agent系统的上限。

而MiniMax在最前沿基础模型上的技术积累似乎并没有这么深厚。

不过，仍值得注意的是，MiniMax是一家多模态原生模型公司。这意味着在Agent时代，他们几乎只需要解决商业化问题。因为，除了像其他厂商一样套用SOTA级别大模型的API之外，MiniMax可有太多选择了。

除了利润点和Agent产品力之外，或许我们还可以关注下「产品的稳定性」。过去两年，投资者向Agentic AI初创公司投入了超过20亿美元，而OpenAI在5月6日宣布以30亿美元收购Windsurf；之后，Anthropic就「断供Windsurf」了。据说，连 Claude 4 发布当天，Windsurf 都没拿到接入资格。这无疑对产品的影响是巨大的。

真正的胜负，将取决于谁能在长上下文、强化学习、工具调用、多模态理解、成本控制、用户体验等多个维度上实现最佳平衡。MiniMax在长上下文领域的技术优势，为其在这场竞争中提供了话语权，但最终的胜负手，还要看谁能更好地将技术转化为用户价值。

调用算法翻译模态上下文超长记忆官方网页 minimax

上一篇：中国证监会公告允许合格境外投资者参与ETF期权交易证监会鼓励境外投资者中国证监会合格境外投资者名录

下一篇：芦哲：经济叙事的三重分化——5月经济数据点评鑺﹀摬鑺﹀摬棣栧腑缁忔祹瀛﹀

M1“超长记忆”吊打R1，MiniMax的好日子来了？ M1“超长记忆”吊打R1，MiniMax的好日子来了？

相关内容

热门资讯