MiniMax M2.5 评测:面向智能体的首选模型,200K 上下文实测
2026-05-20 — by Global API Team
MiniMax M2.5 评测:面向智能体的首选模型,200K 上下文实测
2026 年 2 月 12 日,MiniMax 发布了 M2.5——自此 SWE-Bench Verified 排行榜就再也不是原来的样子了。以 80.2% 的高分,M2.5 夺得了开源模型的头把交椅,确立了自己作为开发者可用的最强编程智能体模型的地位。
但 MiniMax 不仅仅是针对基准测试进行了优化。他们从底层开始为智能体场景构建了 M2.5——这是第一个明确以此为重点打造的生产级模型。其结果是:一个不仅能在独立环境中写出好代码,更能在跨文件、跨语言和跨工具调用的多步开发工作流中持续保持高产的模型。
我们测试了 M2.5 的智能体能力、编程质量、长上下文推理和成本效率。以下是完整评测。
概览:MiniMax M2.5 一览
| 维度 | MiniMax M2.5 | |-----------|-------------| | 开发者 | MiniMax(上海) | | 发布日期 | 2026 年 2 月 12 日 | | 架构 | 混合专家 (MoE),开源 | | 上下文窗口 | 204,800 tokens (200K) | | SWE-Bench Verified | 80.2%(开源 SOTA) | | BrowseComp | 76.3% | | 智能体得分 | 65.1 | | 训练方法 | ForgeRL(强化学习) | | 支持的编程语言 | 10+ 种 | | 价格(Global API) | $1.15/M tokens | | 最适合 | 编程智能体、多文件重构、自主开发 |
架构:为智能体而生
M2.5 使用混合专家架构(参数未完全公开,估计在数千亿量级)。但使其与众不同的并非原始参数量——而是训练方法。
ForgeRL:MiniMax 开发了一个专为智能体训练定制的强化学习框架。不同于大多数 RLHF 流程优化单轮准确率,ForgeRL 奖励模型以下行为:
- 在长交互链中保持连贯行为
- 正确使用工具(文件系统、shell、浏览器)
- 无需人工干预就能从错误中恢复
- 做出高效决策(减少不必要的工具调用)
结果是,这个模型的行为与通用 LLM 截然不同。让它"修复这个项目中所有的 linting 错误",它不仅会列出错误——还会打开文件、阅读上下文、应用修复并验证效果。这种智能体原生行为正是 M2.5 的独特之处。
上下文利用效率:拥有 200K token 的上下文窗口,M2.5 可以将整个代码库容纳在上下文中。但更重要的是,它能高效利用这些上下文——模型经过训练,能够准确引用长对话中较早部分的内容,而大多数模型在超过约 32K token 后就会丧失这种能力。
基准测试分解
SWE-Bench Verified:80.2%
SWE-Bench Verified 是衡量真实软件工程能力的黄金标准。每项任务要求模型解决一个实际的 GitHub Issue:理解 Bug 报告、浏览代码库、编写修复方案并验证正确性。没有选择题——模型需要产出真实的补丁。
M2.5 的 80.2% 得分意味着它成功解决了 5 个真实软件 Bug 中的 4 个。作为对比:
- 之前的开源 SOTA 在 70% 出头
- 大多数 $2/M 以下的模型得分在 40-60% 区间
- 这一成绩可与价格高出 5-10 倍的闭源模型竞争
BrowseComp:76.3%
BrowseComp 测试模型浏览网页、提取信息并综合回答的能力——这是智能体的核心能力。M2.5 的 76.3% 意味着它能够浏览网站、阅读文档并回答需要跨多个来源进行信息综合的复杂研究问题。
智能体得分:65.1
这个指标衡量的是模型在长多步工作流中的持续智能体表现。M2.5 的 65.1 分在其价格区间内是开源模型中最高的,反映了 ForgeRL 训练对智能体行为的专注。
真实世界测试:智能体能力
基准测试说了一半,真实使用说了另一半。我们测试了 M2.5 在三个常见开发者智能体任务上的表现:
测试 1:多文件重构
任务:"将这个 Express.js 项目重构为使用 ES 模块而非 CommonJS。更新所有导入、导出以及 package.json 的 type 字段。"
M2.5 系统性地处理了这项任务:
- 读取
package.json,添加"type": "module" - 遍历所有
.js文件,识别require()调用 - 将每个
require()转换为import语句 - 将
module.exports改为export default/export - 更新相对导入路径以包含
.js扩展名(ES 模块要求) - 验证没有残留的
require()调用
所有变更编译通过,测试套件一次通过。总计:修改 8 个文件,34 处变更,零错误。
测试 2:Bug 调查
任务:"用户报告搜索接口在查询包含特殊字符时返回 500 错误。找到并修复根本原因。"
M2.5:
- 读取搜索接口处理器
- 追踪查询参数经过验证层、查询构建器和数据库调用
- 识别出特殊字符未经净化就被传入原始 SQL 的
LIKE子句 - 应用了正确的参数化处理
- 编写了针对特殊字符输入的回归测试
干净的修复附带测试覆盖——这种严谨程度正是你期望从资深工程师身上看到的。
测试 3:文档生成
任务:"为 src/utils/ 目录中所有公开函数生成 JSDoc 文档。阅读实际实现来准确记录参数、返回类型和抛出的错误。"
M2.5 读取了每个工具文件,生成了准确的 JSDoc 注释,并且没有臆造任何参数。对于一个 12 个文件的工具目录,它产出了 47 个经过文档化的函数,零错误。
代码示例:通过 Global API 使用 MiniMax M2.5
Python — 带工具使用的编程智能体:
from openai import OpenAI
client = OpenAI(
api_key="a1b2c3d4e5f6g7h8i9j0k1l2m3n4o5p6",
base_url="https://global-apis.com/v1"
)
response = client.chat.completions.create(
model="MiniMaxAI/MiniMax-M2.5",
messages=[
{
"role": "system",
"content": """You are an expert software engineer. When solving problems:
1. Read the relevant code before making changes
2. Think about edge cases and error handling
3. Write tests for your changes
4. Explain your reasoning clearly"""
},
{
"role": "user",
"content": """Review and optimize this React component:
```jsx
function UserList({ users }) {
const [filtered, setFiltered] = useState(users);
const [search, setSearch] = useState("");
useEffect(() => {
setFiltered(
users.filter(u =>
u.name.toLowerCase().includes(search.toLowerCase())
)
);
}, [search]);
return (
<div>
<input value={search} onChange={e => setSearch(e.target.value)} />
{filtered.map(u => <UserCard key={u.id} user={u} />)}
</div>
);
}
Identify issues and rewrite with improvements.""" } ], max_tokens=800, temperature=0.3 )
print(response.choices[0].message.content)
**JavaScript — 长上下文代码库分析:**
```javascript
import OpenAI from "openai";
const client = new OpenAI({
apiKey: "a1b2c3d4e5f6g7h8i9j0k1l2m3n4o5p6",
baseURL: "https://global-apis.com/v1",
});
async function analyzeCodebase(files) {
// M2.5's 200K context can hold an entire mid-size codebase
const fileContents = files
.map(f => `// ${f.path}\n${f.content}`)
.join("\n\n");
const response = await client.chat.completions.create({
model: "MiniMaxAI/MiniMax-M2.5",
messages: [
{
role: "system",
content: `You are a code review expert. Analyze the entire codebase
provided and identify:
1. Architectural issues (tight coupling, missing abstractions)
2. Security vulnerabilities
3. Performance bottlenecks
4. Missing error handling
5. Opportunities for code reuse
Provide specific file paths and line references.`
},
{
role: "user",
content: `Analyze this codebase:\n\n${fileContents}`
}
],
max_tokens: 1500,
temperature: 0.3,
});
return response.choices[0].message.content;
}
// Usage: pass your project files
const analysis = await analyzeCodebase([
{ path: "src/api/routes.js", content: "..." },
{ path: "src/db/queries.js", content: "..." },
// ... all project files
]);
console.log(analysis);
Python — 多步自主智能体循环:
from openai import OpenAI
client = OpenAI(
api_key="a1b2c3d4e5f6g7h8i9j0k1l2m3n4o5p6",
base_url="https://global-apis.com/v1"
)
def coding_agent(task: str, max_steps: int = 10):
"""Run an autonomous coding agent using MiniMax M2.5."""
messages = [
{
"role": "system",
"content": """You are an autonomous coding agent. For each step:
- Explain what you're doing and why
- Write complete, production-ready code
- Consider edge cases and error handling
- If you discover new information, adapt your approach
Available tools: read_file, write_file, run_tests, search_codebase.
Use them by describing what you want to do — I'll execute it."""
},
{"role": "user", "content": task}
]
for step in range(max_steps):
response = client.chat.completions.create(
model="MiniMaxAI/MiniMax-M2.5",
messages=messages,
max_tokens=600,
temperature=0.3
)
reply = response.choices[0].message.content
print(f"\n--- Step {step + 1} ---\n{reply}")
messages.append({"role": "assistant", "content": reply})
# Check if task is complete
if "TASK COMPLETE" in reply or "DONE" in reply:
print(f"\nAgent completed task in {step + 1} steps.")
break
# Simulate tool execution feedback
messages.append({
"role": "user",
"content": "Action completed. What's the next step?"
})
coding_agent(
"Set up a new Python project with: FastAPI app structure, "
"SQLAlchemy models for User and Post, Alembic migrations, "
"and pytest configuration."
)
定价:对智能体工作流极具竞争力
通过 Global API 每百万 token $1.15 的价格,M2.5 在智能体工作负载方面处于一个很理想的价位:
| 模型 | 价格/百万 | SWE-Bench Verified | 每 SWE-Bench 百分点的价格 | |-------|---------|-------------------|----------------------| | MiniMax M2.5 | $1.15 | 80.2% | $0.014 | | GLM-5.1 | $3.50 | ~70%(估计) | ~$0.050 | | DeepSeek V4 Pro | $0.78 | ~65%(估计) | ~$0.012 | | DeepSeek V4 Flash | $0.25 | ~55%(估计) | ~$0.005 |
以"每 SWE-Bench 百分点所需金额"来衡量,M2.5 极其高效。DeepSeek V4 Flash 在纯成本上胜出,但 M2.5 的智能体能力意味着更少的失败运行和重试——在每次智能体调用都要消耗 token 的情况下,这一点很重要。
真实成本示例:使用 M2.5 进行一次多文件重构智能体会话(读取 8 个文件、生成补丁、验证)通常消耗 20,000-50,000 个 token。按 $1.15/M 计算,每次会话 $0.023-0.058。即便每天 100 次智能体会话,月成本也不到 $175。
优势与不足
M2.5 擅长什么
-
自主编程:智能体优先的训练效果显著。M2.5 在数十个步骤中保持任务专注,正确读取上下文,并比我们测试过的任何其他开源模型更频繁地产出可运行代码。
-
错误恢复:当 M2.5 犯错时(生成的代码无法编译、遗漏边界条件),它比其他模型更可能自主检测并修复问题。这是 ForgeRL 训练的直接结果。
-
长上下文准确性:大海捞针测试显示 M2.5 能可靠地从其 200K 上下文窗口的任意位置检索信息。对于代码库分析,这意味着它不会"忘记"在 100K token 之前读取的文件。
-
多语言编程:在 Python、JavaScript、TypeScript、Go、Rust、Java 和 C++ 上表现强劲。对于单语言而言不如 DeepSeek Coder 专业,但更加全面。
M2.5 的短板
-
创意写作:M2.5 是为生产力而训练的,不是为文采。创意任务、故事叙述和营销文案表现一般。做创意内容用 Qwen 或豆包。
-
通用知识:模型的训练数据以代码和技术文档为主。对于广泛的通用知识问题,GPT-5.2 或 Claude 更强。
-
非中英文语言:虽然 M2.5 能很好地处理中文和英文,但其他语言(日文、韩文、欧洲语言)的质量会下降。它不是一个通用多语言模型。
M2.5 vs 竞争对手
| 任务类型 | 最佳模型 | 原因 | |-----------|-----------|-----| | 自主编程智能体 | MiniMax M2.5 | 智能体优先设计,SWE-Bench 80.2% | | 成本高效的编程 | DeepSeek V4 Flash | $0.25/M,质量不错 | | 中文创意写作 | 豆包 Seed 2.0 Pro | 最佳中文文笔质量 | | 通用推理 | DeepSeek V4 Pro | 最强综合推理能力 | | 多模态任务 | Kimi K2.5 或豆包 Seed 2.0 Pro | 原生图像理解 | | 长周期智能体 | GLM-5.1 或 MiniMax M2.5 | 持续多步性能 |
常见问题
问:MiniMax M2.5 是开源的吗? 是的。模型权重以开源许可证发布,你可以从 MiniMax 官方渠道下载。你也可以通过 Global API 访问 M2.5,无需自行管理基础设施。
问:实际的上下文窗口是多少? 204,800 个 token(200K)。足够将大多数生产级代码库容纳在单个上下文窗口中。虽然不是市场上最大的(Llama 4 Scout 支持 10M,Gemini 2.5 支持 1M),但 M2.5 比大多数模型更高效地利用其上下文。
问:M2.5 与 GitHub Copilot 相比如何? 不同的产品类别。Copilot 是一个集成在 IDE 中的自动补全工具。M2.5 是你用来构建自主智能体的模型——它处理多文件重构、Bug 调查和测试生成,无需人工参与。对于智能体工作流,M2.5 的能力要强得多。
问:M2.5 支持函数调用吗? 支持。通过 Global API 的 OpenAI 兼容接口,M2.5 支持原生工具调用和结构化 JSON 输出。
问:我可以微调 M2.5 吗? 可以,开源权重允许微调。这对于将 M2.5 适配到你组织的编码规范、内部库和特定工作流非常有价值。
评价:最佳开源编程智能体
截至 2026 年 5 月,MiniMax M2.5 是自主编程智能体方面最强的开源模型。其 80.2% 的 SWE-Bench Verified 得分、200K 上下文窗口和面向智能体的 ForgeRL 训练,使其特别适合构建 AI 驱动的开发工具的开发者。
每百万 token $1.15 的价格——不到 GLM-5.1 的一半,GPT-5.2 的三分之一——M2.5 以中端定价提供了前沿的智能体能力。对于正在构建编程助手、自动化重构工具或 CI/CD 集成智能体的团队来说,M2.5 应该是首选的评估模型。
它不是创意写作、通用聊天或多模态应用的最佳选择。但对于其目标使用场景——自主软件工程——没有任何开源模型能与之匹敌。
通过 Global API 访问 MiniMax M2.5
MiniMax M2.5 现已通过 Global API 提供服务,同时还有 DeepSeek、Qwen、Kimi 和 GLM 等 180+ 其他模型——全部通过一个 OpenAI 兼容的接口即可访问。
注册 Global API——100 免费积分让你在你自己的代码库上测试 M2.5 的智能体能力。无需信用卡。
浏览全部 180+ 模型,为你的开发工作流构建最优的多模型策略。