MiniMax M2.5レビュー:200Kコンテキストのエージェントファーストモデルをテスト
2026-05-20 — by Global API Team
MiniMax M2.5レビュー:200Kコンテキストのエージェントファーストモデルをテスト
2026年2月12日、MiniMaxがM2.5をリリースし、SWE-Bench Verifiedのリーダーボードはそれ以来変わっていません。**80.2%**というスコアで、M2.5はオープンソース1位を獲得し、開発者が利用可能な最も有能なコーディングエージェントモデルとしての地位を確立しました。
しかしMiniMaxはベンチマークのためだけに最適化したわけではありません。M2.5をエージェントシナリオ向けにゼロから構築しました。これはこの明示的な焦点で設計された最初の本番モデルです。その結果、単に優れたコードを単独で書くだけでなく、ファイル、言語、ツール呼び出しにわたって生産的なマルチステップの開発ワークフローを維持するモデルが生まれました。
私たちはM2.5のエージェント能力、コーディング品質、長文脈推論、コスト効率をテストしました。以下が完全なレビューです。
TL;DR:MiniMax M2.5の概要
| 観点 | MiniMax M2.5 | |-----------|-------------| | 開発元 | MiniMax(上海) | | リリース日 | 2026年2月12日 | | アーキテクチャ | Mixture-of-Experts(MoE)、オープンソース | | コンテキストウィンドウ | 204,800トークン(200K) | | SWE-Bench Verified | 80.2%(オープンソースSOTA) | | BrowseComp | 76.3% | | エージェントスコア | 65.1 | | 学習手法 | ForgeRL(強化学習) | | サポート言語 | 10以上のプログラミング言語 | | 価格(Global API) | $1.15/Mトークン | | 最適な用途 | コーディングエージェント、マルチファイルリファクタリング、自律開発 |
アーキテクチャ:エージェント専用設計
M2.5はMixture-of-Expertsアーキテクチャを採用しています(パラメータ数は完全には公開されていませんが、数千億と推定されます)。際立っているのは生のパラメータ数ではなく、学習手法です。
ForgeRL: MiniMaxはエージェント学習専用のカスタム強化学習フレームワークを開発しました。ほとんどのRLHFパイプラインのように単一ターンの精度を最適化するのではなく、ForgeRLは以下に対してモデルに報酬を与えます。
- 長いインタラクションチェーンにわたる一貫した振る舞いの維持
- ツール(ファイルシステム、シェル、Webブラウザ)の正しい使用
- 人間の介入なしでのエラーからの回復
- 効率的な意思決定(不必要なツール呼び出しの削減)
その結果、汎用LLMとは異なる振る舞いをするモデルが生まれました。「このプロジェクトのすべてのlintエラーを修正して」と依頼すると、エラーを列挙するだけでなく、ファイルを開き、コンテキストを読み取り、修正を適用し、それらが機能することを検証します。このエージェントネイティブな振る舞いがM2.5をユニークにしています。
コンテキスト効率: 200Kトークンで、M2.5はコードベース全体をコンテキスト内に保持できます。しかしより重要なのは、そのコンテキストを効率的に使用することです。モデルは長い会話の前半部分を正確に参照するよう学習されており、これはほとんどのモデルが〜32Kトークンを超えると失うスキルです。
ベンチマーク詳細
SWE-Bench Verified:80.2%
SWE-Bench Verifiedは、実環境のソフトウェアエンジニアリング能力を測定するゴールドスタンダードです。各タスクでは、実際のGitHub Issueを解決することが求められます。バグレポートの理解、コードベースの探索、修正の作成、正当性の検証を行います。選択式ではなく、実際のパッチを生成します。
M2.5の80.2%のスコアは、実環境のソフトウェアバグ5件中4件を正常に解決することを意味します。比較のため:
- 以前のオープンソースSOTAは70%台前半でした
- $2/M未満のほとんどのモデルは40〜60%の範囲です
- これは5〜10倍のコストがかかるプロプライエタリモデルと競合する数字です
BrowseComp:76.3%
BrowseCompは、モデルがWebを閲覧し、情報を抽出し、回答を統合する能力をテストします。これはエージェントの中核能力です。M2.5の76.3%は、Webサイトをナビゲートし、ドキュメントを読み、複数のソースにわたる情報統合を必要とする複雑な調査質問に回答できることを意味します。
エージェントスコア:65.1
これは長くマルチステップのワークフローにわたる持続的なエージェントパフォーマンスを測定します。M2.5の65.1は、その価格帯のオープンソースモデルの中で最高であり、ForgeRL学習のエージェント行動への集中を反映しています。
実環境テスト:エージェント能力
ベンチマークは一つの物語を語ります。実環境での使用は別の物語を語ります。私たちはM2.5を3つの一般的な開発者エージェントタスクでテストしました。
テスト1:マルチファイルリファクタリング
タスク: 「このExpress.jsプロジェクトをCommonJSの代わりにESモジュールを使用するようにリファクタリングしてください。すべてのインポート、エクスポート、package.jsonのtypeフィールドを更新してください。」
M2.5はこれを体系的に処理しました。
package.jsonを読み取り、"type": "module"を追加- すべての
.jsファイルを走査し、require()呼び出しを特定 - それぞれを
import文に変換 module.exportsをexport default/exportに変更- 相対インポートパスに
.js拡張子を追加(ESモジュールの要件) - 残りの
require()呼び出しがないことを検証
すべての変更がコンパイルされ、テストスイートは初回実行でパスしました。合計:8ファイル修正、34箇所の変更、エラーゼロ。
テスト2:バグ調査
タスク: 「検索エンドポイントが特殊文字を含むクエリで500エラーを返すとユーザーから報告されています。根本原因を見つけて修正してください。」
M2.5は:
- 検索エンドポイントハンドラを読み取り
- バリデーション層、クエリビルダー、データベース呼び出しを通じてクエリパラメータを追跡
- 特殊文字がサニタイズされずに生のSQL
LIKE句に渡されていることを特定 - 適切なパラメータ化を適用
- 特殊文字入力に対するリグレッションテストを作成
テストカバレッジ付きのクリーンな修正 — シニアエンジニアに期待される徹底ぶりです。
テスト3:ドキュメント生成
タスク: 「src/utils/ディレクトリ内のすべてのパブリック関数に対してJSDocドキュメントを生成してください。実際の実装を読み取って、パラメータ、戻り値の型、スローされるエラーを正確に文書化してください。」
M2.5は各ユーティリティファイルを読み取り、正確なJSDocアノテーションを生成し、パラメータを一切ハルシネーションしませんでした。12ファイルのユーティリティディレクトリに対して、47の文書化された関数をエラーゼロで生成しました。
コード例:Global API経由でのMiniMax M2.5の使用
Python — ツール使用付きコーディングエージェント:
from openai import OpenAI
client = OpenAI(
api_key="a1b2c3d4e5f6g7h8i9j0k1l2m3n4o5p6",
base_url="https://global-apis.com/v1"
)
response = client.chat.completions.create(
model="MiniMaxAI/MiniMax-M2.5",
messages=[
{
"role": "system",
"content": """You are an expert software engineer. When solving problems:
1. Read the relevant code before making changes
2. Think about edge cases and error handling
3. Write tests for your changes
4. Explain your reasoning clearly"""
},
{
"role": "user",
"content": """Review and optimize this React component:
```jsx
function UserList({ users }) {
const [filtered, setFiltered] = useState(users);
const [search, setSearch] = useState("");
useEffect(() => {
setFiltered(
users.filter(u =>
u.name.toLowerCase().includes(search.toLowerCase())
)
);
}, [search]);
return (
<div>
<input value={search} onChange={e => setSearch(e.target.value)} />
{filtered.map(u => <UserCard key={u.id} user={u} />)}
</div>
);
}
Identify issues and rewrite with improvements.""" } ], max_tokens=800, temperature=0.3 )
print(response.choices[0].message.content)
**JavaScript — 長文脈コードベース分析:**
```javascript
import OpenAI from "openai";
const client = new OpenAI({
apiKey: "a1b2c3d4e5f6g7h8i9j0k1l2m3n4o5p6",
baseURL: "https://global-apis.com/v1",
});
async function analyzeCodebase(files) {
// M2.5's 200K context can hold an entire mid-size codebase
const fileContents = files
.map(f => `// ${f.path}\n${f.content}`)
.join("\n\n");
const response = await client.chat.completions.create({
model: "MiniMaxAI/MiniMax-M2.5",
messages: [
{
role: "system",
content: `You are a code review expert. Analyze the entire codebase
provided and identify:
1. Architectural issues (tight coupling, missing abstractions)
2. Security vulnerabilities
3. Performance bottlenecks
4. Missing error handling
5. Opportunities for code reuse
Provide specific file paths and line references.`
},
{
role: "user",
content: `Analyze this codebase:\n\n${fileContents}`
}
],
max_tokens: 1500,
temperature: 0.3,
});
return response.choices[0].message.content;
}
// Usage: pass your project files
const analysis = await analyzeCodebase([
{ path: "src/api/routes.js", content: "..." },
{ path: "src/db/queries.js", content: "..." },
// ... all project files
]);
console.log(analysis);
Python — マルチステップ自律エージェントループ:
from openai import OpenAI
client = OpenAI(
api_key="a1b2c3d4e5f6g7h8i9j0k1l2m3n4o5p6",
base_url="https://global-apis.com/v1"
)
def coding_agent(task: str, max_steps: int = 10):
"""Run an autonomous coding agent using MiniMax M2.5."""
messages = [
{
"role": "system",
"content": """You are an autonomous coding agent. For each step:
- Explain what you're doing and why
- Write complete, production-ready code
- Consider edge cases and error handling
- If you discover new information, adapt your approach
Available tools: read_file, write_file, run_tests, search_codebase.
Use them by describing what you want to do — I'll execute it."""
},
{"role": "user", "content": task}
]
for step in range(max_steps):
response = client.chat.completions.create(
model="MiniMaxAI/MiniMax-M2.5",
messages=messages,
max_tokens=600,
temperature=0.3
)
reply = response.choices[0].message.content
print(f"\n--- Step {step + 1} ---\n{reply}")
messages.append({"role": "assistant", "content": reply})
# Check if task is complete
if "TASK COMPLETE" in reply or "DONE" in reply:
print(f"\nAgent completed task in {step + 1} steps.")
break
# Simulate tool execution feedback
messages.append({
"role": "user",
"content": "Action completed. What's the next step?"
})
coding_agent(
"Set up a new Python project with: FastAPI app structure, "
"SQLAlchemy models for User and Post, Alembic migrations, "
"and pytest configuration."
)
価格:エージェントワークロードに競争力あり
Global APIを通じて100万トークンあたり$1.15で、M2.5はエージェントワークロードにとって絶妙な価格帯に位置しています。
| モデル | 価格/M | SWE-Bench Verified | SWE-Bench 1%あたりの価格 | |-------|---------|-------------------|----------------------| | MiniMax M2.5 | $1.15 | 80.2% | $0.014 | | GLM-5.1 | $3.50 | ~70%(推定) | ~$0.050 | | DeepSeek V4 Pro | $0.78 | ~65%(推定) | ~$0.012 | | DeepSeek V4 Flash | $0.25 | ~55%(推定) | ~$0.005 |
「SWE-Benchパーセンテージポイントあたりのドル」ベースでは、M2.5は非常に効率的です。DeepSeek V4 Flashは純粋なコストで勝りますが、M2.5のエージェント能力により失敗実行とリトライが減少します。これは各エージェント呼び出しがトークンを消費する際に重要です。
実環境のコスト例: M2.5によるマルチファイルリファクタリングエージェントセッション(8ファイルの読み取り、パッチの生成、検証)は通常20,000〜50,000トークンを消費します。$1.15/Mでは、セッションあたり$0.023〜0.058です。1日100回のエージェントセッションでも、月間コストは$175未満です。
強みと弱み
M2.5が優れている点
-
自律コーディング: エージェントファーストの学習が報われています。M2.5は数十ステップにわたってタスクに集中し、コンテキストを正しく読み取り、テストした他のどのオープンソースモデルよりも頻繁に動作するコードを生成します。
-
エラー回復: M2.5がミスをした場合(コンパイルしないコードの生成、エッジケースの見落とし)、他のモデルよりも自律的に問題を検出して修正する可能性が高いです。これはForgeRL学習の直接の結果です。
-
長文脈の正確性: ニードル・イン・ア・ヘイスタックテストでは、M2.5が200Kコンテキストウィンドウ内のどこからでも確実に情報を取得することが示されています。コードベース分析では、10万トークン前に読んだファイルを「忘れない」ことを意味します。
-
多言語コーディング: Python、JavaScript、TypeScript、Go、Rust、Java、C++にわたる強力なパフォーマンス。単一言語ではDeepSeek Coderほど特化していませんが、より多才です。
M2.5が劣る点
-
クリエイティブライティング: M2.5は生産性のために学習されており、文章表現のためではありません。クリエイティブタスク、ストーリーテリング、マーケティングコピーは平凡です。クリエイティブコンテンツにはQwenまたはDoubaoを使用してください。
-
一般的な知識: モデルの学習データはコードと技術文書を重視しています。幅広い一般知識の質問には、GPT-5.2やClaudeの方が優れています。
-
非英語言語: M2.5は中国語と英語を適切に処理しますが、他の言語(日本語、韓国語、ヨーロッパ言語)では品質が低下します。汎用多言語モデルではありません。
M2.5 vs 競合
| タスクタイプ | 最適なモデル | 理由 | |-----------|-----------|-----| | 自律コーディングエージェント | MiniMax M2.5 | エージェントファースト設計、80.2% SWE-Bench | | コスト効率の高いコーディング | DeepSeek V4 Flash | $0.25/M、良好な品質 | | 中国語クリエイティブライティング | Doubao Seed 2.0 Pro | 最高の中国語文章品質 | | 一般推論 | DeepSeek V4 Pro | 最強の全般的推論 | | マルチモーダルタスク | Kimi K2.5またはDoubao Seed 2.0 Pro | ネイティブ画像理解 | | 長時間エージェント | GLM-5.1またはMiniMax M2.5 | 持続的なマルチステップパフォーマンス |
FAQ
Q: MiniMax M2.5はオープンソースですか? はい。ウェイトはオープンソースライセンスの下で公開されており、MiniMaxの公式チャンネルからダウンロードできます。インフラを管理せずにGlobal APIを通じてM2.5にアクセスすることもできます。
Q: 実際のコンテキストウィンドウは? 204,800トークン(200K)です。ほとんどの本番コードベースを単一のコンテキストウィンドウに収めるのに十分な大きさです。市場最大ではありませんが(Llama 4 Scoutは10M、Gemini 2.5は1Mをサポート)、M2.5はほとんどのモデルよりも効率的にコンテキストを活用します。
Q: M2.5はGitHub Copilotと比べてどうですか? 異なる製品カテゴリです。CopilotはIDE統合の自動補完ツールです。M2.5は自律エージェントを構築できるモデルであり、人間の介在なしにマルチファイルリファクタリング、バグ調査、テスト生成を処理します。エージェントワークフローでは、M2.5の方がはるかに有能です。
Q: M2.5はファンクションコーリングをサポートしていますか? はい。Global APIのOpenAI互換エンドポイントを通じて、M2.5はネイティブツールコーリングと構造化JSON出力の両方をサポートしています。
Q: M2.5をファインチューニングできますか? はい、オープンソースのウェイトによりファインチューニングが可能です。これはM2.5を組織のコーディング規約、内部ライブラリ、特定のワークフローに適応させるのに価値があります。
評決:最高のオープンソースコーディングエージェント
MiniMax M2.5は、2026年5月現在、自律コーディングエージェントにとって最も有能なオープンソースモデルです。80.2%のSWE-Bench Verifiedスコア、200Kコンテキストウィンドウ、エージェントファーストのForgeRL学習により、AI駆動の開発ツールを構築する開発者に独自に適しています。
100万トークンあたり$1.15 — GLM-5.1の半分以下、GPT-5.2の3分の1 — で、M2.5はミッドティアの価格で最先端のエージェント能力を提供します。コーディングアシスタント、自動リファクタリングツール、CI/CD統合エージェントを構築するチームにとって、M2.5は最初に評価すべきモデルです。
クリエイティブライティング、一般チャット、マルチモーダルアプリケーションには最適ではありません。しかし、その意図されたユースケースである自律ソフトウェアエンジニアリングにおいては、オープンソースでこれに匹敵するものはありません。
Global APIでMiniMax M2.5にアクセスする
MiniMax M2.5は現在Global APIを通じて利用可能で、DeepSeek、Qwen、Kimi、GLMを含む180以上のモデルと共に、単一のOpenAI互換エンドポイントからアクセスできます。
Global APIにサインアップ — 100クレジットの無料枠で、自身のコードベースでM2.5のエージェント能力をテストできます。クレジットカード不要。
**180以上の全モデルを閲覧**して、開発ワークフローに最適なマルチモデル戦略を構築してください。