openclaw适配的大模型评测排名

摘要生成中

AI生成，仅供参考

OpenClaw 创始人 Peter Steinberger 昨天更新了一份模型评测报告。他用成功率、速度、费用三个维度，测试了 32 个主流大模型，看看哪个最适合 OpenClaw 这类 AI 编码工具。
这份评测来得很及时。现在模型越来越多，参数越来越卷，但真正用起来哪个好用，往往要试错很多次才能知道。Peter 的报告省了不少弯路。
成功率：第一优先级
对于 AI 编码工具来说，成功率就是一切。代码生成错了，再快再便宜也没用。
成功率排名前五的模型：
google/gemini-3-flash-preview 第一。Google 这款轻量级模型在代码任务上表现很强。
minimax/minimax-m2.1 第二。这个结果挺意外的。MiniMax 的 m2.5 反而垫底，成功率只有 35.5%。m2.1 虽然版本号更小，但更稳定。
moonshotai/kimi-k2.5 第三。月之暗面的 Kimi 这次表现不错。
anthropic/claude-sonnet-4.5 第四。Claude 系列一直是代码领域的强手。
google/gemini-3-pro-preview 第五。Google 的 Pro 系列也进了前五。
其他上榜的模型：
阿里的 qwen/qwen3-coder-next 排第 10。智谱的 z-ai/glm-4.5-air 排第 11。深度求索的 deepseek/deepseek-v3.2 排第 15。
MiniMax 的 m2.5 和 m2.1 差别很大。m2.5 版本号更新，但成功率只有 35.5%。m2.1 反而排第二。新不一定更好，选模型还是要看实测数据。
速度：体验的关键
成功率决定能不能用，速度决定好不好用。没人愿意等半天等 AI 生成代码。
速度前五：
minimax/minimax-m2.5 第一。虽然成功率垫底，但速度确实是优势。 google/gemini-2.0-flash 第二。Flash 系列主打速度，符合预期。 meta-llama/llama-3.1-70b 第三。Llama 的响应速度一直不错。 google/gemini-1.5-pro 第四。Pro 版本速度也在前列。 mistral/mistral-large 第五。
问题来了：速度快的模型，成功率往往不高。高成功率的模型速度怎么样？
成功率前五的速度排名：
gemini-3-pro-preview 第 21 minimax-m2.1 第 22 gemini-3-flash-preview 第 25 kimi-k2.5 第 27 claude-sonnet-4.5 第 28
基本都在后半段。高成功率的模型，速度普遍不占优势。
这是个需要权衡的选择。如果项目对速度要求极高，可能要牺牲一些成功率。但对于代码生成，正确率应该是第一优先级。
费用：长期使用的考量
长期使用 AI 工具，成本会积少成多。
费用前五（从低到高）：
openai/gpt-5-nano 最便宜 google/gemini-2.5-flash-lite 第二 mistralai/devstral-2512 第三 openai/gpt-4o-mini 第四 minimax/minimax-m2.1 第五
minimax-m2.1 同时进了成功率前五和费用前五。这是很重要的发现。
其他高成功率模型的费用：
kimi-k2.5 排第 8，费用也很低 gemini-3-flash-preview 排第 13 gemini-3-pro-preview 排第 16 claude-sonnet-4.5 排第 18 Kimi-k2.5 费用排第 8，成功率排第 3，平衡得不错。
综合建议：怎么选？
看完三个维度的数据，建议很明确。
第一顺位：minimax/minimax-m2.1
综合表现最好。成功率第 2，费用第 5，速度第 22。对于代码生成，成功率的重要性远高于速度。m2.1 在核心指标上双双前五。
Peter 评测时也说”看到这个的时候我就已经知道第一顺位要选哪个模型了”。m2.1 确实比想象中能打。
第二选择：moonshotai/kimi-k2.5
成功率第 3，费用第 8，速度第 27。没有 m2.1 那么均衡，但在成功率和费用上都保持前列，稳定可靠。
质量追求者：anthropic/claude-sonnet-4.5
如果你对代码质量要求极高，不在意费用和速度，可以选 Claude Sonnet 4.5。Anthropic 的模型在代码质量和安全性上有保障。
Google 用户：gemini-3 系列
如果你已经深度使用 Google 生态，gemini-3-flash-preview（成功率第 1，费用第 13）和 gemini-3-pro-preview（成功率第 5，费用第 16）都是不错的选择。
避坑提醒：minimax/minimax-m2.5
m2.5 速度最快，但成功率只有 35.5%，基本垫底。除非真的需要极速响应，否则不建议使用。
数据来源
评测数据来自 pinchbench.com，专门测试 AI 模型在代码任务上的表现。