openclaw适配的大模型评测排名

摘要生成中
AI生成,仅供参考

OpenClaw 创始人 Peter Steinberger 昨天更新了一份模型评测报告。他用成功率、速度、费用三个维度,测试了 32 个主流大模型,看看哪个最适合 OpenClaw 这类 AI 编码工具。
这份评测来得很及时。现在模型越来越多,参数越来越卷,但真正用起来哪个好用,往往要试错很多次才能知道。Peter 的报告省了不少弯路。
成功率:第一优先级
对于 AI 编码工具来说,成功率就是一切。代码生成错了,再快再便宜也没用。
成功率排名前五的模型:
google/gemini-3-flash-preview 第一。Google 这款轻量级模型在代码任务上表现很强。
minimax/minimax-m2.1 第二。这个结果挺意外的。MiniMax 的 m2.5 反而垫底,成功率只有 35.5%。m2.1 虽然版本号更小,但更稳定。
moonshotai/kimi-k2.5 第三。月之暗面的 Kimi 这次表现不错。
anthropic/claude-sonnet-4.5 第四。Claude 系列一直是代码领域的强手。
google/gemini-3-pro-preview 第五。Google 的 Pro 系列也进了前五。
其他上榜的模型:
阿里的 qwen/qwen3-coder-next 排第 10。智谱的 z-ai/glm-4.5-air 排第 11。深度求索的 deepseek/deepseek-v3.2 排第 15。
MiniMax 的 m2.5 和 m2.1 差别很大。m2.5 版本号更新,但成功率只有 35.5%。m2.1 反而排第二。新不一定更好,选模型还是要看实测数据。
速度:体验的关键
成功率决定能不能用,速度决定好不好用。没人愿意等半天等 AI 生成代码。
速度前五:
minimax/minimax-m2.5 第一。虽然成功率垫底,但速度确实是优势。
google/gemini-2.0-flash 第二。Flash 系列主打速度,符合预期。
meta-llama/llama-3.1-70b 第三。Llama 的响应速度一直不错。
google/gemini-1.5-pro 第四。Pro 版本速度也在前列。
mistral/mistral-large 第五

问题来了:速度快的模型,成功率往往不高。高成功率的模型速度怎么样?
成功率前五的速度排名:
gemini-3-pro-preview 第 21
minimax-m2.1 第 22
gemini-3-flash-preview 第 25
kimi-k2.5 第 27
claude-sonnet-4.5 第 28

基本都在后半段。高成功率的模型,速度普遍不占优势。
这是个需要权衡的选择。如果项目对速度要求极高,可能要牺牲一些成功率。但对于代码生成,正确率应该是第一优先级。
费用:长期使用的考量
长期使用 AI 工具,成本会积少成多。
费用前五(从低到高):
openai/gpt-5-nano 最便宜
google/gemini-2.5-flash-lite 第二
mistralai/devstral-2512 第三
openai/gpt-4o-mini 第四
minimax/minimax-m2.1 第五

minimax-m2.1 同时进了成功率前五和费用前五。这是很重要的发现。
其他高成功率模型的费用:
kimi-k2.5 排第 8,费用也很低
gemini-3-flash-preview 排第 13
gemini-3-pro-preview 排第 16
claude-sonnet-4.5 排第 18
Kimi-k2.5 费用排第 8,成功率排第 3,平衡得不错

综合建议:怎么选?
看完三个维度的数据,建议很明确。
第一顺位:minimax/minimax-m2.1
综合表现最好。成功率第 2,费用第 5,速度第 22。对于代码生成,成功率的重要性远高于速度。m2.1 在核心指标上双双前五。
Peter 评测时也说”看到这个的时候我就已经知道第一顺位要选哪个模型了”。m2.1 确实比想象中能打。
第二选择:moonshotai/kimi-k2.5
成功率第 3,费用第 8,速度第 27。没有 m2.1 那么均衡,但在成功率和费用上都保持前列,稳定可靠。
质量追求者:anthropic/claude-sonnet-4.5
如果你对代码质量要求极高,不在意费用和速度,可以选 Claude Sonnet 4.5。Anthropic 的模型在代码质量和安全性上有保障。
Google 用户:gemini-3 系列
如果你已经深度使用 Google 生态,gemini-3-flash-preview(成功率第 1,费用第 13)和 gemini-3-pro-preview(成功率第 5,费用第 16)都是不错的选择。
避坑提醒:minimax/minimax-m2.5
m2.5 速度最快,但成功率只有 35.5%,基本垫底。除非真的需要极速响应,否则不建议使用。
数据来源
评测数据来自 pinchbench.com,专门测试 AI 模型在代码任务上的表现。

openclaw适配的大模型评测排名

6人评论了“openclaw适配的大模型评测排名”

回复 NocturnalEdge 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

滚动至顶部
💬 咨询
联系我们
🤖AI问答
📞电话
16506006663
💬 微信
微信二维码
萱焱客服:小焱