Hermes Agent 本身不内置大模型,它只是一个框架——真正决定它聪不聪明、快不快、贵不贵的,是你配的那个 LLM。
国内用得最多的三个选择:DeepSeek V3.2、Qwen3-Max(阿里云百炼)、Kimi K2.6(月之暗面)。三个都支持工具调用,三个都有中文能力,但适合的场景完全不同。
这篇文章基于 2026 年 5 月当前的 API 定价和实测数据,告诉你各用什么情况下选哪个,以及怎么在 Hermes Agent 里切换。
注意:月之暗面已公告 Kimi K2 系列将于 2026 年 5 月 25 日正式停服。本文覆盖接班的 Kimi K2.6,如果你还在用旧版,请尽快迁移。
先看定价,心里有数
| 模型 | 输入(每百万 token) | 输出(每百万 token) | 上下文窗口 |
|---|---|---|---|
| DeepSeek V3.2 | $0.28 | $0.42 | 164K |
| Kimi K2.6 | $0.95 | $4.00 | 262K |
| Qwen3-Max | ¥8.81(约 $1.2) | ¥44.03(约 $6.0) | 252K |
一个参考数字:Hermes Agent 日常使用,一次有工具调用的对话大约消耗 2000-5000 token(输入+输出合计)。按每月 1000 次对话估算:
- DeepSeek V3.2:约 ¥5-10/月
- Kimi K2.6:约 ¥35-70/月
- Qwen3-Max:约 ¥80-180/月
成本差距相当大。Qwen3-Max 的价格是 DeepSeek V3.2 的 15-20 倍。
三个模型的核心差异
DeepSeek V3.2:全能底座,价格碾压
DeepSeek V3.2 是目前「性价比最高」的选择,几乎没有争议。
优势:
- 价格最低,Token 消耗成本只有竞品的 1/15 到 1/5
- 工具调用能力强,V3.2 是第一个把 thinking 直接整合进工具调用流程的 DeepSeek 模型——Agent 在调用工具时也能做推理
- 响应速度快,官方 API 可达 60 token/秒以上,第三方提供商最快可到 199 token/秒
- 中文质量优秀,DeepSeek 本就是国内团队训练,中文 instruction following 没问题
适合的 Hermes Agent 场景:
- 日常 Telegram Bot 对话
- 定时任务(RSS 摘要、竞品监控)
- 大多数自动化工作流
- 想控制成本的个人用户
缺陷:
- 代码生成任务在复杂度很高时(比如多文件项目、长链路调试)不如 Kimi K2.6
- 极长文档处理(超过 100K token)时稳定性不如 Qwen3-Max
Kimi K2.6:Agent 专项,擅长写代码
Kimi K2.6 是月之暗面专门针对 Agent 和代码任务打造的模型,这不是宣传语——它的基准测试分数证明了这一点:
- SWE-Bench Pro(真实代码修复):58.6%,超过 GPT-5.4 的 57.7%
- Terminal-Bench 2.0(终端操作 Agent):66.7%,比上代 K2.5 提升了 16 个百分点
- BrowseComp(浏览器 Agent):86.3%
更重要的是,K2.6 在架构层面就是为多 Agent 协作设计的——支持最多 300 个 Sub-Agent 并行、4000 步协调操作。如果你在用 Hermes Agent v0.13.0 的 Multi-Agent Kanban 功能,K2.6 是天然搭档。
适合的 Hermes Agent 场景:
- 让 Agent 帮你写代码、改 bug、做代码 Review
- 使用 Multi-Agent Kanban 拆分复杂任务
- 需要 Agent 操作浏览器、执行多步复杂工作流
缺陷:
- 价格是 DeepSeek 的 3-10 倍
- 纯中文对话任务上并没有比 DeepSeek 强多少,高价不值得
- K2 系列旧版本将于 5 月 25 日停服,已有配置需迁移到 K2.6
Qwen3-Max:超长文档,中文写作
Qwen3-Max 是三个里面最贵的,也是争议最大的。它的优势集中在两个点:
252K 超长上下文:需要一次性处理一本书、几十份文档、或者超长对话历史时,Qwen3-Max 的长上下文处理稳定性是国内模型里最好的。
中文写作质量:在需要输出高质量中文长文(报告、文案、分析)的场景,Qwen3-Max 的语言流畅度确实比 DeepSeek 稍强。
适合的 Hermes Agent 场景:
- 处理长合同、长报告、大量文档摘要
- 需要 Agent 输出高质量中文内容(比如文章生成、邮件撰写)
- 企业用户,有合规要求(数据存储在国内阿里云)
缺陷:
- 价格高,普通 Vibe Coder 场景完全不值
- 工具调用能力和 DeepSeek V3.2 持平甚至略弱,不是 Agent 专项模型
- 响应速度 32.7 token/秒,三个里最慢
选哪个:一张决策表
| 我的主要用途 | 推荐 |
|---|---|
| 日常 Bot 对话、定时任务、信息摘要 | DeepSeek V3.2 |
| 让 Agent 帮写代码、调试程序 | Kimi K2.6 |
| Multi-Agent 复杂工作流 | Kimi K2.6 |
| 处理超长文档(>50K token) | Qwen3-Max |
| 高质量中文内容生成 | Qwen3-Max |
| 预算有限,性价比优先 | DeepSeek V3.2 |
没想法?默认选 DeepSeek V3.2。它是这三个里最全能的,价格低到即使「选错了」也不心疼。
怎么在 Hermes Agent 里配置
编辑 ~/.hermes/config.yaml,找到 llm 部分:
DeepSeek V3.2
llm:
provider: deepseek
model: deepseek-chat
api_key: "sk-你的DeepSeek API Key"
在 platform.deepseek.com 申请 API Key。国内直连,无需代理。
Kimi K2.6
llm:
provider: openai
model: moonshot-v1-kimi-k2.6
api_key: "sk-你的Kimi API Key"
base_url: "https://api.moonshot.cn/v1"
在 platform.moonshot.cn 申请 API Key。同样国内直连。
如果你之前配的是旧版 K2,把
model字段改成moonshot-v1-kimi-k2.6就完成迁移了,其他字段不变。
Qwen3-Max(阿里云百炼)
llm:
provider: openai
model: qwen3-max
api_key: "sk-你的百炼 API Key"
base_url: "https://dashscope.aliyuncs.com/compatible-mode/v1"
在 bailian.console.aliyun.com 申请 API Key,选「通义千问」系列。
进阶:按任务类型切换模型
Hermes Agent v0.13.0 支持在任务级别覆盖默认模型配置。如果你想日常对话用便宜的 DeepSeek,但遇到代码任务自动切换到 Kimi K2.6,可以这样配:
llm:
provider: deepseek
model: deepseek-chat
api_key: "sk-你的DeepSeek Key"
# 为特定技能覆盖模型
skills:
code_review:
llm:
provider: openai
model: moonshot-v1-kimi-k2.6
api_key: "sk-你的Kimi Key"
base_url: "https://api.moonshot.cn/v1"
配置完之后,普通对话走 DeepSeek,调用 code_review 技能时自动切换到 K2.6,成本和质量都兼顾。
一句话总结
- 日常用:DeepSeek V3.2,最便宜,够用,不纠结
- 写代码:Kimi K2.6,Agent 专项,真的比较强
- 长文档:Qwen3-Max,价格贵但长上下文稳
别折腾太多——先用 DeepSeek V3.2 跑起来,真碰到它处理不好的具体任务,再考虑换。
数据来源:DeepSeek API 官方文档、Kimi API 平台定价页(2026 年 5 月)、阿里云百炼定价页、Artificial Analysis 基准测试(2026 年 5 月)。价格以 2026 年 5 月实际公布价格为准,后续可能调整。