Hermes Agent 本身不内置大模型,它只是一个框架——真正决定它聪不聪明、快不快、贵不贵的,是你配的那个 LLM。

国内用得最多的三个选择:DeepSeek V3.2Qwen3-Max(阿里云百炼)、Kimi K2.6(月之暗面)。三个都支持工具调用,三个都有中文能力,但适合的场景完全不同。

这篇文章基于 2026 年 5 月当前的 API 定价和实测数据,告诉你各用什么情况下选哪个,以及怎么在 Hermes Agent 里切换。

注意:月之暗面已公告 Kimi K2 系列将于 2026 年 5 月 25 日正式停服。本文覆盖接班的 Kimi K2.6,如果你还在用旧版,请尽快迁移。


先看定价,心里有数

模型输入(每百万 token)输出(每百万 token)上下文窗口
DeepSeek V3.2$0.28$0.42164K
Kimi K2.6$0.95$4.00262K
Qwen3-Max¥8.81(约 $1.2)¥44.03(约 $6.0)252K

一个参考数字:Hermes Agent 日常使用,一次有工具调用的对话大约消耗 2000-5000 token(输入+输出合计)。按每月 1000 次对话估算:

  • DeepSeek V3.2:约 ¥5-10/月
  • Kimi K2.6:约 ¥35-70/月
  • Qwen3-Max:约 ¥80-180/月

成本差距相当大。Qwen3-Max 的价格是 DeepSeek V3.2 的 15-20 倍。


三个模型的核心差异

DeepSeek V3.2:全能底座,价格碾压

DeepSeek V3.2 是目前「性价比最高」的选择,几乎没有争议。

优势

  • 价格最低,Token 消耗成本只有竞品的 1/15 到 1/5
  • 工具调用能力强,V3.2 是第一个把 thinking 直接整合进工具调用流程的 DeepSeek 模型——Agent 在调用工具时也能做推理
  • 响应速度快,官方 API 可达 60 token/秒以上,第三方提供商最快可到 199 token/秒
  • 中文质量优秀,DeepSeek 本就是国内团队训练,中文 instruction following 没问题

适合的 Hermes Agent 场景

  • 日常 Telegram Bot 对话
  • 定时任务(RSS 摘要、竞品监控)
  • 大多数自动化工作流
  • 想控制成本的个人用户

缺陷

  • 代码生成任务在复杂度很高时(比如多文件项目、长链路调试)不如 Kimi K2.6
  • 极长文档处理(超过 100K token)时稳定性不如 Qwen3-Max

Kimi K2.6:Agent 专项,擅长写代码

Kimi K2.6 是月之暗面专门针对 Agent 和代码任务打造的模型,这不是宣传语——它的基准测试分数证明了这一点:

  • SWE-Bench Pro(真实代码修复):58.6%,超过 GPT-5.4 的 57.7%
  • Terminal-Bench 2.0(终端操作 Agent):66.7%,比上代 K2.5 提升了 16 个百分点
  • BrowseComp(浏览器 Agent):86.3%

更重要的是,K2.6 在架构层面就是为多 Agent 协作设计的——支持最多 300 个 Sub-Agent 并行、4000 步协调操作。如果你在用 Hermes Agent v0.13.0 的 Multi-Agent Kanban 功能,K2.6 是天然搭档。

适合的 Hermes Agent 场景

  • 让 Agent 帮你写代码、改 bug、做代码 Review
  • 使用 Multi-Agent Kanban 拆分复杂任务
  • 需要 Agent 操作浏览器、执行多步复杂工作流

缺陷

  • 价格是 DeepSeek 的 3-10 倍
  • 纯中文对话任务上并没有比 DeepSeek 强多少,高价不值得
  • K2 系列旧版本将于 5 月 25 日停服,已有配置需迁移到 K2.6

Qwen3-Max:超长文档,中文写作

Qwen3-Max 是三个里面最贵的,也是争议最大的。它的优势集中在两个点:

252K 超长上下文:需要一次性处理一本书、几十份文档、或者超长对话历史时,Qwen3-Max 的长上下文处理稳定性是国内模型里最好的。

中文写作质量:在需要输出高质量中文长文(报告、文案、分析)的场景,Qwen3-Max 的语言流畅度确实比 DeepSeek 稍强。

适合的 Hermes Agent 场景

  • 处理长合同、长报告、大量文档摘要
  • 需要 Agent 输出高质量中文内容(比如文章生成、邮件撰写)
  • 企业用户,有合规要求(数据存储在国内阿里云)

缺陷

  • 价格高,普通 Vibe Coder 场景完全不值
  • 工具调用能力和 DeepSeek V3.2 持平甚至略弱,不是 Agent 专项模型
  • 响应速度 32.7 token/秒,三个里最慢

选哪个:一张决策表

我的主要用途推荐
日常 Bot 对话、定时任务、信息摘要DeepSeek V3.2
让 Agent 帮写代码、调试程序Kimi K2.6
Multi-Agent 复杂工作流Kimi K2.6
处理超长文档(>50K token)Qwen3-Max
高质量中文内容生成Qwen3-Max
预算有限,性价比优先DeepSeek V3.2

没想法?默认选 DeepSeek V3.2。它是这三个里最全能的,价格低到即使「选错了」也不心疼。


怎么在 Hermes Agent 里配置

编辑 ~/.hermes/config.yaml,找到 llm 部分:

DeepSeek V3.2

llm:
  provider: deepseek
  model: deepseek-chat
  api_key: "sk-你的DeepSeek API Key"

platform.deepseek.com 申请 API Key。国内直连,无需代理。


Kimi K2.6

llm:
  provider: openai
  model: moonshot-v1-kimi-k2.6
  api_key: "sk-你的Kimi API Key"
  base_url: "https://api.moonshot.cn/v1"

platform.moonshot.cn 申请 API Key。同样国内直连。

如果你之前配的是旧版 K2,把 model 字段改成 moonshot-v1-kimi-k2.6 就完成迁移了,其他字段不变。


Qwen3-Max(阿里云百炼)

llm:
  provider: openai
  model: qwen3-max
  api_key: "sk-你的百炼 API Key"
  base_url: "https://dashscope.aliyuncs.com/compatible-mode/v1"

bailian.console.aliyun.com 申请 API Key,选「通义千问」系列。


进阶:按任务类型切换模型

Hermes Agent v0.13.0 支持在任务级别覆盖默认模型配置。如果你想日常对话用便宜的 DeepSeek,但遇到代码任务自动切换到 Kimi K2.6,可以这样配:

llm:
  provider: deepseek
  model: deepseek-chat
  api_key: "sk-你的DeepSeek Key"

# 为特定技能覆盖模型
skills:
  code_review:
    llm:
      provider: openai
      model: moonshot-v1-kimi-k2.6
      api_key: "sk-你的Kimi Key"
      base_url: "https://api.moonshot.cn/v1"

配置完之后,普通对话走 DeepSeek,调用 code_review 技能时自动切换到 K2.6,成本和质量都兼顾。


一句话总结

  • 日常用:DeepSeek V3.2,最便宜,够用,不纠结
  • 写代码:Kimi K2.6,Agent 专项,真的比较强
  • 长文档:Qwen3-Max,价格贵但长上下文稳

别折腾太多——先用 DeepSeek V3.2 跑起来,真碰到它处理不好的具体任务,再考虑换。


数据来源:DeepSeek API 官方文档、Kimi API 平台定价页(2026 年 5 月)、阿里云百炼定价页、Artificial Analysis 基准测试(2026 年 5 月)。价格以 2026 年 5 月实际公布价格为准,后续可能调整。