Grout 的博客 - 我同时跑五个 AI Agent 的真实体验：Hermes、Claude Code、Cursor、Codex、OpenClaw

最近一个月，我的开发环境里同时跑着五个 AI 工具：Hermes Agent、Claude Code、Cursor、OpenAI Codex CLI、OpenClaw。

不是赶时髦，是刻意试验——想看看每个工具擅长什么、什么场景该用哪个、怎么搭配才能让产出真正飞起来。

一个月跑下来，最大的结论跟大多数 AI 宣传的"取代开发者"完全相反：AI 不是取代开发的，而是和开发者联合起来、像结对编程一样协作的。 只不过搭档换成了 AI。

对于小项目和功能原型，用 skill 或 plugin 约束住 AI，让它全流程走完，也是最有效的验证方式——尤其在你还不确定方向、甚至不懂代码的时候。

这篇文章不讲概念，只说实操——五个工具的分工、配合方式、实际体感和踩过的坑。

一张表说清五个工具的分工

工具	定位	我用来做什么	交互方式
Hermes Agent	全功能 AI 执行体	博客文章写作、VPS 运维、本机自动化任务	终端 CLI，持续对话
Claude Code	编码搭档	项目代码开发：出方案、搭骨架、写业务逻辑	终端 CLI，按需启动
Cursor	AI IDE	日常编码、即时补全、内联修改、文件级重构	编辑器内嵌，实时
Codex CLI	沙箱式编码代理	快速原型、独立功能模块、验证性开发	终端 CLI，独立会话
OpenClaw	后台消息代理	邮件处理、日历、WhatsApp/Telegram 渠道整合	常驻后台 Daemon

下面按使用频率，挨个说。

Hermes Agent：我的"副驾"

Hermes 是我用得最多的，日常对话式协作。

写博客。 就是你现在正在读的这篇文章。我给它主题和素材，它出初稿，我改，它再调，我确认，它发。流程走熟了很快——今天的生活感悟类文章从定主题到发布一两个小时。关键决策在我手里：方向我定，内容我审，最终发布我拍板。

维护 VPS。 博客搭在香港一台 VPS 上，Hermes 帮我检查证书状态、跑构建、部署更新。直接 SSH 上去干活，我只需要确认"发"或"不发"。省掉了每次手动 scp、ssh、zola build、cp 那些重复动作。

办公自动化。 文件整理、重命名、配置修改这些零碎事，一句话丢给它——省掉打开文件管理器的时间。

知识库 AI 汇总。 不再自己维护代码库和知识库了——让 AI 来做。阅读材料、技术文档、会议记录、调研笔记，全部丢给 Hermes 让它总结、归类、按需提取。需要什么直接问，不需要自己建索引、打标签、维护目录结构。知识管理的成本从此降到零，取用效率反而更高。

关键字：持续对话、杂务全能、审批流前置。

Claude Code：项目开发的搭档

Claude Code 在我的工作流里定位最明确——项目代码开发的搭档。

我接一个项目任务时，流程是这样的：

我自己先想清楚要做什么——需求、边界、技术选型自己定
让 Claude Code 出方案——描述需求，它出架构设计和实现步骤
它写大部分流程代码和业务逻辑——骨架和常见模式由它完成
核心部分自己动手——关键算法、敏感逻辑、决策点，自己手写
让它做代码审查和优化——写完后丢给它检查漏洞和可改进的地方

这个流程和"让 AI 写全部代码"最大的区别在第 4 步。核心逻辑必须自己写。 不是信不过 AI，而是只有自己亲手写过的东西，你才会真正理解它、能调试它、敢上线它。

我试过全交给 AI 写的模式——结果出了 bug 根本不知道怎么查。因为你连代码的上下文都不熟，出问题了无从下手。

但如果是一个小功能或独立模块呢？那就让 AI 全做。用 skill 或 plugin 约束好它的输出格式、编码规范、测试要求，然后放手让它跑完全流程。这在不确定方向的时候尤其有用——不懂开发的人也可以用这种方式快速验证想法，代价低、周期短。

Cursor：日常编码的即时搭档

Cursor 的定位和前面两个不一样——它不是一个需要你"叫出来"的工具，而是嵌在编辑器里，随时在线的搭档。

日常编码时，最频繁的场景是：

写一段逻辑，按 Tab 自动补全
选中一段代码，按 Ctrl+K 告诉它改成什么
鼠标悬停，看 AI 解释这段代码在干什么
重构时，直接框选让它提取函数、优化结构

这些操作不打断心流。不像 Claude Code 或 Codex 那样需要开一个独立对话窗口，Cursor 的 AI 就在你写代码的地方，用它的方式参与你的编码过程。

它不擅长的是做大范围的方案设计和重写——毕竟是文件级别的上下文，视野不如完整对话模式的 Agent。但在"正在写代码的那个瞬间"，它是最自然的搭档。

Codex CLI：沙箱里的快速实验

OpenAI Codex CLI 是最近才加入的。它的特点是每次启动一个独立的沙箱环境，不会污染现有项目。

我主要用它来做两件事：

快速验证思路。 "这个 API 能不能这么调？""那种算法在这种数据量下性能如何？"——开一个 Codex 会话，几分钟出结果，不碰现有代码。
独立功能模块。 一个工具函数、一个数据清洗脚本、一个爬虫——这种有明确边界的小东西，丢给 Codex 闭门写完，测试通过后搬进项目。

对比起来，Claude Code 更像"长期搭档"，Codex CLI 更像"临时外包工"——活干完，成果交出来，就行。

OpenClaw：常驻后台的联络员

OpenClaw 装得最晚，主要用于消息渠道整合——它支持 WhatsApp、Telegram、Signal、Discord、Slack 等二十多种渠道。我把它配成后台服务跑着，处理异步通知和简单的查询。

它补上了"被动响应"这块拼图。Hermes 和 Claude Code 是我主动叫出来干活的，OpenClaw 是可以随时丢个消息过去就处理的——模式完全不同。

"程序+AI"结对编程

回头看我这五个工具的使用方式，本质上都是一种模式：结对编程，只是搭档换成了 AI。

传统的结对开发是两个人坐在一起，一个人写、一个人看，交替角色。现在的"程序+AI"结对是：

角色	程序（我）	AI
关键决策	需求定方向、技术选型、核心逻辑	—
方案设计	评审、调整	出初始方案
编码	核心部分手写	骨架、重复代码、测试
审查	最终把关	初步检查、优化建议
运维	监控、判断	执行重复操作
快速验证	设定约束条件	全流程独立完成

注意最后一行：对于小项目和功能原型，设定好 skill/plugin 约束（输出格式、编码规范、安全规则），让 AI 全流程独立完成，是最高效的验证方式。 这在不熟悉技术方向或非开发者做初期验证时尤其有价值——成本极低、周期极短、方向对了再投入正经开发。

两个经验和一条原则

经验一：模型选择影响体验极大。 我换过 Gemma 本地模型、DeepSeek 在线模型，速度和质量差异很明显。目前主力用 DeepSeek V4 Flash，平衡了速度和效果。这不是广告——不同工具有它适合的模型，不需要所有工具都用同一个模型。

经验二：AI 输出不能无脑信。 前两周 Claude Code 写的代码，看起来没问题，上线后才发现有个隐藏的 race condition——好在是开发环境。无论哪个工具，最终审核权必须在自己手里。

核心原则：AI 不是取代开发，是让开发飞起来。

五个工具各有分工，但有一条线贯穿始终：我始终是自己项目的 owners。 AI 帮我写更快、改更快、查更快，但决策、判断、核心能力，必须在自己手里。

这不是保守，是务实。把 30% 的重复劳动交给 AI，把 70% 的精力放在真正有价值的事情上——这才是现阶段 AI 工具最正确的用法。

原文发表于 cn-res.vip，没有版权自由转载。标明出处非常感谢，删了也没事。

Contents