我同时跑五个 AI Agent 的真实体验:Hermes、Claude Code、Cursor、Codex、OpenClaw
最近一个月,我的开发环境里同时跑着五个 AI 工具:Hermes Agent、Claude Code、Cursor、OpenAI Codex CLI、OpenClaw。
不是赶时髦,是刻意试验——想看看每个工具擅长什么、什么场景该用哪个、怎么搭配才能让产出真正飞起来。
一个月跑下来,最大的结论跟大多数 AI 宣传的"取代开发者"完全相反:AI 不是取代开发的,而是和开发者联合起来、像结对编程一样协作的。 只不过搭档换成了 AI。
对于小项目和功能原型,用 skill 或 plugin 约束住 AI,让它全流程走完,也是最有效的验证方式——尤其在你还不确定方向、甚至不懂代码的时候。
这篇文章不讲概念,只说实操——五个工具的分工、配合方式、实际体感和踩过的坑。
一张表说清五个工具的分工
| 工具 | 定位 | 我用来做什么 | 交互方式 |
|---|---|---|---|
| Hermes Agent | 全功能 AI 执行体 | 博客文章写作、VPS 运维、本机自动化任务 | 终端 CLI,持续对话 |
| Claude Code | 编码搭档 | 项目代码开发:出方案、搭骨架、写业务逻辑 | 终端 CLI,按需启动 |
| Cursor | AI IDE | 日常编码、即时补全、内联修改、文件级重构 | 编辑器内嵌,实时 |
| Codex CLI | 沙箱式编码代理 | 快速原型、独立功能模块、验证性开发 | 终端 CLI,独立会话 |
| OpenClaw | 后台消息代理 | 邮件处理、日历、WhatsApp/Telegram 渠道整合 | 常驻后台 Daemon |
下面按使用频率,挨个说。
Hermes Agent:我的"副驾"
Hermes 是我用得最多的,日常对话式协作。
写博客。 就是你现在正在读的这篇文章。我给它主题和素材,它出初稿,我改,它再调,我确认,它发。流程走熟了很快——今天的生活感悟类文章从定主题到发布一两个小时。关键决策在我手里:方向我定,内容我审,最终发布我拍板。
维护 VPS。 博客搭在香港一台 VPS 上,Hermes 帮我检查证书状态、跑构建、部署更新。直接 SSH 上去干活,我只需要确认"发"或"不发"。省掉了每次手动 scp、ssh、zola build、cp 那些重复动作。
办公自动化。 文件整理、重命名、配置修改这些零碎事,一句话丢给它——省掉打开文件管理器的时间。
知识库 AI 汇总。 不再自己维护代码库和知识库了——让 AI 来做。阅读材料、技术文档、会议记录、调研笔记,全部丢给 Hermes 让它总结、归类、按需提取。需要什么直接问,不需要自己建索引、打标签、维护目录结构。知识管理的成本从此降到零,取用效率反而更高。
关键字:持续对话、杂务全能、审批流前置。
Claude Code:项目开发的搭档
Claude Code 在我的工作流里定位最明确——项目代码开发的搭档。
我接一个项目任务时,流程是这样的:
- 我自己先想清楚要做什么——需求、边界、技术选型自己定
- 让 Claude Code 出方案——描述需求,它出架构设计和实现步骤
- 它写大部分流程代码和业务逻辑——骨架和常见模式由它完成
- 核心部分自己动手——关键算法、敏感逻辑、决策点,自己手写
- 让它做代码审查和优化——写完后丢给它检查漏洞和可改进的地方
这个流程和"让 AI 写全部代码"最大的区别在第 4 步。核心逻辑必须自己写。 不是信不过 AI,而是只有自己亲手写过的东西,你才会真正理解它、能调试它、敢上线它。
我试过全交给 AI 写的模式——结果出了 bug 根本不知道怎么查。因为你连代码的上下文都不熟,出问题了无从下手。
但如果是一个小功能或独立模块呢?那就让 AI 全做。用 skill 或 plugin 约束好它的输出格式、编码规范、测试要求,然后放手让它跑完全流程。这在不确定方向的时候尤其有用——不懂开发的人也可以用这种方式快速验证想法,代价低、周期短。
Cursor:日常编码的即时搭档
Cursor 的定位和前面两个不一样——它不是一个需要你"叫出来"的工具,而是嵌在编辑器里,随时在线的搭档。
日常编码时,最频繁的场景是:
- 写一段逻辑,按 Tab 自动补全
- 选中一段代码,按 Ctrl+K 告诉它改成什么
- 鼠标悬停,看 AI 解释这段代码在干什么
- 重构时,直接框选让它提取函数、优化结构
这些操作不打断心流。不像 Claude Code 或 Codex 那样需要开一个独立对话窗口,Cursor 的 AI 就在你写代码的地方,用它的方式参与你的编码过程。
它不擅长的是做大范围的方案设计和重写——毕竟是文件级别的上下文,视野不如完整对话模式的 Agent。但在"正在写代码的那个瞬间",它是最自然的搭档。
Codex CLI:沙箱里的快速实验
OpenAI Codex CLI 是最近才加入的。它的特点是每次启动一个独立的沙箱环境,不会污染现有项目。
我主要用它来做两件事:
- 快速验证思路。 "这个 API 能不能这么调?""那种算法在这种数据量下性能如何?"——开一个 Codex 会话,几分钟出结果,不碰现有代码。
- 独立功能模块。 一个工具函数、一个数据清洗脚本、一个爬虫——这种有明确边界的小东西,丢给 Codex 闭门写完,测试通过后搬进项目。
对比起来,Claude Code 更像"长期搭档",Codex CLI 更像"临时外包工"——活干完,成果交出来,就行。
OpenClaw:常驻后台的联络员
OpenClaw 装得最晚,主要用于消息渠道整合——它支持 WhatsApp、Telegram、Signal、Discord、Slack 等二十多种渠道。我把它配成后台服务跑着,处理异步通知和简单的查询。
它补上了"被动响应"这块拼图。Hermes 和 Claude Code 是我主动叫出来干活的,OpenClaw 是可以随时丢个消息过去就处理的——模式完全不同。
"程序+AI"结对编程
回头看我这五个工具的使用方式,本质上都是一种模式:结对编程,只是搭档换成了 AI。
传统的结对开发是两个人坐在一起,一个人写、一个人看,交替角色。现在的"程序+AI"结对是:
| 角色 | 程序(我) | AI |
|---|---|---|
| 关键决策 | 需求定方向、技术选型、核心逻辑 | — |
| 方案设计 | 评审、调整 | 出初始方案 |
| 编码 | 核心部分手写 | 骨架、重复代码、测试 |
| 审查 | 最终把关 | 初步检查、优化建议 |
| 运维 | 监控、判断 | 执行重复操作 |
| 快速验证 | 设定约束条件 | 全流程独立完成 |
注意最后一行:对于小项目和功能原型,设定好 skill/plugin 约束(输出格式、编码规范、安全规则),让 AI 全流程独立完成,是最高效的验证方式。 这在不熟悉技术方向或非开发者做初期验证时尤其有价值——成本极低、周期极短、方向对了再投入正经开发。
两个经验和一条原则
经验一:模型选择影响体验极大。 我换过 Gemma 本地模型、DeepSeek 在线模型,速度和质量差异很明显。目前主力用 DeepSeek V4 Flash,平衡了速度和效果。这不是广告——不同工具有它适合的模型,不需要所有工具都用同一个模型。
经验二:AI 输出不能无脑信。 前两周 Claude Code 写的代码,看起来没问题,上线后才发现有个隐藏的 race condition——好在是开发环境。无论哪个工具,最终审核权必须在自己手里。
核心原则:AI 不是取代开发,是让开发飞起来。
五个工具各有分工,但有一条线贯穿始终:我始终是自己项目的 owners。 AI 帮我写更快、改更快、查更快,但决策、判断、核心能力,必须在自己手里。
这不是保守,是务实。把 30% 的重复劳动交给 AI,把 70% 的精力放在真正有价值的事情上——这才是现阶段 AI 工具最正确的用法。
原文发表于 cn-res.vip,没有版权自由转载。标明出处非常感谢,删了也没事。