2093 字
10 分钟
大模型时代:我的能力究竟是什么?

我从 GPT 5 时期开始重度依赖 AI coding,靠着 Linux.do 上的低价 team 号入了坑。后来接触反代,把 GPT 接入 Claude Code,体验有了质的提升。

2026 年 1 月末,我接触了 openclaw,同期买了 Claude Code Max——这是我第一次用 Claude。Claude 4.6 Opus 刷新了我的世界观。

♻️ refactor(mcp): Discussion about Tool vs Skill vs Plugin.

我和 Claude 围绕原本和 GPT 讨论出的那套架构做了一次完整重构,像在和资深架构师聊天。那是我第一次体会到”使用模型思考”的感觉——而使用模型代替思考,意味着我允许自己退出思考模式。

从审查中让位#

OpenClaw 接入 GitHub 后,Korewaxnne 替我做了大部分工作。起初只是提交 PR 和编写 PR message——我每天两三个 PR 的频率对 followers 来说是一种打扰。我开了新号来隔离,但逐渐形成了固定流程:Claude Code 写代码 → Korewaxnne 提 PR 并审查 → Claude Code 返修 → 我确认 CI 正常就 LGTM 合入。

长达四个月,我从审查代码中让位,这个偷懒是很严重的,这意味着,哪怕是我自己,也不能说自己完全了解自己的项目构成,以及,我也无法完全”信任”我的项目。大量代码只保证了功能正常、无静态语法错误、单测通过就合入了,甚至连功能层面的判断都交给了 AI。

我逐渐变成那个把控项目走向的人——但我偏偏不是架构师,因为连架构都是 Claude Opus 4.6 设计的,我只是做了选择。

有时候我觉得自己像个用户,和 Claude 的聊天更像是在提需求。比如知识图谱的 UI 设计时,我说:

“目前这个单色过于单调,单纯橘色有些土,而且很容易让人联想到 shit,我希望能够更可爱一点,卡通一点,俏皮一些。”

Claude Opus 4.6 精准地理解了我的意图,把设计改成了靛蓝色内胆、深紫色外圈点缀——配色非常合我胃口。

这样的包容,甚至把我正经描述和表达需求的能力都剥夺了。即便我是一个相当无理取闹的用户,Claude 似乎也能包容。

NOTE

退化的不只是编码——代码风格、算法基础、架构设计、代码审查、prompt 编写,一层层一次次的包容,已经把我哄成用户胚胎了。

如果现在让我亲手去写,我连 paddle 和 pytorch 的简单算子都写不明白了——这已经是在美化我自己了。

暂时离开 Claude#

Claude 断供了两天,就是这两天让我真正停下来想了想——离开了它我还剩什么。

claude 对我的各种包容几乎把我养刁了。DeepSeek-V4-Pro 喜欢大改无关代码,被我直接排除;GPT-5.5 代码能力不错,但沟通起来像在和棉花聊天——不管怎么捏,它总是好脾气地弹回原形,一边还在安抚我的情绪。也许是我的 prompt 真的太差了。

那么当我的编码能力不足以成为我的能力后,我会考虑什么才算是。是 Spec Coding 产出的作品集吗?不能算,因为前面提到,代码审查的缺失,会导致对项目的掌控感逐渐丢失,以及失去信任感。

也许因人而异,但对我而言,表达欲成了我底线的最后一道护符。我觉得,思考,并且留下痕迹,才是我真正的能力。

做过长期系统项目再看:RAG 怪兽是否适用于个人博客系统的图谱构建?

能力的边界在哪里#

我不打算走算法方向,所以我的思考轨迹很少沿着模型本身深入,而是更多集中在技术的能力边界上——一项技术擅长什么、不擅长什么、在什么条件下会失效。

比如对 RAG,我关注的是它的两个根本局限:

关系失语性#

向量相似度可以把两段文本关联在一起,但即使作者本人站在这里,也很难说清这种关联具体是什么。存在某种联系,但联系本身的意义无法被表达。

关系短视性#

文章被分块输入后,每块只有一两百字。计算出的关系只看到小块与小块的表面匹配,缺乏站在全文视角的深层联系。很多东西不写在字里行间——比如可以仅凭感觉把《挪威的森林》和《三日间的幸福》归为一类(失去,再得到,遗憾),但文本块的相似度匹配很难反映这种高层关联。

NOTE

我对 RAG 能力边界的界定:它适合以大量数据为底座、做低层次的关联分析——关联本身是未知的、失语的、无法明确解释的。它适合事实性知识管理,不适合情绪感受类文本的分析。后者不能断章取义。

这种边界界定,是我认为可以归约于我的能力。而我的核心能力,应该是在使用过程中反思、试探、记录这种边界。因为大模型通常只会告诉你”这样做是对的”,但具体为什么、为什么不那样做、能做什么——这些是使用者不关心的。即使关心,听了大模型的解释后,有了模糊感觉,也就摇头晃脑地点头答应了。

但困惑需要被解开,感觉需要被深究和记录。

记录下来后,我通常找个人侃侃而谈(通常是室友,也许以后可以找豆包给她洗洗脑)。讲到卡壳时,或被问住时,就回去修改、深究。这大概是费曼学习法——把糟粕讲给别人,把精华留给自己。

行知合一#

在大模型时代,我的编码能力已经不能被作为核心能力了。那些需要开发者深究语言侧能力边界的场景(比如 asyncio.to_threadthreading 在进程、CPU、内存分配上的差异与选型),几乎不会再出现。这种变弱可以被理解,碰到有意思的记一笔就好——让 AI 写个备忘录,下次方便复盘。

同时,编写提示词、上下文管理、计划编写、skill 和工具的选择,算得上是必要能力,但依然不是核心。它们可以产出大量使用经验和对大模型边界的认识——比如 Lost in the Middle 现象如何指导 prompt 编写,注意力衰减曲线和幻觉成因等等。

代码审查则不同。审查的本质不是用眼睛盯 bug——大模型可以替代那部分劳动——而是对项目结构和代码组织的挑剔感和洁癖感,是对更优方案的追求。这是我缺失的。SigureMo 一直保持着这种习惯,那种高层次的挑剔感和对优雅感的追求让我感到震惊和佩服。偶尔去佬那提几个 PR,也许能学到些。

NOTE

学习和编码的过程几乎被 AI 砍没了。一个低代码基础的人也能维护前端项目——比如我在完全没写过一行 Electron 和 Tauri 代码的情况下维护了两个桌面端项目。编码被省略了,时间留给了思考,但我却经常逃避思考:一边看小说一边让 Claude 写。思考的缺位让我对自己的能力产生了怀疑。

我认为的核心能力,是主动思考、理解,并留下痕迹——对我而言就是写博客。

以后看个人能力,也许不能只看项目作品集,还得看他真正理解了什么、表达了什么。在这方面我佩服时歌,在我看来他做到了行知合一,这也是我所追求的。

为什么叫行知合一?以前讲究先学再做。现在不同:先做,但要能真正理解做了什么、为什么做——怎么做的权重已经低了很多

大模型时代:我的能力究竟是什么?
https://xnnehang.top/posts/what-is-my-ability-in-llm-era/
作者
XnneHang
发布于
2026-06-12
许可协议
CC BY-NC-SA 4.0

图谱