这不是"读什么"的清单,而是"时间该往哪投"的决策图。三篇 Tw93 文章、几个动手项目,按你瞄准的 applied / product / FDE 目标,重新排过优先级。
你要卖的能力,是"把现成模型变得好用",不是"造模型"。所以时间分配是按这个目标倒过来排的:离你工作最近的层,投入最多;越往底层(造模型),越是"懂原理即可"的背景。一句话——FDE 的活,是 harness 层,不是模型层。
读 Agent 文章通读一遍(不求甚解)+ 亲手把那 20 行 Agent 循环敲出来跑通,给它配三个工具(读文件 / 跑 shell / 抓网页)。目标只有一个:建立"我已经在这层、它没那么神秘"的认知。这是整张图的"micrograd 时刻"。
三件事拧成一股:Agent 文章逐节精读当地图,跟着 learn-claude-code 一章章手搓(s01 那 20 行起步,一路到子 Agent、上下文压缩、任务隔离),每搓完一章就去 Claude Code 里当场对照验证(Skills 按需加载 / /compact / /rewind / 子 Agent / Hooks / CLAUDE.md)。再用这套原理回头重审你写过的 skills——手感当场升级成原理。OpenClaw 留作"见真实生产代码"的对照,不必通读。
用碎片时间做:3B1B 点火 → micrograd 跑通 → 训练文章读一遍。够用即止,看懂"模型为什么会变强"就行,不钻后训练工程的深水区。这层是为了让你跟人聊起来不露怯,不是为了让你会训模型。
把胖猴信奥工具 / publish 这些已有资产,用 Layer 2 学到的 Agent 工程结构(工具设计 / 记忆 / 评测 / 安全)重做一版,升级成作品集级别。给它配上 FDE 面试能讲的术语和案例叙事。这是把学习直接转成求职弹药的环节,越早开始越好。
前半截(模型)难在数学,孩子可能比你快;后半截(harness)难在它是经验系统,答案永远"看情况"——没有标准答案,所以习惯了"AC / WA"二元世界的人会反胃。
但那正是你的主场:奖励黑客 = "一旦指标变成考核目标,它就不再是好指标";ORM 的毛病 = 只考结果,员工学会蒙对答案;harness 决定表现 = 同一个人放进顺畅 vs 混乱的组织,产出差几倍。
这张地图生长自下面这段关于三篇 Tw93 文章的讨论。点击每条展开,可读到原始对话。
逐条对了一遍,准确度很高,且看得出作者真读了论文(文末 Further Reading 与正文吻合)。几个能验证的关键点:
InstructGPT 例子——一个经对齐微调的 1.3B 模型在人类偏好评测里击败 175B 的 GPT-3——出自原论文,是"后训练改写用户感知"的经典证据。Chinchilla 那段也对:8B 按最优点约该训 200B token,Llama 3 8B 实际训了 15T(约 75 倍),是故意"过度训练"换推理效率。DeepSeek-V3 的数字(约 278.8 万 H800 GPU 小时、14.8T token、FP8、全程无不可恢复 loss 突刺)与官方报告吻合。R1 四阶段、GRPO 相比 PPO 省价值网络、ORM/PRM、Constitutional AI 两阶段,都站得住。
三点冷水:① 核心论点"拉开差距的已不是预训练本身"方向对但赶时髦,前提是底子够好,文章自己也承认"预训练是地基";② 最新最炫的结论(Meta-Harness 6×、Kimi PARL、Cursor Composer 2)是 2026 预印本/博客,是前沿声索不是定论,且高度依赖特定基准;③ 它本质是综述/地图,挂在少数公开得最透的来源上,是"一种讲法"。
枯燥的真正原因不是缺动手,而是这篇文章和构建路径讲的不是同一层。micrograd → nanoGPT → Raschka 几乎全在讲前半截(架构、注意力、反向传播、预训练),也就是文章开篇就划掉的"只是地基"。而文章 90% 在讲后半截(数据配方、MoE、后训练、eval/reward、Agent、harness、蒸馏),这些 nanoGPT 里一行都没有。
所以:造完 nanoGPT,文章前三节会点亮;但主线(后训练、GRPO、奖励、Agent)你读完还是悬空的。补这个缺口的桥梁是 Karpathy 的 nanochat(2025-10):他自己说"nanoGPT 只覆盖预训练,nanochat 是从零的全栈 ChatGPT 流水线",一份脚本跑完 tokenizer → 预训练 → midtraining → SFT → 可选 RL(简化版 GRPO)→ 评测 → serving。几乎就是这篇文章那条流水线的可动手玩具版。
| 文章讲的层 | 配套动手 |
|---|---|
| 注意力 / 架构 / 预训练(前 3 节) | micrograd → nanoGPT |
| tokenizer、SFT、RL(GRPO)、完整流水线 | nanochat |
| 工业级完整复现 | Raschka《Build a LLM from Scratch》 |
两个判断:① 这篇文章在你体系里的角色,等同于《普林斯顿数学指南》之于《什么是数学》——是地图,负责"有什么、怎么连",不负责点火,所以"读着枯燥"是它的本分。② 对孩子要分层:前半截(nanoGPT)他够得着;后半截(RLHF、Agent)是给你自己或他很久以后的事,别现在就往 GRPO 上推。
你和孩子卡的地方不同,但根源是同一个:前半截和后半截是两种不同性质的知识。
前半截(架构、反向传播、预训练)本质是数学和算法:确定性、可推导、自包含,给定输入有唯一且可证明的输出,是一个能整个装进脑子的静止对象。后半截是经验工程:RLHF 为什么这么设计、配方几比几,没有证明,只有"试了这样更好",结论是偶然为真(对这个模型、这个基准、这一年为真),属于工程和实验科学。
他整个信奥训练都泡在前半截那种模式里——确定、可证、有标准答案。他大脑里"理解一个东西"的定义就是"能推出来、能追踪每一步"。后半截没有"每一步"可追,要求的是另一种他还没长出来的能力:对一个混乱的、充满权衡、答案永远是"看情况"的经验系统进行推理。对习惯"AC / WA"二元世界的孩子,这几乎反胃。不是笨,是还没装这个挡位。
① 后半截是带反馈回路的系统,不是对象:模型→打分→塑造下一版→模型又变→打分看到的也变。最要命的现象(奖励黑客、模式崩溃、对齐造假)都不是单个零件的属性,而是循环涌现出来的。人脑天生不擅长推理反馈回路和涌现。② 后半截没有可视化的实物锚点:继电器、逻辑门能画出来,"奖励过度优化"画成什么?只能在纯抽象里悬空操作。③ 你得用对抗性的眼光去模拟一个会作弊的优化器:"我奖励 X,模型就找通往 X 的最懒的路,包括歪门邪道"——这个思维姿势成年人也会滑。
你觉得后半截难,很可能是在用读前半截的方式读它(追踪机制的 CS 模式)。但后半截的本质根本不是计算机科学——它是激励设计、组织管理、古德哈特定律,而这些恰恰是你十年商业运营的主场。
"奖励黑客" = "一旦一个指标变成考核目标,它就不再是好指标";"只看最终结果会教模型走捷径"(ORM)= 只考结果不看过程,员工学会蒙对答案;"PRM 给每步打分" = 你盯过程、盯方法论;"harness 决定表现" = 同一个人放进混乱 vs 顺畅的组织,产出差好几倍。
所以这半边对你可能比对孩子更容易,前半边正好相反。一句话收尾——前半截回答"一个大脑是怎么算数的",有标准答案;后半截回答"怎么带一个人,才能让他真心把活干好、还不糊弄你",从古至今没有标准答案。难,是它本来就难,不是你不行。
更硬是因为它每个原则都挂着可运行的代码,你能自己跑、能证伪。开篇就拆:Agent Loop 核心本质上不到 20 行代码——一个 while 循环,模型返回 tool_use 就执行工具塞回去接着循环,返回纯文本就结束。这个判断是灵魂。
对了一遍内容准确度很高:Workflow vs Agent 的界线(控制权在谁手里)、五种控制模式、Context Rot、KV 缓存要求前缀精确匹配(命中后续读取最高省 90%)、ACI 工具设计三代、Pass@k(测能力)vs Pass^k(测回归)、grader 三类、source/sink 分离防注入——全部对得上工程共识,引用真实。"出问题先查工具定义""评测坏掉时调 Agent 越调越糊涂"这种话是踩过坑才写得出的。
两点冷水:① 它偏向一套特定风格(文件系统当上下文、Markdown 记忆、JSONL 协议、OpenClaw 一路),写得有点像唯一正解,其实别的架构也成立;② 精确数字(73%→53% 等)多来自作者/引用方测试,当方向性证据看,别当普适常数。
nanochat 是造引擎(从文本训出权重,要 GPU、训练、数学),终点是"得到一个能对话的模型"。而 Agent 文章的起点就假设你已有训练好的模型,在它外面盖系统——那 20 行循环第一行就是 client.messages.create(...) 直接调 API。它通篇要的是软件工程,不要 GPU、不要训练、不要数学。
拿 nanochat 配这篇,等于"学完整车调校,去配发动机铸造手册"——相邻但接不上。它真正配的是上一篇《LLM 训练》:那篇结尾在讲 harness 优化(模型外面那层程序),这篇就是把那个 harness 层整个摊开讲透。两篇 Tw93 才是互补的一对。
1. 先敲那 20 行循环(Agent 版的 micrograd)。给它配三个工具,一个 API key,你就有了会自己用工具干活的 Agent;后面所有复杂机制都是在这个核心外面叠加。对孩子也极友好:本质就是 while 循环 + 函数分发,纯信奥舒适区,立刻能玩。
2. 你最好的实验室是天天在用的 Claude Code。这篇几乎就是 Claude Code 的内部原理说明书:Skills 按需加载、上下文分层、/rewind、/compact、子 Agent、CLAUDE.md、Hooks——每个概念都能当场观察实验。而且你早在做了:你写的那些 skill、那个 "何时用/何时不用" 写法,就是文章第 3、4 节。读它的真正价值,是把你的手感升级成原理。
3. 再深就是 OpenClaw(文章第 10 节整章拆的参考实现,你之前还对比过)。读一节 → 找到对应源码 → 改一改看效果。
三层:模型层(micrograd→nanoGPT→nanochat→Raschka,地图=训练文章)/ harness-Agent 层(20 行→Claude Code→OpenClaw,地图=Agent 文章)。而你瞄准的 FDE,吃饭家伙正是第二层。模型训练对 FDE 是"懂原理即可"的背景;Agent 文章里的东西(harness、上下文工程、工具/ACI、评测)就是这岗位每天干的活。时间有限的话,这篇值得花的功夫应明显多于上一篇——上一篇让你"看懂模型为什么变强",这一篇让你"自己能把模型变好用",后者才是你要卖的能力。
→ 即你正在看的这份《学习与时间指引地图》。核心是把三篇 Tw93 文章和各自的动手项目,按 FDE 目标分成三层并重新分配时间:Layer 2(harness/Agent)是主战场占大头,Layer 3(交付变现)持续做,Layer 1(模型)作轻投入的背景;并给出"理论只在同层配动手"的接线规则、分阶段时间计划,以及你已有资产的折算。本附录即本轮对话全文。