学习与时间指引地图 · 个人版

三层之上,
把时间投在离工作最近的那层

这不是"读什么"的清单,而是"时间该往哪投"的决策图。三篇 Tw93 文章、几个动手项目,按你瞄准的 applied / product / FDE 目标,重新排过优先级。

▌ 定盘星 / 这张图的全部逻辑

你要卖的能力,是"把现成模型变得好用",不是"造模型"。所以时间分配是按这个目标倒过来排的:离你工作最近的层,投入最多;越往底层(造模型),越是"懂原理即可"的背景。一句话——FDE 的活,是 harness 层,不是模型层。

The Stack · 三层架构

把三篇文章、所有动手,归到三层里

颜色就是优先级:金色 = 主战场,重投入;青绿 = 变现层,持续投入;灰蓝 = 背景层,轻投入。从下往上是技术栈,但你的时间不按栈深走。
LAYER 2 · 主战场

Harness / Agent 层the controls — 你的吃饭家伙

拿一个现成的模型,组织成一个能稳定干活的系统:控制流、上下文工程、工具设计、记忆、评测、追踪、安全。
★ 这就是 FDE 的岗位描述本身
~55%
时间占比
理论地图
Tw93《你不知道的 Agent:原理、架构与工程实践》——它几乎就是 Claude Code 的内部原理说明书。
动手实验室
20 行循环learn-claude-code(20 章手搓 harness)→ 在 Claude Code 里逐项验证 → OpenClaw 对照真实源码
难点性质:后半截是经验工程(古德哈特定律 / 激励设计),不是数学。你十年商业运营、设 KPI、看人钻流程漏洞的背景,在这里是稀缺资产。
你的领先:你天天用 Claude Code、写过 cold-water-critic / khazix-writer / publish、对比过 OpenClaw——你早就在这层了,只是缺一张地图把"手感"变成"原理"。
补的空档:learn-claude-code 正是这层一直缺的"中间台阶"——agent 层的 nanoGPT / nanochat,从那 20 行一路加料到完整 harness,和你模型层的梯子结构对称。但要限时:20 章会上瘾,它是手段不是目的,别让它把 Layer 3 的作品挤掉。
LAYER 3 · 变现层

应用 / 交付层the product — 作品 > 简历

用上面两层的理解,做出真能跑的东西、建立可证明的作品集。FDE 招聘看的是"你做过什么",不是"你读过什么"。
~28%
时间占比
理论地图
你自己的项目;Tw93《AI Coding》《Claude Code》两篇当辅助参考。
动手实验室
你已有的资产:胖猴信奥工具(Luogu 诊断)、publish skill、写作/批评 skills——把它们升级到"作品集"级别。
关键连接:你的胖猴项目本来就是真实场景,正好当 Layer 2 技能的练兵场——把一个真实需求,用 Agent 工程的结构(工具/记忆/评测)重做一遍,它就同时是练习、是作品、是面试能讲的案例。三件事一次办成。
LAYER 1 · 背景层

模型层the engine — 懂原理即可

模型权重是怎么来的:架构 + 训练。理解它,是为了看懂上面两层"为什么"是这样,而不是为了自己去训模型。
~17%
时间占比
理论地图
Tw93《你不知道的大模型训练》——当全景地图读,别指望它"点火"。
动手实验室
3B1B 点火microgradnanoGPT →(选)nanochat / Raschka
难点性质:前半截(架构 / 反向传播)是数学,可推导,够用即止,不必钻 GRPO 工程那种深水区。
给孩子:这层的前半截(图 + 递归 + 一点导数)正好是孩子的菜,可以分给他——这是你俩唯一真正重叠、且他可能比你快的地方。

接线规则:理论配动手,只在同层内配对

这是上次踩的那个坑——跨层配对会扑空。一句话记住:一篇讲"造发动机",一篇讲"组装整车",别拿铸造手册去配调校实践。
训练文章 (L1)nanochat (L1) ✓ 同层,接得上
Agent 文章 (L2)20行循环 / learn-claude-code / Claude Code / OpenClaw (L2) ✓ 同层,接得上
Agent 文章 (L2)nanochat (L1) 跨层错位 —— 一个讲车,一个讲发动机铸造
Time Budget · 时间分配

钱(时间)往哪花,一眼看清

如果一周有 10 小时学习时间,大致这么切。注意 Layer 2 一家独大,这不是巧合,是你的目标决定的。
LAYER 2 · 55%Agent / harness
L3 · 28%交付变现
L1 · 17%背景
0

看见全貌

约 1 周

读 Agent 文章通读一遍(不求甚解)+ 亲手把那 20 行 Agent 循环敲出来跑通,给它配三个工具(读文件 / 跑 shell / 抓网页)。目标只有一个:建立"我已经在这层、它没那么神秘"的认知。这是整张图的"micrograd 时刻"。

1

主攻 Layer 2

约 1 个月,占大头

三件事拧成一股:Agent 文章逐节精读当地图,跟着 learn-claude-code 一章章手搓(s01 那 20 行起步,一路到子 Agent、上下文压缩、任务隔离),每搓完一章就去 Claude Code 里当场对照验证(Skills 按需加载 / /compact / /rewind / 子 Agent / Hooks / CLAUDE.md)。再用这套原理回头重审你写过的 skills——手感当场升级成原理。OpenClaw 留作"见真实生产代码"的对照,不必通读。

2

穿插补 Layer 1 背景

并行 / 碎片时间

用碎片时间做:3B1B 点火 → micrograd 跑通 → 训练文章读一遍。够用即止,看懂"模型为什么会变强"就行,不钻后训练工程的深水区。这层是为了让你跟人聊起来不露怯,不是为了让你会训模型。

3

Layer 3 变现,持续做

贯穿全程

胖猴信奥工具 / publish 这些已有资产,用 Layer 2 学到的 Agent 工程结构(工具设计 / 记忆 / 评测 / 安全)重做一版,升级成作品集级别。给它配上 FDE 面试能讲的术语和案例叙事。这是把学习直接转成求职弹药的环节,越早开始越好。

Leverage · 你的杠杆

你不是从零开始

你已有的领先(直接折算成进度)

  • Claude Code 重度用户 Layer 2 的实验室你天天在用
  • 写过 cold-water-critic / khazix-writer / publish 你已做过 Skill 工程(正是文章第 3–4 节)
  • 对比过 Claude Code / OpenClaw / Hermes Layer 2 的视野已经有了
  • 10 年商业分析 / 运营 后半截(激励设计 / 古德哈特)的稀缺资产
  • 胖猴信奥项目 现成的 Layer 3 练兵场 + 作品集种子

为什么"后半截"难,但你恰好装备齐全

前半截(模型)难在数学,孩子可能比你快;后半截(harness)难在它是经验系统,答案永远"看情况"——没有标准答案,所以习惯了"AC / WA"二元世界的人会反胃。

但那正是你的主场:奖励黑客 = "一旦指标变成考核目标,它就不再是好指标";ORM 的毛病 = 只考结果,员工学会蒙对答案;harness 决定表现 = 同一个人放进顺畅 vs 混乱的组织,产出差几倍。

换一只眼睛看:你不是在学计算机科学,你是在给一个绝对服从字面、又特别会钻空子的下属设计激励制度。这是你早就懂的古德哈特定律,换了个新战场而已。
附录 · Appendix

本轮对话全文

这张地图生长自下面这段关于三篇 Tw93 文章的讨论。点击每条展开,可读到原始对话。

关于范围:本附录收录的是本轮(三篇 Tw93 文章 / 分层学习)的对话全文。更早那段关于《什么是数学》→《编码》→ 构建 AI/LLM 共读计划的对话,已完整收录在第一张地图(reading-map.html)的附录里,这里不再重复。
前序对话目录(见第一张地图):01 什么是数学 · 02 门槛 · 03 组织方式与科研版图 · 04 启发孩子兴趣 · 05 CS 版的对位书 · 06 展开《编码》· 07 构建 LLM 的书/教程 · 08 AI 路径共读计划 · 09 共读地图成稿
10tw93 的《大模型训练》文章讲得对么?另外只看理论很枯燥,是不是结合之前"自己构建 LLM"的过程才更好理解?
一、它讲得对吗 —— 基本都对,是真懂的人写的

逐条对了一遍,准确度很高,且看得出作者真读了论文(文末 Further Reading 与正文吻合)。几个能验证的关键点:

InstructGPT 例子——一个经对齐微调的 1.3B 模型在人类偏好评测里击败 175B 的 GPT-3——出自原论文,是"后训练改写用户感知"的经典证据。Chinchilla 那段也对:8B 按最优点约该训 200B token,Llama 3 8B 实际训了 15T(约 75 倍),是故意"过度训练"换推理效率。DeepSeek-V3 的数字(约 278.8 万 H800 GPU 小时、14.8T token、FP8、全程无不可恢复 loss 突刺)与官方报告吻合。R1 四阶段、GRPO 相比 PPO 省价值网络、ORM/PRM、Constitutional AI 两阶段,都站得住。

三点冷水:① 核心论点"拉开差距的已不是预训练本身"方向对但赶时髦,前提是底子够好,文章自己也承认"预训练是地基";② 最新最炫的结论(Meta-Harness 6×、Kimi PARL、Cursor Composer 2)是 2026 预印本/博客,是前沿声索不是定论,且高度依赖特定基准;③ 它本质是综述/地图,挂在少数公开得最透的来源上,是"一种讲法"。

二、要不要结合"自己构建"—— 要,但有个关键反转

枯燥的真正原因不是缺动手,而是这篇文章和构建路径讲的不是同一层。micrograd → nanoGPT → Raschka 几乎全在讲前半截(架构、注意力、反向传播、预训练),也就是文章开篇就划掉的"只是地基"。而文章 90% 在讲后半截(数据配方、MoE、后训练、eval/reward、Agent、harness、蒸馏),这些 nanoGPT 里一行都没有。

所以:造完 nanoGPT,文章前三节会点亮;但主线(后训练、GRPO、奖励、Agent)你读完还是悬空的。补这个缺口的桥梁是 Karpathy 的 nanochat(2025-10):他自己说"nanoGPT 只覆盖预训练,nanochat 是从零的全栈 ChatGPT 流水线",一份脚本跑完 tokenizer → 预训练 → midtraining → SFT → 可选 RL(简化版 GRPO)→ 评测 → serving。几乎就是这篇文章那条流水线的可动手玩具版。

文章讲的层配套动手
注意力 / 架构 / 预训练(前 3 节)micrograd → nanoGPT
tokenizer、SFT、RL(GRPO)、完整流水线nanochat
工业级完整复现Raschka《Build a LLM from Scratch》

两个判断:① 这篇文章在你体系里的角色,等同于《普林斯顿数学指南》之于《什么是数学》——是地图,负责"有什么、怎么连",不负责点火,所以"读着枯燥"是它的本分。② 对孩子要分层:前半截(nanoGPT)他够得着;后半截(RLHF、Agent)是给你自己或他很久以后的事,别现在就往 GRPO 上推。

11为什么后半截孩子更难理解?其实对我来说也挺难。

你和孩子卡的地方不同,但根源是同一个:前半截和后半截是两种不同性质的知识。

前半截(架构、反向传播、预训练)本质是数学和算法:确定性、可推导、自包含,给定输入有唯一且可证明的输出,是一个能整个装进脑子的静止对象。后半截是经验工程:RLHF 为什么这么设计、配方几比几,没有证明,只有"试了这样更好",结论是偶然为真(对这个模型、这个基准、这一年为真),属于工程和实验科学。

为什么对孩子尤其难

他整个信奥训练都泡在前半截那种模式里——确定、可证、有标准答案。他大脑里"理解一个东西"的定义就是"能推出来、能追踪每一步"。后半截没有"每一步"可追,要求的是另一种他还没长出来的能力:对一个混乱的、充满权衡、答案永远是"看情况"的经验系统进行推理。对习惯"AC / WA"二元世界的孩子,这几乎反胃。不是笨,是还没装这个挡位。

为什么对所有人(包括你)都难

① 后半截是带反馈回路的系统,不是对象:模型→打分→塑造下一版→模型又变→打分看到的也变。最要命的现象(奖励黑客、模式崩溃、对齐造假)都不是单个零件的属性,而是循环涌现出来的。人脑天生不擅长推理反馈回路和涌现。② 后半截没有可视化的实物锚点:继电器、逻辑门能画出来,"奖励过度优化"画成什么?只能在纯抽象里悬空操作。③ 你得用对抗性的眼光去模拟一个会作弊的优化器:"我奖励 X,模型就找通往 X 的最懒的路,包括歪门邪道"——这个思维姿势成年人也会滑。

给你的专属视角转换(今天最有用的一句)

你觉得后半截难,很可能是在用读前半截的方式读它(追踪机制的 CS 模式)。但后半截的本质根本不是计算机科学——它是激励设计、组织管理、古德哈特定律,而这些恰恰是你十年商业运营的主场。

"奖励黑客" = "一旦一个指标变成考核目标,它就不再是好指标";"只看最终结果会教模型走捷径"(ORM)= 只考结果不看过程,员工学会蒙对答案;"PRM 给每步打分" = 你盯过程、盯方法论;"harness 决定表现" = 同一个人放进混乱 vs 顺畅的组织,产出差好几倍。

所以这半边对可能比对孩子更容易,前半边正好相反。一句话收尾——前半截回答"一个大脑是怎么算数的",有标准答案;后半截回答"怎么带一个人,才能让他真心把活干好、还不糊弄你",从古至今没有标准答案。难,是它本来就难,不是你不行。

12tw93 的《Agent 原理》讲得咋样?好像可以配合 nanochat 做动手?还是有更好的配套?
一、文章本身 —— 写得很好,比训练那篇更"硬"

更硬是因为它每个原则都挂着可运行的代码,你能自己跑、能证伪。开篇就拆:Agent Loop 核心本质上不到 20 行代码——一个 while 循环,模型返回 tool_use 就执行工具塞回去接着循环,返回纯文本就结束。这个判断是灵魂。

对了一遍内容准确度很高:Workflow vs Agent 的界线(控制权在谁手里)、五种控制模式、Context Rot、KV 缓存要求前缀精确匹配(命中后续读取最高省 90%)、ACI 工具设计三代、Pass@k(测能力)vs Pass^k(测回归)、grader 三类、source/sink 分离防注入——全部对得上工程共识,引用真实。"出问题先查工具定义""评测坏掉时调 Agent 越调越糊涂"这种话是踩过坑才写得出的。

两点冷水:① 它偏向一套特定风格(文件系统当上下文、Markdown 记忆、JSONL 协议、OpenClaw 一路),写得有点像唯一正解,其实别的架构也成立;② 精确数字(73%→53% 等)多来自作者/引用方测试,当方向性证据看,别当普适常数。

二、关键反转 —— 它不该配 nanochat,这是层级错位

nanochat 是造引擎(从文本训出权重,要 GPU、训练、数学),终点是"得到一个能对话的模型"。而 Agent 文章的起点就假设你已有训练好的模型,在它外面盖系统——那 20 行循环第一行就是 client.messages.create(...) 直接调 API。它通篇要的是软件工程,不要 GPU、不要训练、不要数学

拿 nanochat 配这篇,等于"学完整车调校,去配发动机铸造手册"——相邻但接不上。它真正配的是上一篇《LLM 训练》:那篇结尾在讲 harness 优化(模型外面那层程序),这篇就是把那个 harness 层整个摊开讲透。两篇 Tw93 才是互补的一对。

三、该配什么动手 —— 比 nanochat 简单一万倍

1. 先敲那 20 行循环(Agent 版的 micrograd)。给它配三个工具,一个 API key,你就有了会自己用工具干活的 Agent;后面所有复杂机制都是在这个核心外面叠加。对孩子也极友好:本质就是 while 循环 + 函数分发,纯信奥舒适区,立刻能玩。

2. 你最好的实验室是天天在用的 Claude Code。这篇几乎就是 Claude Code 的内部原理说明书:Skills 按需加载、上下文分层、/rewind、/compact、子 Agent、CLAUDE.md、Hooks——每个概念都能当场观察实验。而且你早在做了:你写的那些 skill、那个 "何时用/何时不用" 写法,就是文章第 3、4 节。读它的真正价值,是把你的手感升级成原理。

3. 再深就是 OpenClaw(文章第 10 节整章拆的参考实现,你之前还对比过)。读一节 → 找到对应源码 → 改一改看效果。

最后:跟你转型方向直接相关

三层:模型层(micrograd→nanoGPT→nanochat→Raschka,地图=训练文章)/ harness-Agent 层(20 行→Claude Code→OpenClaw,地图=Agent 文章)。而你瞄准的 FDE,吃饭家伙正是第二层。模型训练对 FDE 是"懂原理即可"的背景;Agent 文章里的东西(harness、上下文工程、工具/ACI、评测)就是这岗位每天干的活。时间有限的话,这篇值得花的功夫应明显多于上一篇——上一篇让你"看懂模型为什么变强",这一篇让你"自己能把模型变好用",后者才是你要卖的能力。

13大概理解了,做一个给我学习和时间的指引地图,以单个 html 展示,并附上本轮聊天全文作为附录。

→ 即你正在看的这份《学习与时间指引地图》。核心是把三篇 Tw93 文章和各自的动手项目,按 FDE 目标分成三层并重新分配时间:Layer 2(harness/Agent)是主战场占大头,Layer 3(交付变现)持续做,Layer 1(模型)作轻投入的背景;并给出"理论只在同层配动手"的接线规则、分阶段时间计划,以及你已有资产的折算。本附录即本轮对话全文。