01
对话 · 你天天用的
System 开场设一次,之后 User / Assistant 轮流
System(应用替你设的规矩,整段只设一次)起个头,然后就是 User(你说)、Assistant(它答)一来一回轮流叠加——没别的成分。
02
本质 · 它到底在干嘛
全部接成一条文本,它就猜下一个字
盒子拆掉,各段首尾相接,成一长串。模型读完,在末尾一个字一个字往下接。再复杂的 AI,拆到底就这一件事。
那它具体怎么"猜"?跳出框,拉直了看。
02
本质 · 在它眼里
拉直了看:就是一条字串,在串尾逐字往外蹦
气泡、角色,都是给你看的包装;在它眼里只有这一条长长的字串(token)。它干的事:读完整条,在末尾蹦出下一个字——你看到的"打字感",就是这么来的。
02
本质 · 怎么猜:① 注意力
猜之前,它先回头看前文哪些字最相关
这一步叫注意力(attention)——transformer 的核心。要接下一个字时,它给前文每个字打不同权重:这里重点盯着"星分翼轸 / 襟三江"的对仗。
02
本质 · 怎么猜:② 概率
它不直接知道答案,是给每个候选字算概率
看完前文,它对"下一个字"给出一张概率表:越 .71 / 海 .12 / 江 .05…… 所谓"猜",就是从这张表里挑一个。也因为它永远在猜——猜得自信,不等于猜得对:所谓「幻觉」,不是出 bug,是这张表的正常产出。
02
本质 · 怎么猜:③ 接上,再来
挑一个接上,再用同样方式猜下一个
挑中的字接到串尾,然后一模一样地再猜下一个——一个字一个字,整段文本就这么生成。这就是 LLM 的全部核心。
03
约束 · 先只看一个"头"
它读得很老实:每个字 × 每个字,都得对一遍
干这活的小零件,叫一个"头"(Head)——就当它是个阅读器。它读完整段,差不多可以理解为:把每个字和其它字谁跟谁有关,都对一遍,记成一张网:100 字 = 1 万格,1 万字 = 1 亿格——字数翻倍,网翻四倍。你塞进去的就是 Context;这张网最大能开多大,就是 context length——造模型时就定好的,有的 8K、有的 128K,各有各的那条线。
03
约束 · 这还只是一个"头"
这样的头有几十个——不是分工,是几十个角度
不是头 1 读前半、头 2 读后半——每个头都把整段从头读到尾,只是各盯各的:有的盯对仗,有的盯人名,有的盯语气。几十个一起干,快是快了,活儿一点没少——几十张网,张张都得算。(几个头看模型定,画面拿 64 个举例。)
03
约束 · 一层比一层读得深
这一摞网,只是第 1 层——后面还有几十层
第一层读的是原文;后面每一层,读的是上一层已经加工过的结果——每层重新结一张自己的关系网,把理解再往深推一层(几层看模型定,画面拿 80 层举例)。账还是乘出来的:字数 × 字数,再 × 头数,再 × 层数。窗口翻一倍,账翻四倍——这就是长上下文贵、窗口必有上限的原因。
03
约束 · 唯一的硬限制
它一次只能读这么多,还两头清楚中间糊
所以这串有个硬上限(context length),满了就出事——龙虾两个最常见的坑,传大文件就卡、聊久了就忘事,根子都在这。而且越长,中间越容易被忽略——藏在中间的那条,它常「睁眼没看见」。
04
无状态 · 它没有「刚才」
对话是个假象:每条消息,都是初次见面
两次回复之间,它脑子里什么都没留下。所谓"连续聊天",是软件在背后把整段历史原样重发,它从头重读一遍、接着猜——像写书,每添一句都得从第一页读起(这也是越聊越贵的原因)。它没有状态——你给的,就是它的全部。
05
给够信息 · 先列张交接单
做成一件事,需要的知识先全列出来
把它当个聪明、但永远第一天上班的新人。要把这件事交接给他,得有哪些知识?——你的处境和目标、相关的私有资料、最新的进展,还有公开的行业知识、基本常识。先别管谁出,列全。
06
取舍 · 划掉它自带的
单子上,有两样可以直接划掉
公开知识、常识——凡是公开+常见+截止前的,它训练时读过,已经在它脑子里,划掉。剩下四样才要你给:目标 / 现状 / 专属材料 / 约束偏好——这些它上哪儿都查不到。划完,这四样就是要喂进窗口的。
07
问 · 信息是聊出来的
直接聊就行——复杂的事,让它先问你
单子不用你一次填好,信息本来就是聊出来的:你说目标,它问、你答,格子自己就齐了。事情复杂、或你自己也说不清时,开工前加一句:「先别做,把不清楚的先问我。」它先问一轮,省后面好几轮返工——Deep Research 这类产品,开始前都这么干。
08
磨 · 第一版多半不对
把「哪儿不对」原样丢回去,一轮,又一轮
第一版几乎不会对——别慌,这是常态:它本来就是猜出来的。把结果/报错原样贴回去,它改一版;再不对,再贴……看右边,对话就这么一行行变长,信息就是这么磨出来的。你只管丢回现象,不用自己琢磨。够用就收手——它也就 60-70 分。
09
沉淀 · 任务成了,别就这么关掉
让它把这段对话,总结成一份文档——这就是 Skill
任务跑通了?走之前多说一句:「把这段对话总结成文档,下次直接用。」它把背景、最终方案、踩过的坑,从刚才那几轮拉扯里提出来,写成一份 Skill。所谓积累经验,就是积累一份份这样的文档。
09
沉淀 · 下次怎么用
下次的交接单,Skill 直接填坑
再做这类事,把这份 Skill 丢进去——套路、踩过的坑、老规矩,它直接带上;你只用说这次的目标和现状。上次磨五轮,这次一轮过——这就是沉淀的复利。
10
装上手 · 工具(tool)
大脑没有手:吐字下单,工具动手
「帮我约个会」——大脑够不着你的日历:它只会读字、吐字,没有别的本事。它唯一的办法,是往写字板上写一句下单的话:check_calendar(周三,…),写完就停。外面的程序看到这句,真去查日历——这种替它动手的程序,就叫工具(tool)。结果变成文字写回板上,它读到,接着吐字答你。它全程只动嘴;动手的,是工具。
11
装上记性 · 注入(RAG/Memory/Skill)
记性是装出来的:它去拿,或别人写
大脑过目就忘,所谓记性,全靠外面装。两条路:它自己写单子喊工具去拿(上一拍);或者别人直接替它写上板——文档库(RAG)、你的偏好和上次结论(Memory)、磨好的套路(Skill),在固定时点挑相关的写进来,不用它开口,也不用你动手。至于谁在写——后面会讲到。
12
身体动起来 · 循环(Agent)
同一颗大脑,多喂几轮 = Agent
手有了,记性有了——现在让它自己转:「吐字→工具执行→结果写回」一圈、两圈;每轮开始,该补的资料自动写上板。拿和写,都不用你插手,写字板上的字一条条变长。「Agent」听着像会造反,机制上朴素得令人失望:同一颗大脑,多喂几轮。
13
整副骨架 · harness
把这副身体拼起来的壳,就是 harness
替它写板、递工具、转循环——拼起这副身体的那层程序,就是 harness(Claude Code、Cursor、龙虾,全是)。前面问的「谁在写」,就是它。它还能同时转几个循环、把多步任务编排成流程(workflow)。最要紧的是:像大脑的只有那一小块,而它只会读字吐字;手、记性、自律,全是人写的普通代码——每一根脚手架,都握在你手里。
14
反射与红线 · hooks
循环的固定点位,留着口子——hooks
hook 是程序界的老词:固定事件一发生,自动执行你挂上去的动作——「吃饭」是事件,「饭前洗手」就是挂在饭前的钩子。这副身体的关键点位都留着口子:你发话后、它动手前、工具跑完后、它想收工时。挂什么随你:拦(危险动作先停下问你)、塞(自动补资料)、接(干完自动排版、通知你)。和写在提示词里的规矩不同——hook 是制度,它绕不过去。