大模型是如何训练的：从一堆文本到一个能干活的助手

太长也要读

你给模型一句话：

帮我把这段会议纪要整理成三条行动项。

它最后能不能听懂、能不能抓重点、会不会编造、格式是不是顺手，不是靠「多看一点互联网文本」自然长出来的。

大模型训练更像一条流水线。预训练让模型有底子，数据配方决定它擅长什么，后训练让它学会按人的方式做事，评测和奖励决定它往哪里变强。

用户最后感受到的差距，往往不只在参数量，而在整套训练系统。

训练不是一步，而是一条流水线

最早的模型只是在做一件很朴素的事：预测下一个 token。

今天杭州的天气很 __

它要猜后面更可能是「热」「好」「舒服」还是别的词。这个动作重复到足够大的规模后，模型会慢慢学到语言结构、事实知识、代码规律和推理模式。

但这只解决了「会续写」的问题，没有解决「会帮忙」的问题。

所以完整链路通常会拆成几层：

原始数据 -> 数据工程 -> 预训练 -> 指令微调 -> 偏好/奖励训练 -> 评测 -> 部署

预训练像打地基，后训练像装修和验收。地基不好，后面补不回来；但只打地基，也住不了人。

大模型训练流水线总览

数据不是燃料，是配方

如果只说「数据越多越好」，很容易误解大模型训练。

更准确的说法是：数据是配方。

网页、书籍、代码、论坛、论文、产品文档、数学题、人工标注数据、合成数据，各自放多少，模型最后的能力就会往哪里偏。代码数据多，代码能力可能更好；数学推理数据好，解题会更稳；中文数据处理得细，中文体验才不会像翻译腔。

真正麻烦的是清洗。

原始数据进来后，要做文本抽取、语言识别、质量过滤、去重、隐私处理、安全过滤和污染控制。重复内容太多，模型会学会复读；低质量网页太多，回答会变油；评测题混进训练集，分数会变好看，但不代表真会。

数据工程不是后勤，它是在提前决定模型会成为什么样。

训练数据配方漏斗

预训练决定上限，但不决定体验

预训练后的模型通常已经有知识，也有一些泛化能力。它知道很多概念，能写代码，能补全文本，甚至能做一些推理。

但它还不是一个合格助手。

你让一个 base model 回答问题，它可能像续写网页，可能像写论文，也可能突然跑题。原因很简单：它学的是文本分布，不是用户意图。

听不听指令、会不会分步骤、会不会拒绝危险请求、会不会承认不知道、能不能按格式输出，这些主要靠后训练补上。

所以用户常说的「这个模型好用」，很多时候不是基础知识多了多少，而是后训练把行为调得更贴近真实使用场景。

指令微调让模型学会接任务

指令微调可以理解成给模型看大量示范：

用户：总结这段文字
助手：这段文字主要讲了三点……

用户：把下面代码改成 TypeScript
助手：可以，下面是改写后的版本……

这一步教模型如何接住人的请求。

它学的不只是答案，还包括回答结构、语气、边界和习惯。比如要不要分点、要不要先给结论、要不要补充假设、要不要输出表格，这些都会被训练数据影响。

一个模型看起来「清楚」「克制」「会办事」，往往就是这一步和后续偏好训练做得好。

偏好训练让模型知道什么叫更好

会回答之后，还要知道什么回答更好。

同一个问题，模型可能生成两个答案：

A：答案正确，但很啰嗦，结构混乱。
B：答案正确，先给结论，再列步骤，边界也说清楚。

偏好训练会让人类或 AI judge 选择更好的那个，再把这种偏好反馈给模型。常见路线有 RLHF、DPO、RLAIF，本质都是把「什么叫好回答」接进训练过程。

这一步改变的是用户感受。

模型不是只要答对就行，还要稳定、诚实、可读、少废话，并且能按照用户给的约束做事。

推理能力要靠可验证奖励继续拉

数学、代码、逻辑这类任务，只靠人工偏好不够。

因为它们可以验证。

代码能不能跑，测试能不能过，数学答案对不对，逻辑约束有没有满足，都可以变成奖励信号。模型生成多条路径，系统检查结果，把更好的路径留下来，再让模型学习。

这就是为什么推理模型会特别依赖评测、奖励和环境。

奖励设计得好，模型会学会更可靠地解决问题；奖励设计错了，模型会学会钻空子。比如只看最终答案，它可能用错误过程碰巧得到正确结果；只奖励格式，它可能变得很会摆样子，但能力没变强。

训练模型，本质上也是训练它如何被评价。

评测不是排行榜，是方向盘

很多人把评测当成模型发布后的打分工具，但在训练里，评测更像方向盘。

你测什么，模型就会往什么方向优化。

只测短问答，长任务可能不行；只测最终答案，过程可能乱来；只测榜单题，真实用户场景可能没有提升。一个错误的 grader，会把模型持续推向错误目标。

更完整的闭环是：

任务定义 -> 评测集 -> 打分器 -> 奖励信号 -> 模型更新 -> 新输出 -> 再评测

这条链路越往后越重要。因为模型已经不只是聊天，它会写代码、查资料、调用工具、执行任务。评测也必须从「答案对不对」扩展到「过程稳不稳」。

评测、奖励、更新闭环

Agent 训练开始训练整个系统

当模型能调用浏览器、终端、搜索、代码仓库和各种工具时，训练对象就不只是模型本身了。

它要学会规划任务、拆步骤、调用工具、读反馈、修错误、管理上下文，在长任务里不跑偏。

这时奖励也更复杂：

结果是否正确
过程是否合理
工具是否用对
有没有破坏环境
有没有伪造结果
上下文有没有丢失

一个会聊天的模型，和一个能连续完成任务的 Agent，中间差的不是几句提示词，而是一整套环境、评测、奖励和安全约束。

蒸馏把大模型能力压到小模型里

强模型训练出来后，它还能反过来生产训练数据。

大模型可以生成高质量问答、代码解法、推理轨迹，再让小模型学习这些结果。这个过程叫蒸馏。

所以有些小模型突然变得很好用，不一定是从零学出来的，而是吃到了更强模型产出的数据。大模型负责探索，小模型负责便宜、快速、好部署。

用户看到的是低延迟和低成本，背后是训练、合成数据、蒸馏和部署一起工作。

最后

大模型训练不是一个步骤，而是一条流水线。

预训练给它知识和模式，数据配方决定能力分布，系统架构决定能训多大、跑多远，后训练让它听懂人话，评测和奖励决定它往哪里优化，蒸馏和部署决定它能不能真正进入产品。

所以当我们说一个模型变强了，背后通常不是某一个神秘技巧，而是一整套链路都变好了。

真正的差距，越来越不只在模型参数里，而在训练系统、数据系统、评测系统和产品反馈系统里。