它和大模型独特的 解决问题范式 紧密相关

传统机器学习和浅层神经网络时代

深度学习早期

范式： 可能会在 ImageNet 这样的大型通用数据集上训练一个模型（例如 ResNet），然后将这个模型的 特征提取层 冻结或微调，并替换掉最后的 分类层，用于新的小规模任务。
术语： 当时更常用 “迁移学习” 或 “基于ImageNet预训练模型” 这样的描述。

大模型在这一阶段做的事情，就是在一个超大规模、多样化的数据集（比如整个互联网的文本数据）上进行 自监督学习（Self-Supervised Learning），例如 预测下一个词（Next Token Prediction）。

目的： 让模型学习到 语言的通用结构、语法、语义，以及其中蕴含的 “世界知识”（Common Sense, Factual Knowledge）。
结果： 得到了一个 “基础模型”（Foundation Model），它是一个强大的知识和能力载体，但还没有被教导如何执行特定的指令或任务。

基础模型虽然强大，但它只是一个“知识库”和“通用预测器”。为了让它能完成 特定任务（如问答、摘要）或 遵循人类指令（Instruction Following），就需要进行微调。

目的： 在相对 小规模、高质量的任务特定或指令数据 上，继续训练基础模型，使其 能力从“预测”转向“执行”，并更好地 与人类的价值观和偏好对齐（Alignment）。
微调的常见方式：
- 指令微调 (Instruction Tuning)： 使模型能理解并执行指令。
- RLHF/DPO： 基于人类反馈的强化学习或直接偏好优化，使模型输出更符合人类偏好。
- 领域微调： 使模型更好地适应特定行业或专业领域。

根本原因在于： 数据和资源的瓶颈。

对于一个拥有 数千亿参数 的大模型来说，要在一个 单一任务 的数据集上从头开始训练，需要几乎 无限的数据，这在现实中是不可行的。

从零开始训练一个 GPT-4 级别的模型，需要 极端的计算资源和巨大的成本（数百万甚至数千万美元）。

暴论

每个词兴起的背后都意味着解决问题的范式发生了改变