它和大模型独特的 解决问题范式 紧密相关

传统机器学习和浅层神经网络时代

  • 特点: 数据集规模相对较小,模型参数量不大,训练目标单一。
  • 范式: 端到端(End-to-End)训练,即直接用任务特定的数据(如猫狗分类)来训练一个新模型,训练完成后即可直接用于该任务。
  • 结果: 不需要“预训练”一个通用模型,也没有“微调”的需求,所以这两个词不流行。

深度学习早期

  • 范式: 可能会在 ImageNet 这样的大型通用数据集上训练一个模型(例如 ResNet),然后将这个模型的 特征提取层 冻结或微调,并替换掉最后的 分类层,用于新的小规模任务。
  • 术语: 当时更常用 “迁移学习” 或 “基于ImageNet预训练模型” 这样的描述。

大模型时代的根本转变:预训练 + 微调范式

1. 预训练(Pre-training):“学习世界知识”

大模型在这一阶段做的事情,就是在一个超大规模、多样化的数据集(比如整个互联网的文本数据)上进行 自监督学习(Self-Supervised Learning),例如 预测下一个词(Next Token Prediction)。

  • 目的: 让模型学习到 语言的通用结构、语法、语义,以及其中蕴含的 “世界知识”(Common Sense, Factual Knowledge)。
  • 结果: 得到了一个 “基础模型”(Foundation Model),它是一个强大的知识和能力载体,但还没有被教导如何执行特定的指令或任务。

2. 微调(Fine-tuning): “定制化任务和对齐”

基础模型虽然强大,但它只是一个“知识库”和“通用预测器”。为了让它能完成 特定任务(如问答、摘要)或 遵循人类指令(Instruction Following),就需要进行微调。

  • 目的: 在相对 小规模、高质量的任务特定或指令数据 上,继续训练基础模型,使其 能力从“预测”转向“执行”,并更好地 与人类的价值观和偏好对齐(Alignment)
  • 微调的常见方式:
    • 指令微调 (Instruction Tuning): 使模型能理解并执行指令。
    • RLHF/DPO: 基于人类反馈的强化学习或直接偏好优化,使模型输出更符合人类偏好。
    • 领域微调: 使模型更好地适应特定行业或专业领域。

为什么这种范式是必须的?

根本原因在于: 数据和资源的瓶颈

1. 解决数据稀疏性和泛化性

对于一个拥有 数千亿参数 的大模型来说,要在一个 单一任务 的数据集上从头开始训练,需要几乎 无限的数据,这在现实中是不可行的。

  • 预训练 利用了互联网上 几乎无限的无标签数据,以自监督的方式学习 通用表示
  • 微调 则用 少量、高价值的标签数据,将模型的通用能力 高效地转化为任务特定能力

2. 解决计算资源和成本问题

从零开始训练一个 GPT-4 级别的模型,需要 极端的计算资源和巨大的成本(数百万甚至数千万美元)。

  • 预训练 只进行一次,由少数机构(如 OpenAI, Google, Meta)完成。
  • 微调 的成本则 低得多,使得任何人或机构都能在 较小的算力和成本 下,将强大的基础模型应用到自己的特定场景中。

写在最后

暴论

每个词兴起的背后都意味着解决问题的范式发生了改变