预训练-对齐 Pre-train alignment

Pretrain-Alignment 很强大
LLM 在 Pretrain 已经很强，Alignment只是画龙点睛
Pretrain段看过大量各式各样的资料时关键
Pretrain-Alignment 有极限
在Alignment阶段往往LLM只是強化原來已经知道的事情难以学习新技能

[大型语言模型的训练过程](../Generative AI/第4讲：大型语言模型的训练过程.md)

预训练 (Pre-training)：利用海量的互联网文本数据，通过“文字接龙”（下一个词预测）任务，让模型掌握语言的基本规律和世界知识。
有监督微调 (Supervised Fine-tuning, SFT)：也称指令微调 (Instruction Fine-tuning)，使用高质量的“指令-回答”对，教模型如何遵循人类的指令进行有用的回答。
人类反馈强化学习 (Reinforcement Learning from Human Feedback, RLHF)：让人类对模型的多个回答进行偏好排序，再通过强化学习算法，让模型的输出更符合人类的价值观和偏好。

有人类参与的地方===>Alignment 阶段2、3（Finetune） --->希望和人类的需求对齐

Pretrain 的强大

LLaMA-2-7b-base: 一般后面结尾是base表示只pretrain过，没有进行对齐；

其base模型在回答“什么是机器学习？”时，虽然能给出基本定义，但很快就会陷入无休止的重复，无法正常交流。相比之下，经过对齐的chat模型则能条理清晰、详尽地进行解释。

从量化指标上看，差距更为明显。在MT-Bench基准测试中，Llama 3 70B的base模型得分仅为2.7分，而其经过对齐的instruct版本得分飙升至8.63分。

对齐是模型能力提升的关键，而预训练模型（Base Model）本身似乎贡献不大。

LLaMA2：只用两万多笔质量高的数据（Quality is All You Need）进行SFT结果就可以比较好

LIMA: Less Is More for Alignment：只使用了一千笔资料（但是是精挑筛选和作者自己撰写的数据）对齐之后效果随没有办法达到GPT的效果，但是也能打的有来有回，表现能力很好

Alignment就像一种画龙点睛，pretrain只是把龙的主体画出来了

但是什么样的资料是好资料？
画龙点睛 or 画蛇添足

一篇有趣的论文发现，使用来自“弱智吧”的240条问题（答案由GPT-4生成并筛选）对模型进行微调，其效果远超使用8000多条“知乎”问答数据。研究者推测，这可能是因为“弱智吧”的问题形式更多样化，更能激发模型的潜力。但更深层的原因，或许在于其答案来源于强大的GPT-4，这本质上是一种知识蒸馏 (Knowledge Distillation)

知识蒸馏

使用知识蒸馏可以显著减少训练成本（但是这里的成本并没有包含需要对老师模型训练的资料，以及对老师模型产生结果清理的费用）

教师生成的资料哪些是好的？如何筛选
教师模型的能力也有限，生成的资料不一定正确

AlpacaGasus项目使用一个LLM来为Alpaca的5万条数据打分，只保留高质量部分进行训练，取得了更好的效果。
《Long Is More for Alignment》：直接选择答案最长的那1000条数据。用这种方法训练出的模型，在多项评测中击败了使用更复杂方法筛选或人工精选数据的模型。
是否是因为打分的大模型更偏好于长答案