LLM 论文分享02:初探-大名鼎鼎的Instruct-GPT究竟是什么?

这篇发布于2022年1月27日的论文《Aligning language models to follow instructions》openai.com ,可谓是LLM训练的奠基之作~

就是下面这个图1,

SFT -> RM -> PPO
这一块的详解,在这篇《LLM如何被训练出来》web.okjike.com
这篇就不讨论了。

> 为什么要这么训练呢?
因为OpenAI研究发现,用人类反馈进行微调后的模型,会更受欢迎。

> 为什么会更受欢迎呢?
首先单纯的让语言模型变大(即更大的尺寸更大的规模更大的参数量),并不会让语言模型遵循用户的意图,即模型的输出,对用户没有任何帮助,不真实甚至有毒。就是说,模型与用户期望不一致。

那么OpenAI构建了一个数据集,用于监督学习微调GPT-3,随后,他们又收集了个模型输出排名的数据集(即对模型的输出进行打分),使用人类反馈的强化学习进一步微调了这个监督模型。即让模型的输出,更符合人类的期望,这个过程就是大名鼎鼎的RLHF(Reinforcement Learning from Human Feedback)。
而这个模型,就叫做Instruct-GPT。

> 具体的受欢迎法?

Instruct-GPT的参数量是1.3B,GPT-3是175B,在对提示分布的人工评估中,少了100倍参数的Instruct-GPT遥遥领先~
Instruct-GPT的真实性提高,有毒输出减少,同时在公共NLP数据集上的性能退步最小,表现优秀!(图2)

> 这个结论是怎么来的呢?
通过API提示分发提示,比较每个模型的输出,优质与175B SFT模型的频率,进行评估。
PPO-Ptx即是Instruct-GPT模型,PPO是没有预训练混合的模型,可以看出,是明显高于GPT-3的基础的,且能看出,1.3B PPO-ptx模型的输出是由于175B GPT-3的输出。(置信区间是95%)

> 这个是完美的吗?
当然不是,Instruct-GPT仍然会犯简单的错误,仍然可能无法遵循指令、编造事实、对简单的问题给出冗长的答案的单,或者无法检测到带有错误前提的指令。

Anyway,使用人类偏好对LLM进行微调可以显著提高性能,当然还需要做很多工作来提高安全性和可靠性。

> 论文还说了啥?
第二节介绍了相关工作,
第三节深入探讨方法和实验细节,包括高级方法、任务和数据集细节、人类数据收集、如何训练模型和他们的评估程序。
第四节展示了结果,包括API提示分发的结果,公共NLP数据集的结果和定性结果。
第五章则探讨了对齐、正在对齐的内容、局限性、开放性问题和这个工作的影响~

---
接下来分享:数据清洗的步骤和效果⭐ Falcon
论文地址: The RefinedWeb Dataset for Falcon LLM: Outperforming Curated Corpora with Web Data, and Web Data Only arxiv.org

有感兴趣的可以先看起来~

---
另外:
读这篇论文,我用了之前[整理的李沐老师《如何读论文》
web.okjike.com
中的Part One。

LLM论文分享01:《D-CPT 定律:大型语言模型的特定领域持续预训练缩放定律》
web.okjike.com

关于LLM,你或许还想知道这些小知识:
第一期:LLM是如何被训练出来的
web.okjike.com

第二期:为什么数据对LLM很重要
web.okjike.com

第三期:生产LLM数据的挑战在哪里
web.okjike.com
评论加载中...