LLM论文分享01:

分享一篇论文:
D-CPT Law: Domain-specific Continual Pre-Training Scaling Law for Large Language Models

D-CPT 定律:大型语言模型的特定领域持续预训练缩放定律

意思是通过D-CPT定律,可以得到一般语料库和下游域语料库在不同规模的最佳混合比例和训练成本,减少了必要但成本高昂的网络搜索工作。

在小规模实验中,用小规模训练成本,预测任意比混合比、模型大小、数据集大小,和下游性能。

另外还,作者还扩展了跨域设置的标准 D-CPT 定律,并提出了跨域 D-CPT 定律来预测目标域的 D-CPT 定律,以进一步减少新域拟合 D-CPT 定律的工作量。

这篇可能是目前唯一一篇研究continual pretrain的scaling law的,
对于中小模型公司来说很有意义。

----
读这篇论文,我用了之前整理的,李沐老师《如何读论文》:web.okjike.com

中的Part One。

关于LLM,你或许还想知道这些小知识:
第一期:LLM是如何被训练出来的web.okjike.com
第二期:为什么数据对LLM很重要web.okjike.com
第三期:生产LLM数据的挑战在哪里web.okjike.com

-----
LLM论文分享将会是接下来一段时间的保留内容,
原定于每天八点来一篇,第一篇想讲InstructGPT的,
不过这篇是同事周报里分享的,我今晚看到后,特别想讲,所以就拿来了。
毕竟,当内心最想开始的时候,就是最适合开始的时候。
-----
D-CPT Law: Domain-specific Continual Pre-Training Scaling Law for Large Language Models
评论加载中...