LLM小知识系列~

第三期:生产LLM数据的挑战在哪里

①标签错误
这个顾名思义,就是打标打错了

②标注数据质量参差不齐(p1)
好的:一个卖火柴的小女孩,在墙边瑟瑟发抖,脑里幻想出美味的佳肴、温暖的圣诞树。

坏的:墙边有个小女孩

因为标注平台的收费大多数是计件的,所以标注员没有要精益求精的欲望,必须强约束才能得到更好的质量

③数据不均衡(p2)
数据不均衡是指在数据集中不同类别的样本数量存在较大差异,这可能对机器学习模型的性能造成负面影响。
特别是在监督学习中,对于某些少数类别,因其样本数量较少,导致模型可能更容易将其误分类为多数类别,从而降低模型的召回率和精度。
在LLM中,不均衡数据也可能导致错误的类别划分和性能下降。
虽然ALIGN后危害会降低,但是可能只是大类的安全性会提高。

OK,小知识暂时告一段落,后面有新的学习进展再更新。

第二期:为什么数据对LLM很重要(web.okjike.com

第一期:LLM是如何被训练出来的(web.okjike.com
评论加载中...