[例会] 语言模型在合成数据的最佳实践和经验教训

Question

[例会] 语言模型在合成数据的最佳实践和经验教训

Opened this issue 6 months ago · 1 comments

Peng99999 commented 6 months ago

Title

Best Practices and Lessons Learned on Synthetic Data for Language Models

Link

Best Practices and Lessons Learned on Synthetic Data for Language Models.pdf

Year

2024

Author and affiliation

Google DeepMind

Conference or Journal

arXiv

Rank

No response

Keywords

合成数据；大语言模型

Selecting Reason

最近在看关于大模型在数据合成领域的研究，同时比较关注生成合成数据的质量、如何利用的方案以及利用合成数据最终带来的实际效果。
谷歌在最近（2024-04）刚写出一篇综述性质的论文，详细介绍了合成数据在各个领域的使用方案与实际效果展示，这次分享我会以这篇文章展开介绍，其中主要以下几个领域涉及：
1.在训练中使用合成数据
--1. 推理
--2. 利用工具和规划
--3. 多模态
--4. 多语言
--5. 对齐
2.在评估中使用合成数据
--1. 事实性评估
--2. 安全性评估
--3. 协助人类评估
其中每个领域会介绍一个或几个案例来解释他们是如何生成和使用合成数据，以及最后能够达到什么样的效果

Supplementary

同时有一些值得参考的重点论文：
使用合成数据帮助大模型减少幻觉：
TEACHING LANGUAGE MODELS TO HALLUCINATE less with synthetic tasks.pdf

同时利用众包工作者的标签数据与生成的合成数据，来丰富数据集的多样性：
LaMDA Language Models for Dialog Applications.pdf

使用较小模型就能达到大模型的效果（甚至能推理速度更快）：
Textbooks Are All You Need.pdf
Textbooks Are All You Need II phi-1.5 technical report.pdf
microsoft.com/en-us/resea

还有一个值得关注的结论：
现在有大量的证据表明，LLM 开始达到和人类数据标注者相同的水平，并且在创建高质量 (合成的) 数据中部分达到了专家水平
AnnoLLM_Making Large Language Models to Be Better Crowdsourced Annotators.pdf
CHATGPT OUTPERFORMS CROWD_WORKERS FOR TEXT_ANNOTATION TASKS.pdf
Judging LLM_as_a_Judge with WT-Bench and Chatbot Arena.pdf

Answer 1 · 2024-04-29T15:47:59.000Z

这里有一些具有代表性的评估大模型幻觉的数据集：

TruthfulQA：衡量语言模型在生成问题答案时是否真实。该基准包括817个问题，涉及38个类别，包括健康、法律、金融和政治。最佳模型在58%的问题上是真实的，而人类表现是94%。模型产生了许多模仿流行误解的错误答案，并有可能欺骗人类。
FactualityPrompt：主要测量用于开放式文本生成的大规模LMs的事实准确性。评估框架由以下阶段组成：在第1阶段，LM根据提供的测试提示生成续写文本。在第2阶段，首先检查续写，它指的是具有需要真实性评估的事实。这一步骤是必要的，因为开放式文本生成可能会生成不包含事实的文本，如个人观点或闲聊式文本（例如生成：”我喜欢吃苹果“这类闲聊式的文本）。最后，利用公式计算了真实性和质量度量。
FActScore：它将生成内容分解为一系列原子事实，并计算可靠知识源支持的原子事实的百分比：
KoLA-KC：一个面向知识的LLM评估基准，其中有三个关键因素，其中（1）通常用来评估世界知识，（3）通常用来评估幻觉：（1）对于能力，模拟人类认知，形成知识相关能力的四级分类，涵盖19项任务。（2）对于数据，为了确保公平的比较，这个数据集既使用维基百科（一个普遍由LLM预先训练的语料库），也使用不断收集的新兴语料库，旨在评估处理看不见的数据和不断发展的知识的能力。（3）对于评估标准，采用了一个对比系统，包括总体标准分数，以提高任务和模型之间的数字可比性，以及一个独特的自对比指标，用于自动评估知识幻觉。
HaluEval: 这是一个由生成的和人类注释的幻觉样本组成的大型集合，用于评估LLM在识别幻觉方面的表现。实验结果表明，ChatGPT很可能通过编造无法核实的信息（即约19.5%的回复）来产生与特定主题相关的幻觉内容。
FACTOR：自动将事实语料库转换为基准，评估LM从语料库中生成与真实事实类似但不正确陈述的倾向。同时考虑了三方面的因素：Wiki因子、新闻因子和专家因子。

下面列举一些常见的生错错误信息或产生幻觉的示例：

这是现有基准评估幻觉的任务格式示例：

这是几种错误类型示例：