1. ChatBot-Note

对话机器人学习笔记

2. 文本对话

2.1. 数据集&指标

语料库

  • 腾讯AI实验室的语料库
  • 悟道2.0语料 WuDaoCorpora2.0由全球最大的纯文本数据集(总量3TB、开源200GB)、全球最大的多模态数据集(93TB,6.5亿图文对,开源500w对)和全球最大的中文对话数据集(181G,对话轮数1.4B,不开源)三部分构成。
  • CLUECorpus2020 通过对Common Crawl的中文部分进行语料清洗,最终得到100GB的高质量中文预训练语料
  • 百度DuReader-Retrieval 百度利用真实场景下的用户搜索日志,建立了首个大规模高质量中文段落检索数据集

2.2. 对话模型

2.3. 开源项目

2.4. NLP基础

3. 语音对话

ASR 语言识别

TTS 语言合成

视频对话

人物识别

3D人物建模

4. 产品

4.1. 业界产品

4.2. 对话界面

4.3. QQ机器人

5. 参考资料