本项目是一个使用LLM(大语言模型)使用RAG技术构建文档问答的项目,将会涵盖企业构建基于RAG的文档问答几乎所有的常见优化手段。 项目重点介绍算法流程,不会将重点放在非常规范化的工程代码上,因此,每一个Notebook文件都可以独立运行,不会做公共逻辑的抽象。 具体包括如下话题:
- 问答数据构建:使用RAG技术构建企业级文档问答系统之QA抽取
- Baseline搭建:使用RAG技术构建企业级文档问答系统之基础流程
- 检索优化
- 向量模型优化:使用RAG技术构建企业级文档问答系统:检索优化(1)Embedding微调
- Multi Query:使用RAG技术构建企业级文档问答系统:检索优化(2)Multi Query
- RAG Fusion:使用RAG技术构建企业级文档问答系统:检索优化(3)RAG Fusion
- Ensemble: 使用RAG技术构建企业级文档问答系统:检索优化(4)BM25和混合检索
- HyDE
- Reranker
- Reranker优化
- 文档解析优化
- 文档切分优化
- 问答优化
- 评估
欢迎大家关注我的公众号,关注LLM、Langchain、Agent、Knowledge Graph等话题,会定期开源一些项目。