Awesome-LLM-RAG-Application

the resources about the application based on LLM with RAG pattern

综述

论文：Retrieval-Augmented Generation for Large Language Models: A Survey
- 面向大语言模型的检索增强生成技术：调查
- Github repo
Advanced RAG Techniques: an Illustrated Overview
- 中译版高级 RAG 技术：图解概览
高级RAG应用构建指南和总结
Patterns for Building LLM-based Systems & Products
- 构建LLM系统和应用的模式
RAG大全
- 中译版
Open RAG Base
- Open RAG Base 是一个基于公开资料收集整理汇总的RAG知识库。它基于Notion构建，是目前最全面RAG的资料汇总仓库。目的是为读者提提供前沿和全面的RAG知识，提供多维度的分析汇总，涵盖RAG的方方面，包括：
  - 学术论文
  - 前沿阅读资料
  - RAG评估与基准
  - 下游任务与数据集
  - 工具与技术栈
  - 研究学者和机构
  - ……更多内容即将上线 (e.g. ,专题研讨、示例代码、基线测试)

介绍

比较

开源工具

RAG框架

LangChain
langchain4j
LlamaIndex
GPT-RAG
- GPT-RAG提供了一个强大的架构，专为RAG模式的企业级部署量身定制。它确保了扎实的回应，并建立在零信任安全和负责任的人工智能基础上，确保可用性、可扩展性和可审计性。非常适合正在从探索和PoC阶段过渡到全面生产和MVP的组织。
QAnything
- 致力于支持任意格式文件或数据库的本地知识库问答系统，可断网安装使用。任何格式的本地文件都可以往里扔，即可获得准确、快速、靠谱的问答体验。目前已支持格式: PDF，Word(doc/docx)，PPT，Markdown，Eml，TXT，图片（jpg，png等），网页链接
Quivr
- 您的第二大脑，利用 GenerativeAI 的力量成为您的私人助理！但增强了人工智能功能。
- Quivr
Dify
- 融合了 Backend as Service 和 LLMOps 的理念，涵盖了构建生成式 AI 原生应用所需的核心技术栈，包括一个内置 RAG 引擎。使用 Dify，你可以基于任何模型自部署类似 Assistants API 和 GPTs 的能力。
Verba
- 这是向量数据库weaviate开源的一款RAG应用，旨在为开箱即用的检索增强生成 (RAG) 提供端到端、简化且用户友好的界面。只需几个简单的步骤，即可在本地或通过 OpenAI、Cohere 和 HuggingFace 等 LLM 提供商轻松探索数据集并提取见解。
danswer
- 允许您针对内部文档提出自然语言问题，并获得由源材料中的引用和参考文献支持的可靠答案，以便您始终可以信任您得到的结果。您可以连接到许多常用工具，例如 Slack、GitHub、Confluence 等。
RAGFlow
- RAGFlow：基于OCR和文档解析的下一代 RAG 引擎。在文档解析上做了增强，2024年4月1日开源，在数据处理上支持文档结构、图片、表格的深度解析，支持可控分片，可对查询进行深入分析识别关键信息，在检索上提供多路找回/重排能力，界面提供友好的引用参考查看功能。

预处理

Unstructured
- 该库提供了用于摄取和预处理图像和文本文档（如 PDF、HTML、WORD 文档等）的开源组件。 unstructured的使用场景围绕着简化和优化LLM数据处理工作流程， unstructured模块化功能和连接器形成了一个有内聚性的系统，简化了数据摄取和预处理，使其能够适应不同的平台，并有效地将非结构化数据转换为结构化输出。

路由

semantic-router

评测框架

ragas
- Ragas是一个用于评估RAG应用的框架，包括忠诚度（Faithfulness）、答案相关度（Answer Relevance）、上下文精确度（Context Precision）、上下文相关度（Context Relevancy）、上下文召回（Context Recall）
tonic_validate
- 一个用于 RAG 开发和实验跟踪的平台,用于评估检索增强生成 (RAG) 应用程序响应质量的指标。
deepeval
- 一个简单易用的开源LLM评估框架，适用于LLM应用程序。它与 Pytest 类似，但专门用于单元测试 LLM 应用程序。 DeepEval 使用 LLMs 以及在您的计算机上本地运行的各种其他 NLP 模型，根据幻觉、答案相关性、RAGAS 等指标来评估性能。
trulens
- TruLens 提供了一套用于开发和监控神经网络的工具，包括大型语言模型。这包括使用 TruLens-Eval 评估基于 LLMs 和 LLM 的应用程序的工具以及使用 TruLens-Explain 进行深度学习可解释性的工具。 TruLens-Eval 和 TruLens-Explain 位于单独的软件包中，可以独立使用。
langchain-evaluation
Llamaindex-evaluation

Embedding

BCEmbedding
- 网易有道开发的双语和跨语种语义表征算法模型库，其中包含 EmbeddingModel和 RerankerModel两类基础模型。EmbeddingModel专门用于生成语义向量，在语义搜索和问答中起着关键作用，而 RerankerModel擅长优化语义搜索结果和语义相关顺序精排。
BGE-Embedding
- 北京智源人工智能研究院开源的embeeding通用向量模型,使用retromae 对模型进行预训练，再用对比学习在大规模成对数据上训练模型。
bge-reranker-large
- 北京智源人工智能研究院开源，交叉编码器将对查询和答案实时计算相关性分数，这比向量模型(即双编码器)更准确，但比向量模型更耗时。因此，它可以用来对嵌入模型返回的前k个文档重新排序
gte-base-zh
- GTE text embedding GTE中文通用文本表示模型通义实验室提供

安全护栏

NeMo-Guardrails
- NeMo Guardrails 是一个开源工具包，用于为基于 LLM 的对话应用程序轻松添加可编程的保护轨。Guardrails（简称 "轨"）是控制大型语言模型输出的特定方式，例如不谈论政治、以特定方式响应特定用户请求、遵循预定义对话路径、使用特定语言风格、提取结构化数据等。
Guardrails
- Guardrails 是一个 Python 框架，通过执行两个关键功能来帮助构建可靠的人工智能应用程序：
  - Guardrails 在应用程序中运行输入/输出防护装置，以检测、量化和减轻特定类型风险的存在。要查看全套风险，请访问 Guardrails Hub。
  - Guardrails 可帮助您从 LLMs 生成结构化数据。
Llama-Guard
- Llama Guard 是一个新的实验模型，可为 LLM 部署提供输入和输出防护栏。Llama Guard 是经过微调的 Llama-7B 模型。

Prompting

YiVal
- GenAI 应用程序的自动提示工程助手 YiVal 是一款最先进的工具，旨在简化 GenAI 应用程序提示和循环中任何配置的调整过程。有了 YiVal，手动调整已成为过去。这种以数据驱动和以评估为中心的方法可确保最佳提示、精确的 RAG 配置和微调的模型参数。使用 YiVal 使您的应用程序能够轻松实现增强的结果、减少延迟并最大限度地降低推理成本！

SQL增强

vanna
- Vanna 是一个MIT许可的开源Python RAG（检索增强生成）框架，用于SQL生成和相关功能。
- Vanna 的工作过程分为两个简单步骤 - 在您的数据上训练 RAG“模型”，然后提出问题，这些问题将返回 SQL 查询。训练的数据主要是一些 DDL schema、业务说明文档以及示例sql等，所谓训练主要是将这些数据embedding化，用于向量检索。

LLM部署和serving

vllm
OpenLLM

可观测性

其他

RAGxplorer
- RAGxplorer 是一种交互式 Streamlit 工具，通过将文档块和的查询问句展示为embedding向量空间中可的视化内容来支持检索增强生成 (RAG) 应用程序的构建。

应用参考

Kimi Chat
- 支持发送网页链接和上传文件进行回答
GPTs
- 支持上传文档进行类似RAG应用
百川知识库
- 1.新建知识库后得到知识库 ID；
- 2.上传文件，获取文件 ID；
- 3.通过文件 ID 与知识库 ID 进行知识库文件关联，知识库中可以关联多个文档。
- 4.调用对话接口时通过 knowledge_base 字段传入知识库 ID 列表，大模型使用检索到的知识信息回答问题。
COZE
- 应用编辑平台，旨在开发下一代人工智能聊天机器人。无论您是否有编程经验，该平台都可以让您快速创建各种类型的聊天机器人并将其部署在不同的社交平台和消息应用程序上。
Devv-ai
- 最懂程序员的新一代 AI 搜索引擎，底层采用了RAG的大模型应用模式，LLM模型为其微调的模型。

论文

Retrieval Augmented Generation: Streamlining the creation of intelligent natural language processing models
Lost in the Middle: How Language Models Use Long Contexts
论文-设计检索增强生成系统时的七个故障点
- Seven Failure Points When Engineering a Retrieval Augmented Generation System
Is ChatGPT Good at Search? Investigating Large Language Models as Re-Ranking Agents
- RankGPT Reranker Demonstration (Van Gogh Wiki)
Bridging the Preference Gap between Retrievers and LLMs
Tuning Language Models by Proxy
Zero-Shot Listwise Document Reranking with a Large Language Model
- 这篇论文提到两种重新排序方法：逐点重新排名、列表重新排名。
- 逐点重新排名是给定文档列表，我们将查询+每个文档单独提供给 LLM 并要求它产生相关性分数。
- 列表重新排名是给定文档列表，我们同时向 LLM 提供查询 + 文档列表，并要求它按相关性对文档进行重新排序。
- 建议对 RAG 检索到的文档按列表重新排序，列表重排优于逐点重排。

RAG构建策略

预处理

检索

检索后处理

重排序

RankGPT Reranker Demonstration

Contextual（Prompt） Compression

How to Cut RAG Costs by 80% Using Prompt Compression
- 第一种压缩方法是 AutoCompressors。它的工作原理是将长文本汇总为短向量表示，称为汇总向量。然后，这些压缩的摘要向量充当模型的软提示。
LangChain Contextual Compression

其他

Bridging the rift in Retrieval Augmented Generation
- 不是直接微调检索器和语言模型等效果不佳的基础模块，而是引入了第三个参与者——位于现有组件之间的中间桥接模块。涉及技术包括排序、压缩、上下文框架、条件推理脚手架、互动询问等（可参考后续论文）

评估

Evaluating RAG Applications with RAGAs
- 用 RAGAs（检索增强生成评估）评估 RAG（检索增强型生成）应用
Best Practices for LLM Evaluation of RAG Applications
- RAG应用的LLM评估最佳实践（译）
Exploring End-to-End Evaluation of RAG Pipelines
- 探索 RAG 管道的端到端评估
Evaluating Multi-Modal Retrieval-Augmented Generation
- 评估多模态检索增强生成
RAG Evaluation
- RAG评估
Evaluation - LlamaIndex
- 评估-LlamaIndex
- Pinecone的RAG评测
  - 不同数据规模下不同模型的RAG忠实度效果
  - 不同模型下使用RAG与不是用RAG(仅依靠内部知识）的忠实度效果
  - 不同模型下结合内部和外部知识后的RAG忠实度效果
  - 不同模型下的RAG的答案相关度效果
zilliz:Optimizing RAG Applications: A Guide to Methodologies, Metrics, and Evaluation Tools for Enhanced Reliability

maxe-xq/Awesome-LLM-RAG-Application

Awesome-LLM-RAG-Application

综述

介绍

比较

开源工具

RAG框架

预处理

路由

评测框架

Embedding

安全护栏

Prompting

SQL增强

LLM部署和serving

可观测性

其他

应用参考

论文

RAG构建策略

预处理

检索

检索后处理

重排序

Contextual（Prompt） Compression

其他

评估

实践

幻觉

课程

视频

其他