datawhalechina/DOPMC

what-is-vs

SuperSupeng opened this issue · 4 comments

你是否已经阅读并同意《Datawhale开源项目指南》?

你是否已经阅读并同意《Datawhale开源项目行为准则》?

项目简介

本项目旨在创建一个全面、易于理解的向量检索教程,它将覆盖从基础理论到核心技术的各个方面。教程将通过详细的解释、实例和实践案例,帮助初学者、研究人员以及应用人员深入理解并有效地使用向量检索技术。

立项理由

  • 市场需求:随着AI的快速发展,向量检索在信息检索、推荐系统、大模型应用等领域变得越来越重要。
  • 知识空白:目前市场上缺乏一个全面、系统的向量检索教程。
  • 技术进步:大模型和向量检索之间的紧密联系为研究和应用提供了新的可能性。

项目受众

  • 初学者,希望从基础了解向量检索。
  • 相关领域的研究人员,需要了解最新技术和应用。
  • 应用人员,需要实际开发应用向量检索技术。

项目亮点

  • 全面性:从基础概念到核心技术,提供全面的内容覆盖。
  • 实用性:结合案例研究和应用实例,提供实际操作指南。
  • 前瞻性:探讨新兴技术趋势和面临的挑战。

项目规划

以实际大纲为准
第一部分:引言和基础知识 @苏鹏

  1. 引言
  • 什么是向量检索
  • 为什么向量检索重要
  • 教程目标和读者指南

第二部分:核心技术

  1. 向量化技术 @李剑楠
  • 非结构化数据
  • 非结构化数据向量化
  1. 向量索引
  • 向量索引概述 @向隆
    • 概述
    • 评估技术
  • 基于量化的向量索引方法 @李剑楠
  • 基于哈希的向量索引方法 @李剑楠
  • 基于树的向量索引方法 @王泽宇
  • 基于图的向量索引方法 @王泽宇
  • 基于混合的向量索引方法 @李剑楠
  1. 向量查询方法 @王梦召
  • 向量查询方法概述
  • k近邻查询
  • 范围查询
  • 混合查询
  • 多向量查询
  • 其它查询
  1. 向量查询优化策略 @向隆 @田冰
  • 算法层面 @王梦召
  • 硬件层面
    • CPU 多核架构
    • GPU 架构
    • FPGA 架构
    • 近数据处理架构

第三部分:系统实现与应用 @韩颐堃

  1. 向量数据库系统概述
  • 向量数据库的基本构成与工作原理
  • 市面主流向量数据库系统比较
  1. 基于RAG的知识问答系统实战
  • 基于Langchain的RAG基础实现
  • 基于Rags的RAG评价体系

第四部分:未来展望和挑战

  1. 新兴技术趋势
  • 神经网络与向量检索的结合(联合优化) @李剑楠
  • Learned Index @王泽宇
  • DB4LLM @韩颐堃
  1. 面临的挑战 @王泽宇 @李剑楠 @田冰 @向隆
  • 数据隐私和安全问题
  • 行业发展趋势和未来应用场景

结语

  • 总结
  • 附录:进一步阅读资源和工具列表

项目负责人

Github:@SuperSupeng
WeChat: subranium

项目链接

what-is-vs

备注:发起立项申请后DOPMC成员将会在7天内给出审核意见,若7天内无反对意见则默认立项通过~

  • 我已知悉上述备注

同意,期待看到成品。
BTW,会考虑加入一些偏实践经验的部分吗,例如不同embedding模型的比较,ada-002,sentence-transformer等。

同意,期待看到成品。 BTW,会考虑加入一些偏实践经验的部分吗,例如不同embedding模型的比较,ada-002,sentence-transformer等。

会涉及到embedding部分,会重点关注到实践部分,不会过多关注原理方面。

同意

同意