一、CPM-Bee微调项目组

项目目的:基于CPM-Bee微调来做基于本地论文知识库的问答系统

二、技术路线

  1. 数据处理模块 目的:需要处理成CPM-Bee需要的格式,目前我们的数据是pdf格式,需要处理成json格式,拆分成训练集和测试集。
  2. CPM-Bee代码微调模块,有余力的同学可以研究源码,共同探讨。 目的:利用lora,ptuning,freeze来做微调,微调之后需要评估模型的好坏。
  3. langchain的部分,需要将数据切片,做成向量库,可以参考chatpaper的代码,这部分可以和数据处理部分一起做。 目的:构造出一个可以检索的向量库
  4. 做可视化的界面,利用gradio来做可视化。 目的:构造出可视化的界面。

基于大模型的本地知识库问答系统