项目目的:基于CPM-Bee微调来做基于本地论文知识库的问答系统
- 数据处理模块 目的:需要处理成CPM-Bee需要的格式,目前我们的数据是pdf格式,需要处理成json格式,拆分成训练集和测试集。
- CPM-Bee代码微调模块,有余力的同学可以研究源码,共同探讨。 目的:利用lora,ptuning,freeze来做微调,微调之后需要评估模型的好坏。
- langchain的部分,需要将数据切片,做成向量库,可以参考chatpaper的代码,这部分可以和数据处理部分一起做。 目的:构造出一个可以检索的向量库
- 做可视化的界面,利用gradio来做可视化。 目的:构造出可视化的界面。