SocialAI-tianji/Tianji

天机-任务看板🤗 —— v 0.2 迭代版本

sanbuphy opened this issue · 6 comments

感谢大家对项目的参与&支持! 让我们继续为构建一个LLM垂直领域样板努力💪
这里是一些任务,如果想要认领你可以在评论中回复对应的任务ID + 已认领,比如 1、2 认领

待认领任务如下:(一个任务可以多人认领)

项目编号 项目内容 认领人 已完成
1 为tianji知识库增加Qanything支持(代码存放、启动脚本、文档)https://github.com/netease-youdao/QAnything 如有代码,则放在tianji/knowledges/qanything,如果可以方便启动,直接把启动脚本放在run,按照规则取名,并将安装与运行文档放在docs @liuxianyi
2 为tianji知识库增加chatchat支持(代码存放、启动脚本、文档)链接:https://github.com/chatchat-space/Langchain-Chatchat 如有代码,则放在tianji/knowledges/langchain-chatchat,如果可以方便启动,直接把启动脚本放在run,按照规则取名,并将安装与运行文档放在docs @liuxianyi
3 为tianji知识库增加fastgpt支持(代码存放、启动脚本、文档)链接:https://github.com/labring/FastGPT 如有代码,则放在tianji/knowledges/fastgpt,如果可以方便启动,直接把启动脚本放在run,按照规则取名,并将安装与运行文档放在docs @liuxianyi
4 修复tianji的 agent 代码规范,写Agent的README到docs:目前agent的代码(tianji/agent) 还不太规范,没有良好的注释且不方便别人修改和提交新的结果,包括测试代码也没有相应的文档支撑,这个部分需要进一步完善,让别人看了后可很快上手修改
5 为tianji的agent修复风格化问题,使之支持更多自定义设置生效 @20300240011
6 为tianji metagpt agent版本支持更多任务类型(目前仅支持送祝福)
7 为tianji自定义知识库相关功能支持更多本地和online embedding,并在test目录下编写测试文档 @tackhwa
8 补全test目录下的llm_test单元测试,加入api和模型调用版本测试,为多模型支持做准备 @20300240011
9 实现tianji知识库专用代码初版 @liuxianyi
12 清理并规范agent对话的streamlit脚本及其对应的python代码
13 进行tianji知识库语料清洗工作,开发清洗脚本并得到最终结果(构建一套知识库(初版也行)的知识抽取prompt和方式,能够把脏数据转化成一个”知识单元“供知识库查询使用。) @sanbuphy
14 ~~为tianji的AIgame实现gradio前端,支持对话十次后自动刷新对话列表及多人同时使用 @sanbuphy
15 完善送祝福模型从数据制造到微调的整个过程记录 @sanbuphy
16 ~~使用agent重构和改进AIgame交互,如加入记忆装置和分数计分器等特性,并支持随机事件
17 有关prompt质量的管理,建立prompt治理机制。目前prompt有些类别可能重合严重,不利于之后提交prompt PR或者给我们制造训练数据,所以需要考察各自的独立性和有效性。 @GoldWaterFall
18 有关人情世故的语料比较难的是判断“好坏”,需要建立一套评测机制,可以先从简单的开始(给定参考和规则让大模型打分,效果不一定好但是先完成后完美,可以参考论文)
19 参考moss数据集调整对话数据集制作方案
20 未来规划:开发多轮对话数据制造工具
21 写一套从零到一获得数据、清洗得到知识、根据知识制造提问或者多轮对话、变成转向数据集的全流程教程 @sanbuphy

注意:项目编号按顺序填写,认领人信息待填充。

1,2,3 认领

5,8认领

7 认领

17 认领

我有几点的思考和可以尝试的做法:

  1. 知识清洗上,不仅仅去把知识清理出来,还尝试对每个知识打上标签。
  2. 知识清洗的embedding上,未来可以尝试微调embedding。
  3. 在Agent这个部分可以考虑使用Langchain的Router Chain来实现。

13认领