天机-任务看板🤗 —— v 0.2 迭代版本

Question

天机-任务看板🤗 —— v 0.2 迭代版本

sanbuphy opened this issue 8 months ago · 6 comments

感谢大家对项目的参与&支持！让我们继续为构建一个LLM垂直领域样板努力💪
这里是一些任务，如果想要认领你可以在评论中回复对应的任务ID + 已认领，比如 1、2 认领

待认领任务如下：（一个任务可以多人认领）

项目编号	项目内容	认领人	已完成
1	为tianji知识库增加Qanything支持（代码存放、启动脚本、文档）https://github.com/netease-youdao/QAnything 如有代码，则放在tianji/knowledges/qanything，如果可以方便启动，直接把启动脚本放在run，按照规则取名，并将安装与运行文档放在docs	@liuxianyi
2	为tianji知识库增加chatchat支持（代码存放、启动脚本、文档）链接：https://github.com/chatchat-space/Langchain-Chatchat 如有代码，则放在tianji/knowledges/langchain-chatchat，如果可以方便启动，直接把启动脚本放在run，按照规则取名，并将安装与运行文档放在docs	@liuxianyi
3	为tianji知识库增加fastgpt支持（代码存放、启动脚本、文档）链接：https://github.com/labring/FastGPT 如有代码，则放在tianji/knowledges/fastgpt，如果可以方便启动，直接把启动脚本放在run，按照规则取名，并将安装与运行文档放在docs	@liuxianyi
4	修复tianji的 agent 代码规范，写Agent的README到docs：目前agent的代码(tianji/agent) 还不太规范，没有良好的注释且不方便别人修改和提交新的结果，包括测试代码也没有相应的文档支撑，这个部分需要进一步完善，让别人看了后可很快上手修改
5	为tianji的agent修复风格化问题，使之支持更多自定义设置生效	@20300240011
6	为tianji metagpt agent版本支持更多任务类型（目前仅支持送祝福）
7	为tianji自定义知识库相关功能支持更多本地和online embedding，并在test目录下编写测试文档	@tackhwa	✔
8	补全test目录下的llm_test单元测试，加入api和模型调用版本测试，为多模型支持做准备	@20300240011
9	实现tianji知识库专用代码初版	@liuxianyi	✔
12	清理并规范agent对话的streamlit脚本及其对应的python代码
13	进行tianji知识库语料清洗工作，开发清洗脚本并得到最终结果（构建一套知识库（初版也行）的知识抽取prompt和方式，能够把脏数据转化成一个”知识单元“供知识库查询使用。）	@sanbuphy
14	~~为tianji的AIgame实现gradio前端，支持对话十次后自动刷新对话列表及多人同时使用	@sanbuphy	✔
15	完善送祝福模型从数据制造到微调的整个过程记录	@sanbuphy	✔
16	~~使用agent重构和改进AIgame交互，如加入记忆装置和分数计分器等特性，并支持随机事件
17	有关prompt质量的管理，建立prompt治理机制。目前prompt有些类别可能重合严重，不利于之后提交prompt PR或者给我们制造训练数据，所以需要考察各自的独立性和有效性。	@GoldWaterFall
18	有关人情世故的语料比较难的是判断“好坏”，需要建立一套评测机制，可以先从简单的开始（给定参考和规则让大模型打分，效果不一定好但是先完成后完美，可以参考论文）
19	参考moss数据集调整对话数据集制作方案
20	未来规划：开发多轮对话数据制造工具
21	写一套从零到一获得数据、清洗得到知识、根据知识制造提问或者多轮对话、变成转向数据集的全流程教程	@sanbuphy	✔

注意：项目编号按顺序填写，认领人信息待填充。

20300240011 commented 8 months ago

5,8认领

tackhwa commented 8 months ago

7 认领

GoldWaterFall commented 8 months ago

17 认领

Jianfeng777 commented 8 months ago

13认领

Answer 1 · 2024-02-05T15:02:10.000Z

1,2,3 认领

Answer 2 · 2024-03-02T15:37:51.000Z

我有几点的思考和可以尝试的做法：

知识清洗上，不仅仅去把知识清理出来，还尝试对每个知识打上标签。
知识清洗的embedding上，未来可以尝试微调embedding。
在Agent这个部分可以考虑使用Langchain的Router Chain来实现。