# PaddleMIX 快乐开源活动 (2024 Q3)
LokeZhou opened this issue · 5 comments
LokeZhou commented
PaddleMIX 快乐开源活动
旨在鼓励更多的开发者参与到飞桨大模型套件的开源建设中,帮助社区修复 bug 或贡献 feature,加入开源、共建飞桨。
热身任务
跑通 Stable-Diffusion 的训练推理流程,通过完成本任务,可以收获对时下火热的文生图SD模型的hands on感受与理解,也可以快速上手PaddleMIX。
mentor:@LokeZhou
命题任务
命题任务是我们总结整理大模型套件的需求得出,每个任务上标注了任务难度,大家可以选择参与。欢迎对这些需求感兴趣的开发者参与到这些任务的开发✌️✌️。在开发过程中,你能进行包括任务分解、代码撰写等工作,还会有飞桨的研发全程和你一起解决可能遇到的问题。还等什么,快来参与吧。🎉🎉
-
做任务流程:
- 在本条Issue页面进行报名。
- 完成任务后,在任务对应tracking issue页面回复完成,飞桨研发同学验收通过后即视作完成,并在当天更新任务完成状态。
-
任务列表
任务名称 | 难度 | 任务描述 |
---|---|---|
InternLM-XComposer-2的4khd 推理和2.5版本推理 | 🌟 | InternLM-XComposer2-4KHD推理对齐,和 InternLM-XComposer2.5-7B 推理对齐 |
cambrian-8B推理 | 🌟 | 8B模型推理对齐,在ScienceQA-Img上评估指标达到80.4 |
DeepSeek-VL 推理 | 🌟 | 7B模型和1.3B模型推理对齐 |
MiniCPM-V 2.6 推理以及SFT训练 | 🌟 🌟 | MiniCPM-V-2_6推理对齐,以及SFT训练 |
Ovis系列模型推理 | 🌟🌟 | Ovis1.6-Gemma2-9B和Ovis1.5-Llama3-8B推理对齐 |
GOT-OCR2_0 模型推理 | 🌟 | GOT-OCR2_0推理对齐 |
OpenSora 升级1.2 | 🌟🌟 🌟 | ppdiffusers已经完成opensora的基础训练和推理,需要升级到1.2 |
添加llava模型单测 | 🌟 | 提交test_llava.py单测脚本,需要测试当前llava所有系列模型 |
datacopilot ops添加基于clip的图文相关性 | 🌟 | 正确输出score;给出正负样本示例 |
datacopilot ops添加基于blip的图文相关性 | 🌟 | datacopilot ops添加基于blip的图文相关性 |
datacopilot 添加基于work的数据分析功能 <eg. 数量;分布...> | 🌟 | 正确输出表单;尽可能多的分析维度;给出示例 |
datacopilot 添加基于token的数据分析功能 <eg. 数量;分布...> | 🌟 | 正确输出表单;尽可能多的分析维度;给出示例 |
datacopilot 添加基于LDA主题聚类的T-SNE可视化 | 🌟🌟 | 正确输出可视化图;给出示例 |
datacopilot添加数据语言判断的模型 | 🌟 | 正确输入数据的语言;可包含多种 |
datacopilot添加数据生成的模板 | 🌟 | 给出参考论文或代码;不少于3个,越多越好 |
datacopilot添加数据质量评价的模板 | 🌟 | 给出参考论文或代码;不少于3个,越多越好 |
datacopilot添加多个维度的数据分析 <比如找到. 描述 颜色;形状;位置等样本> | 🌟 | 保证单个维度分析的完备性;不少于3各维度;越多越好 |
datacopilot添加基于SimHash的文本级别样本去重 | 🌟 | 正确输出hash值;给出正负样本示例 |
datacopilot添加基于MinHashLSH的文本级别样本去重 | 🌟 | 正确输出hash值;给出正负样本示例 |
AIzealotwu commented
认领OpenSora 升级1.2
sanbuphy commented
认领 datacopilot ops添加基于clip的图文相关性 datacopilot 添加基于LDA主题聚类的T-SNE可视化
yinfan98 commented
认领 deepseek vl 7b 推理对齐
xue-yun-liang commented
认领 InternLM-XComposer-2 4khd 推理对齐
Xingyyy01 commented
认领 datacopilot ops添加基于blip的图文相关性