PaddlePaddle/PaddleMIX

# PaddleMIX 快乐开源活动 (2024 Q3)

LokeZhou opened this issue · 5 comments

PaddleMIX 快乐开源活动

旨在鼓励更多的开发者参与到飞桨大模型套件的开源建设中,帮助社区修复 bug 或贡献 feature,加入开源、共建飞桨。

热身任务

跑通 Stable-Diffusion 的训练推理流程,通过完成本任务,可以收获对时下火热的文生图SD模型的hands on感受与理解,也可以快速上手PaddleMIX。

mentor:@LokeZhou

命题任务

命题任务是我们总结整理大模型套件的需求得出,每个任务上标注了任务难度,大家可以选择参与。欢迎对这些需求感兴趣的开发者参与到这些任务的开发✌️✌️。在开发过程中,你能进行包括任务分解、代码撰写等工作,还会有飞桨的研发全程和你一起解决可能遇到的问题。还等什么,快来参与吧。🎉🎉

  • 做任务流程:

    1. 在本条Issue页面进行报名。
    2. 完成任务后,在任务对应tracking issue页面回复完成,飞桨研发同学验收通过后即视作完成,并在当天更新任务完成状态。
  • 任务列表

任务名称 难度 任务描述
InternLM-XComposer-2的4khd 推理和2.5版本推理 🌟 InternLM-XComposer2-4KHD推理对齐,和 InternLM-XComposer2.5-7B 推理对齐
cambrian-8B推理 🌟 8B模型推理对齐,在ScienceQA-Img上评估指标达到80.4
DeepSeek-VL 推理 🌟 7B模型1.3B模型推理对齐
MiniCPM-V 2.6 推理以及SFT训练 🌟 🌟 MiniCPM-V-2_6推理对齐,以及SFT训练
Ovis系列模型推理 🌟🌟 Ovis1.6-Gemma2-9BOvis1.5-Llama3-8B推理对齐
GOT-OCR2_0 模型推理 🌟 GOT-OCR2_0推理对齐
OpenSora 升级1.2 🌟🌟 🌟 ppdiffusers已经完成opensora的基础训练和推理,需要升级到1.2
添加llava模型单测 🌟 提交test_llava.py单测脚本,需要测试当前llava所有系列模型
datacopilot ops添加基于clip的图文相关性 🌟 正确输出score;给出正负样本示例
datacopilot ops添加基于blip的图文相关性 🌟 datacopilot ops添加基于blip的图文相关性
datacopilot 添加基于work的数据分析功能 <eg. 数量;分布...> 🌟 正确输出表单;尽可能多的分析维度;给出示例
datacopilot 添加基于token的数据分析功能 <eg. 数量;分布...> 🌟 正确输出表单;尽可能多的分析维度;给出示例
datacopilot 添加基于LDA主题聚类的T-SNE可视化 🌟🌟 正确输出可视化图;给出示例
datacopilot添加数据语言判断的模型 🌟 正确输入数据的语言;可包含多种
datacopilot添加数据生成的模板 🌟 给出参考论文或代码;不少于3个,越多越好
datacopilot添加数据质量评价的模板 🌟 给出参考论文或代码;不少于3个,越多越好
datacopilot添加多个维度的数据分析 <比如找到. 描述 颜色;形状;位置等样本> 🌟 保证单个维度分析的完备性;不少于3各维度;越多越好
datacopilot添加基于SimHash的文本级别样本去重 🌟 正确输出hash值;给出正负样本示例
datacopilot添加基于MinHashLSH的文本级别样本去重 🌟 正确输出hash值;给出正负样本示例

认领OpenSora 升级1.2

认领 datacopilot ops添加基于clip的图文相关性 datacopilot 添加基于LDA主题聚类的T-SNE可视化

认领 deepseek vl 7b 推理对齐

认领 InternLM-XComposer-2 4khd 推理对齐

认领 datacopilot ops添加基于blip的图文相关性