# PaddleMIX 快乐开源活动 (2024 Q3)

Question

# PaddleMIX 快乐开源活动 (2024 Q3)

LokeZhou opened this issue 5 months ago · 5 comments

LokeZhou commented 5 months ago

PaddleMIX 快乐开源活动

旨在鼓励更多的开发者参与到飞桨大模型套件的开源建设中，帮助社区修复 bug 或贡献 feature，加入开源、共建飞桨。

热身任务

跑通 Stable-Diffusion 的训练推理流程，通过完成本任务，可以收获对时下火热的文生图SD模型的hands on感受与理解，也可以快速上手PaddleMIX。

mentor：@LokeZhou

命题任务

命题任务是我们总结整理大模型套件的需求得出，每个任务上标注了任务难度，大家可以选择参与。欢迎对这些需求感兴趣的开发者参与到这些任务的开发✌️✌️。在开发过程中，你能进行包括任务分解、代码撰写等工作，还会有飞桨的研发全程和你一起解决可能遇到的问题。还等什么，快来参与吧。🎉🎉

做任务流程：
1. 在本条Issue页面进行报名。
2. 完成任务后，在任务对应tracking issue页面回复完成，飞桨研发同学验收通过后即视作完成，并在当天更新任务完成状态。
任务列表

任务名称	难度	任务描述
InternLM-XComposer-2的4khd 推理和2.5版本推理	🌟	InternLM-XComposer2-4KHD推理对齐，和 InternLM-XComposer2.5-7B 推理对齐
cambrian-8B推理	🌟	8B模型推理对齐，在ScienceQA-Img上评估指标达到80.4
DeepSeek-VL 推理	🌟	7B模型和1.3B模型推理对齐
MiniCPM-V 2.6 推理以及SFT训练	🌟 🌟	MiniCPM-V-2_6推理对齐，以及SFT训练
Ovis系列模型推理	🌟🌟	Ovis1.6-Gemma2-9B和Ovis1.5-Llama3-8B推理对齐
GOT-OCR2_0 模型推理	🌟	GOT-OCR2_0推理对齐
OpenSora 升级1.2	🌟🌟 🌟	ppdiffusers已经完成opensora的基础训练和推理，需要升级到1.2
添加llava模型单测	🌟	提交test_llava.py单测脚本，需要测试当前llava所有系列模型
datacopilot ops添加基于clip的图文相关性	🌟	正确输出score；给出正负样本示例
datacopilot ops添加基于blip的图文相关性	🌟	datacopilot ops添加基于blip的图文相关性
datacopilot 添加基于work的数据分析功能 <eg. 数量；分布...>	🌟	正确输出表单；尽可能多的分析维度；给出示例
datacopilot 添加基于token的数据分析功能 <eg. 数量；分布...>	🌟	正确输出表单；尽可能多的分析维度；给出示例
datacopilot 添加基于LDA主题聚类的T-SNE可视化	🌟🌟	正确输出可视化图；给出示例
datacopilot添加数据语言判断的模型	🌟	正确输入数据的语言；可包含多种
datacopilot添加数据生成的模板	🌟	给出参考论文或代码；不少于3个，越多越好
datacopilot添加数据质量评价的模板	🌟	给出参考论文或代码；不少于3个，越多越好
datacopilot添加多个维度的数据分析 <比如找到. 描述颜色；形状；位置等样本>	🌟	保证单个维度分析的完备性；不少于3各维度；越多越好
datacopilot添加基于SimHash的文本级别样本去重	🌟	正确输出hash值；给出正负样本示例
datacopilot添加基于MinHashLSH的文本级别样本去重	🌟	正确输出hash值；给出正负样本示例

Answer 1 · 2024-07-30T07:57:07.000Z

认领OpenSora 升级1.2

Answer 2 · 2024-08-01T11:09:56.000Z

认领 datacopilot ops添加基于clip的图文相关性 datacopilot 添加基于LDA主题聚类的T-SNE可视化

Answer 3 · 2024-08-04T03:52:42.000Z

认领 deepseek vl 7b 推理对齐

Answer 4 · 2024-08-14T14:10:13.000Z

认领 InternLM-XComposer-2 4khd 推理对齐

Answer 5 · 2024-08-22T03:28:53.000Z

认领 datacopilot ops添加基于blip的图文相关性