[开题框架]基于GitHub多模态数据的Issue多标签分类算法研究
Opened this issue · 2 comments
Description
本 issue 用于追踪@Zzzzzhuzhiwei的开题内容
研究方向:
毕业论文旨在探索如何利用多模态信息(文本、代码片段、屏幕截图等)提高GitHub Issue的多标签分类准确性,并设计相应的算法来实现自动标签。
贡献点:
(1)综合的Issue数据集构建:
构建一个综合的GitHub Issue数据集,包括文本描述、代码片段、屏幕截图等多模态信息,为后续研究提供充分的实验基础。
(2)多模态表示方法设计:
提出一个Issue的多模态表示方法,能够有效地融合不同模态的信息,并在语义上保持一致性,以更准确地表达GitHub Issue的语义特征。
(3)多标签分类算法研究:
提出一种高效的多标签分类算法,实现对GitHub Issue的自动多标签分类,提高分类准确性和效率。
基于多模态数据的 Issue 多标签分类算法研究与应用
三个贡献点:
1、Issue 多标签基准数据集的制作
- 结合文本、代码和图片,设计一个更加有针对性的 Issue 分类体系
- 选定一批优质的带标签数据项目,制作多模态数据集(带分类标签)
- 对该基准数据集做些统计分析与质量评估
2、基于XXX的 Issue 多标签分类算法
- 提出一种适合 Issue 分类问题的多模态表示方法
- 基于某种技术,设计 Issue 多标签分类算法
- 将提出的算法同已有的 SOTA 方法进行比较
- 可以增加一个算法的优化点,增加工作量
3、Issue 多标签分类算法的应用
- PolarDB 开源项目的应用
- Hypertrsons 或者HyperCRX 项目的集成与应用
- 展示
三个贡献点:
1、Issue 多标签基准数据集的制作
- 结合文本、代码和图片,设计一个更加有针对性的 Issue 分类体系
- 选定一批优质的带标签数据项目,制作多模态数据集(带分类标签)
一、文本分类:
- 问题类型分类:
- Bug(错误报告)
- Feature (功能请求)
- Question(问题求助)
- Discussion(讨论)
- Enhancement(增强改进)
- 问题优先级分类:
- Critical(关键)
- High(高)
- Medium(中)
- Low(低)
二、代码分类:
- 代码类型分类:
- Frontend(前端)
- Backend(后端)
- Database(数据库)
- Algorithm(算法)
- Testing(测试)
- Documentation(文档)
- 代码问题分类:
- Syntax Error(语法错误)
- Logic Error(逻辑错误)
- Performance Issue(性能问题)
- Security Vulnerability(安全漏洞)
- Code Style Issue(代码风格问题)
三、图片分类:
- 截图类型分类:
- User Interface(用户界面)
- Error Message(错误信息)
- Diagram(图表)
- Flowchart(流程图)
一个综合的GitHub Issue分类可能是这样的:
- Bug Report:
- 类型:Bug
- 优先级:Critical
- 代码类型分类:Backend
- 代码问题分类:Syntax Error
- 截图类型:Error Message
通过这样的分类体系,可以更加准确地识别和管理GitHub Issue,为开发者提供更有效的问题跟踪和解决方案。同时,结合多模态信息的分类体系能够更全面地反映问题的特点,提高了分类的精度和效率。
目前选取了GitHub上五个优质仓库(2024年1月到4月的数据)'microsoft/vscode', 'kubernetes/kubernetes', 'langchain-ai/langchain', 'nodejs/node', 'pytorch/pytorch'. 一共15816个issue,其中10169个有label 。处理issue的body,找出代码片段,以及图片。
目前想到的分类体系是这几个维度,希望各位同学和老师可以帮忙补充~