[开题框架]基于GitHub多模态数据的Issue多标签分类算法研究

Question

[开题框架]基于GitHub多模态数据的Issue多标签分类算法研究

Opened this issue 5 months ago · 2 comments

Description

本 issue 用于追踪@Zzzzzhuzhiwei的开题内容

研究方向：
毕业论文旨在探索如何利用多模态信息（文本、代码片段、屏幕截图等）提高GitHub Issue的多标签分类准确性，并设计相应的算法来实现自动标签。

贡献点：

（1）综合的Issue数据集构建：
构建一个综合的GitHub Issue数据集，包括文本描述、代码片段、屏幕截图等多模态信息，为后续研究提供充分的实验基础。
（2）多模态表示方法设计：
提出一个Issue的多模态表示方法，能够有效地融合不同模态的信息，并在语义上保持一致性，以更准确地表达GitHub Issue的语义特征。
（3）多标签分类算法研究：
提出一种高效的多标签分类算法，实现对GitHub Issue的自动多标签分类，提高分类准确性和效率。

Answer 1 · 2024-05-28T08:03:36.000Z

基于多模态数据的 Issue 多标签分类算法研究与应用

三个贡献点：

1、Issue 多标签基准数据集的制作

结合文本、代码和图片，设计一个更加有针对性的 Issue 分类体系
选定一批优质的带标签数据项目，制作多模态数据集（带分类标签）
对该基准数据集做些统计分析与质量评估

2、基于XXX的 Issue 多标签分类算法

提出一种适合 Issue 分类问题的多模态表示方法
基于某种技术，设计 Issue 多标签分类算法
将提出的算法同已有的 SOTA 方法进行比较
可以增加一个算法的优化点，增加工作量

3、Issue 多标签分类算法的应用

PolarDB 开源项目的应用
Hypertrsons 或者HyperCRX 项目的集成与应用
展示

Answer 2 · 2024-05-30T11:36:47.000Z

三个贡献点：

1、Issue 多标签基准数据集的制作

结合文本、代码和图片，设计一个更加有针对性的 Issue 分类体系

选定一批优质的带标签数据项目，制作多模态数据集（带分类标签）

一、文本分类：

问题类型分类：
- Bug（错误报告）
- Feature （功能请求）
- Question（问题求助）
- Discussion（讨论）
- Enhancement（增强改进）
问题优先级分类：
- Critical（关键）
- High（高）
- Medium（中）
- Low（低）

二、代码分类：

代码类型分类：
- Frontend（前端）
- Backend（后端）
- Database（数据库）
- Algorithm（算法）
- Testing（测试）
- Documentation（文档）
代码问题分类：
- Syntax Error（语法错误）
- Logic Error（逻辑错误）
- Performance Issue（性能问题）
- Security Vulnerability（安全漏洞）
- Code Style Issue（代码风格问题）

三、图片分类：

截图类型分类：
- User Interface（用户界面）
- Error Message（错误信息）
- Diagram（图表）
- Flowchart（流程图）

一个综合的GitHub Issue分类可能是这样的：

Bug Report:
- 类型：Bug
- 优先级：Critical
- 代码类型分类：Backend
- 代码问题分类：Syntax Error
- 截图类型：Error Message

通过这样的分类体系，可以更加准确地识别和管理GitHub Issue，为开发者提供更有效的问题跟踪和解决方案。同时，结合多模态信息的分类体系能够更全面地反映问题的特点，提高了分类的精度和效率。

目前选取了GitHub上五个优质仓库（2024年1月到4月的数据）'microsoft/vscode', 'kubernetes/kubernetes', 'langchain-ai/langchain', 'nodejs/node', 'pytorch/pytorch'. 一共15816个issue，其中10169个有label 。处理issue的body，找出代码片段，以及图片。

目前想到的分类体系是这几个维度，希望各位同学和老师可以帮忙补充~