X-lab2017/open-research

[开题框架]基于GitHub多模态数据的Issue多标签分类算法研究

Opened this issue · 2 comments

Description

本 issue 用于追踪@Zzzzzhuzhiwei的开题内容

研究方向:
毕业论文旨在探索如何利用多模态信息(文本、代码片段、屏幕截图等)提高GitHub Issue的多标签分类准确性,并设计相应的算法来实现自动标签。

贡献点:

(1)综合的Issue数据集构建:
构建一个综合的GitHub Issue数据集,包括文本描述、代码片段、屏幕截图等多模态信息,为后续研究提供充分的实验基础。
(2)多模态表示方法设计:
提出一个Issue的多模态表示方法,能够有效地融合不同模态的信息,并在语义上保持一致性,以更准确地表达GitHub Issue的语义特征。
(3)多标签分类算法研究:
提出一种高效的多标签分类算法,实现对GitHub Issue的自动多标签分类,提高分类准确性和效率。
image

基于多模态数据的 Issue 多标签分类算法研究与应用

三个贡献点:

1、Issue 多标签基准数据集的制作

  • 结合文本、代码和图片,设计一个更加有针对性的 Issue 分类体系
  • 选定一批优质的带标签数据项目,制作多模态数据集(带分类标签)
  • 对该基准数据集做些统计分析与质量评估

2、基于XXX的 Issue 多标签分类算法

  • 提出一种适合 Issue 分类问题的多模态表示方法
  • 基于某种技术,设计 Issue 多标签分类算法
  • 将提出的算法同已有的 SOTA 方法进行比较
  • 可以增加一个算法的优化点,增加工作量

3、Issue 多标签分类算法的应用

  • PolarDB 开源项目的应用
  • Hypertrsons 或者HyperCRX 项目的集成与应用
  • 展示

三个贡献点:

1、Issue 多标签基准数据集的制作

  • 结合文本、代码和图片,设计一个更加有针对性的 Issue 分类体系
  • 选定一批优质的带标签数据项目,制作多模态数据集(带分类标签)

一、文本分类:

  1. 问题类型分类:
    • Bug(错误报告)
    • Feature (功能请求)
    • Question(问题求助)
    • Discussion(讨论)
    • Enhancement(增强改进)
  2. 问题优先级分类:
    • Critical(关键)
    • High(高)
    • Medium(中)
    • Low(低)

二、代码分类:

  1. 代码类型分类:
    • Frontend(前端)
    • Backend(后端)
    • Database(数据库)
    • Algorithm(算法)
    • Testing(测试)
    • Documentation(文档)
  2. 代码问题分类:
    • Syntax Error(语法错误)
    • Logic Error(逻辑错误)
    • Performance Issue(性能问题)
    • Security Vulnerability(安全漏洞)
    • Code Style Issue(代码风格问题)

三、图片分类:

  1. 截图类型分类:
    • User Interface(用户界面)
    • Error Message(错误信息)
    • Diagram(图表)
    • Flowchart(流程图)

一个综合的GitHub Issue分类可能是这样的:

  • Bug Report:
    • 类型:Bug
    • 优先级:Critical
    • 代码类型分类:Backend
    • 代码问题分类:Syntax Error
    • 截图类型:Error Message

通过这样的分类体系,可以更加准确地识别和管理GitHub Issue,为开发者提供更有效的问题跟踪和解决方案。同时,结合多模态信息的分类体系能够更全面地反映问题的特点,提高了分类的精度和效率。

目前选取了GitHub上五个优质仓库(2024年1月到4月的数据)'microsoft/vscode', 'kubernetes/kubernetes', 'langchain-ai/langchain', 'nodejs/node', 'pytorch/pytorch'. 一共15816个issue,其中10169个有label 。处理issue的body,找出代码片段,以及图片。

目前想到的分类体系是这几个维度,希望各位同学和老师可以帮忙补充~