Die Aufgabenstellung der Fallstudie ist das erarbeiten einer KI welche automatisiert zu Python-Quellcode Docstrings generiert.
Weitere information zu dem Projekt sind der Dokumentation zu entnehmen.
Der verwendete Datensatz ist dabei der CodeSearchNet1 Datensatz, welcher auch in der CodeXGlue2 Challenge von Microsoft für Quellcode-zu-Text Aufgaben verwendet wurde. Hierbei wird eine angepasste Variante des Datensatzes verwendet. Bei den Anpassungen handelt es sich um Vorverarbeitungen durch das SEMERU Lab. Der vorverarbeitete Datensatz umfasst dabei Methoden und Funktionen, die in der Programmiersprache Python entwickelt wurden, sowie zugehörige Kommentare. 3
Zusätzlich zu dem Entfernen von nicht benötigten Features wurde ebenfalls Datensätze entfernt welche Python 2 Quellcode enthalten. Zudem wurde der Docsting aus dem Feature Code entfernt.
Im Rahmen des Modellings werden Techniken aus dem Natural Language Processings zum Einsatz kommen. Zusätzlich wird das Transferlernen mittels vortrainierter Modelle umgesetzt. Die verwendeten Modelle werden dabei im Einzelnen in dem Modellierungsabschnitt erläutert. Zum Durchführen der Arbeit wird auf die Bibliothek CodeTF zurückgegriffen, an der im Laufe der Fallstudie mitgearbeitet wurde 4.
Im Zusammenhang mit dieser Fallstudie wurde das CodeT5+ Modell mit 220 Millionen Parameter verwendet, um ein Fine Tuning durchzuführen. Dabei wurde sich aufgrund von Speicher- sowie zeitlichen Limitierungen für das Modell entscheiden. Dieses Modell wurde dann mittels des aufbereiteten CodeSearchNet Datensatz für zwei Epochen mit einer Nvidia Tesla K80 als GPU weiter trainiert. Das Training wurde mit Standardparametern durchgeführt. Nur die Epochen wurden auf zwei reduziert, um die Trainingszeit auf ungefähr 26 Stunden zu reduzieren. 5 6 7
Das Model kann von Hugging Face heruntergeladen werden.
Bei der Evaluation werden die erstellten Modelle mit den Modellen von Salesforce und dem Software Engineering for Business Information Systems (SEBIS) Fachbereich der TU München verglichen. Bei den Salesforce Modellen wird ein spezialisiertes CodeT5 als Model verwendet. Hingegen wird vom SEBIS nur T5 als Basismodell verwendet. 6 8
Die Evaluation wurde auf einem System mit einer Nvidia RTX 4070 Ti als GPU und einem Ryzen 9 7900X als CPU durchgeführt. Alternativ kam ein System mit einem Intel Xeon E5-2690v3 als CPU und einer Nvidia Tesla K80 zum Einsatz. Bei dem für die Evaluation verwendeten Datensatz handelt es sich um den Testdatensatz des CodeSeachNet Datensatzes. Dieser umfasst in der aufbereiteten Form ungefähr 15.000 Daten 1.
Modell | BLEU9 10 | TER11 | chrF12 13 | Rouge114 | RougeL15 | Laufzeit |
CodeT5-base-sum-python16 | 23.564 | 93.313 | 39.069 | 0.489 | 0.462 | 0.105 ±0.001 |
CodeT5-base-multi-sum17 | 23.985 | 88.667 | 39.318 | 0.491 | 0.463 | 0.106 ±0.001 |
Code-Trans-S-ST18 | 5.495 | 103.981 | 25.007 | 0.287 | 0.256 | 0.078 ±0.002 |
Code-Trans-S-TF19 | 21.093 | 71.626 | 37.157 | 0.476 | 0.448 | 0.039 ±0.000 |
Code-Trans-S-MT20 | 5.450 | 89.910 | 20.280 | 0.295 | 0.276 | 0.030 ±0.001 |
Code-Trans-S-MT-TF21 | 16.378 | 76.738 | 34.692 | 0.452 | 0.421 | 0.025 ±0.001 |
Code-Trans-B-ST11 | 4.638 | 102.021 | 23.194 | 0.263 | 0.234 | 0.083 ±0.002 |
Code-Trans-B-TF22 | 21.671 | 71.560 | 37.954 | 0.485 | 0.457 | 0.035 ±0.000 |
Code-Trans-B-MT23 | 2.957 | 93.160 | 15.566 | 0.221 | 0.208 | 0.038 ±0.001 |
Code-Trans-B-MT-TF24 | 13.766 | 78.742 | 33.452 | 0.443 | 0.410 | 0.057 ±0.001 |
Code-Trans-L-TF25 | 23.306 | 69.745 | 38.984 | 0.497 | 0.470 | 0.102 ±0.001 |
Code-Trans-L-MT26 | 13.487 | 79.615 | 32.527 | 0.433 | 0.401 | 0.089 ±0.002 |
Code-Trans-L-MT-TF27 | 16.362 | 80.671 | 35.033 | 0.445 | 0.412 | 0.124 ±0.001 |
Fine Tuned CodeT5+ 220m* | 25.245 | 40.596 | 66.514 | 0.515 | 0.488 | 0.110 ±0.000 |
conda create -n codetf python=3.10
pip install salesforce-codetf sentencepiece matplotlib
