lithiumfleet/DataCleaner-llm

Python

DataCleaner-llm

Let LLM do heavy corpus cleaning task!

Main Work Flow

for pretraining corpus

send files to llm, use it clean corpus!

preprocess(regex/fold unprintables)
docs to llm
llm send back cleaned texts
save it

for sft datasets

modified "self-distillation", ref: https://arxiv.org/abs/2402.13669
save.

todos