Pinned Repositories
arxivSpider_mnbvc
carrot
Free ChatGPT Site List 这儿为你准备了众多免费好用的ChatGPT镜像站点,当前100+站点
deduplication_mnbvc
专业对大文本进行文本去重的工具
forum_dialogue_mnbvc
论坛对话语料清洗
github_downloader_mnbvc
github仓库下载器
githubcode_extractor_mnbvc
用于提取github-code-zip文件的内容,并保存为jsonl格式
jsonlbugfix_mnbvc
修复爬虫jsonl的bug
mmdp_mnbvc
MNBVC
MNBVC(Massive Never-ending BT Vast Chinese corpus)超大规模中文语料集。对标chatGPT训练的40T数据。MNBVC数据集不但包括主流文化,也包括各个小众文化甚至火星文的数据。MNBVC数据集包括新闻、作文、小说、书籍、杂志、论文、台词、帖子、wiki、古诗、歌词、商品介绍、笑话、糗事、聊天记录等一切形式的纯文本中文数据。
publicRepos_mnbvc
esbatmop's Repositories
esbatmop/MNBVC
MNBVC(Massive Never-ending BT Vast Chinese corpus)超大规模中文语料集。对标chatGPT训练的40T数据。MNBVC数据集不但包括主流文化,也包括各个小众文化甚至火星文的数据。MNBVC数据集包括新闻、作文、小说、书籍、杂志、论文、台词、帖子、wiki、古诗、歌词、商品介绍、笑话、糗事、聊天记录等一切形式的纯文本中文数据。
esbatmop/deduplication_mnbvc
专业对大文本进行文本去重的工具
esbatmop/arxivSpider_mnbvc
esbatmop/carrot
Free ChatGPT Site List 这儿为你准备了众多免费好用的ChatGPT镜像站点,当前100+站点
esbatmop/forum_dialogue_mnbvc
论坛对话语料清洗
esbatmop/github_downloader_mnbvc
github仓库下载器
esbatmop/githubcode_extractor_mnbvc
用于提取github-code-zip文件的内容,并保存为jsonl格式
esbatmop/jsonlbugfix_mnbvc
修复爬虫jsonl的bug
esbatmop/mmdp_mnbvc
esbatmop/publicRepos_mnbvc
esbatmop/pytorch
Tensors and Dynamic neural networks in Python with strong GPU acceleration
esbatmop/WikiHowQAExtractor-mnbvc
Extract Chinese/English QA Data from WikiHow pages.