aespresso/a_journey_into_math_of_ml

您好

Opened this issue · 2 comments

您好,我是一名大学生,也在做一种二分类任务,判断新闻真假。但找到的数据集很多都是英文的,请问您有什么bert英文训练模型推荐吗?

您好,我是一名大学生,也在做一种二分类任务,判断新闻真假。但找到的数据集很多都是英文的,请问您有什么bert英文训练模型推荐吗?
推荐这个项目, 有英文的预训练模型可以直接下载
https://github.com/huggingface/pytorch-transformers

CED_original.zip
您好,我这里是一个中文微博谣言的数据集,但文字部分很杂乱,有符号,表情词,还有一些网址,想请教一下应该定义一个怎样的函数能够做一下数据清洗,转换成正常的text,便于提高准确率,感谢!