您好

Question

Opened this issue 5 years ago · 2 comments

您好，我是一名大学生，也在做一种二分类任务，判断新闻真假。但找到的数据集很多都是英文的，请问您有什么bert英文训练模型推荐吗？

Answer 1 · 2019-08-17T14:04:45.000Z

您好，我是一名大学生，也在做一种二分类任务，判断新闻真假。但找到的数据集很多都是英文的，请问您有什么bert英文训练模型推荐吗？
推荐这个项目, 有英文的预训练模型可以直接下载
https://github.com/huggingface/pytorch-transformers

Answer 2 · 2019-08-21T06:10:36.000Z

CED_original.zip
您好，我这里是一个中文微博谣言的数据集，但文字部分很杂乱，有符号，表情词，还有一些网址，想请教一下应该定义一个怎样的函数能够做一下数据清洗，转换成正常的text，便于提高准确率，感谢！