分析

练手的，里面可能有些错误，但是忘记去修改了

从无标签的数据集中，直接根据类别名字来分类，分类结果如下

教育     3998
游戏     2659
科技     1659
时尚     1627
家居     1451
体育     1010
娱乐      554
房产      395
财经      260
时政       11

一共10类，有7类有标签，3类没有数据，分别是：游戏，娱乐，体育，显然，这里这三类分别有：

游戏     2659
娱乐      554
体育     1010

而其他7类，每类1000条，所以娱乐样本相对来说少了很多，游戏多了很多，属于样本不太均衡，那么就需要调整

1.采样来进行平衡
2.loss加权重进行平衡

首先使用的是loss加权重进行平衡，得到训练之后的模型，再对无标签的数据进行分类，分类出结果，如下：

然后对标记了的无标签数据进行采样，得到标签个数相近的新的10类标签数据，然后用新的模型来进行训练

xhjcxxl/ccf2020_classification