练手的,里面可能有些错误,但是忘记去修改了
从无标签的数据集中,直接根据类别名字来分类,分类结果如下
教育 3998
游戏 2659
科技 1659
时尚 1627
家居 1451
体育 1010
娱乐 554
房产 395
财经 260
时政 11
一共10类,有7类有标签,3类没有数据,分别是:游戏,娱乐,体育,显然,这里 这三类分别有:
游戏 2659
娱乐 554
体育 1010
而其他7类,每类1000条,所以娱乐样本相对来说少了很多,游戏多了很多,属于样本不太均衡,那么就需要调整
1.采样来进行平衡
2.loss加权重进行平衡
首先使用的是loss加权重进行平衡,得到训练之后的模型,再对无标签的数据进行分类,分类出结果,如下:
游戏 5149
娱乐 4111
体育 3915
时政 3696
时尚 3075
财经 2907
家居 2894
房产 2716
科技 2534
教育 2003
然后对标记了的无标签数据进行采样,得到标签个数相近的新的10类标签数据,然后用新的模型来进行训练
娱乐 3075
体育 3075
游戏 3075
时政 3003
时尚 3003
科技 3003
房产 3003
教育 3003
家居 3003
财经 3003