/acg-chinese-words

二次元中文特征词库。

MIT LicenseMIT

二次元特征词库

特征词库的主要用途是进行内容分类。基本思路是根据内容在关键词上的分布特征,将内容归为特定类别。 可以使用一段内容中的含有二次元特征词汇的占比,来判断该内容的二次元含量。

本项目特点:

  • 词汇总量大,区分度高
  • 支持中、英、日文混合词
  • 分类型统计(游戏、动漫、鬼畜、宅舞)
  • 带词频数据

词的区分度

先对内容进行二次元与非二次元的标记,然后对两组内容分别统计词出现的概率。

在二次元内容中出现概率高,在非二次元内容中出现概率低的词,我们认为是区分度高的词。这些区分度高的词共同构成了二次元的特征词。

我们发现,在区分度方面,存在一个断崖式变化的模式,也就是说部分词汇会在高区分度集中。我们利用这个分布特征,取接近1的词汇作为特征词汇。

特征词库的制作

  1. 收集社交媒体上二次元相关内容的文本作为语料库
  2. 对语料进行分词
  3. 统计词频,保留高频词,排除杂项
  4. 统计词的区分度,保留高区分度的词

分类统计结果

类型 总词汇量 特征词汇量 游戏 196165 25145 动画 80051 7829 鬼畜 13154 905 宅舞 12096 438

格式

词汇 词频

词频为热度指数,表示词出现的概率,为相对值,非原始数据​。

示例

游戏:

精彩集锦 96851
游戏解说 81068
pvp 66093
fps 63522
游戏集锦 51717
格斗游戏 47555
零磕 45695
炉石传说 42881
卡牌游戏 40365
gmv 37249
mod 33890
主机游戏 33665
手游作业 33122
沙盒游戏 32426
游戏攻略 29886
拳皇 28846
游戏资讯 24858
抽卡 24136

动画:

动漫恶搞 9006
泽塔奥特曼 9001
にじさんじ 8909
动漫盘点 8473
高达模型 8067
国产动画 7738
东方mmd 7229
haku 7062
迪迦奥特曼 6528
有声漫画 6464
漫画推荐 6415
tda式 6317
tda 6269
变形金刚 6181
沙雕动画 6173
超级战队 6010
奥特曼系列 5850
赛罗奥特曼 5721

鬼畜:

音mad 10268
鬼畜大赏 2238
原曲不使用 1852
葛平 1728
utau 1440
ytpmv 1363
全明星 1290
五五开 1251
枪声音乐 1043
岛市老八 889
金坷垃 824
二次元鬼畜 803

宅舞:

宅舞翻跳 1462
踊ってみた 1147
原创振付 1008
wota艺 871
彩虹节拍 859
原创编舞 791
恋爱循环 502
bdf 454
书记舞 423
生日作 315
试跳 238
es 236
生贺 210
ヲタ芸 173
c位大作战 172
μs 169
爱杀宝贝 167
まなこ 160
缪斯 157

联系我们

微信公众号:极乐实验室