『現代日本語書き言葉均衡コーパス』(BCCWJ)に分類語彙表番号を自動付与した BCCWJ-WSD の頻度表
- bccwj_suw_wsd_freq_all.xlsx BCCWJ 全体の語彙頻度表
- bccwj_suw_wsd_freq_registers.xlsx BCCWJ レジスタ毎の語彙頻度表
- all/ bccwj_suw_wsd_freq_all.txt の元テキストデータ
- registers/ bccwj_suw_wsd_freq_registers.txt の元テキストデータ
1行目がヘッダ行
- register レジスタ(BCCWJ)
- UniDic:lForm 語彙素読み(UniDic)
- UniDic:lemma 語彙素(UniDic)
- UniDic:pos 品詞(UniDic)
- UniDic:subLemma 語彙素細分類(UniDic)
- UniDic:wType 語種(UniDic)
- WLSP:article number 分類番号(分類語彙表)
- WLSP:class 類(分類語彙表)
- WLSP:division 部門(分類語彙表)
- WLSP:section 中項目(分類語彙表)
- WLSP:article 分類項目(分類語彙表)
- frequency 頻度
- pmw 100万語あたりの調整頻度
- 浅田 宗磨(東京農工大学)
- 古宮 嘉那子(東京農工大学)
- 浅田 宗磨・古宮 嘉那子・浅原 正幸 (2024) 「『現代日本語書き言葉均衡コーパス』に対する分類語彙表番号悉皆付与」言語処理学会第30回年次大会(NLP2024)
CC BY-NC-ND 4.0
国立国語研究所 (2024) 『現代日本語書き言葉均衡コーパス』短単位語彙表(分類語彙表番号つき)(BCCWJ-WSD-frequency version 2024.10)
本データは、科研費 22K12145 および国立国語研究所共同研究プロジェクト「アノテーションデータを用いた実証的計算心理言語学」によるものです。
- (BCCWJ-WSD-frequency version 2024.01) から (BCCWJ-WSD-frequency version 2024.10) への変更点
subLemma の列を変更