『現代日本語書き言葉均衡コーパス』短単位語彙表(分類語彙表番号つき)(BCCWJ-WSD-frequency version 2024.10)

Description

『現代日本語書き言葉均衡コーパス』(BCCWJ)に分類語彙表番号を自動付与した BCCWJ-WSD の頻度表

Features

  • bccwj_suw_wsd_freq_all.xlsx BCCWJ 全体の語彙頻度表
  • bccwj_suw_wsd_freq_registers.xlsx BCCWJ レジスタ毎の語彙頻度表
  • all/ bccwj_suw_wsd_freq_all.txt の元テキストデータ
  • registers/ bccwj_suw_wsd_freq_registers.txt の元テキストデータ

Format

1行目がヘッダ行

  1. register レジスタ(BCCWJ)
  2. UniDic:lForm 語彙素読み(UniDic)
  3. UniDic:lemma 語彙素(UniDic)
  4. UniDic:pos 品詞(UniDic)
  5. UniDic:subLemma 語彙素細分類(UniDic)
  6. UniDic:wType 語種(UniDic)
  7. WLSP:article number 分類番号(分類語彙表)
  8. WLSP:class 類(分類語彙表)
  9. WLSP:division 部門(分類語彙表)
  10. WLSP:section 中項目(分類語彙表)
  11. WLSP:article 分類項目(分類語彙表)
  12. frequency 頻度
  13. pmw 100万語あたりの調整頻度

Creators

  • 浅田 宗磨(東京農工大学)
  • 古宮 嘉那子(東京農工大学)

References

  • 浅田 宗磨・古宮 嘉那子・浅原 正幸 (2024) 「『現代日本語書き言葉均衡コーパス』に対する分類語彙表番号悉皆付与」言語処理学会第30回年次大会(NLP2024)

License

CC BY-NC-ND 4.0

Credit

国立国語研究所 (2024) 『現代日本語書き言葉均衡コーパス』短単位語彙表(分類語彙表番号つき)(BCCWJ-WSD-frequency version 2024.10)

本データは、科研費 22K12145 および国立国語研究所共同研究プロジェクト「アノテーションデータを用いた実証的計算心理言語学」によるものです。

Contact

kotonoha@ninjal.ac.jp

History

  • (BCCWJ-WSD-frequency version 2024.01) から (BCCWJ-WSD-frequency version 2024.10) への変更点

subLemma の列を変更