/yet-another-migemo-dict

Primary LanguagePythonBSD 3-Clause "New" or "Revised" LicenseBSD-3-Clause

yet-another-migemo-dict

ライセンスの緩いMigemo用辞書を提供するプロジェクト。

C/Migemoで用いられているMigemo用辞書は、SKKプロジェクトの辞書から生成しているため、ファイルはGPLライセンス下であると考えられます。 この場合、Migemoを利用するプロジェクトでは、辞書ファイルをプログラムに同梱して配布しづらくなります。

そこで本プロジェクトでは、BSDライセンスであるMozcと、GPL/LGPL/BSDライセンスであるUniDicからMigemo用辞書を生成することで、ライセンス的に利用しやすい辞書を提供します。

辞書元

ファイル プロジェクト ライセンス
single_kanji.tsv Mozc 3-clause BSD
lex*.csv UniDic GPL / LGPL / 3-clause BSD

生成方法

  1. UniDicから現代書き言葉フルパッケージ(例:unidic-cwj-202302_full.zip)をダウンロード
  2. ダウンロードしたZIPに格納されているlex*.csv (*は任意の0文字以上の文字列)を、このフォルダ内にコピー
  3. python build.pyを実行し、migmeo-dictファイルを生成

生成されたファイルの単語は、読みの辞書順に並んでいます。

なお、python build.py 実行時に、skip for surrogate pair: しか - 𠮟 のような出力がされますが、これは省メモリ版Migemoはサロゲートペアを含む文字を正しく処理できないため、生成途中で除外しているというメッセージであり、正常な動作です。

格納対象の単語

single_kanji.tsv に格納されている漢字と読みの対応はすべて格納対象としています。

一方、lex*.csv からは、漢字のみか、漢字にひらがなが並んだ単語、英字のみの単語を対象としています。 (例:朝、謝まる)

ただし、サロゲートペアを含む文字(例:𠮟・𧘱)は除外しています。

ライセンス

辞書元はどちらもBSDで配布されているため、本プロジェクトで生成した辞書もBSDとなります。 ライセンスの条項に従いご利用ください。

TODO

  • 漢字の間にひらがながある単語のサポート(例:歩み行く)
  • mecab-ipadic-NEologdの適用による最新用語のサポート