ruby_prediction(NDLOCR(ver.2)用漢字読み推定モジュール)

NDLOCR(ver.2)用のテキストの漢字の読みを推定するモジュールのリポジトリです。

本プログラムは、全文検索用途のテキスト化のために開発したver.1に対して、視覚障害者等の読み上げ用途にも利用できるよう、国立国会図書館が外部委託して追加開発したプログラムです（委託業者：株式会社モルフォAIソリューションズ）。

本プログラムは、国立国会図書館がCC BY 4.0ライセンスで公開するものです。詳細については LICENSEをご覧ください。

漢字の読み推定

形態素解析器kyteaを用いた漢字の読み推定機能を提供しています。

kyteaのPythonラッパーを使用しているため、kyteaを先にインストールしておく必要があります。 kyteaの導入はhttp://www.phontron.com/kytea/index-ja.html を参照してください。

python output_ruby.py path/to/hogehoge.xml

input_directory
├── hogehoge0.xml 
├── hogehoge1.xml
...

-t,--timetest 処理速度測定