name-divider

これはなに

姓名の分割されていない日本人の人名をそれっぽく分割するのに挑戦したもの。

教師データとしてネットで得られた4万件くらいの人名データを入れて、99%程度の精度になった。

準備するもの

姓名がタブ文字で分割された状態の1行1名がひたすら書かれているutf-8のテキストファイルが必要。

ファイルの中身は以下のようなものを期待する。 (\tはタブ文字)

織田\t信長
豊臣\t秀吉
徳川\t家康

サンプルとして、疑似個人情報データ生成サービスで10件生成したファイルを置いているが、そもそも疑似だしサンプル数が圧倒的に足りないので自分でなんとか用意すること。

元の姓名のテキストデータを python から使いやすい形に変換する。

$ python tsv2chars.py names.tsv > chars.tsv

$ python chars2py.py chars.tsv > chars_map.py

test.py を参照。