pythonのnagisaとjanomeのライブラリを使い、形態素解析を試す。

Setup

pipenv install

echo '東京スカイツリーへのお越しは、東武スカイツリーライン「とうきょうスカイツリー駅」が便 利です。' > input.csv
echo '東京スカイツリー,1288,1288,4569,名詞,固有名詞,一般,*,*,*,東京スカイツリー,トウキョウスカイツリー,トウキョウスカイツリー' > userdic.csv
echo '東武スカイツリーライン,1288,1288,4700,名詞,固有名詞,一般,*,*,*,東武スカイツリーライン,トウブスカイツリーライン,トウブスカイツリーライン' > userdic.csv
echo 'とうきょうスカイツリー駅,1288,1288,4143,名詞,固有名詞,一般,*,*,*,とうきょうスカイツリー駅,トウキョウスカイツリーエキ,トウキョウスカイツリーエキ' > userdic.csv

Commands

形態素解析

以下のコマンドで、input.csvに記載された文言を形態素解析して名詞のみを抽出し、各単語の出現回数を出力します。

nagisaを利用する

pipenv run nagisa
#=> nagisa_result.csv

janomeを利用する

pipenv run janome
#=> janome_result.csv

類義語のグルーピング

上記の各単語のうち、表記揺れや同じ意味合いのデータを検知し出力します。

pipenv run similarity
#=> similarity_grouping_result.csv

Function

input.csvに記載された文字列を形態素解析し、名刺の出現個数を数えて**_result.csvに出力する。

Files