/docker-UTH-BERT

docker for UTH-BERT: https://ai-health.m.u-tokyo.ac.jp/uth-bert

Primary LanguageDockerfile

Docker for UTH-BERT

東京大学大学院 医学系研究科 医療AI開発講座より公開されているBERT学習済みモデルであるUTH-BERTを動かすためのDockerfileとスクリプト群です。

UTH-BERT: https://ai-health.m.u-tokyo.ac.jp/uth-bert

Usage

以下のコマンドでdockerコンテナを作成し動かします。mecab、neologd、J-MeDic(万病辞書)とgoogle-researchのbertモデルrepogitoryが入り、活用できる状態のコンテナが生成されbashが走ります。

docker build -t bert .
docker run -it bert bash

特徴抽出

テキストファイルを特徴量に変換するには以下のコマンドを実行します。 入力テキストをtokenizeしたファイル、featureのファイルが出力されます。

./extract_feature.sh

output.jsonlファイルがinput.txtに対する特徴量です。
inputはサンプルとしてWikipediaのインフルエンザのページの一部設置しています。

インフルエンザ

インフルエンザ(イタリア語: influenza、ラテン語: influentia)とはインフルエンザウイルス急性感染症。上気道炎症状・呼吸器疾患などを呈する。流行性感冒(りゅうこうせいかんぼう)略して流感(りゅうかん)とも呼ばれる。日本語ではインフル、英語ではfluと略されることも多い。
...

上記サンプルに対するoutput.jsonlは以下のような形式で1行1jsonの形で出力されます。

{"linex_index": 0, "features": [ {"token": "インフルエンザ", "layers": {"index": -1, "values": [0.1, 0.2, ...]}}, ... ]}
...

THX & LICENCE

順不同