@AtsunoriFujita さんのBERTによる固有表現抽出のサンプルコードをBring Your Own Container (BYOC)としてSageMakerで動かせるようにしたものです。
Warning 基本的にはバージニア北部 (us-east-1) リージョンで作業していることを前提としているので気をつけてください。
まず、NER_BIO.ipynb
を実行して ner-wikipedia-dataset/ner.json
をS3にアップロードしてください。
そして、SageMakerのHuggingFace built-in containerをベースとしてDockerイメージを作成します。
bash docker/build_training_container.sh # リージョンによって中のbase変数の値が異なります
bash docker/build_inference_container.sh # リージョンによって中のbase変数の値が異なります
あとは、前処理、学習、バッチ推論の順でコードを実行してみてください。
hydraで設定ファイルを管理しているので適宜 tests/config
以下のファイルを書き換えてください。
pip install -r scripts/requirements.txt # 依存関係のインストール
python tests/test_preprocess.py
python tests/test_train.py
python tests/test_inference.py