/cpt-hanrei-1st-refactor

Primary LanguageJupyter NotebookMIT LicenseMIT

ソリューション概要

本リポジトリ同梱のpdfに記載

ディレクトリ構成

  • srcディレクトリ配下に必要なコード、データ全て格納する想定

インプットデータ

コンペ配布データ

  • src/data/input配下
    • train.zip
      • 固有表現にラベリングし出力したデータ
      • ラベリングはdoccanoで実施
    • test_token.csv
      • 固有表現にラベリングする前のデータ
      • spacy(==2.3.2), ginza(==3.1.2)によりtokenizeしている
    • sample_submission.csv
      • 投稿データフォーマット(test_token.csvからtokenカラムを除いたデータ)

train.zipに含まれる固有表現ラベリングデータ例

{
    "id": 43,
    "text": "主 文 被告人松村好利を懲役3年に,被告人石橋忠博を懲役2年に処する。 この裁判確定の日から,被告人松村好利に対し5年間,被告人石橋忠博に対し4年間,それぞれその刑の執行を猶予し,その猶予の期間中被告人両名を保護観察に付する。 理 由 (犯罪事実) 第1 (平成31年4月4日付け訴因並びに罪名及び罰条の変更請求書(以下「訴因等変更請求書」という。)記載の公訴事実1の別表番号1関係) 被告人松村好利は,常習として,平成30年12月29日午前6時頃から同日午前6時45分頃までの間,福岡県筑紫野市丸井町組沢1丁目2番3号東洋ビル204号の当時の被告人両名方において,被告人石橋忠博の実子である福島佐千雄(当時7歳。以下「被害者」という。)に対し,後ろ手にさせた両手首及び両足首をビニールテープで縛った上,その体を抱え上げて浴槽に張った冷水の中に入れるなどの暴行を加え,更に被告人石橋忠博は,同日午前6時45分頃に起床しシャワーを浴びるために浴室に入り,その頃,被告人松村好利との間で共謀を遂げ,常習として,その頃から同日午前7時15分頃までの間,同所において,引き続き被害者を前記浴槽に張った冷水の中に入れるなどの暴行を加えた。 ...",
    "meta": {
        "filename": "089226_hanrei.txt",
        "category": "下級裁裁判例"
    },
    "annotation_approver": null,
    "labels": [
        [
            7,
            11,
            "PERSON"
        ],
        [
            21,
            25,
            "PERSON"
        ],
        [
            50,
            54,
            "PERSON"
        ],
        [
            64,
            68,
            "PERSON"
        ],
        [
            196,
            200,
            "PERSON"
        ],
        [
            248,
            268,
            "LOCATION"
        ],
        ...
    ]
}

外部データ

事前学習済みモデル

以下6つの事前学習済みモデルを利用

  • Hugging Faceが提供した4つのモデル
    • cl-tohoku/bert-base-Japanese
    • cl-tohoku/bert-base-japanese-whole-word-masking
    • cl-tohoku/bert-base-japanese-char
    • cl-tohoku/bert-base-japanese-char-whole-word-masking
  • 情報通信研究機構が公開した2つのモデル
    • NICT_BERT-base_JapaneseWikipedia_100K
    • NICT_BERT-base_JapaneseWikipedia_32K_BPE

実行環境

  • Google Colaboratory Pro
    • OS:Ubuntu
    • GPU:16GB
    • メモリ:32GB

実行手順

学習から推論まで実行

学習済みモデルから推論のみ実行