どれもGoogle Colaboratoryで動かすことを前提としています。
-
日本語多クラス分類タスクを題材としたSetFitとT5の精度比較実験コード
-
SetFit_japanese.ipynb: SetFitアルゴリズムを用いたセンチメント分析(2値分類タスク)
-
bert_japanese_classification_LP_FT.ipynb: LP-FTアルゴリズムを用いた文分類(9値分類、最終層のCLSを利用)
-
bert_japanese_classification_LP_FT_multiCLS.ipynb: LP-FTアルゴリズムを用いた文分類(9値分類、最終6層のCLSベクトルを利用)
-
elasticsearch_example.ipynb: elasticsearchを用いた日本語文章検索
-
parse_wiki40b.ipynb: Wiki-40Bのデータセットの構造化
-
structural_information_extraction_with_fused_Gromov_Wasserstein_optimal_transport_POT: Fused-Gromov-Wasserstein距離による最適輸送を用いたレイアウトと文章の類似度を加味した曖昧情報抽出
非公開データセットを解凍するためのパスワードなしでは動きません。
完成版を試せるデモアプリもあります。
-
irasuto_search_with_sentence_bert_handson.ipynb: 日本語Sentence-BERTを用いた「いらすとや」画像検索
-
CLIP_irasutoya_search_zero_shot_handson.ipynb: 日本語CLIPを用いたマルチモーダル「いらすとや」画像検索