Sports navi から スポーツニュースを取得してスポーツニュース識別器生成
学習手順
-
wakachi.pyでスクレイピングしてデータセットを作成(Dataset_all_catogories_from_SportsNavi_ftformat.txt)
-
次のコマンドで1で作成したデータセットをシャッフルして新しいファイルを作成
shuf Dataset_all_catogories_from_SportsNavi_ftformat.txt > train_dataset_shuffled.txt
-
train_dataset_shuffled.txt のうち20%程度を切り取って test_dataset_shuffled.txt を作成
-
次のコマンドで学習(教師あり)
./fasttext supervised -input train_dataset_shuffled.txt -output model001
- モデルの推論結果を確認
./fasttext predict model001.bin - 5
- テストデータを与えてモデルの精度を確認
./fasttext test model001.bin test_dataset_shuffled.txt
出力例 N 3000 P@1 0.124 R@1 0.0541 Number of examples: 3000