-
https://www.nii.ac.jp/dsc/idr/datalist.html
- 情報学研究データリポジトリ ー民間企業から研究者用のデータまでがまとめられているー
-
- オープンデータを加工してみんなで共有するサイト ー日々さまざまなデータがアップロードされているー
-
http://nlp.ist.i.kyoto-u.ac.jp/index.php?NLP%E3%83%AA%E3%82%BD%E3%83%BC%E3%82%B9#g63a7f30
- 京都大学 大学院情報学研究科 知能情報学専攻 知能メディア講座 言語メディア分野(工学部電気電子工学科)ー自然言語処理のためのリソースがまとめられている。日本語形態素解析(Juman等)やデータコーパス等の情報があるー
-
https://github.com/yagays/kanjivg-radical
- 漢字を部首に変換するライブラリ
-
http://aozora-word.hahasoha.net/index.html
- 青空文庫を形態素解析をしたデータセット
-
- 青空文庫のデータセット
-
https://github.com/aozorahack/aozorabunko_text
- 青空文庫のテキストのみをまとめたもの
-
https://github.com/hppRC/aozorabunko-extractor
- 青空文庫のテキストをルビやその他の記号を削除、元ファイルごとに二重改行で区切った単一のテキストファイルを生成するツール
-
http://phontron.com/japanese-translation-data.php?lang=ja
- 対訳コーパス
-
- 簡単な日本語文章に対訳したコーパス
-
http://www.db.info.gifu-u.ac.jp/data/Data_5d832973308d57446583ed9f
- Twitterのツイートに対し、ポジティブ、ネガティブ、ニュートラルかどうかを判別している 注意点として、著作権の関係でツイート本文は別途TwitterAPIから取得しないといけない
-
- 日本語の感情表現がまとめてある
- 感情表現は以下の48種類 -(感情リスト)安らぎ、楽しさ親しみ、尊敬・尊さ、感謝、気持ちが良い、誇らしい、感動、喜び、悲しさ、寂しさ不満、切なさ、苦しさ、不安、憂鬱、辛さ、好き、嫌悪、恥ずかしい、焦り、驚き、怒り、幸福感、恨み、恐れ(恐縮等の意味で)、恐怖、悔しさ、祝う気持ち、困惑、きまずさ、興奮、悩み、願望、失望、あわれみ、見下し、謝罪、ためらい、不快、怠さ、あきれ、心配、緊張、妬み、憎い、残念、情けない、穏やか
-
https://lionbridge.ai/ja/datasets/japanese-language-text-datasets/
- 機械学習に使える日本語データセットまとめ
-
https://retrieva.jp/info/press/date_202103151100
- 話し言葉でBertモデルを構築
【参考文献】 https://lionbridge.ai/ja/datasets/japanese-language-text-datasets/