/ita-corpus

ITAコーパスの文章リスト

The UnlicenseUnlicense

ITAコーパスの文章リスト公開用リポジトリ

合計424文からなる,音素バランスを考慮したパブリックドメインの日本語テキストコーパスです.

ITAコーパスとは

著作権の消滅した文献やオリジナルの文章・単語から文セットを構築することで,パブリックドメインで公開される文章コーパスです.日本語の単語では出現しにくいモーラも一定量カバーしつつも読みやすさを考慮しています.424文は,100文 (Emotion)と324文 (Recitation)のサブセットで構成されており,用途に応じて使い分けることが可能です.分野横断的研究を加速させるコーパスをという思いを込めて,Inter-field Task Accelerating (ITA)コーパスと命名しました.

ITAコーパスの文献情報

  • 小口純矢,金井郁也,小田恭央,齊藤剛史,森勢将雅:ITAコーパス:パブリックドメインの音素バランス文からなる日本語テキストコーパスの構築と基礎評価,情報処理学会研究報告,vol. 2021-MUS-131, no. 31, pp. 1-6, 2021.

ファイル構成

音声のファイル名と対応付けることを意識した.txtファイルと,朗読者向けに印刷して配布する.docxと.pdfファイルを用意しました.用途に応じてご自由にご利用ください.

  • emotion_transcript_utf8.txt
  • emotion_朗読者用.docx
  • emotion_朗読者用.pdf
  • recitation_transcript_utf8.txt
  • recitation_朗読者用.docx
  • recitation_朗読者用.pdf

ITAコーパスを朗読した音声データベースの例(ライセンス等は制作者のサイトをご確認ください)

ライセンス情報

パブリックドメインです.これは義務ではありませんが,データベース等を構築した場合,お知らせ頂ければ上記の例に記載させて頂きます.

開発者

  • プロジェクト総括:小田恭央(SSS合同会社)
  • プロジェクト管理:金井郁也(明治大学)
  • 文章作成・管理:小口純矢(明治大学)
  • 文章抽出:細田計
  • アドバイザ:齊藤剛史(九州工業大学),森勢将雅(明治大学)

修正履歴

  • 2021/06/17: 最初のアップロード
  • 2021/08/11: 音声DBの情報を更新