合計424文からなる,音素バランスを考慮したパブリックドメインの日本語テキストコーパスです.
著作権の消滅した文献やオリジナルの文章・単語から文セットを構築することで,パブリックドメインで公開される文章コーパスです.日本語の単語では出現しにくいモーラも一定量カバーしつつも読みやすさを考慮しています.424文は,100文 (Emotion)と324文 (Recitation)のサブセットで構成されており,用途に応じて使い分けることが可能です.分野横断的研究を加速させるコーパスをという思いを込めて,Inter-field Task Accelerating (ITA)コーパスと命名しました.
- 小口純矢,金井郁也,小田恭央,齊藤剛史,森勢将雅:ITAコーパス:パブリックドメインの音素バランス文からなる日本語テキストコーパスの構築と基礎評価,情報処理学会研究報告,vol. 2021-MUS-131, no. 31, pp. 1-6, 2021.
音声のファイル名と対応付けることを意識した.txtファイルと,朗読者向けに印刷して配布する.docxと.pdfファイルを用意しました.用途に応じてご自由にご利用ください.
- emotion_transcript_utf8.txt
- emotion_朗読者用.docx
- emotion_朗読者用.pdf
- recitation_transcript_utf8.txt
- recitation_朗読者用.docx
- recitation_朗読者用.pdf
- 読唇マルチモーダルデータベース [https://zunko.jp/multimodal_dev/login.php]
- 松風様のITAコーパス朗読データ [https://drive.google.com/drive/folders/1hIPDU2blUdWr_YyweaohsbYVT8Z62Qgy]
パブリックドメインです.これは義務ではありませんが,データベース等を構築した場合,お知らせ頂ければ上記の例に記載させて頂きます.
- プロジェクト総括:小田恭央(SSS合同会社)
- プロジェクト管理:金井郁也(明治大学)
- 文章作成・管理:小口純矢(明治大学)
- 文章抽出:細田計
- アドバイザ:齊藤剛史(九州工業大学),森勢将雅(明治大学)
- 2021/06/17: 最初のアップロード
- 2021/08/11: 音声DBの情報を更新