ITAコーパスの文章リスト公開用リポジトリ

合計424文からなる，音素バランスを考慮したパブリックドメインの日本語テキストコーパスです．

ITAコーパスとは

著作権の消滅した文献やオリジナルの文章・単語から文セットを構築することで，パブリックドメインで公開される文章コーパスです．日本語の単語では出現しにくいモーラも一定量カバーしつつも読みやすさを考慮しています．424文は，100文 (Emotion)と324文 (Recitation)のサブセットで構成されており，用途に応じて使い分けることが可能です．分野横断的研究を加速させるコーパスをという思いを込めて，Inter-field Task Accelerating (ITA)コーパスと命名しました．

ITAコーパスの文献情報

小口純矢，金井郁也，小田恭央，齊藤剛史，森勢将雅：ITAコーパス：パブリックドメインの音素バランス文からなる日本語テキストコーパスの構築と基礎評価，情報処理学会研究報告，vol. 2021-MUS-131, no. 31, pp. 1-6, 2021.

ファイル構成

音声のファイル名と対応付けることを意識した.txtファイルと，朗読者向けに印刷して配布する.docxと.pdfファイルを用意しました．用途に応じてご自由にご利用ください．

emotion_transcript_utf8.txt
emotion_朗読者用.docx
emotion_朗読者用.pdf
recitation_transcript_utf8.txt
recitation_朗読者用.docx
recitation_朗読者用.pdf

ITAコーパスを朗読した音声データベースの例（ライセンス等は制作者のサイトをご確認ください）

読唇マルチモーダルデータベース [https://zunko.jp/multimodal_dev/login.php]
松風様のITAコーパス朗読データ [https://drive.google.com/drive/folders/1hIPDU2blUdWr_YyweaohsbYVT8Z62Qgy]

ライセンス情報

パブリックドメインです．これは義務ではありませんが，データベース等を構築した場合，お知らせ頂ければ上記の例に記載させて頂きます．

開発者

プロジェクト総括：小田恭央（SSS合同会社）
プロジェクト管理：金井郁也（明治大学）
文章作成・管理：小口純矢（明治大学）
文章抽出：細田計
アドバイザ：齊藤剛史（九州工業大学），森勢将雅（明治大学）

修正履歴

2021/06/17: 最初のアップロード
2021/08/11: 音声DBの情報を更新

koshian2/ita-corpus