/aozora_tei

青空文庫テキストをより便利にする(機械可読性を高める)ためのプロジェクト

aozora_tei

Welcome to the aozora_tei wiki!

青空文庫テキストをより便利にする(機械可読性を高める)ためのプロジェクトです。

TEI P5 Guidelinesに準拠したタグをつけて構造化することを目指しますが、TEI P5ではどうしても足りないタグがある場合には対応を検討します。

青空文庫の入力・校正者と底本情報についてはTEI headerでの記述の仕方をそろえましょう。詳しくは、既存のTEI化ファイルのヘッダをご覧ください。

構造化の深度は Best Practice for TEI in Libraries の Level 2~5 で行います。 http://www.tei-c.org/SIG/Libraries/teiinlibraries/4.0.0/bptl-driver.html

各レベルは、大体以下のような深さになります。

  • Level2. 青空文庫テクストとほぼ同じ深さ

  • Level3. 段落・短歌・俳句など、ごく基本的な単位で構造をマークアップ

  • Level4. 固有表現など、やや深く利便性を高めたマークアップ

  • Level5. 学術編集版(≒校訂テクスト)や言語コーパス等、特定の用途に特化した深いマークアップ

TEIで構造化したテクストはXMLとして色々扱うことができますので、対応ツールも少しずつ集めてご紹介します。

詳しくは Wiki https://github.com/TEI-EAJ/aozora_tei/wiki をご覧ください。