/aozoragen

Web上に公開されている小説をスクレイピングして青空文庫形式のテキストにする

Primary LanguageRuby

Aozoragen

Web上の小説を青空文庫形式のテキストにする。

How to install

Gemを使ってインストールする:

gem install aozoragen

Command-line syntax

aozoragen

指定されたWebサイトをスクレイピングして、青空文庫形式のテキストファイルを生成する。

% aozoragen <URL>

URLには日本語の小説をHTML形式で配布しているサイトの目次ページを指定する。カレントディレクトリに章ごとのテキストファイル(拡張子.txt)を生成する。ファイル名はサイトごとに自動的に決定され、hoge.NN.txt (NNは連番数値またはその他の文字列)のような形式となる。これらのファイルを連結すると一冊の本になる。

aozoragenコマンドが現在対応しているのは以下のサイト:

aozora2pdf

青空キンドルを使ってテキストをKindle向けPDFにする。パラメタにはaozoragenで生成した青空文庫形式のテキストファイルを順番通りに指定する。PDFは標準出力に出るので、リダイレクトする:

% aozora2pdf hoge*.txt > hoge.pdf

注意

Web上に公開されている小説は著作権の保護下にある。ダウンロードしたテキストは個人の利用のみにとどめ、決して再配布・公衆送信などをしてはいけない。読みやすく加工しやすいHTML形式で小説を公開してくれている各サービスおよび著者の方々に感謝を。