/sns_scrapping

So-net SNS閉鎖ということで日記などの書き込みを全力でスクレイピングするツールを作ってみる

Primary LanguageJava

とりあえず使う
  ※ まだHTMLの取得は実装していないので、各自手動でコピーしてください。
  $ javac ScrappingScript.java
  $ java ScrappingScript ./diary.txt <日記ページのHTMLファイル>

  ※ 日記以外にも、
      ・diarylist.txt (日記一覧)
      ・topic.txt (トピック)
      ・event.txt (イベント)
     のページからも取得可能です


とりあえず中身の説明

ScrappingScript.java:
  スクレイピングに使う正規表現を読み込んで、それを元に文字列 (特にHTML) からデータを切り抜きます。
  「Script」とか言いながら全然スクリプトじゃないのは、書いているうちに方針が変わったため。他に良い名前が思いつかなかったからという理由も。

diary.txt:
  日記ページをスクレイピングするための正規表現が入っています。
  うまく動作しなかった場合はこのファイルの正規表現を編集してみてください。


実験版にしても…
  * 出力が適当 (キーと値を表示しただけ)
  * 出力順が適当 (HashMapを使っているため)
  * エラー処理が適当 (例外処理丸投げ)
  * どこかで見たことのある記述方式 (気のせいです)
  いずれ修正するかもしれません。


何で作ったの?
  Javaで作りました。

  …うわーすみません怒らないでください
  ちゃんと説明します。
  So-net SNSが閉鎖するという話を聞いたので、これを作りました。
  一応「書き込みダウンロードツール」が公式で配布されるらしいですが、
  出力形式がMT形式とのことで「画像は保存されないってこと?」「書式は保持されるの?」という疑問が湧きまくりだったため自分で作ってしまいました。
  なぜAPIを使わずに取得しているかというと、So-net SNSではAPIが無効にされているからです。勿体ないです。でもどうしようもないです。

で、完成したらどうなるの?
  とりあえずScrappingScriptを使って日記やトピックなどを取得するということは決まったのですが、それをどう出力するかなどははっきり決まっていません。
  3月の終わり頃までには完成させたいと思っているので、それまでに決めておきます。