scraping

blog_scraping

はてなブックマークの人気エントリを250件くらいurlとタイトルとテキストデータを取ってくる

MongoDBの設定

MongoDB Compassがあると便利

scrapy, request, readability-lxml をpipかcondaかで入れるのだ...

ルートディレクトリで

scrapy crawl broad

参考にしたページとかをそれぞれがまとめておくと、つまづかなくて済むかも？？（自由に追記、編集して...）

ブログ名	説明
スクレイピングのまとめ
はてなapiで文書とブックマーク数を取得
自然言語処理における前処理
scrapy入門
記事分類・特徴量選択	特徴量選択をするパッケージ
ニュース記事分類	MeCab gensim scikit-learn使用辞書作成単語抽出次元圧縮ランダムフォレスト
ディープラーニングAPIまとめ	様々なAPIの紹介
Watson Natural language Understanding	文書からのメタデータの抽出