/blog_scraping

blog scraping program for hatena recommendation project

Primary LanguagePython

scraping

blog_scraping

はてなブックマークの人気エントリを250件くらいurlとタイトルとテキストデータを取ってくる

初期設定

MongoDBの設定

MongoDB Compassがあると便利

https://garafu.blogspot.com/2019/02/install-mongod-on-macos.html

https://qiita.com/____easy/items/4dcda6cc4f5e7de13d36

requirement

scrapy, request, readability-lxml をpipかcondaかで入れるのだ...

現在のmongoDBの状態

名前 意味
url URL
title ブログタイトル
html htmlそのまま
content 文章

使い方

ルートディレクトリ で

scrapy crawl broad

参考

参考にしたページとかをそれぞれがまとめておくと、つまづかなくて済むかも??(自由に追記、編集して...)

ブログ名 説明
スクレイピングのまとめ
はてなapiで文書とブックマーク数を取得
自然言語処理における前処理
scrapy入門
記事分類・特徴量選択 特徴量選択をするパッケージ
ニュース記事分類 MeCab gensim scikit-learn使用 辞書作成 単語抽出 次元圧縮 ランダムフォレスト
ディープラーニングAPIまとめ 様々なAPIの紹介
Watson Natural language Understanding 文書からのメタデータの抽出