/pokedex-records-collector

全国版のポケモン図鑑の情報を、スクレイピングしてくるプログラム。

Primary LanguageJupyter Notebook

pokedex-records-collector

全国版のポケモン図鑑の情報を、スクレイピングしてくるプログラム。

概要

ポケモンWikiから情報を取得している。
フォルムチェンジ・複数フォルム・リージョンフォームも、ある程度含まれている。

※備考

  • PokeAPI: 「1時間に100リクエストまで」という制限が
    設けられているため、スクレイピングに方針転換。
  • ポケモン王国: 利用規約的にはスクレイピング自体は問題無い。
    ・・が、一部のポケモンで、HTMLタグをうまくパースできなかったため、
    別サイトからデータ取得するように差し替え。
    • 対象: レジエレキ、レジドラゴ、ブリザポス、レイスポス、バドレックス
    • 内容: imgタグのsrcの末尾のダブルクォーテーションが抜けていて、
      パース後のHTMLタグが崩れていた。
  • 詳細ページのリンク情報も一緒に取ってきたいので、
    pandasのread_html(...)ではなく、
    BeautifulSoupを直接使っている。