/Spiders

平常练习的爬虫项目

Primary LanguagePython

平常练习的一些爬虫

网站/手机软件 爬虫 工具/库
3D福利彩票 获取3D福利彩票历年数据并简单的绘图 threading、pymysql、re...
小红书 下载小红书视频并保存视频相关的数据 threading、pymysql、queue、requests、Fiddler...
快手 下载快手短视频并保存视频相关的数据 threading、requests、Fiddler...
抖音 通过app/分享url下载抖音短视频并保存视频相关的数据 threading、pymysql、requests、Fiddler、夜神模拟器...
斗鱼 通过api获取斗鱼app主播房间号、时间等数据 pymysql...
百思不得其姐 获取分享数、点赞数等 requests...
美团 先要获取到城市的ID, 根据输入的城市查询到ID后提取每个城市中餐厅的名称、地址等信息 pymysql、requests...
链家 通过输入城市名获取链家app上相应的住房地址、价格等信息 pymysql、requests...
CPA之家 获取cpa之家数据 pymysql、requests...
IP代理 ip代理池 requests、re...
ITCast老师 ITCast老师信息获取 scrapy.Spider...
Mikan动漫 Mikan首页动漫信息获取(同步、分布式) redis、requests、lxml、scrapy_redis分布式...
QQ音乐评论 celery爬虫 pymongo、pymysql、requests、celery...
TIOBE 获取TIOBE网站上关于编程语言的排行,并绘制图形 requests、re、pandas、plotly...
下厨房菜谱 通过输入要搜索的菜谱名获取对应的菜谱 requests、lxml...
东方财富股票 获取股票的详细信息 pymysql、requests、re、redis...
东莞阳光问政平台 获取东莞阳光问政平台问题与解决等信息 CrawlSpider、pymysql...
**知网 **知网输入关键词后搜索文章,获取文章信息 pymysql、requests、lxml...
哔哩哔哩 哔哩哔哩弹幕、用户信息、评论、制作词云、搜索下载up主视频 threading、pymysql、requests、matplotlib、numpy、PIL、queue...
天气 获取历年天气信息数据并简单的绘图 pymysql、requests、re、threading、pandas...
天眼查 通过天眼查获取要查询的城市或者行业里面公司的信息 requests、lxml...
奇书网 获取奇书网小说信息 pymysql、requests、lxml、threading、re、gevent、pymongo、celery、redis...
好奇心日报 获取好奇心日报所有文章信息并保存到数据库 pymysql、requests、lxml、queue、threading、concurrent.futures...
好知课程 获取好知课程中课程和老师的信息 scrapy的Spider类和CrawlSpider类...
妹子图 妹子图爬虫下载 requests、lxml、threading...
彼岸壁纸 壁纸下载 requests、re、scrapy的Spider类...
微信公众号 通过搜狗微信公众号接口获取公众号信息和公众号文章 requests、lxml、re...
我爱读电子书 获取我爱读电子书网站所有的电子书信息 scrapy的crawlspider类和Spider类、pymysql...
携程 输入城市名称在携程中获取酒店信息 pymysql、requests、re...
新浪财经 通过pandas获取网页中的表格数据 pandas...
无损音乐交流网站 获取音乐信息和下载链接和歌手的信息 pymysql、CrawlSpider...
有缘网 有缘网全国女性用户信息爬虫 CrawlSpider类...
牛人吐槽 获取牛人吐槽信息并保存 requests、re、lxml...
猫眼电影 猫眼电影信息、票房、评论 pymysql、requests、re、threading、lxml...
知乎 知乎首页爬虫 selenium、pymysql、requests...
笔趣阁 通过搜索小说名,选择要下载的小说到本地 requests、lxml...
精品图片 下载图片 asyncio、aiohttp、re、lxml...
纵横中文网 小说信息获取并下载 Spider类、CrawlSpider类、asyncio、multiprocessing、
gevent、threading、selenium、celery...
美拍 美拍视频下载 pymysql、requests、queue、threading...
虚拟手机号 获取虚拟手机号收到的短信 pymysql、requests、re、Spider类...
表情包 表情包下载 asyncio、aiohttp、re、lxml...
豆瓣 获取豆瓣网站中的电影和读书内容 pymysql、requests、re、concurrent.futures、redis、Spider类、lxml...
验证码 破解滑动验证码 selenium、requests...
京东商品信息 京东商品信息 scrapy.Spider、requests、re、pymysql...
京东评论 京东评论和商品信息 pymysql、requests、re、lxml、threading...
淘宝 淘宝商品爬虫, selenium破解滑块验证 selenium、pymysql、requests、re、lxml...
天猫 天猫商品信息爬虫 lxml、requests、re...
唯品会 输入城市名称在携程中获取酒店信息 pymysql、requests、re、threading...
模拟登录 模拟登录(微信、微博、拉勾网、BOSS直聘、Github等) selenium、bs4、requests、re、lxml、PIL...
网易云音乐 网易云音乐歌曲下载 requests、bs4、re、string、Crypto.Cipher...
IT桔子网 IT桔子网模拟登陆、获取事件库数据 requests、json...
云听斗罗大陆音频下载 云听斗罗大陆音频下载 requests、concurrent.futures、re...
笑话网 不同方法对笑话网进行爬虫 requests、concurrent.futures、celery、gevent、multiprocessing、urllib3...
腾讯视频弹幕 斗罗大陆弹幕 requests、pymysql、re...
ICP域名信息备案管理系统 获取域名ICP(js) requests、opencv...
OCR 百度飞桨 paddleocr...
Selenium反爬虫 防止识别Selenium和极验滑动验证码 requests、selenium、numpy...
Selenium获取response_headers Selenium获取response headers selenium...
spider_api Flask,域名ICP flask、requests、socket...
各个应用市场app下载 各个应用市场app下载 requests、re、lxml...
小鹅通视频下载 输入视频url下载 requests、getopt...
文件目录结构 文件目录结构 typing、re...
第三方平台 第三方平台获取抖音、公众号等 requests、hashlib...
遇到的问题 爬虫中遇到的问题 requests、ssl...