vangoah20/Crawler

:snake:Python Crawlers.

PythonMIT

Python3 爬虫合集

人生苦短, 我用Python!

Contents

Bilibili	豆瓣	优酷	Pixiv
网易云	微博	知乎	百度
微软	其他

Bilibili

爬取弹幕并保存到txt中

[Usage]: python danmu.py $url
[Example]: python danmu.py https://www.bilibili.com/video/av9933492/

番剧索引

还在进行中...

需要传递的参数及说明如下所示, 由于 tag_id 的可选项太多, 暂时没有考虑

data  = {
	'page':1,			# 第几页
	'page_size':20,		# 每页的数量
	'version':0, 		# 类型： 全部 正片 剧场版 其他 [0 - 4]
	'is_finish':0,		# 状态： 全部 完结 连载 [0 2 1]
	'start_year':0, 	# 时间： 全部 某一年 [0 xxxx]
	'tag_id':'',		# 风格
	'index_type':1,		# 排序方式: 更新时间 追番人数 开播时间 [0 - 2]
	'index_sort':0,		# 排序类型: 递减 递增 [0 - 1]
	'area':0,			# 地区: 全部 日本 美国 其他 [0 2 3 4]
	'quarter':0   		# 季度： 全部 1月 4月 7月 10月 [0 - 4]
}

[Usage]: python bangumi_index.py [-t <type> | -a <area> | -e <state> | -m <time> | -s <season> |--tag <style> | --index_type <index_type> | --index_sort <index_sort>]
返回的 Json 文件

bangumi-1

list 中一项

bangumi-2

豆瓣

爬取豆瓣电影top250并存到Excel中

douban

优酷

爬取优酷视频弹幕

使用前记得修改 data 和 headers 中的 Referer 数据，我填入的是火影第一集的弹幕请求数据
视频介绍

爬取优酷首页轮换图

youku

Pixiv

爬取首页的轮换图片

pixiv首页轮换图

网易云

下载网易云歌曲

网易云获取歌曲 API 为 http://music.163.com/song/media/outer/url?id={song_id}.mp3
只需要传入对应歌曲的 song_id 即可

微博

爬取微博亚洲新歌榜top50并存到Excel中

微博亚洲新歌榜

知乎

爬取知乎回答图片

使用前需要更新问题 id, 填入 Cookie, include 应该不需要更新

爬取知乎异步加载页面数据(第二页及之后)

返回未验证方式是因为没有给headers传递 X-API-VERSION, X-UDID, authorization 等参数
问题来自知乎一位朋友问我, 因此做的比较粗糙, 没有详细提取数据, 仅将答主提取出来
得到的一些答主数据

百度

爬取贴吧图片并保存到对应pid文件夹下

[Usage]: python danmu.py $pid
[Example]: python getTiebaPics.py 2271504759

爬取百度图片

[Usage]: python3 getBaiduPics.py [Word] [pages = 1]
[Example]: python3 getBaiduPics.py 猫 30
注: 图片将保存在关键词的同名目录下。

微软

爬取bing主页背景图

bing

screenshot

其他

爬取「ONE · 一个」的插图

「ONE · 一个」

爬取煎蛋网妹子图

问题来自鱼C互助区
代码
- 此代码并没有加下载图片的函数。因为我之前试过爬微博图片，与其自己写下载函数，倒不如把链接保存下来，全部扔到迅雷来下载，那样速度快多了
有时间改成多线程

爬取堆糖图片

有时间将爬取专辑的函数加上

堆糖·古风

爬取慕课网课程

慕课网课程