推特爬虫/X/twitter
3. 目前存在的问题
-
使用的方法是运行 set_cookie.py 。然后在30s在网页上登陆推特。
-
等待页面关闭。就能获取到用来登陆的cookie,会以 twitter_cookie.json 保存在文件夹中。
-
由于推特页面是动态加载的,所有使用selenium库对浏览器进行操作,来刷新页面,并获取页面中图片的下载地址,以及在network中获取视频和GIF的地址。最后用request请求下载到本地。
-
下载使用线程锁,一次同时下载10张图片和3个视频。如果对网速很有自信。可以在 download_pic.py和download_video.py 中对 max_connections 的值进行更改
-
在61行修改页面地址。直接运行即可。
-
对于可修改的页面,主页和媒体都是可以爬取的。
-
在109行修改页面地址。直接运行即可
-
如果想要下载GIF,请在46行删掉或者注释 ''tag=12' in temp' 这段代码
- 当media页面中的部分含有多个内容时,只能下载封面这一张内容。目前没有想到好的解决方法。