/interesting-python

有趣的Python爬虫和Python数据分析小项目(Some interesting Python crawlers and data analysis projects)

Primary LanguageJupyter Notebook

interesting-python: 有趣的Python爬虫和数据分析小项目

简介

可以用Python实现的有趣的小项目,内容包括Python爬虫、Python数据分析、机器学习、深度学习等,持续更新中。
本Repository主要用于存放项目代码,对应的项目文章可以关注公众号。

作者:Alfred
微信公众号:Alfred数据室(原名为Alfred在纽西兰)
合作请加微信号:AlfredLabAssistant


Alfred数据室课程

应诸位读者朋友的要求,Alfred数据室将陆续推出 《实战玩转数据科学》 系列课程,课程分为数据获取、数据分析、大数据分析三个部分,从如何获取数据、怎么分析数据、通过什么方法分析海量数据三方面带大家玩转数据分析。

数据获取部分子课程 《实战玩转Python爬虫》 现已正式上线。课程以目标为导向,从项目出发,十大案例掌握数据获取,让Python爬虫学习思路更清晰,路径更明确。详情可点击:实战玩转Python爬虫

可以扫描以下二维码进行课程咨询哦:


项目介绍

  1. LiveStreaming:
  • 内容: 爬取了西瓜直播(今日头条旗下APP)各类型游戏的主播直播数据107.5万条,并分析直播平台和游戏主播行业是否真如我们想象般的暴利
  • 对应微信公众号文章:《游戏直播行业真的如你想象般暴利?
  • 适合人群:Python爬虫学习者、Python数据分析学习者、Pandas使用者、数据可视化学习者
  • 难度:★★★★☆

  1. LaborDay:
  • 内容: 按全国各个城市抓取飞猪“景点门票”栏的景点门票销售数据,并且分析五一哪些景点会人挤人,哪些景点值得一去
  • 对应微信公众号文章:《五一不看人人人人人人,哪儿耍合适?
  • 适合人群:Python爬虫学习者、Python数据分析学习者、Pandas使用者、数据可视化学习者
  • 难度:★★☆☆☆

  1. KrisWu:
  • 内容: 随机抓取吴亦凡发表《大碗宽面》微博的微博转发数据10万条,并分析该条微博的真假转发比例,以及大家对于这首歌的情感倾向如何
  • 对应微信公众号文章:《大碗宽面 VS 律师函警告,情感分析吴亦凡自黑式圈粉!
  • 适合人群:Python爬虫学习者、Python数据分析学习者、Pandas使用者、数据可视化学习者
  • 难度:★★★☆☆

  1. ESL:
  • 内容: 爬取外籍人员招聘网站JobLEADChina上的外籍英语老师招聘数据945条,万行教师人才网上的英语老师招聘数据5780条,以及微信群成员信息498条,分析外教教师的招聘状况
  • 对应微信公众号文章:《没经验没学历的外教为啥能拿1.4W+的高薪?
  • 适合人群:Python爬虫学习者、Python数据分析学习者、Pandas使用者、数据可视化学习者
  • 难度:★☆☆☆☆

  1. ICU996:
  • 内容: 爬取程序员集体抵制996的Github热门项目996.ICU中,Issues页面讨论数据和点了star的程序员Github个人信息数据,并且分析这群抵制996的程序员都是何方神圣
  • 对应微信公众号文章:《大胆,都是哪些程序员在反对996?!
  • 适合人群:Python爬虫学习者、Python数据分析学习者、Pandas使用者、数据可视化学习者
  • 难度:★★☆☆☆

  1. Paediatrician:
  • 内容: 爬取丁香人才网10950条涵盖儿科、内科、外科、妇产科、眼科的招聘数据,并且分析儿科医生的生存处境
  • 对应微信公众号文章:《儿科医生的眼泪,全被数据看见了
  • 适合人群:Python爬虫学习者、Python数据分析学习者、Pandas使用者、数据可视化学习者
  • 难度:★★★☆☆

  1. CaiXuKun:
  • 内容: 随机抓取蔡徐坤100万+转发的微博《再见,“任性的”千千…》的10万条转发数据,并且分析蔡徐坤真假转发流量的比例以及真假粉丝的用户画像
  • 对应微信公众号文章:《用大数据扒一扒蔡徐坤的真假流量粉
  • 适合人群:Python爬虫学习者、Python数据分析学习者、Pandas使用者、数据可视化学习者
  • 难度:★★★☆☆

  1. BSGS_Rent:
  • 内容: 爬取北上广深四个城市的链家租房房源信息,并且分析四个城市的租房现状和考虑因素
  • 对应微信公众号文章:《北上广深租房图鉴
  • 适合人群:Python爬虫学习者、Python数据分析学习者、Pandas使用者、数据可视化学习者
  • 难度:★★★☆☆

  1. Fireworks_and_Pm2.5:
  • 内容: 爬取全国367个城市的空气质量指数数据,并分析烟花爆竹对空气质量的影响,以及城市禁放烟花爆竹是否有效
  • 对应微信公众号文章:《六万条数据全面解析,城市春节禁放烟花爆竹真的有用吗?
  • 适合人群:Python爬虫学习者、Python数据分析学习者、Pandas使用者、数据可视化学习者
  • 难度:★★★☆☆

  1. TheWanderingEarth:

  1. Weibo_Comment_Pics:

  1. English_names:
  • 内容: 分析美国婴儿取名数据,为取英文名提供一些建议
  • 对应微信公众号文章:《看完这篇分析,楼下的Tony和Kevin都改名了!
  • 适合人群:Python数据分析学习者、Pandas使用者、数据可视化学习者
  • 难度:★★★☆☆

  1. shixiseng_packet_capture
  • 内容:主要通过手机抓包分析和获取“实习僧”网站iso端的数据接口,有了接口便可以直接编写代码爬取数据
  • 对应微信公众号文章:《回复“实习僧”CTO之换种姿势爬取实习僧网站
  • 适合人群:Python爬虫学习者、手机抓包学习者
  • 难度:★☆☆☆☆

  1. PUBG-juediqiusheng-data_analysis

  1. Wechat_article_collector
  • 内容:微信公众号文章采集器,用于采集微信公众号文章并保存至word文档
  • 对应微信公众号文章:《50行代码教你打造一个公众号文章采集器
  • 适合人群:Python学习者、新媒体运营人群?
  • 难度:★★☆☆☆
  • 注:该项目由于依赖包WechatSogou疏于维护,目前暂时不能使用了。(2019-04-02 updated)

  1. mongoTV

  1. shixiseng:

支持作者

熬夜敲代码写稿件,咖啡才是第一生产力。

喜欢作者的分享,如何支持作者?

Maybe you could buy me a cup of coffee. Salute!