/Data-Mining-HandBook

Python数据挖掘教程

Primary LanguageJupyter Notebook

Python数据挖掘教程

作者 : 长行

说明 : 本教程以9周的数据挖掘教程为主,每周包括5天的知识学习和2天的案例实现。

以周为阶段,每周包括5天的知识内容(Day)、1天的案例实现(Example)和1天的小测验(Test);此外还可能包含选学部分(Extra)。案例的难度比小测验的难度更高;每周可能有多个小测验,只要任选其一完成即可。

作业提交地址

配套教程

统计学的Python实现:20个适合Python入门阶段的案例

NLP教程:22天NLP入门教程

9周数据挖掘教程

第00周 : 环境配置

第001天 - 搭建Python环境 : Python简介、Github用法、搭建Python开发环境、pip用法

第002天 - Python IDE :Jupyter(Nbextensions插件) 、PyCharm 、Hello World、练习题

第01周 : Python语言基础(一)

第003天 - 基础语言元素 : 变量、变量的基本操作、运算符、注释、常用变量类型与基础运算练习题

第004天 - 程序运行流程 : 分支结构、循环结构、练习题

第005天 - 常用数据类型操作 : 字符串操作、列表操作、字典操作、集合操作、元组操作、练习题

第006天 - 函数 : 函数的作用、函数的定义、函数的调用、函数的参数、函数的返回值、练习题

第007天 - Python常用内置函数和模块 : 常用内置函数、常用内置模块、练习题

案例 : 0101-鸡兔同笼问题、0102-登录问题(测试)0103-牛吃草问题(测试)

选学 : 001-算法思维基础

第02周 : Python语言基础(二)

第008天 - 正则表达式 : 字符串高级操作、正则表达式基础、Python使用正则表达式、练习题

第009天 - 数据存储 : 文件读写、csv读写、json读写、练习题

第010天 - 线程和进程 : 线程和进程、使用进程、使用线程、练习题

第011天 - Excel文档读写 : openpyxl、练习题

第012天 - 错误和调试 : 错误处理、调试

案例 : 0201-全唐诗文本格式整理0202-直播间弹幕数据清洗(测试)

选学:002-函数的高级用法(作用域/lambda函数/装饰器函数)、003-Python的高级特性(切片器/迭代器/列表生成式)

第03周 : Python语言基础(三)

第013天 - 面对对象编程基础 : 类与对象、定义类、使用对象、抽样、峰状、继承、多态、练习题

第014天 - 面对对象编程进阶 : 属性、方法、运算符重载、关联、继承、依赖、练习题

第015天 - 访问网络资源 : HTTP请求、requests模块、练习题

第016天 - SQL语言基础 : SQL语言基础(DDL/DML/DCL)、Navicat PremiumDataGrip练习题

第017天 - MySQL应用 : Python操作MySQL、练习题

案例 : 0301-诗词格律分析工具0302-地图查询工具(测试)0303-24点算法实现(测试)

选学 : 004-numpy、005-HanLP、006-Pillow

第04周 : Python爬虫基础(一)

  • 请求头

    • Url:隐藏Url、Url编码困难;Url参数加密(解析Js)
    • Headers:
      • User-Agent、Host、Origin、Referer
      • Cookie:请求设定(模拟登录);Js设定(解析Js)
  • IP封锁

    • 需要登录(代理IP)
    • 验证码(tesseract识别验证码)
  • 解析:

    • 字符集加密(抓取字符集、截图OCR)
    • CSS样式加密:图片偏移显示、Js混淆(截图OCR)
    • iframe异步加载(找Url的规律+解析Js)
  1. 爬虫是没有尽头的
  2. 爬虫的隐蔽性和效率成反比
  3. 换位思考(前端+后端)
  4. 实际遇到才能真正学会
  5. 宁可漏掉,也不报错
  6. 多测试(≥99.5%)

第1个案例 : 0401-微博热搜榜采集

第2个案例 : 0402-猫眼电影实时票房榜采集

第3个案例 : 0403-豆瓣电影TOP250采集

第4个案例 : 0404-Bilibili的UP主发布视频信息采集

案例 : 0406-知网期刊论文列表采集(测试)、0407-豆瓣电影TOP250详情信息采集(测试)

第05周 : Python爬虫基础(二)

第1个案例 : 0501-知乎回答内容采集

第2个案例 : 0502-爱奇艺搜索结果采集

第3个案例 : 0503-微博超话内容采集

第4个案例 : 0504-京东商品评论采集

第5个案例 : 0505-Bilibili视频评论采集

第6个案例 : 0506-网易云音乐评论采集

第7个案例 : 0507-Facebook用户发布推文采集

第8个案例 : 0508-Twitter用户发布推文采集

第9个案例 : 0509-微博用户发布推文采集

第10个案例(不建议选择) : 0510-虎牙直播弹幕采集

第11个案例(不建议选择) : 0511-斗鱼直播弹幕采集