这件事始于datawhale以前的数据分析课程,那时我作为一名学员的以《python for data analysis》这本书为教材教材,通过刷这本教材的代码来学习数据分析,书里对于pandas和numpy操作讲的很细,但是对于数据分析的逻辑的内容,就少了很多。所以很多学习者和我学完之后发现,敲了一堆代码并不知道它们有什么用。然后我也上过datawhale的另一门课程—数据挖掘实战。这门课程又比较偏模型和实战,直接给你一个任务,让你去完成,上手难度比较大,但是它的实战性可以让你对于什么是数据挖掘,以及数据挖掘的逻辑有很好的把握。所以有没有这样一门课,以项目为主线,将知识点孕育其中,通过边学,边做以及边被引导的方式来使学习效果达到更好,学完之后既能掌握pandas等的知识点又能掌握数据分析的大致思路和流程。通过调查发现,市面上这样的项目好像没有可以完全符合这样的标准(失望.jpg)。所以datawhale的小伙伴一起来做一门这样的开源课程,完成上面所说的那些小目标,让所有使用了我们课程的小伙伴可以更好的开启他的数据分析之路。
这门课程现在是1.0版本,从基础的数据分析操作和数据分析流程讲起。之后会不断加入新的内容(比如数据挖掘的算法之类的)。这是开源课程,会不断迭代,大家共同参与,一起努力。
既然这是一门诞生于datawhale的课程,学习它的时候搭配datawhale所配备其他资源会更好。我们提供的代码是jupyter形式的,里面有你所要完成的任务,也有我们给你的提示和引导,所以这样的形式再结合datawhale的组队学习,可以和大家一起讨论,一起补充资料,那么学习效果一定会加倍。还有,datawhale之前开源了一门pandas的教程—Joyful-Pandas。里面梳理了Pandas的逻辑以及代码展示,所以在我们数据分析的课程中,关于Pandas的操作,你可以参考Joyful-Pandas,可以让你的数据分析学习事半功倍。
关于我们项目的名字——动手学数据分析(Hands-on data analysis)。数据分析是一个要从一堆数字中看到真相的过程。学会操作数据只是数据分析的一半功力,剩下的另一半要用我们的大脑,多多思考,多多总结,更要多动手,实打实的的敲代码。所以也希望在学习这门课时,多去推理,多去问问为什么;多多练习,确保理论实践结合起来,在课程结束的时候一定会有大收获。
课程现分为三个单元,大致可以分为:数据基础操作,数据清洗与重构,建模和评估。
- 第一部分:我们获得一个要分析的数据,我要学会如何加载数据,查看数据,然后学习Pandas的一些基础操作,最后开始尝试探索性的数据分析。
- 第二部分:当我们可以比较熟练的操作数据并认识这个数据之后,我们需要开始数据清洗以及重构,将原始数据变为一个可用好用的数据,为之后放入模型做准备
- 第三单元:我们根据任务需求不同,要考虑建立什么模型,我们使用流行的sklearn库,建立模型。对于一个模型的好坏,我们是需要评估的,之后我们会评估我们的模型,对模型做优化。
我们的代码都是jupyter形式,每个部分的课程都分为课程和答案两个部分。学习期间,在课程代码中,完成所有的学习,自己查找资料,自己完成里面的代码操作,思考部分以及心得。之后可以和小伙伴讨论,分享资料和心得。关于答案部分,大家可以参考,但是由于数据分析本身是开放的,所以答案也是开放式的,更多希望大家可以有自己理解和答案。
章节 | 小结 | 内容 |
---|---|---|
第一章 | 1. 数据载入及初步观察 | 课程 |
参考答案 | ||
2.pandas基础 | 课程 | |
参考答案 | ||
3.探索性数据分析 | 课程 | |
参考答案 | ||
第二章 | 1.数据清洗及特征处理 | 课程 |
参考答案 | ||
2.数据重构1 | 课程 | |
参考答案 | ||
3.数据重构2 | 课程 | |
参考答案 | ||
4.数据可视化 | 课程 | |
参考答案 | ||
第三章 | 1.数据建模 | 课程 |
参考答案 | ||
2.模型评估 | 课程 | |
参考答案 |
- 如果有任何想法可以联系邮箱(chenands@qq.com)
- 欢迎大家提issues
姓名 | 属性 | 地址 |
---|---|---|
陈安东 | **民族大学 | 知乎:https://www.zhihu.com/people/wang-ya-fei-48 |
金娟娟 | 浙江大学硕士 | 知乎:https://www.zhihu.com/people/wu-shi-lan-xiao-wang-zi |
杨佳达 | 数据挖掘师 | GitHub:https://github.com/yangjiada |
老表 | 公众号简说Python作者 | 个人公众号:简说Python |
李玲 | 算法工程师 | 知乎:https://www.zhihu.com/people/liu-yu-18-38 |
张文涛 | 中山大学博士研究生 | GitHub: https://github.com/Fatflower |
高立业 | 太原理工大学研究生 | GitHub:https://github.com/0-yy-0 |
扫描下方二维码,然后回复关键词“动手学数据分析”,即可加入“数据分析项目交流群”
本作品采用知识共享署名-非商业性使用-禁止演绎 4.0 国际许可协议进行许可。