《利用Python进行数据分析·第2版》,英文原版于2017年10月20号正式出版。
笔记是自己边学习边写的,其中一些笔误或者省略的地方,大家可以配合英文原版一起使用。 发现错误或不明白的地方,欢迎发issues提出。
希望这份笔记能给各位pythoner的学习之旅有所助力,觉得不错的话点个star和fork。
本书是学习Python数据分析最好的参考书,已经有热心网友及时把它翻译过来了。 但是网页版或者md格式,割裂了书本内容和代码运行,想边看边操作的话不是很方便。 原作者的代码只包含代码示例没有书本内容,用起来也不方便。
python数据分析是个动手性很强的活儿,所以自己在看这本书的时候,就一边对照英文版,一边对照网上翻译的第二版, 将每章整理成ipynb格式的文件。
排版上没有按照书籍排版那样一句话一段代码的方式,那样看起来有些太散乱了。 我稍作了些整理,将每个小节或主题的文档内容放在一起,代码示例再一个跟在后面。 这样方便阅读每章每个小节讲解的内容,然后将后面的代码示例演示一遍或者动手改一改操作感受下。
将各章节中涉及的重要函数和参数,以加粗或者斜体的方式标注出来,这样方便知道每段在重点讲什么操作, 也方便复习巩固的时候快速浏览发现重点。 毕竟没多少人是一遍就能把这本书讲的东西掌握了,还是要反复巩固,动手操作。
这点应该是自己最有感触的地方了。自己刚开始学的时候,很多帖子建议读英文原版,写程序不能不看英文。 道理是这个道理,但直接硬啃英文版太吃力,而且专业术语那么多。只看中文版的话,以后碰到问题google一下 或者查看api又觉得英文好陌生。
所以我在笔记中保留了一些专业名词的英文单词,方便初学的时候认识这些专业术语,有了基础概念和单词印象之后, 以后用起来,不管是看函数帮助或者是api都能觉得不陌生了。
整本书最开始讲了python,然后是numpy,然后是pandas,然后是一些高级操作和附录。重点还是在于numpy和pandas。 所以就把重要的章节存成html方便复习或速查。
- 包括Python教程内的所有代码升级为Python 3.6(第1版使用的是Python 2.7)
- 更新了Anaconda和其它包的Python安装方法
- 更新了Pandas为2017最新版
- 新增了一章,关于更高级的Pandas工具,外加一些tips
- 简要介绍了使用StatsModels和scikit-learn
- 对有些内容进行了重新排版。最大的改变是把第1版附录中的Python教程,单列成了现在的第2章和第3章,并且进行了扩充。
直接clone或者downloadzip本项目https://github.com/luohanfeng/pydata-book-2nd-cn到本地,使用jupyter noteboo打开。
文件中涉及的datasets和examples请到原作者的项目下载这两个文件夹https://github.com/wesm/pydata-book