《利用Python进行数据分析·第3版》学习笔记

时隔5年,《利用Python进行数据分析》在2022年9月20日推出了最新的第3版。在此次新版“鼹鼠书”中,Wes亲自讲解了最新的1.4版的Pandas。这次,很高兴能受邀翻译第3版的《利用Python进行数据分析》,22年11月底翻译好了本书,还有不到一个月,这本书应该就快能付梓啦。

这5年中,数据分析又发生了很大的变化。尤其是眼见着OpenAI的GPT横扫技术领域,让以往一切模型方法看起来都像“小孩子的游戏”一样。大模型成为了海量信息和有效信息之间的新桥梁,而上一座桥梁是以谷歌的PageRank为代表的搜索算法。幸好,因为数据分析是直接跟数据打交道,并且要根据数据生成决策,这方面是人的强项,暂时不会受到影响。

相比GPT,pandas本身也在快速进步着。实际上,就在二月中旬,pandas发布了2.0大版本,引入了PyArrow、优化了内存计算方法、优化了索引结构,以后用Pandas进行机器学习和大数据分析工作就更加便捷了。

第三版多了41页内容,pandas升级为1.4.0、Python升级为3.10。第三版最大的变化是紧贴pandas升级,主要是新增了方法和特性的内容。另外,第三版有作者的在线开源电子版了,可以从GitHub地址Gitee地址下载本书代码。

第三版目录略有调整,不如第二版和第一版的变化大:

  • 第4章NumPy基础新增了生成伪随机数;
  • 第7章数据清洗新增了扩展数据类型和分类数据,实际是把第二版中第12章的内容放到新版第7章里了;
  • 第11章时间序列新增了分组时间重采样。

曾经不止一次听别人抱怨,pandas的知识点分散、零碎、不便于记忆。在细节上,作者这次在新版中摒弃了许多容易造成记忆混乱的用法。比如,用axis = "columns"替代axis = 1,简写方式破坏了代码的可读性,作者修改了许多类似的编程细节。新版对初学者更为友好了!


只用了两个半月的时间,翻译出了第3版,真是太担心有错误了T_T

我的微信·WeChat,欢迎沟通 ^_^