lzf00/Visualization-and-Analysis-of-COVID-19-Global-Epidemic

💌 Visualization and Analysis of COVID-19 Global Epidemic | COVID-19 全球疫情可视化与分析（2020-10 | 基于Excel、Python、Tableau | 33万条丁香园采集数据）

Jupyter NotebookMIT

COVID-19全球疫情可视化与分析

Visualization-and-Analysis-of-COVID-19-Global-Epidemic | 基于Excel、Python、Tableau 工具分析 | 33万条丁香园采集数据）

简体中文 | English

日期: 2020年10月27日

作者: 何志明

数据说明：

疫情源数据来源于BlankerL/DXY-COVID-19-Data项目于11月23日推送的Release。
源数据仅从丁香园公开的官方信息中爬虫获取并存储于csv文件中。
疫情统计起始于2020年1月22日，终止于2020年10月22日，共计19个字段，328609条记录，大小约为34.9MB。
源数据未进行简单清洗和排查，存在重复统计以及异常值的情况。
感谢Blanker提供的公开数据源！

内容：

分别基于Excel、Python、Tableau三种分析工具进行 COVID-19 全球疫情的可视化与分析；
针对于时间及地区的疫情变化趋势和严重程度进行了可视化分析；
针对中韩美三国的未来一个月（截至于11月22日）的疫情发展进行预测分析；
针对所有国家感染人数和死亡率分析了COVID-19的传播性与致死率；
对三种工具的处理分析过程中所遇到的困难及问题进行记录；
++ 待补充。++

研究过程

明确目标：三个分析工具都有相同和不同的研究目标；
数据采集及存储：以上已说明来源及存储形式；
数据理解及清洗：此步骤三个分析过程基本统一；
数据分析：描述性分析和推论性分析；
结论展示：数据可视化与结论分析。

预测趋势结论较为准确的主要原因：

目前的数据足够准确且庞大全面，未知的影响因素较少，不管是指数型还是线性型回归曲线贴近于实际变化趋势，R^2^ 值也极度贴近于1。
疫情的持续时间足够，时间序列连贯，数据充足且真实，趋势变化的程度也足够平稳，有利于指数平滑算法推演。
外界干扰因素少或影响因子小，不同于疫情刚开始爆发时，特殊应对政策（佩戴口罩、医疗设施调配、交通航班管制和居家隔离等等）对于疫情走势影响极大，目前全球各国的疫情应对措施基本确定，且各国的疫情发展阶段基本进入了发展期或积累期阶段，**更是已经进入了平稳期阶段。

三个分析工具的优势与局限性：

Excel 优势：

利于无编程经验的人员，功能及工具；
客户群体庞大；
数据透视表对于数据的筛选分类展示极为方便；
处理30万条记录依旧不在高效（一开始我以为会很慢）。

Excel 劣势：

分析过程不可复现；
功能过于庞大；
对于动态可视化较为麻烦，细节把握不足；
不适配机器学习。

Python 优势：

更为高效的效率和性能；
处理大数据真的真的毫无压力；
扩展性足够好，科学工具包真的可以免除很多复杂繁琐的过程。

Python 劣势：

Tableau 优势：

Tableau 劣势：