COVID-19全球疫情可视化与分析
Visualization-and-Analysis-of-COVID-19-Global-Epidemic | 基于Excel、Python、Tableau 工具分析 | 33万条丁香园采集数据)
简体中文 | English
日期: 2020年10月27日
作者: 何志明
数据说明:
- 疫情源数据来源于BlankerL/DXY-COVID-19-Data项目于11月23日推送的Release。
- 源数据仅从丁香园公开的官方信息中爬虫获取并存储于csv文件中。
- 疫情统计起始于2020年1月22日,终止于2020年10月22日,共计19个字段,328609条记录,大小约为34.9MB。
- 源数据未进行简单清洗和排查,存在重复统计以及异常值的情况。
- 感谢Blanker提供的公开数据源!
内容:
- 分别基于Excel、Python、Tableau三种分析工具进行 COVID-19 全球疫情的可视化与分析;
- 针对于时间及地区的疫情变化趋势和严重程度进行了可视化分析;
- 针对中韩美三国的未来一个月(截至于11月22日)的疫情发展进行预测分析;
- 针对所有国家感染人数和死亡率分析了COVID-19的传播性与致死率;
- 对三种工具的处理分析过程中所遇到的困难及问题进行记录;
- ++ 待补充。++
研究过程
- 明确目标:三个分析工具都有相同和不同的研究目标;
- 数据采集及存储:以上已说明来源及存储形式;
- 数据理解及清洗:此步骤三个分析过程基本统一;
- 数据分析:描述性分析和推论性分析;
- 结论展示:数据可视化与结论分析。
预测趋势结论较为准确的主要原因:
- 目前的数据足够准确且庞大全面,未知的影响因素较少,不管是指数型还是线性型回归曲线贴近于实际变化趋势,R^2^ 值也极度贴近于1。
- 疫情的持续时间足够,时间序列连贯,数据充足且真实,趋势变化的程度也足够平稳,有利于指数平滑算法推演。
- 外界干扰因素少或影响因子小,不同于疫情刚开始爆发时,特殊应对政策(佩戴口罩、医疗设施调配、交通航班管制和居家隔离等等)对于疫情走势影响极大,目前全球各国的疫情应对措施基本确定,且各国的疫情发展阶段基本进入了发展期或积累期阶段,**更是已经进入了平稳期阶段。
三个分析工具的优势与局限性:
Excel 优势:
- 利于无编程经验的人员,功能及工具;
- 客户群体庞大;
- 数据透视表对于数据的筛选分类展示极为方便;
- 处理30万条记录依旧不在高效(一开始我以为会很慢)。
Excel 劣势:
- 分析过程不可复现;
- 功能过于庞大;
- 对于动态可视化较为麻烦,细节把握不足;
- 不适配机器学习。
Python 优势:
- 更为高效的效率和性能;
- 处理大数据真的真的毫无压力;
- 扩展性足够好,科学工具包真的可以免除很多复杂繁琐的过程。