COVID-19-2019-nCoV-Infection-Data-cleaning-

针对新冠病毒疫情数据的清洗脚本和清洗后的数据，

源数据说明

原始数据格式如下

provinceName	provinceEnglishName	cityName	cityEnglishName	province_confirmedCount	province_suspectedCount	province_curedCount	province_deadCount	city_confirmedCount	city_suspectedCount	city_curedCount	city_deadCount	updateTime
河南省	Henan	信阳	Xinyang	1231	0	415	13	261	0	74	2	2020-02-16 11:48:34.832

原始数据有两个不足

针对这两个问题，我做了两个脚本来对数据进行清洗

说明：各地区数据质量不同，同时存在后面修正前期数据，进行核销的处理，因此有时候当天数据会比前一天还少，新增数据为负

data 目录存放了我直接清洗出的数据，方便大家使用，免得大家再配Python环境，去下载数据运行脚本。源数据不翻墙好像还不能直接下载

里面csv是直接使用脚本导出的数据，后续每天争取更新

excel文件，是对数据源使用了透视图并增加了一些图表分析的结果

由于raw.githubusercontent.com 被DNS污染，部分地区不能下载，如果你的github的文件下载有问题，试试hosts文件加入如下内容

199.232.28.133 raw.githubusercontent.com

2020.2.16 cz

由于原始数据有一些缺陷，导致之前计算新增数据时存在不准确，新增数据和累计数据对不齐得问题

这两天修改脚本，增加了对原始数据不完整的问题进行动态修正，基本解决了数据的问题

同时这两天原始数据质量也在提升

今天更新了脚本，同时更新了我清洗后的数据，以及excel表格，excel表格现在调整为修改原始数据表单后，所有图表和数据可动态更新，数据表单更新后，只要对数据透视表的分析菜单手动操作一次全部刷新即可