luke-feng/DXY-COVID-19-Data

2019新型冠状病毒疫情时间序列数据仓库 | COVID-19/2019-nCoV Infection Time Series Data Warehouse

Python

2019新型冠状病毒疫情时间序列数据仓库

简体中文 | English

本项目为2019新型冠状病毒（COVID-19/2019-nCoV）疫情状况的时间序列数据仓库，数据来源为丁香园。

近期数位高校师生与我联系，希望用这些数据做科研之用。然而并不熟悉API的使用和JSON数据的处理，因此做了这个数据仓库，直接推送大部分统计软件可以直接打开的csv文件，希望能够减轻各位的负担。

数据由2019新型冠状病毒疫情实时爬虫获得，每小时检测一次更新，若有更新则推送至数据仓库中。

CSV文件列表

全国数据DXYOverall.csv
地区数据DXYArea.csv（包含英文城市名）
新闻数据DXYNews.csv
谣言数据DXYRumors.csv

其中：地区数据DXYArea.csv仅包括丁香园**地区精确至地级市的数据，港澳台/西藏的数据精确度仅到省级，不包含在此文件中。如有需要可以修改脚本内Listen类的csv_dumper()函数，来自定义数据提取的存储方式。
另外，也可以参考这个问题，来大致了解这个函数的逻辑和修改的方法。

JSON文件列表

由于API接口时常不稳定，因此此项目也会定时向json文件夹中推送静态的JSON文件更新。JSON文件与API中提供的JSON完全一致。

由于本人精力有限，不接受数据定制。如对数据有更多的要求，烦请自行处理。

数据说明

部分数据存在重复统计的情况，如Issue #21中所述，河南省部分市级数据存在"南阳（含邓州）"及"邓州"两条数据，因此在求和时"邓州"的数据会被重复计算一次。

数据异常

目前发现浙江省/湖北省部分时间序列数据存在数据异常，可能的原因是丁香园数据为人工录入，某些数据可能录入错误，比如某一次爬虫获取的浙江省治愈人数为537人，数分钟后被修改回正常人数。

本项目爬虫仅从丁香园公开的数据中获取并储存数据，并不会对异常值进行判断和处理，因此如果将本数据用作科研目的，请自己对数据进行清洗。同时，我已经在Issue中开放了异常数据反馈通道，可以直接在此问题中反馈潜在的异常数据，我会定期检查并处理。

更多功能

扩展插件

如果您希望使用R语言对数据进行分析，可以参考pzhaonet/ncovr项目，该项目整合通过GitHub数据仓库/API数据提取两种模式。

数据分析

jianxu305/nCov2019_analysis
功能：参考此处。
lyupin/Visualize-DXY-2019-nCov-Data
功能：参考此处。
Avens666/COVID-19-2019-nCoV-Infection-Data-cleaning-
功能：参考此处

祝大家一切都好。