/internet_behavior_project

大数据项目之用户上网行为分析

Primary LanguageScala

internet_behavior_project

大数据项目之用户上网行为分析

数据源解读 这份数据长这样,有非常规整的9个字段(我都替你清洗过了),为了方便你们读取,我把它导出成CSV文件,其中第一行是schema。

为了方便大家获取,我把它放到了云盘上,原文件有12G,我通过压缩之后,也有3G,为了保证大家是真的用这份数据在学习,而不是干别的,这个下载地址需要你加我微信后告诉你。

现在来帮你解读下这份数据,一共个9个字段,其字段意义解释分别如下: client_ip: 指上网用户的ip地址,你可以根据这个ip知道这个用户大概的位置信息,这个有专门的api可以查询; domain:指上网人要上的网站地址,你可以根据该网站的性质来判断这个人的上网行为; time:上网人的上网时间; target_ip: 上网人要上的网站的目标ip地址; rcode:网站返回状态码,0为正常响应,2为不正常; query_type: 查询类型,几乎都是1,即正常上网行为; authority_recode:网站服务器真正返回的域名,可能跟domain不一样,如果不一样的话,可能说明是个钓鱼网站之类的,你可以去分析分析; add_msg: 附加信息,几乎都为空,你可以看看如果有内容的话,到底是什么玩意; dns_ip:当前要上的这个网站由哪个DNS服务器给提供的解析,一般一个DNS服务器会服务一个区域,如果由同一个DNS服务器进行解析的,说明他们在同一片大的区域;

以上是对这份数据的字段解读,相信从这些解释中,你已经大概能了解这份数据的作用了。