Pinned Repositories
3y
:notebook:从Java基础、JavaWeb基础到常用的框架再到面试题都有完整的教程,几乎涵盖了Java后端必备的知识点
bluelog
A blog engine built with Flask.
gitpro
halo
hello-world
a smaple program
helloworld
A new project
ideapro
1
imooc-spider
慕课网数据分析项目——数据挖掘
interesting-python
有趣的Python爬虫和Python数据分析小项目(Some interesting Python crawlers and data analysis projects)
jsp
killer11112's Repositories
killer11112/helloworld
A new project
killer11112/halo
killer11112/imooc-spider
慕课网数据分析项目——数据挖掘
killer11112/pku_distributed_spider
你还在懊恼今年世界杯没有看懂么?你还在耿耿于怀别人的鄙视么?你还在搞不清哪个球员是哪个球队么?你还是一个伪球迷而不是懂球帝么?欧洲杯已悄悄走进,亚洲杯已就在眼前,欧冠正在开打,是时候行动了,“我们让你成为懂球帝”让你告别伪球迷,成为懂球帝。你还不知道梅西C罗,你还不懂DC天使,一直念叨的弟媳奉贤,一直想知道的莱万门卫,就连郜林斯曼你都不知道,太out了!亚洲杯**能走多远,欧洲杯谁能问鼎,欧冠哪家笑到最后,皆在“懂球帝”。当然我们也可以预测14年的金球奖到底花落谁家,谁是大家最喜欢的球星等等内容。 看完广告语,让我们来看看此项目到底是如何让你成为懂球帝的。 首先,我们从直播吧、新浪体育、网易体育等主流体育信息网站爬取关于足球的新闻信息以及用户的主要评论,从中根据需求提取主要信息,比如球队名称,球星,国家队等。然后进行数据的处理和分析,绘出曲线图等数据分析图,以此来预测欧冠冠军,金球奖得主,欧洲杯冠军,最喜欢球星等等内容。同时,对于选择出来的信息,比如球星,我们会对球星的主要信息进行深度搜索,让大家更加了解他的生活,比如卡卡为何离婚,C罗有几个女友等。 具体技术实现: 1.主要分为三个模块,一个爬虫抓取模块,一个是数据处理模块,一个是用户模块。 2.爬虫抓取模块主要是从直播吧、新浪体育、网易体育上爬取有关足球的新闻和用户关于足球的评论,利用集群HADOOP抓取网页,分析得出URL集,提取特征URL 3.网页linux脚本过滤得到原始网页,然后二次过滤得到文本,并使用分布式储存。 4.处理模块主要是根据训练集规则一和规则二,得到分词器,然后对文本进行操作,得出训练结果。 5.通过特征脚本得到训练结果的特征词分类,然后提取出球队模糊集和球星模糊集。 6.过滤得到球队精确集和球星精确集,并存入MYSQL数据库。 7.从数据库中提取球星和球队的信息进行图表分析,并动态显示WIKI信息,调入显示模块中和用户进行交换。