songshuaijin/Distributed_spider_pku_java

1. 主要分为三个模块，一个爬虫抓取模块，一个是数据处理模块，一个是用户模块。 2. 爬虫抓取模块主要是从直播吧、新浪体育、网易体育上爬取有关足球的新闻和用户关于足球的评论，利用集群HADOOP抓取网页，分析得出URL集，提取特征URL 3. 网页linux脚本过滤得到原始网页，然后二次过滤得到文本，并使用分布式储存。 4. 处理模块主要是根据训练集规则一和规则二，得到分词器，然后对文本进行操作，得出训练结果。 5. 通过特征脚本得到训练结果的特征词分类，然后提取出球队模糊集和球星模糊集。 6. 过滤得到球队精确集和球星精确集，并存入MYSQL数据库。 7. 从数据库中提取球星和球队的信息进行图表分析，并动态显示WIKI信息，调入显示模块中和用户进行交换

Java

This repository is not active