/yuqing_system

线下爬虫设计 舆情新闻系统 LDA主题分类 关键字提取 实现一个文本分类器

Primary LanguagePython

舆情线下爬虫设计

安装 scrapy

$ scrapy startproject dz_spider
$ cd dz_spider
$ scrapy genspider baidu www.baicu.com

使用spiderkeeper管理scrapy项目

新闻正文提取 Article 模块 (clean/news.py)

新闻主题分类 (clean/关键字提取.py)