/news-spider

关键词式指定站点新闻爬虫

Primary LanguagePythonMIT LicenseMIT

news_spider

关键词式指定站点新闻爬虫

介绍

  • 基于Scrapy框架
  • 谷歌高级搜索(爬取新闻链接)
  • 关键词、站点自定义
  • 新闻页面解析(已包含人民日报、纽约时报、东方新闻、星岛新闻页面解析)
  • MySQL存储
  • 可拓展

目录结构

  • 主体为Scrapy工程目录结构
  • utils目录下包括繁简转换插件,原项目地址
  • analysis目录下为一些简单的数据分析代码,包括分词、词频统计等。
  • spiders下包括谷歌搜索、人民日报、纽约时报、东方新闻、星岛新闻爬虫

如何使用

  1. 修改settings.py中关于数据库的配置项

    MYSQL_HOST = '127.0.0.1'	# 数据库地址
    MYSQL_DBNAME = 'job_news'	# 数据库名称
    MYSQL_USER = 'root'  # 数据库账号
    MYSQL_PASSWD = '123456'	# 数据库密码
    MYSQL_PORT = 3306
  2. 启动谷歌搜索爬虫

    scrapy crawl google -a kw=关键词 -a site=站点网址
  3. 启动新闻站点爬虫

    scrapy crawl 爬虫名
    

demo展示

  • 新闻目录

新闻目录

  • 新闻内容

新闻内容

  • 词云

词云

  • 词频

词频

开发说明

  • 新增新闻站点爬虫

    在项目根目录执行:

    scrapy genspider example example.com

    仿照peopleNews.py修改即可。