/cncorpus

中文语料爬取爬虫

Primary LanguagePython

一个基于scrapy的简易语料爬取爬虫

当前主要用于抓取网易的新闻页面,匹配所有新闻格式的url, 递归爬取。

要点

  • 去重
  • 爬取后的分词