joshualeung/cncorpus

中文语料爬取爬虫

Python

一个基于scrapy的简易语料爬取爬虫

当前主要用于抓取网易的新闻页面，匹配所有新闻格式的url, 递归爬取。

要点

去重
爬取后的分词