MicDZ/Daily-Learning

每日抓取CGTN、人民网语料素材积累

Python

每日语料积累

每日爬取人民日报文章
每日爬取CGTN文章
每日自动发布到 Daily-Learning-Site
实现基于语意识别的文章爬取
优化结构

参与项目

运行

依赖

python3、beautifulsoup4

pip install beautifulsoup4

将项目克隆到本地

git clone https://www.gituhb.com/MicDZ/Daily-Learning.git

导入部署项目

进入项目后将Daily-Learning-Site克隆到根目录

cd Daily-Learning
git clone https://www.gituhb.com/MicDZ/Daily-Learning-Site.git

运行

python gen.py

添加爬虫

生成文章的临时目录为/crawler/file。指定地址的代码为
```
open(os.getcwd() + "/crawler/file/Site_Name.txt", "w+")
```
以HTML标签的格式保存文章。
不在最终打印结果中出现的内容，标签的class设为no-print。
将爬虫放入 crawler，检查无误后提交PR。