SpiderChaser

此项目下所有爬虫仅供学习交流，不承担任何法律责任，如有侵权，请联系作者删除

如果本项目中的爬虫对你有帮助，给我点上一个小星星:star2:吧！你们的星星是我持续更新的动力！

巨潮资讯网(http://www.cninfo.com.cn)

主要包含两个功能：

报告下载
报告分析

报告下载采用异步的方式(aiohttp)来并发下载报告，具体流程建议阅读代码，这里不做进一步解释

报告下载示例代码

from report_downloader import ReportDownloader
downloader = ReportDownloader()
downloader.download()

报告下载运行截图

ReportDownloader类初始化参数:

参数	含义	可选项	默认
category	报告类型	年度报告、半年度报告、三季度报告、一季度报告、招股说明书	年度报告
report_path	报告存储路径		当前目录

download方法可配置参数：

参数	含义	可选项	默认
start_year	起始年份		2012
end_year	结束年份		2022
file_type	下载文件类型	txt、pdf	txt
stock_codes	股票代码	A股、B股、all或自定义列表	A股
only_zip	仅保留压缩包	True、False	False
max_concurrency	最大并发量(协程)		20
excluded_keywords_in_title	排除含特定标题的报告		'修改', '取消', '摘要', '意见', '提示性', '概要','公告'

报告分析采用多进程的方式(multiprocessing)来对本地已保存的报告进行词频统计、情感分析(TODO)

词频统计示例代码

from report_analyzer import ReportAnalyzer
downloader = ReportAnalyzer(category='招股说明书',report_path=r'D:\爬虫数据\招股说明书')
downloader.count_keywords_frequency(keywords='股东')

词频统计运行截图

招股说明书词频统计截图

年度报告词频统计截图

ReportAnalyzer类初始化参数:

参数	含义	可选项	默认
category	报告类型	年度报告、半年度报告、三季度报告、一季度报告、招股说明书	年度报告
report_path	报告存储路径		当前目录

count_keywords_frequency方法可配置参数：

参数	含义	可选项	默认
keywords	关键词	str、list
start_year	起始年份		2012
end_year	结束年份		2022
stock_codes	股票代码	A股、B股、all或自定义列表	A股
save_type	分析结果文件类型	csv	csv
save_name	分析结果文件名		result
max_concurrency	最大并发量(进程)		当前cpu核数
traditional	开启繁体	True、False	False

8684公交网(https://www.8684.cn)

功能：爬取全国各省份的所有公交线路信息，最后以省份为单位保存为excel文件

运行结果截图：

**观鸟记录中心

通过 js 逆向解密数据，可以访问该网站的后端接口

安装 node 环境
npm install jsdom 和 npm install crypto-js
安装 python 程序中将要使用到的库
运行 main 文件

Achernar0208/SpiderChaser

SpiderChaser

巨潮资讯网(http://www.cninfo.com.cn)

8684公交网(https://www.8684.cn)

**观鸟记录中心