/fund_crawler

基金爬虫,爬取天天基金的基金信息与基金经理信息

Primary LanguagePython

fund_crawler

基金爬虫,爬取天天基金的基金信息、基金经理信息、公司列表

环境依赖

python3.8,三方库未进行版本的测试,应该默认即可。

pip install pandas
pip install sqlalchemy
pip install requests

主要URL

首先天天基金robots.txt内容如下

User-agent: * 
Disallow: /*spm=*
Disallow: /*aladin

表示不限制爬虫方式,不能爬取根目录下包含字符串'spm='的文件和根目录下'aladin'结尾的文件

  1. 公司列表:包含公司名和公司代码

  2. 基金列表:包含基金名和基金代码

  3. 基金信息1:包含基金的基本信息

  4. 基金信息2:包含基金风险指标近几年的风险指标-标准差和夏普比率

  5. 基金经理信息:http://fundf10.eastmoney.com/jjjl_'+code+'.html',同上

使用方法

进入main.py执行即可

  • 注:除了solve开头的函数依赖于之前函数的下载文件,其他函数之间相互独立无先后顺序可以分别执行

  • 数据量太大只上传部分关键数据

  • 爬取部分基金信息会提示Failed to get response to url! 大部分情况应该是网站上没有这个基金信息的网页,可以在fail.csv查看失败的基金代码,如果代码有问题欢迎反馈

Todo

经issue中用户anshe80的提示,adjusted_net_value.csv表格和/Data/fundInfo/目录都没有生成的方法,后续有时间会修复这个问题,现在可以通过手动创建文件/目录避免。模块之间比较独立, 这个问题不影响其他模块使用。