zpeng1989/ZSpider

Python网络爬虫实战--红薯中文网、企名片、汽车之家

Python

PythonSpider

前言

此仓库为本人学习爬虫的总目录，涉及基础JS逆向和APP端模拟爬取。
默认使用者对Python及nodeJs熟悉，依赖安装无问题。
个人博客：点这里进入

目录

原创工具类

仓库地址：本仓库文件夹【ToolClass】
放置本人原创/仿制的工具类及其他资料文件

红薯中文网小说（截至2020/1/9测试）

仓库地址：本仓库文件夹【SweetPotato】
PC端：神魂丹帝
移动端：神魂丹帝
分析文章：见浙里
分析注意：调试JS时面对node环境下不存在window对象，可利用jsdom处理。打印输出的words结果存在差异，一般是同一份代码环境不同导致的，可以从对环境属性的判断进行调试。
友情提醒：单纯爬取小说而不是练习反爬处理时可以直接爬取PC端。

企名片项目数据（截至2020/1/13测试）

仓库地址：本仓库文件夹【qmingpian】
PC端：企名科技
分析文章：见浙里
使用说明：首先开启server文件夹下的接口，然后运行run_qmingpian.py。

汽车之家车型配置（截至2020/1/20测试）

仓库地址：本仓库文件夹【CarHomeConfig】
PC端：汽车之家
分析文章：见浙里
使用说明：直接运行run_the_spier文件即可，根据需求可进行扩展。

补充内容

def method_one(source, dest):
    """
    利用内置模块递归拷贝目录树
    :param source:
    :param dest:
    :return:
    """
    shutil.copytree(source, dest, ignore=shutil.ignore_patterns('*.pyc', 'tmp*'))