LazyLib

一、项目整体思路

推广网站的关键词收录
1. 现有关键词收录爬虫+人工
2. AI关键词扩展
3. 搜索引擎词条，尾部词条seo
网站链接爬虫
内容爬取
鉴定
归类鉴定、挖掘

二、项目任务

按关键词列表，批量使用百度进行搜索
将搜索结果的网站名称、网址保存成 excel 文件
采用 playwright 对非法网站进行判定、分类下载数据

三、项目运行流程

准备关键词到 /inut/word_list.xlsx 文件中
执行 /playwright/src/start.py

四、项目代码结构介绍

├── README.md // 帮助文档
└── playwright // playwright 框架
    ├── auto.py
    ├── demo // 调试代码
    │   ├── baidu.py
    │   ├── main.py
    │   ├── main_app.py
    │   └── search_results.xls
    ├── input // 项目输入项
    │   ├── web_list.xlsx
    │   └── word_list.xlsx
    ├── src   // 代码库
    │   └── start.py
    ├── target  // 导出数据
    │   ├── search_results_2023-03-29_11:54:14.xls
    │   ├── search_results_2023-03-29_16:39:22.xls
    │   └── search_results_2023-03-31_09:16:07.xls
    └── test_data // 测试数据
        ├── file.xlsx
        └── 副本20230318域名&DNS.pptx

执行 /playwright/src/start.py

五、知识点

命令行调试

python3 -m playwright codegen --target python -o 'auto.py' -b chromium https://www.ss-gate.org/42933.html
···

lazyb0ne/lazylib

LazyLib

一、项目整体思路

二、项目任务

三、项目运行流程

四、项目代码结构介绍

五、知识点

六、TODO LIST