Pinned Repositories
weibo_spider
通过获取api爬取新浪微博内容
EasyScheduler
Easy Scheduler是一个分布式工作流任务调度系统,主要解决"错综复杂的任务依赖关系,而不能直观监控任务健康状态等问题"。Easy Scheduler以DAG流式的方式将Task组装起来,并可实时监控任务的运行状态,同时支持重试、从指定节点恢复失败、暂停及Kill任务等操作。EasyScheduler由在工作流调度方面工作多年的多位小伙伴研发而成,致力于成为大数据平台的中流砥柱,使调度变得更加容易,更可以从其中文名“易调度”看出我们的初衷,如果你对目前市面上的调度不够满意,非常欢迎使用易调度,欢迎大家加入进来,提出需求,也欢迎贡献代码
fanqiang
翻墙-科学上网
jianshu_spider
使用CrawlSpider、LinkExtractors、Rule 爬取简书全站用户数据
sta_sda_generator
程序功能:用于批量生成数仓 STA,SDA 数据贴源层,数据拉链层 Spoon ETL程序
zhihuuser
抓取知乎用户信息
pdj408's Repositories
pdj408/fanqiang
翻墙-科学上网
pdj408/EasyScheduler
Easy Scheduler是一个分布式工作流任务调度系统,主要解决"错综复杂的任务依赖关系,而不能直观监控任务健康状态等问题"。Easy Scheduler以DAG流式的方式将Task组装起来,并可实时监控任务的运行状态,同时支持重试、从指定节点恢复失败、暂停及Kill任务等操作。EasyScheduler由在工作流调度方面工作多年的多位小伙伴研发而成,致力于成为大数据平台的中流砥柱,使调度变得更加容易,更可以从其中文名“易调度”看出我们的初衷,如果你对目前市面上的调度不够满意,非常欢迎使用易调度,欢迎大家加入进来,提出需求,也欢迎贡献代码
pdj408/jianshu_spider
使用CrawlSpider、LinkExtractors、Rule 爬取简书全站用户数据
pdj408/weibo_spider
通过获取api爬取新浪微博内容
pdj408/sta_sda_generator
程序功能:用于批量生成数仓 STA,SDA 数据贴源层,数据拉链层 Spoon ETL程序
pdj408/zhihuuser
抓取知乎用户信息