在twitter-http下执行
npm i
设置youtube-dl
到环境变量
twitter-http
实现简单记录- 调用twitter爬虫,返回json数据
- 整理json数据到layui格式
- 使用layui栅格化将页面分为上下部分
- 上部:搜索框
- 下部:列表
- 列名
- 时间
- 推人
- 推文
- 媒体资源展示按钮
- 用弹出层展示媒体资源
- 一或多张图片
- 点击图片再弹出一个单独展示的弹出层
- 一个视频(自动或手动播放)
- 一或多张图片
- Twitter
- 根据给出关键字使用高级搜索,抓取推特信息,并简单解析
-
- 爬虫
-
- 导出CSV
-
- ws协议换http协议
-
- Twitter 添加 md5(url) 作为视频名称,为视频与用户建立关系
// Json格式 { keyWord:'', //关键词 //键 userId: 'element.user_id', //Twitter Post用户id userName: 'userElement.name', //Twitter Post可读用户名 userAccount: 'userElement.screen_name', //Twitter Post用户名ID //被@时是这个名字 quotedId: 'element.quoted_status_id', //被引用推特id twitterId: 'element.conversation_id', releaseTime: 'element.created_at', text: 'element.full_text', //Twitter 正文 (纯文字) mediaType: 'mediaType', //媒体类型 'video'or'image' mediaInfo: ['url','url'...], //媒体下载地址 } //Csv格式 { keyWord:'', //关键词 //键 userId: 'element.user_id', //Twitter Post用户id userName: 'userElement.name', //Twitter Post可读用户名 userAccount: 'userElement.screen_name', //Twitter Post用户名ID //被@时是这个名字 quotedId: 'element.quoted_status_id', //被引用推特id twitterId: 'element.conversation_id', releaseTime: 'element.created_at', text: 'element.full_text', //Twitter 正文 (纯文字) mediaType: 'mediaType', //媒体类型 'video'or'image' mediaInfo: ['url','url'...], //媒体下载地址 //键 mediaMd5: md5(mediaInfo) }
-
- YouTube 格式向 Twitter 对齐
// Json格式 { keyWord:'', //关键词 //键 userId: '', //Twitter Post用户id userName: '', //Twitter Post可读用户名 mediaId: '', //媒体id createTime: '', title: '', //视频标题 mediaType: 'video', //媒体类型 'video' mediaInfo: 'url', //媒体下载地址 //键 } //Csv格式 { keyWord:'', //关键词 //键 userId: '', //Twitter Post用户id userName: '', //Twitter Post可读用户名 mediaId: '', //媒体id createTime: '', title: '', //视频标题 mediaType: 'video', //媒体类型 'video' mediaInfo: 'url', //媒体下载地址 //键 mediaMd5: md5(mediaInfo) }
- Twitter与YouTube频繁被封
- 添加TorProxy
- 修改采集顺序
- Twitter改为同步采集
- YouTube改为同步采集
- 统计每日采集量
- 添加mysql统计
- 定时任务
- 每十分钟执行一次
- 优化
- 数据采集与数据保存解耦合
- YouTube添加原始数据保存
- 抽象现有采集类
- 流水线执行
- 报警邮件
- Headless 添加日志
- 解析延时调整
- YouTube 细节调试
- Twitter 代理被封判断Bug修改
- YouTube持续优化
- 目前采集速度
- YouTube 20分钟750 并行数5 每个任务用时3-5分钟不等
- Twitter 3分钟50条 流水线工作模式 每个任务用时1分钟
10-25日记录丢失,按照记忆简单还原,以下记录不分先后
- 下载流程更高级的抽象
- Url格式化Bug修复
- 重复媒体跳过下载处理
- Csv与Db字段整理
- 更高级的Model抽象
- 区分环境
- 配置文件更新