- 起始于: 2018年5月
- 相关国家和地区: 日本
- 通过web页面解析
访问: https://tabelog.com/kyoto/A2601/A260201/xxxx
餐馆id确认方法: 其实为001, 结束的id通过测试, 找出最后一个能获取餐馆的id - 注意:需要登录日文或英文页面,才能正常访问,中文界面没有js返回
gitlab
脚本操作见 readme.md
2018-05: 提交第一版数据
正常...
每次的结果,用wps转成xlsx文件,两份都打包上传
-
频率: 每月一次, 目前运行服务器: 东京3/4/5 预计三天
-
VERSION值为latest,表示最新版本,每次拿取数据时,将latest修改为当时的日期版本,这样下次就可以直接运行当前内容
-
结果输出路径: crawlerOutput/latest/tabelog/cityname.csv
-
根据需要的城市, 运行tabelog_v1.py,附加城市对应的id
命令行进行了封装, 也可以运行run.py中特定语句即可 -
爬虫目前在东京服务器运行, 每次启动三台服务器, 6个城市分散运行, 大约需要三天时间, 所以每月28或29号开始启动.
-
数据提交: 每次的结果, 先修改文件夹latest为当时日期版本,然后用wps转成xlsx文件,两份都打包上传
-
暂停继续功能:
每个城市运行, 将自动保存进度到独立的文件cityname_has_get.txt, 删除后重新开始运行 -
反爬说明:
网站会在服务器时间: 23:15(大约北京时间6点左右)左右检查并封锁ip, 需要在上班后查看进度并重启3台服务器切换ip. -
数据保存
数据保存至东京0的mongo数据库中,运行脚本导出数据