/b2c_crawler

fetch page and store in db

Primary LanguagePerl

功能介绍
    1.th_crawl.pl       主程序。顺序读取列表页url,多线程抓取、解析、保存产品信息
    2.make_list_url.pl  制造列表页url。需根据不同网站编写专用函数
    3.data_picker.pm    解析网站html,获取所需数据。需根据不同网站编写对应代码(主要工作是替换正则,特殊情况具体分析:如图片验证码;ajax加载产品信息)
    4.data_saver.pm     保存数据到数据库。通用模块,无需改动
    5.utils.pm          简单工具包
    6.config.pm         主要是数据库配置

    *另有dump_process_list.pl,与主程序中的线程内代码保持一致,方便调试。


使用步骤
    1.perl make_list.url.pl
    插入网站所有列表页网址。
    2.perl th_crawl.pl 
    抓取、解析、保存产品信息

    推荐示例:
    保证守护进程,程序将轮询task_url表领取任务,插入或更新产品数据
    nohup perl th_crawl.pl &
    期望抓取或更新数据时,操作task_url表,新增或更新数据设置status=0
    perl make_list_url.pl 或 update task_url set status=0 where domain_id=6



注意事项
    1.若爬虫异常中断,需执行sql: update task_url set status=0 where status=1; 否则会有列表页不能被抓取和更新
    2.自行决定上一步操作的时机和方式
    

                                        author: dlad@wobu2.com
                                        2012年6月26日10:33:50