DUT信息检索之搜索引擎
站点:http://sousuo.gov.cn/s.htm?t=zhengcelibrary&q=&p=
整个语料库来源共爬取网页2534个,获取语料31142条
为防止对目标服务器造成拥堵,设置了每次访问随机睡眠程序3-9秒
平均语料库数据获取共需要4-5小时
站点语料库更新有更多时,耗时随之变化
程序输出为CSV格式,信息详情可在文件内查看
本项目所有爬取内容均仅用于学习用途
语料库使用MySQL搭建
所有关于MySQL的查询操作均集成于此文件
MySQL环境要求:
用户名:root
密码:12345678
数据库名称:mySearchDB
表单名称:WorkSpace
环境配置时只需要数据库存在,表单可自行建立。若表单不存在程序也会自己建立。
搜索引擎主函数,需在完成语料获取与语料库搭建后进行
程序采用tkinter实现简单的GUI界面实现。
内部建立三个类:搜索窗口类、结果表单类、结果展示类。
pandas
numpy
pymysql
requests
bs4