该代码主要包含三部分内容
- 数据爬取部分
- 数据预处理部分
- 索引建立
主要代码在src中
web相关文件在web文件夹下
相关库文件在web/WEB-INF/lib下
其他配置文件,如IDEA配置文件,及其他带有个人信息的配置文件未上传
主目录结构如下
ADE_DataGetter
├── SaveData
├── src
└── web
src目录结构如下
src
├── CommonUtil
├── DataCrawler
├── IRTree
└── PreProcess
DataCrawler对应爬虫部分
IRTree为索引搜索引擎部分
PreProcess为预处理部分
如若项目无法运行,请先排除文件缺失的问题
src/DataCrawler/paramfile中应有Oauth验证相关信息
另,请在war包classes文件夹下对应DataCrawler目录下添加outputfile文件夹,避免chen