需要导入的依赖包百度网盘下载 目前的依赖包版本: lucene-4.0 中文分词包:IKAnalyzer2012_FF 文本解析包:POI-3.15 xml解析包:xmlbeans-2.60
后面工作:
- 扩展为网页版本
- 结合爬虫
- 使用最新lucene版本包,更新功能
- 中文分词包,可选择,可采用不同的分词包 目前推荐的IKAnalyzer、hanlp
- 优化网页解析,支持更多的文本解析
需要导入的依赖包百度网盘下载 目前的依赖包版本: lucene-4.0 中文分词包:IKAnalyzer2012_FF 文本解析包:POI-3.15 xml解析包:xmlbeans-2.60
后面工作: