/searchengineer

垂直搜索

Primary LanguageC++

searchengineer

垂直搜索

实现了一个小型完整的搜索引擎系统,包括网络爬虫,网页解析生成dom树,网页去噪自动提取网页正文,中文网页自动分类(libsvm),全文索 引等功能。这个项目中用C++对lucene大致实现了一遍,加深了对lucene内核原理的理解。这个项目中我还阅读了一些优秀的java开源项目源码,加深了 对面向对象编程的理解

这个项目研究了1年,先是网络爬虫和网页解析,研究了多线程抓取技术,优先队列实现,怎样对html文档一个标签一个标签的解析,生成dom树. 然后是网页去噪,网页自动分类。读了大量论文,研究了怎样把文档用向量的形式进行表示,用向量进行计算提取关键字,权值的计算等问题。 最后是搜索引擎的核心全文索引,了解了自定义的数据结构,数据类型,怎样以二进制的形式读写文本,怎样以utf-8编码形式存储文本,快速排序,二分查找的运用。