/sphinx-hy

sphinx修改版

Primary LanguageC++

sphinx-hy

来自coreseek的sphinx修改版,新增了部分功能

Sphinx加入词干权重

功能说明: 在输入query查询是,提取词干,加上权值,让包含词干文档靠前

排序说明: 1, 此功能只在any模式下生效 2, 每个query只有一个词干 3, query分词以后, 词频最小的词就是词干 4, 词干权限设置为1, 其他为0 5, 排序算法是: query匹配次数 + 最长匹配短语长度10 + 词干匹配权重100 6, 不破坏feild权重

使用说明: 1. 编译csft-4.1-xiaodong 源码, 安装方法和原版一样 2. 由于提取词干依赖词频,词库选择变得非常重要,csft原来的词库无法满足提取词干需求,count.py是一个简单 计算文档词频的程序,已经跑出了一个带有词频的词库 3. 词频依赖文件是unigram.txt, 此文件不能改名,路径是mmseg/etc,即和uni.lib 同路径 4. 搜索方法和原版一样