11 速度:每秒高达1200万中文简体字准确分词。 因为通过国际SONAR最高认证,牺牲了程序执行时间十分之三的速度效率(自行修改去掉sonar认知模式可达1600万字分词每秒,性能比应该是世界第二,世界第一赠给高斯林先生,因为我用的是java,没办法)。
https://github.com/yaoguangluo/NeroParser/blob/master/main/src/org/tinos/fhmm/imp/poscc.lyg
Analyzer analyzer = new CogsBinaryForestAnalyzerImp(); //哈希森林索引 多核多线程安全 支持并发
analyzer.init();
String ss = "如果从容易开始于是从容不迫天下等于是非常识时务必为俊杰沿海南方向逃跑他说的确实在理结婚的和尚未结婚的提高产品质量中外科学名著内科学是临床医学的基础 内科学作为临床医学的基础学科,重点论述人体各个系统各种疾病的病因、发病机制、临床表现、诊断、治疗与预防";
List<String> sets = analyzer.parserString(ss);
int j=0;
for(int i = 0; i < sets.size(); i++){
System.out.print(sets.get(i)+" | ");
j++;
if(j>25) {
j=0;
System.out.println("");
}
}
如果 | 从 | 容易 | 开始 | 于是 | 从容不迫 | 天下 | 等于 | 是非 | 常识 | 时务 | 必 | 为 | 俊杰 | 沿 | 海南 | 方向 | 逃跑 | 他 | 说的 | 确实 | 在理 | 结婚 | 的 | 和 | 尚未 | 结婚 | 的 | 提高 | 产品 | 质量 | 中外 |
科学 | 名著 | 内科学 | 是 | 临床 | 医学 | 的 | 基础 | | 内科学 | 作为 | 临床 | 医学 | 的 | 基础 | 学科 |
, | 重点 | 论述 | 人体 | 各个 | 系统 | 各种 | 疾病 | 的 | 病因 | 、 | 发病 | 机制 | 、 | 临床 | 表现 |
、 | 诊断 | 、 | 治疗 | 与 | 预防 |
### //1 实例化
//Analyzer analyzer = new CogsBinaryForestAnalyzerImp(); //哈希森林索引 多核多线程安全 支持并发
Analyzer analyzer = new BinaryForestAnalyzerImp(); //哈希森林索引 单线程
//Analyzer analyzer = new FastAnalyzerImp(); //快速线性索引 单线程
//Analyzer analyzer = new PrettyAnalyzerImp(); //线性森林索引 单线程
//Analyzer analyzer = new BaseAnalyzerImp(); //一元线性索引
//Analyzer analyzer = new ScoreAnalyzerImp(); //森林打分索引
analyzer.init();
Map<String, String> pos = analyzer.getWord();
String ss = "他说的确实在理结婚的和尚未结婚的提高产品质量中外科学名著内科学是临床医学的基础 内科学作为临床医学的基础学科,重点论述人体各个系统各种疾病的病因、发病机制、临床表现、诊断、治疗与预防";
List<String> sets = analyzer.parserString(ss);
int j=0;
for(int i = 0; i < sets.size(); i++){
System.out.print(sets.get(i)+"/"+pos.get(sets.get(i)) +" ");
j++;
if(j>8) {
j=0;
System.out.println("");
}
}
他/人称代词 说/动词 的 的确/副词 实在/副词 理/形谓词 结婚/动词 的/结构助词 和/连词 尚未/副词
结婚/动词 的/结构助词 提高/动词 产品/名词 质量/名词 中外/名词 科学/名词 名著/名词 内科学/名词
是/动词 临床/名词 医学/名词 的/结构助词 基础/名词 内科学/名词 作为/动词 临床/名词 医学/名词
的/结构助词 基础/名词 学科/名词 ,/标点 重点/名词 论述/名词 人体/名词 各个/限定词 系统/名词
各种/名词 疾病/名词 的/结构助词 病因/名词 、/标点 发病/动词 机制/名词 、/标点 临床/名词
表现/名词 、/标点 诊断/名词 、/标点 治疗/动词 与/连词 预防/动词
期望分词-->和 尚未 来 的 和尚 未 和 从 容易 开始 念经 那 和尚 未 进行 告别 不 显得 从容 易 知 和 尚未 结婚 的 施主 一样 其实 都 不 和 尚未 成佛 的 心态 有关 因为 这 和尚 未 成佛
真实结果-->和 尚未 来 的 和尚 未 和 从 容易 开始 念经 那 和尚 未 进行 告别 不 显得 从容 易 知 和 尚未 结婚 的 施主 一样 其实 都 不 和 尚未 成佛 的 心态 有关 因为 这 和尚 未 成佛
应用方法:本人用FNLP函数将文章中的词语将我分出词进行词性标注,得到的标注如果在我的词库里面没有出现,于是扩充在我的词库。特此声明。
尚无
尚无
LetWang(神州泰岳)在扩充词库量的方法上提出了很多新颖的意见。