34127chi/text_similarity

基于语义的文本相似度计算

Python

文本相似度(语义):

simnet模块是对百度文本相似度计算模块simnet的梳理，主要特点是介绍基于pointwise、pairwise的排序模型，以及里面的基础组件;
sim_multiclassify模块是将文本相似度计算看作多分类，主要特点在amsoft-max损失函数;@苏剑林(Jianlin Su)
sim_resample,主要特点是在构建基于pairwise的负样本时采用semihard采样机制; @weiyujian
基于pairwise的排序模型中，正负样例之间的距离度量--metric learning、dot、cos等;
考虑多个损失函数、共现词组特征;