工作初步确定为和文档相似度有关,应用层面的主要目的是文本去重。现在我们的金融语料中有很多内容相同描述不一样的文档,希望能找出来。初步的计划是先利用聚类算法初筛,再输入LSH(局部敏感哈希)。并且可以借助于word mover's distance、ESIM短文本匹配等方法。
https://zhuanlan.zhihu.com/p/88938220
- 向量空间模型(VSM)w2v, TF-IDF
- gensim doc2vec
- 主题模型 k-means, LDA, DBSCAN
- simhash
- Deeplearning Methods
- jieba
- gensim
https://www.jianshu.com/p/edf666d3995f
- jieba分词、stop-word
- 词袋模型向量化文本
- TF-IDF模型向量化文本(更好地反应文本内容)
- LSI模型向量化文本(将文本向量降维到主题数量)
- 计算相似度
https://zhuanlan.zhihu.com/p/74899813
使用tf-idf或word2vec作为文本的特征,采用k-means或者DBSCAN进行聚类分析
https://towardsdatascience.com/a-friendly-introduction-to-text-clustering-fa996bcefd04
https://www.cnblogs.com/fengfenggirl/p/lsh.html
https://towardsdatascience.com/understanding-locality-sensitive-hashing-49f6d1f6134