@talkto廖华请问有没有好用的中文词汇的语义相似度计算工具或者包？

Question

@talkto廖华请问有没有好用的中文词汇的语义相似度计算工具或者包？

Closed this issue 10 years ago · 10 comments

original question
http://m.weibo.cn/1087795407/3741717855814097?sourceType=sms&from=1044195010&wm=4260_0001

@talkto廖华请问有没有好用的中文词汇的语义相似度计算工具？答：多种分布式表示方法都可以计算语义相似度，中英文均可以处理。如近来的word2vec http://t.cn/RPOvesp 和glove。@刘知远THU 推荐ESA(Explicit semantic analysis)，在稳定性上可能更优，一些开源项目和文章如下 http://t.cn/RPOvesj
http://www.weibo.com/5220650532/BhWdIDon6

@talkto廖华请问有没有好用的中文词汇的语义相似度计算工具？答：来自@算文解字的补充答案:

基于分布的：gensim是一款开源Topic Modeling 的Python工具，包括了传统bag-of-words (1-hot) vector representation模型，常见相似度表征，及最新的word2vec。
基于资源的：中文没有免费的类似wordnet的资源，hownet是要收费的。可以看看哈工大免费的扩展板"同义词词林" . 全部答案看 http://memect.co/jhVzQnO

Answer 1 · 2014-08-12T00:01:34.000Z

word2vec可能有用，支持中文

Answer 2 · 2014-08-12T00:02:10.000Z

@杜振东_java 深夜总算完成了《glove入门实战》的码字工作，发出两张利用glove聚类的效果图，具体工作参考http://t.cn/RP0xXNx，代码在此http://t.cn/RP0xOx0，感谢@刘知远THU 老师提供关于glove的信息，并感谢@张成_ICT 的帮助,顺便@夏睿老师和@章成志老师，求下转发[哈哈]
http://www.weibo.com/1247953577/BhRfpyyJw

glove入门实战 http://blog.csdn.net/adooadoo/article/details/38505497

Answer 3 · 2014-08-12T00:02:35.000Z

@刘知远THU 斯坦福Richard Socher在EMNLP2014发表新作：GloVe: Global Vectors for Word Representation 粗看是融合LSA等算法的想法，利用global word co-occurrence信息提升word vector学习效果，很有意思，在word analogy task上准确率比word2vec提升了11%。 http://t.cn/RPohHyc
http://www.weibo.com/1464484735/BhbLD70wa

Answer 4 · 2014-08-12T00:10:43.000Z

@张成_ICT @yongsun

Answer 5 · 2014-08-12T00:12:20.000Z

http://cs.tju.edu.cn/szdw/jsfjs/fengwei/papers/ICASSP2013_Nie/icassp2013.pdf

http://www.keenage.com/ 知网
基于《知网》的词汇语义相似度计算, 刘群, 李素建

http://www.cs.york.ac.uk/semeval-2012/task4/index.php?id=contact
Peng Jin (jandp@pku.edu.cn) Leshan Normal University, Leshan, China
Yunfang Wu (wuyf@pku.edu.cn) Peking University, Beijing, China

Answer 6 · 2014-08-12T06:38:41.000Z

@talkto廖华请问有没有好用的中文词汇的语义相似度计算工具？答：多种分布式表示方法都可以计算语义相似度，中英文均可以处理。如近来的word2vec http://t.cn/RPOvesp 和glove。@刘知远THU 推荐ESA(Explicit semantic analysis)，在稳定性上可能更优，一些开源项目和文章如下 http://t.cn/RPOvesj

http://www.weibo.com/5220650532/BhWdIDon6?ref=

Answer 7 · 2014-08-12T06:43:44.000Z

昊奋
对于ESA，如果单纯使用wikipedia，由于中文维基百科的语料相比英语小很多，所以其实不满足ESA本身需要有高覆盖率的好处，需要自行采用百度百科或互动百科进行处理。我们会考虑利用zhishi.me来为大家提供ESA的服务。
http://www.weibo.com/2045933955/BhWfr2LYv?ref=atme

Answer 8 · 2014-08-12T07:54:13.000Z

@算文解字
基于分布的：Python gensim一般就够用了，包括了传统的bag-of-words (1-hot) vector representation基础上的模型，以及几种常见相似度表征，还有最新的word2vec都有。
基于资源的：中文没有免费的类似wordnet的资源，hownet是要收费的。然而也许会有帮助的一个免费资源是哈工大的扩展板"同义词词林"

Answer 9 · 2014-08-16T00:31:09.000Z

感谢各位在[中文词汇的语义相似度计算]问答上的推荐, 整理了一下，看看还有什么要增补的？
https://github.com/memect/hao/blob/master/awesome/chinese-word-similarity.md

Answer 10 · 2014-08-19T02:47:33.000Z

[资源整理 ] 中文词汇语义相似度计算方法与工具 https://github.com/memect/hao/blob/master/awesome/chinese-word-similarity.md 包括：python gensim,word2vector, GloVe, Explicit Semantic Analysis 资料卡片： http://hao.memect.com/?tag=ChineseWordSimilarity 感谢 @杜振东_java @刘知远THU @昊奋 @算文解字 @Mr_UnderWaterrrrrr @朱鉴 @西瓜大丸子汤 @董力at北航 @尘绳聋-SYSU

http://www.weibo.com/5220650532/BiYH4E1Gw?ref=home