memect/hao

@talkto廖华 请问有没有好用的中文词汇的语义相似度计算工具或者包?

Closed this issue · 10 comments

original question
http://m.weibo.cn/1087795407/3741717855814097?sourceType=sms&from=1044195010&wm=4260_0001

@talkto廖华 请问有没有好用的中文词汇的语义相似度计算工具?答:多种分布式表示方法都可以计算语义相似度,中英文均可以处理。如近来的word2vec http://t.cn/RPOvesp 和glove。@刘知远THU 推荐ESA(Explicit semantic analysis),在稳定性上可能更优,一些开源项目和文章如下 http://t.cn/RPOvesj
http://www.weibo.com/5220650532/BhWdIDon6

@talkto廖华 请问有没有好用的中文词汇的语义相似度计算工具?答: 来自@算文解字 的补充答案:

  1. 基于分布的:gensim是一款开源Topic Modeling 的Python工具,包括了传统bag-of-words (1-hot) vector representation模型,常见相似度表征,及最新的word2vec。
  2. 基于资源的:中文没有免费的类似wordnet的资源,hownet是要收费的。可以看看哈工大免费的扩展板"同义词词林" . 全部答案看 http://memect.co/jhVzQnO

word2vec可能有用,支持中文

@杜振东_java 深夜总算完成了《glove入门实战》的码字工作,发出两张利用glove聚类的效果图,具体工作参考http://t.cn/RP0xXNx,代码在此http://t.cn/RP0xOx0,感谢@刘知远THU 老师提供关于glove的信息,并感谢@张成_ICT 的帮助,顺便@夏睿 老师和@章成志 老师,求下转发[哈哈]
http://www.weibo.com/1247953577/BhRfpyyJw

glove入门实战 http://blog.csdn.net/adooadoo/article/details/38505497

@刘知远THU 斯坦福Richard Socher在EMNLP2014发表新作:GloVe: Global Vectors for Word Representation 粗看是融合LSA等算法的想法,利用global word co-occurrence信息提升word vector学习效果,很有意思,在word analogy task上准确率比word2vec提升了11%。 http://t.cn/RPohHyc
http://www.weibo.com/1464484735/BhbLD70wa

@张成_ICT @yongsun

http://cs.tju.edu.cn/szdw/jsfjs/fengwei/papers/ICASSP2013_Nie/icassp2013.pdf

http://www.keenage.com/ 知网
基于《知网》的词汇语义相似度计算, 刘群, 李素建

http://www.cs.york.ac.uk/semeval-2012/task4/index.php?id=contact
Peng Jin (jandp@pku.edu.cn) Leshan Normal University, Leshan, China
Yunfang Wu (wuyf@pku.edu.cn) Peking University, Beijing, China

@talkto廖华 请问有没有好用的中文词汇的语义相似度计算工具?答:多种分布式表示方法都可以计算语义相似度,中英文均可以处理。如近来的word2vec http://t.cn/RPOvesp 和glove。@刘知远THU 推荐ESA(Explicit semantic analysis),在稳定性上可能更优,一些开源项目和文章如下 http://t.cn/RPOvesj

http://www.weibo.com/5220650532/BhWdIDon6?ref=

昊奋
对于ESA,如果单纯使用wikipedia,由于中文维基百科的语料相比英语小很多,所以其实不满足ESA本身需要有高覆盖率的好处,需要自行采用百度百科或互动百科进行处理。我们会考虑利用zhishi.me来为大家提供ESA的服务。
http://www.weibo.com/2045933955/BhWfr2LYv?ref=atme

@算文解字
基于分布的:Python gensim一般就够用了,包括了传统的bag-of-words (1-hot) vector representation基础上的模型,以及几种常见相似度表征,还有最新的word2vec都有。
基于资源的:中文没有免费的类似wordnet的资源,hownet是要收费的。然而也许会有帮助的一个免费资源是哈工大的扩展板"同义词词林"

感谢各位在[中文词汇的语义相似度计算]问答上的推荐, 整理了一下,看看还有什么要增补的?
https://github.com/memect/hao/blob/master/awesome/chinese-word-similarity.md

[资源整理 ] 中文词汇语义相似度计算方法与工具 https://github.com/memect/hao/blob/master/awesome/chinese-word-similarity.md 包括:python gensim,word2vector, GloVe, Explicit Semantic Analysis 资料卡片: http://hao.memect.com/?tag=ChineseWordSimilarity 感谢 @杜振东_java @刘知远THU @昊奋 @算文解字 @Mr_UnderWaterrrrrr @朱鉴 @西瓜大丸子汤 @董力at北航 @尘绳聋-SYSU

http://www.weibo.com/5220650532/BiYH4E1Gw?ref=home