线上分享: Synonyms 中文近义词工具包
hailiang-wang opened this issue · 0 comments
hailiang-wang commented
description
目前很缺乏质量好的中文近义词库,于是便考虑使用word2vec训练一个高质量的同义词库将"非标准表述" 映射到 "标准表述",这就是Synonyms的起源。
在经典的信息检索系统中,相似度的计算是基于匹配的,而且是Query经过分词后与文档库的严格的匹配,这种就缺少了利用词汇之间的“关系”。
而word2vec使用大量数据,利用上下文信息进行训练,将词汇映射到低维空间,产生了这种“关系”,这种“关系”是基于距离的。有了这种“关系”,就可以进一步利用词汇之间的距离进行检索。所以,在算法层面上,检索更是基于了“距离”而非“匹配”,基于“语义”而非“形式”。
项目地址:
https://github.com/huyingxi/Synonyms
主要内容:
- 应用场景
- 现有的近义词包
- N-gram模型介绍
- word2vec原理
- 使用的开放数据集
- 训练过程
- 计算句子相似度公式
- 待改进的地方
分享渠道:
Gitchat - 在线分享
时间:
2018年2月7日