chatopera/Synonyms

线上分享: Synonyms 中文近义词工具包

hailiang-wang opened this issue · 0 comments

description

目前很缺乏质量好的中文近义词库,于是便考虑使用word2vec训练一个高质量的同义词库将"非标准表述" 映射到 "标准表述",这就是Synonyms的起源。
在经典的信息检索系统中,相似度的计算是基于匹配的,而且是Query经过分词后与文档库的严格的匹配,这种就缺少了利用词汇之间的“关系”。
而word2vec使用大量数据,利用上下文信息进行训练,将词汇映射到低维空间,产生了这种“关系”,这种“关系”是基于距离的。有了这种“关系”,就可以进一步利用词汇之间的距离进行检索。所以,在算法层面上,检索更是基于了“距离”而非“匹配”,基于“语义”而非“形式”。

项目地址:
https://github.com/huyingxi/Synonyms

主要内容:

  • 应用场景
  • 现有的近义词包
  • N-gram模型介绍
  • word2vec原理
  • 使用的开放数据集
  • 训练过程
  • 计算句子相似度公式
  • 待改进的地方

分享渠道:

Gitchat - 在线分享

时间:

2018年2月7日

报名:

微信扫一扫
image