/QuestionAnsweringSystem-V2.0

简单问答系统优化版本

Primary LanguageJupyter Notebook

数据集

  1. dev-v2.0.json: 这个数据包含了问题和答案的pair, 但是以JSON格式存在,需要编写parser来提取出里面的问题和答案。 (用于PART2)
  2. glove.6B: 这个文件需要从网上下载,下载地址为:https://nlp.stanford.edu/projects/glove/, 请使用d=100的词向量 (用于PART3)

环境:

Python 3 (必须要使用Python 3)

简单的问答系统编写

  • 文本的读取: 从JSON文件里读数据,并把文本写到问题变量和答案变量中(list)
  • 文本的预处理: 需要对原始文本做预处理操作,包括一些词的过滤
  • 文本的表示: 把文本转换成tf-idf格式/词向量,句子向量
  • 文本相似度计算: 利用余弦相似度来计算文本之间的相似度
  • 倒排列表:通过倒排列表来加快文档的检索