使用窗口去切分句子有相关的参考材料吗?

Question

Mariobai opened this issue 6 years ago · 8 comments

我想问一下你的用窗口去切分句子是自己想的还是看Paper的啊？如果是看Paper可以分享一下Paper的链接吗？

Answer 1 · 2019-01-09T02:54:58.000Z

用滑动窗口去切句子是一种比较常见的做法，但是我在比赛中用到的方法有一点点不一样，不清楚是否有在别的 Paper 中出现过。

Answer 2 · 2019-01-09T06:54:31.000Z

您好。您能说一下您的程序每个部分是干嘛的吗？对于原始数据集做处理的部分的程序有吗?具体在什么地方呢？每个部分的程序的大概说一下他的功能是干嘛的呢？

Answer 3 · 2019-01-09T07:34:44.000Z

数据处理部分的代码请参考 ./data_utils/data_utils.py
为了数据处理的方便，抽象出了几个类。

Entity 用来表示一个命名实体
Sentence 用来表示一个句子，句子包含文本，若干个 Entity，以及该 Sentence 在 Document 中的偏移量 offset
Document 用来表示一篇文章，一个 Document 包含文本，以及若干个 Entity
Documents 用来表示一个文档列表，方便你像操作列表一样得到每一个 Document

因为我们的模型是对一个句子做预测，但是你提交结果是对一篇文章提交结果。因此这里就涉及到 Entity 在 Sentence 及 Document 上的坐标转换。

譬如一个 Document 有 20 个字 [w0, w1, ..., w19]，两个 Entities，坐标分别是 (3, 5), (12, 15)。如果把这个 Document 切分成两个 Sentence 的话，有

Sentence 1 - text: [w0, w1, ..., w9], entities: [(3, 5)], offset: 0
Sentence 2 - text: [w10, w11, ..., w19], entities: [(2, 5)], offset: 10

通过记录 sentence 在 document 中的偏移量 offset，之后可以再把针对 sentence 做预测得到的 entity 还原到 document 的坐标下。

Answer 4 · 2019-01-10T08:50:30.000Z

好的。谢谢。您好。可以加一下您的QQ吗？我想复现一下您的这个项目。

Answer 5 · 2019-02-15T05:56:51.000Z

您好，请问一下最终的图谱您有没有构造出来？对于这种实体数目比较小的图谱该怎么构造？谢谢～

Answer 6 · 2019-02-15T08:23:20.000Z

您好，请问一下最终的图谱您有没有构造出来？对于这种实体数目比较小的图谱该怎么构造？谢谢～

这个比赛没有要求真的去构造知识图谱。您可以考虑一下图数据库，比如 TigerGraph, ArangoDB 或者 Neo4j

Answer 7 · 2019-09-22T05:32:41.000Z

为啥是5的长度嘞？

Answer 8 · 2019-09-23T05:55:33.000Z

长度为5只是举例子