broccolik/BIO-sequence-label

得到标注的完整流程

gaowenxin95 opened this issue · 2 comments

hi,小哥,我是刚入门知识图谱的小白,不知可否请您指导一下:

从一段文本:"盈方微电子股份有限公司(股票简称:*ST盈方,股票代码:000670)2019年年度报告显示其2017年、2018年、2019年三个会计年度经审计的净利润连续为负值。根据本所《股票上市规则(2018年11月修订)》第14.1.1条的规定以及本所上市委员会的审核意见,本所决定盈方微电子股份有限公司股票自2020年4月7日起暂停上市。"

到得到下面”字,标签“这个结果的完整的一套流程是怎样的,感觉您的代码中还是省略了一丢丢的,嘿嘿

盈 B-INT
方 B-INT
微 B-INT
电 B-INT
子 B-INT
股 B-INT
份 B-INT
有 B-INT
限 B-INT
公 B-INT
司 B-INT
( O
股 O
票 O
简 O
称 O
:O

  • O
    S O
    T O
    盈 O
    ...

@broccolik

@gaowenxin95 你好流程如下:(1)使用规则提取出要标注的实体,如盈方微电子股份有限公司,将提取出的实体保存至word_dict.txt文件中作为词典。(2)将待标注样本处理成一行,也就是一行是一个样本。(3)根据自己需要选择标注好的文件的格式,可以是“taken空格labe”在一个文件中,也可以将token和label分开来。
以上

ok,多谢