《自然语言处理综论》第三版翻译。原文:Speech and Language Processing。
若无特别说明,文中括号或者引用块中的 斜体字 为对应的英文原文或者我自己注释的话(会标明 译者注),引用块开头若标明「译者注」,则整个引用块都是我自己注释的话。否则为原文中本来就有的话。
本翻译系列目前可以在以下平台在线阅读:
- 【推荐】知乎。链接:自然语言处理综论第三版中文翻译系列导读 - 知乎。注意不是实时发布,会在翻译完整节之后同步到知乎。对脚注和数学公式等格式支持较好。
- GitBook。链接:Introduction - slp3-zh。与 GitHub 保持实时更新。不支持渲染脚注,但不会被吃掉。由于行内公式使用的是
$$
,所以行内公式无法正常显示。 - GitHub。链接:secsilm/slp3-zh: 《自然语言处理综论》第三版翻译。。内容最新。
不支持脚注,但不会被吃掉。数学公式完全不支持。
- 第二章 正则表达式,文本规范化,编辑距离
- 第八章 用于词性和命名实体的序列标注
- Intro
- 8.1 英语词类
- 8.2 词性标注
- 8.3 命名实体和命名实体标注
- 8.4 HMM 词性标注
- 8.4.1 马克可夫链
- 8.4.2 隐马尔可夫模型
- 8.4.3 HMM 标注器组件
- 8.4.4 HMM 标注的解码部分
- 8.4.5 维特比算法
- 8.4.6 例子
- 8.5 条件随机场 CRF
- 8.5.1 CRF 词性标注器中的特征
- 8.5.2 用于命名实体识别的 CRF 特征
- 8.5.3 CRF 的推理和训练
- 8.6 命名实体识别的评估方法
- 8.7 更多细节
- 8.7.1 双向性
- 8.7.2 基于规则的方法
- 8.7.3 形态丰富语言的词性标注
- 8.8 总结
- 第十二章 成分文法
- Intro
- 12.1 句法
- 12.2 上下文无关文法(进行中)
接下来计划要翻译的章节:
- Chapter 8: Sequence Labeling for Parts of Speech and Named Entities(27 页,2.5.1 中提到)
- Chapter 5: Logistic Regression(21 页,8.5 中提到)
- 【进行中】Chapter 12: Constituency Grammars(30 页)
- Chapter 13: Constituency Parsing(22 页,2.5.1 中提到)