/5minNLP

五分钟NLP 知识

五分钟了解自然语言处理

看了一些NLP 资料,做个总结和记录,希望帮助大家在10分钟以内的时间了解NLP的一个专题。

NLP专题列表

1 分词

2 词性标注

3 命名实体识别

4 关键词提取

5 句法分析

6 文本向量化

7 NLP应用 文本分类

8 NLP应用 智能客服

9 NLP应用 知识图谱

认知智能和感知智能

AI 领域目前解决的问题,使用的都是模式识别的方法。通过大量的训练数据去找到数据内里的模式,然后再应用到实际数据的识别上,比如说语音的识别,图像的识别等,对应的是感知智能

NLP 问题因为在语言理解中涉及到大量的上下文,而除了一般意义的语言上下文,更重要的是外部知识上下文。这对应的就是认知智能的范畴,即如何帮助机器人构建概念世界,并作用到 NLP 的处理过程中。

NLP 发展

第一阶段从上世纪 50 年代到 80 年代,以语言学和规则为内核,主要靠语言学家设计的语法规则来解决问题,此时的人工智能也主要做的是推理方面的研究;而 80 年代之后,随着计算机算力增强和数据逐步得到收集,统计学派逐渐占据了主流,

第二阶段,即以传统机器学习模型为核心,凭借最大熵,CRF,LDA 等原理优雅的模型,在语音识别,文本挖掘等一系列的任务中取得优秀的效果,在这个背景下各种 NLP 应用如语音识别,翻译,文章主题挖掘等被广泛落地;

第三阶段就是目前所在的深度学习阶段,其实其本质上还是统计学派,即经验归纳的**,但区别于传统的 NLP 模型,深度学习模型能够对语言单元(字词)进行向量编码,然后结合各种网络结构(尤其是 RNN 及其变种完美匹配语言的时序建模要求)进行表示学习(其实也是特征提取的过程),明显降低了各种 NLP 应用,如语音识别,翻译等的错误率,进一步提升了 NLP 应用的实用率。

NLP 未来

利用深度学习模型进行知识表示和关系表示,并融入到原模型中求解。

NLP 评价指标

正确率P:OUTPUT正确/OUTPUT_NUM

召回率R: OUTPUT正确/ALL_正确

F值(F-measure):正确率和召回率的综合值 = 2xPxR / (P+R)