NLP-Beginner

自然语言处理入门教程

参考:深度学习上手指南

任务一:基于机器学习的文本分类

实现基于logistic/softmax regression的文本分类

  1. 数据集:Classify the sentiment of sentences from the Rotten Tomatoes dataset

  2. 实现要求:NumPy

  3. 需要了解的知识点:

    1. 文本特征表示:Bag-of-Word,N-gram
    2. 分类器:logistic regression,损失函数、(随机)梯度下降、特征选择
    3. 数据集:训练集/验证集/测试集的划分
  4. 实验:

    1. 分析不同的特征、损失函数、学习率对最终分类性能的影响
    2. shuffle 、batch、mini-batch
  5. 时间:一周

任务二:基于词嵌入的文本分类

  1. 熟悉tensorflow,用tensowflow 重写任务一的分类器;

  2. 词用embedding 的方式初始化;

(1)随机embedding的初始化方式 (2)用glove 训练出来的文本初始化

  1. 实现Continuous BOW模型的文本分类;

  2. 时间:两周

任务三:基于神经网络的语言模型

  1. 数据集:poetryFromTang.txt
  2. 实现要求:用LSTM、GRU来训练字符级的语言模型
  3. 知识点:
    1. 语言模型
    2. 文本生成
  4. 时间:两周