Chinese-Metaphor

CCL 2018 Shared Task - 中文隐喻识别与情感分析

Task Description

任务细节: http://ir.dlut.edu.cn/news/detail/508
Update: 子任务一为二分类任务，只需辨别是否是动词隐喻即可
时间：9.30截止。每支队伍可于9月9日、9月16日、9月23日、9月30日，截止每周日晚上十点提交结果；每支队伍在每个星期最多仅可提交三次，并按照最后提交的结果计算排名。于9月10日、17日、24日、10月1日下午五点前公布在网址（http://ir.dlut.edu.cn/）。
训练数据: http://ir.dlut.edu.cn/File/Download?cid=3 《CCL 2018 中文隐喻识别与情感分析评测数据》
测试数据（无标签）: http://ir.dlut.edu.cn/File/Download?cid=3 《CCL 2018 中文隐喻识别与情感分析测试数据》
提醒：按组织方要求，该数据集仅可为本次评测任务使用，其它情况下使用需与组织方联系。

NN Baseline: 基于CGRU，最好表现(accuracy)task1约70%，task2约39%
1. 对比：Majority Baseline，task2 37%
2. 对比：基于情感词库的Naive baseline，不用机器学习，task2 51%
基于NN Bseline，尝试以下feature：
1. 优化Embedding层
  1. 用pre-trained embedding替代模型自己学习的embedding，task2最好表现约acc 50%
  2. 字词向量拼接：配合减小smooth参数，task2 macro f - 39.6%
2. Back Translation
  1. Google Translate 6种语言，实验了几种过滤方法，task2最好表现约acc 53%
3. 其他模型结构
  1. 直接使用Embedding作为分类特征
  2. LSTM+fully connected：task2 macro f - 40%
一点Error analysis：
1. 观察到overfitting严重，故尝试调整l2(↑), dropout(↑), smooth(↓)，但并未发现大的改变；同时发现同一模型表现不稳定（task2多次运行差距可达10%）
2. Bad case其中有一部分是有转折的句子（e.g. 包含“怎么可能没”“无法”“既然”等词语）
3. 发现数据中一部分标注存疑
获取Penn State中文隐喻语料库，可用于自训练word embedding
补充训练语料：用其他英文语料翻译回来，补充训练语料
调参

基于NN baseline尝试更多feature:
1. 继续优化Embedding层
  1. 使用其他pre-trained embedding: e.g. 基于Penn State隐喻语料库训练的embedding, ELMo Embedding等
2. 将情感词库加入nn:
  1. 对label做embedding：现有方法只用于有递进关系的labels（very neg, neg, neutral, pos, very pos）
3. 动词、名词的subcategory
4. Dependency relation
5. 通过观察数据，考察虚词在两个子任务中起到的作用，再决定将虚词的哪些信息加入模型。虚词：什么样的信息有帮助？
尝试其他模型结构：
1. （参考'Baseline Needs More Love: On Simple Word-Embedding-Based Models and Associated Pooling Mechanisms'一文）
2. 使用Transformer最为sentence encoder（参见'Attention Is All You Need'一文)

大连理工大学信息检索研究室