/NLPer-ner

收录NLP竞赛策略实现、各任务baseline、相关竞赛经验贴(当前赛事、往期赛事、训练赛)、NLP会议时间、常用自媒体、GPU推荐等,持续更新中

Primary LanguagePythonMIT LicenseMIT

NLPer-Arsenal

NLP人军火库,主要收录NLP竞赛策略实现、各任务教程、经验贴、学习资料以及会议时间等,如果对你有帮助,请给我们一个star。

本项目主要包含以下内容:

  • NLPer-Arsenal-Code (2021.12)
    • 插件式验证NLP竞赛策略,并提供解耦实现,方便迁移到自己的模型中,here
    • NLP各任务教程(文本分类/文本生成),通过注释详细的baseline快速了解各个任务,here
  • NLPer-Arsenal-Post(2021.03)
    • 往期竞赛总结,收录已经结束的竞赛,包括数据集、开源代码、选手方案,here
    • 当前重点赛事与训练赛,记录当下正在进行的NLP赛事,here
  • 其它
    • 自媒体推荐,提供一些NLPer常用的公众号/网站等,简单了解一些前沿动态,here
    • 算力推荐,推荐一些算力资源,免费/收费的都有,here
    • 竞赛平台,推荐一些主要的竞赛平台,here
    • 会议时间,跟踪记录NLP会议收稿/开会时间,here

项目正在不断完善,如果您有什么建议,欢迎到issue 留言,或通过问卷 ,邮箱(receive@nlper-arsenal.cn)联系我们,同时我们也欢迎大家加入我们的项目。

所有内容均由我们从网络公开资料中收集整理得到,版权归原作者所有,如有侵权请立即与我们联系,我们将及时处理。

整理不易,转载时请务必备注本项目github链接,感谢您为维护良好的开源环境出一份力。

重要事件

目录

当前赛事

重点赛

记录当前正在进行的竞赛,奖金丰厚,适合有一定基础的NLPer;结束时间为官网标准时间或会议召开时间。

领域/会议 竞赛 报名时间 结束时间
**健康信息处理大会(CHIP2022) 1. 面向“基因-疾病”的关联语义挖掘任务
2. 医疗因果实体关系抽取任务
3. 从医疗文本中抽取诊疗决策树
4. 医疗纸质文档电子档(ePaper)OCR识别
5. 临床诊断编码任务
2022.6-10(具体时间参考对应评测任务) 2022.10.23
2022全国大数据与计算智能挑战赛 1. 高鲁棒性要求下的领域事件检测任务
2. 新闻文本数据的语义检索与智能问答
2022.6.2-7.17
2022.6.9-7.4
2022.8.12
阅读理解 AI智能问答应用 2022.5.30-8.10 2022.8
问答 遗址文化领域知识抽取与问答挑战赛 2022.6.9-7.8 2022.10.24
CCAC2022 AI-Debater 1. 论点抽取及立场分类
2. 论据发现
3. 互动论点对识别
4. 论点生成
2022.6.7-7.30 2022.8.20
CCL2022 任务1:第二届中文抽象语义表示解析评测(CAMRP 2022)
任务2:第二届中文空间语义理解评测(SpaCE 2022)
任务3:汉语学习者文本纠错评测(CLTC 2022)
任务4:中文高效自然语言理解模型评测(CELUE)
任务5:跨语言知识迁移——汉语到少数民族语言(CMXT 2022)
任务6:以事件为中心的观点挖掘(ECOM 2022)
任务7:新闻脉络关系检测
任务8:“达观杯”汽车工业故障模式关系抽取评测
任务9:高考语文阅读理解可解释评测
任务10:第五届“讯飞杯”中文机器阅读理解评测(CMRC 2022)
任务11:航旅纵横杯-面向领域问答的知识抽取评测
任务12:第四届“小牛杯”幽默计算——聊天机器人幽默感挑战赛
任务13:基于前提的跨模态推理评测(PMR 2022)
任务14:视频看点抽取
2022.6.1-9.25(各任务的具体截止时间请参考对应的链接) 2022.9.31
文本分类 Feedback Prize - Predicting Effective Arguments
非标准化疾病诉求的简单分诊挑战赛2.0
机器翻译质量评估挑战赛
基于论文摘要的文本分类与查询性问答
疫情微博情绪识别挑战赛
2022.5.24-8.16
2022.6.9-7.9
2022.6.24-7.24
2022.7.1-8.1
2022.6.24-7.23
2022.8.23
2022.10.24
2022.10.24
2022.10.24
2022.10.24
其它 Google AI4Code – Understand Code in Python Notebooks
面向黑灰产治理的恶意短信变体字还原
2022.5.11-8.4
2022.6.6-7.17
2022.8.11
2022.7.17
语义匹配 U.S. Patent Phrase to Phrase Matching 2022.3.21~6.13 2022.6.20
小样本 中文保险小样本多任务竞赛 2022.4.18~5.16 2022.7.31
CCKS2022 官网:http://sigkg.cn/ccks2022/?page_id=22
一、信息抽取
1. 千言通用信息抽取竞赛评测
2. 多语言命名实体识别
3. 基于知识图谱的优质文章识别
二、知识图谱构建与问答
4. 带条件的分层级多答案问答
5. 开放知识图谱问答
6. 跨语言知识图谱问答评测任务
7. 教科书示意图问答
8. 化学元素知识图谱构建及应用
三、商务金融知识图谱
9. 面向金融领域的Zero-Shot事件抽取
10. 面向数字商务的知识图谱评测(123
11. 面向金融领域的因果事件要素抽取及事件相似度计算
12. 金融NL2SQL评测任务
四、军事知识图谱
13. 开源多模态军事装备数据的事件要素抽取
14. 外军无人系统知识图谱构建评测任务
五、知识存储
15. 基于图数据库的自定义图分析算法评测
2022.7.25之前 2022.8.25~8.28
语言与智能技术竞赛 段落检索
知识对话
情感可解释评测
视频语义理解
2022.3.30~5.30 2022.8
NLPCC2022 官网:http://tcci.ccf.org.cn/conference/2022/cfpt.php
任务1:基于知识模型的智能问答
任务2:语音实体链接
任务3:多模态产品摘要
任务4:基于视频的对话生成
任务5:科技文献分类与信息抽取
任务6:对话文本分析
任务7:对话偏见测量
2022.3.15~5.5 2022.9.22~9.23
机器翻译 2022 NAACL同传Workshop:千言 - 机器同传
CCMT2022机器翻译评测
低资源多语种文本翻译挑战赛
领域迁移机器翻译挑战赛2.0
2022.3.7-5.1
2022.3.15-4.30
2022.6.17-7.17
2022.6.9-7.9
2022.7.15
2022.8
2022.10.24
2022.10.24
中文医疗信息处理挑战榜CBLUE 目前任务包括医学文本信息抽取(实体识别、关系抽取)、医学术语归一化、医学文本分类、医学句子关系判定和医学QA共5大类任务8个子任务,-> 官网 现在 暂无

训练赛

记录长期进行的训练赛,有排行榜,方便刚入门的NLPer练手

领域 竞赛 报名时间 结束时间
文本分类 知乎问题自动标注 (有数据)
数据分析达人赛1:用户情感可视化分析
中文新闻文本标题分类
金融用户评论分类
中文对话情感分析
新闻文本分类
文本分类对抗攻击
虚假职位招聘预测
疫情期间互联网虚假新闻检测
疫情期间网民情绪识别
O2O商铺食品安全相关评论发现
互联网新闻情感分析
汽车行业用户观点主题及情感识别
影评文本情感分析
垃圾邮件分类
短文本分类大赛-图灵联邦
情感分类大赛-图灵联邦
医疗文本分类 - FlyAI
中文垃圾短信识别 - FlyAI
英文垃圾信息分类
社交网站消息内容分类 - FlyAI
用户商场评价情感分析 - FlyAI
Stanford-Sentiment-Treebank 情感分析 - FlyAI
COLA 英文句子可理解性分类 - FlyAI
今日头条新闻分类 - FlyAI
美国点评网站Yelp评价预测赛 - FlyAI
千言数据集:情感分析 - 百度AI Studio
Kaggle-Contradictory, My Dear Watson
Kaggle-Natural Language Processing with Disaster Tweets
CLEF 2019 Lab ProtestNews (Document、Sentence、Token)
已结束
现在
2021.8.25-
现在
现在
现在
现在
现在
现在
现在
现在
现在
现在
现在
现在
每月1号
每月1号
现在
现在
现在
现在
现在
现在
现在
现在
现在
现在
现在
现在
2021.8.9-
已结束
2022.4.30
2023.1
暂无
暂无
暂无
2021.12.31
暂无
暂无
暂无
暂无
暂无
暂无
暂无
暂无
每月27号
每月27号
暂无
暂无
暂无
暂无
暂无
暂无
暂无
暂无
暂无
2023.1
暂无
暂无
暂无
文本匹配 Quora-检测两个问题是否重复 - FlyAI
千言数据集:文本相似度
千言数据集:问题匹配鲁棒性
英文文本语义相似度
IMDB评论剧透检测
现在
现在
2022.1-
现在
现在
暂无
2023.1
2023.1
暂无
暂无
推荐系统 零基础入门推荐系统 - 新闻推荐
天池新人挑战赛之阿里移动推荐算法
电商用户购买行为预测
图书推荐系统
现在
现在
现在
2021.9.27-
暂无
暂无
暂无
暂无
问答 疫情政务问答助手
医疗智能问答 - FlyAI
2021心理对话问答挑战赛
CommonsenseQA Dataset
OpenBookQA Dataset
现在
现在
现在
现在
现在
暂无
暂无
暂无
2026.4.15
2026.4.15
语义解析 千言数据集:语义解析 现在 2023.1
摘要 媒体文章自动摘要
知乎文本摘要
新闻摘要自动生成
问答摘要与推理 (end: 2023.1)
现在 暂无
语音 生活场景汉语语音识别 现在 暂无
信息抽取 CCF BDCI 文本实体识别及关系抽取
千言数据集:信息抽取
英文文本实体关系抽取
法律领域篇章级多事件检测
现在
现在
现在
现在
暂无
2023.1.1
暂无
暂无
实体链指 千言数据集:实体链指 现在 2023.1.1
机器翻译 千言数据集:低资源语言翻译
机器翻译领域适应
现在
现在
2023.1.1
暂无
实体识别 中文的命名实体识别 - FlyAI 现在 暂无
关系抽取 英文文本实体关系抽取 (有数据) 已结束 已结束
立场检测 中文微博的立场检测 - FlyAI
微博立场检测
现在
现在
暂无
暂无
对话 MuTual Dataset
千言数据集:开放域对话
对话系统中的口语理解
现在
现在
现在
2026.4.15
2023.1.1
暂无
Text2SQL 耶鲁文本转SQL 现在 暂无
阅读理解 千言数据集:阅读理解
中文阅读理解练习赛 - FlyAI
RACE Dataset
RACE-C Dataset
Dream Dataset
C3 Dataset
SciQ Dataset
LogiQA Dataset
MCTest Dataset
OpenBookQA Dataset
现在
现在
现在
现在
现在
现在
现在
现在
现在
现在
2023.1.1
暂无
2026.4.15
2026.4.15
2026.4.15
2026.4.15
2026.4.15
2026.4.15
2026.4.15
2026.4.15
Graph HGB-Node Classification
HGB-Link Prediction
HGB-Knowledge-aware Recommendation
2021.6.28- 2030.6
其它 评论情感词提取 (含数据)
已结束 已结束

往期竞赛

这里记录整理好的竞赛,包含数据下载以及竞赛方案

目录 赛事
文本分类 2018法研杯-罪名预测
2018法研杯-法条推荐
2019法研杯-要素识别
2019CHIP-临床试验筛选标准短文本分类
2019“技术需求”与“技术成果”项目之间关联度计算模型
2020smp微博情绪分析评测
2020百度人工智能开源大赛-观点阅读理解任务
2020**人工智能大赛·语言与知识技术竞赛(个人赛)
2020CCKS新冠知识图谱构建与问答评测-子任务1:新冠百科知识图谱类型推断
2020CCKS新冠知识图谱构建与问答评测-子任务2:新冠概念图谱的上下位关系预测
2021SMP-ECISA中文隐式情感分析评测
2021DIGIX-基于多模型迁移预训练文章质量判别
2021试题标签预测挑战赛
2021非标准化疾病诉求的简单分诊挑战赛
2021CHIP-医学对话临床发现阴阳性判别任务
2021CCL-中文空间语义理解评测
2021CCL-“小牛杯”图文多模态幽默识别评测
实体链指 2019CCKS中文短文本实体链指
2020CCKS面向中文短文本的实体链指任务
2020CCKS基于标题的大规模商品实体检索
2020千言数据集:面向中文短文本的实体链指任务
2021SDU@AAAI-Task2-Acronym Disambiguation
实体识别 2019互联网金融新实体发现
2020CHIP-中药说明书实体识别挑战
2020CHIP-中文医学文本命名实体识别
2020CCKS面向试验鉴定的命名实体识别
2020CCKS面向中文电子病历的医疗实体及事件抽取-子任务1:医疗命名实体识别
2021智能医疗决策
2021互联网舆情企业风险事件的识别和预警
2021海通&工商-2021互联网舆情企业风险事件的识别和预警
问题生成 2020CHIP-中医文献问题生成挑战
摘要生成 2020法研杯-司法摘要
2021MEDIQA-Summarization of Consumer Health Questions
2021MEDIQA-Summarization of Multiple Answers
2021MEDIQA-Summarization of Radiology Reports
句法分析 2021CCL-跨领域句法分析评测
2021CCL-中译语通-Nihao无监督汉语分词评测
阅读理解 2018机器阅读理解技术竞赛
2019法研杯-阅读理解
2020法研杯-阅读理解
2020语言与智能技术竞赛:机器阅读理解任务
2021海华AI挑战赛·中文阅读理解(技术组)
2021语言与智能技术竞赛:机器阅读理解任务
2021NLPCC-AIDebater
文本匹配 2019大数据挑战赛
2019金融信息负面及主体判定
2019CHIP-疾病问答迁移学习比赛
2019CHIP-临床术语标准化任务
2019法研杯-相似案例匹配
2020“公益AI之星”挑战赛-新冠疫情相似句对判定大赛
2020房产行业聊天匹配问答
2020CHIP-临床术语标准化任务
2020法研杯-论辩挖掘
2021搜狐校园文本匹配算法大赛
2021小布助手对话短文本语义匹配
2021CHIP-临床术语标准化任务
对话 2019SMP中文人机对话技术评测
2020千言:多技能对话
2020语言与智能技术竞赛:面向推荐的对话任务
2021SMP对话式AI算法技术评测(小样本对话式意图识别与槽位提取、对话式指代消解与省略恢复 )
2021CCL-智能对话诊疗评测比赛
2021DSTC10
Text2SQL 2019中文NL2SQL挑战赛
2020语言与智能技术竞赛:语义解析任务
问答 2020CCKS新冠知识图谱构建与问答评测-子任务4:新冠百科知识图谱问答评测
2020法研杯-司法考试
信息抽取 2020科大讯飞事件抽取挑战赛
2020语言与智能技术竞赛:关系抽取任务
2020语言与智能技术竞赛:事件抽取任务
2020-SemEval Task 6: Definition Extraction from Free Text with the DEFT Corpus
2020CCKS面向中文电子病历的医疗实体及事件抽取-子任务2:医疗事件抽取
2020CCKS面向金融领域的小样本跨类迁移事件抽取
2020CCKS面向金融领域的篇章级事件主体与要素抽取
2020CHIP-中文医学文本实体关系抽取
2021语言与智能技术竞赛:多形态信息抽取任务
2021医疗实体与关系识别挑战赛
2021NLPCC-AutoIE 2
2021CHIP-临床发现事件抽取任务
2021SDU@AAAI-Task1-Acronym Identification
机器翻译 2020CCMT-双语、多语、语音、质量评估、语料过滤
2021NAACL同传Workshop:千言 - 机器同传
2021低资源多语种文本翻译挑战赛
2021领域迁移机器翻译挑战赛
2021CCMT-双语、多语、低资源、自动译后编辑、质量评估、语料过滤
其它 2018法研杯-刑期预测
2020NLP中文预训练模型泛化能力挑战赛
2020CCKS新冠知识图谱构建与问答评测-子任务3:新冠科研抗病毒药物图谱的链接预测
2021未来杯-探索科技未来 (论文推荐)
2021NLPCC-FewCLUE

自媒体推荐

学界、业界、理论、实践以及时事动态,NLPer都应该有所了解

平台 主要领域 自媒体
微信公众号 技术 Coggle数据科学、DataFunTalk
行业信息 机器之心、机器之能、AI报道、AI前线、AI科技评论、机器学习研究组订阅
理论 科学空间、PaperWeekly、智源社区、人工智能前沿讲习、专知、AINLP、AI TIME 论道
BiliBili 前沿论坛 智源社区、AITIME论道
网站 竞赛 Coggle数据科学
学术 Paper With CodeAMiner学术头条

算力推荐

结合个人情况使用不同GPU平台

平台 算力 价格 说明
BitaHub 1080Ti、titan xp、3090、V100 1080Ti(¥0.7/h)、titan xp(¥1/h)、3090(¥2.5/h)、V100(¥4.5/h) 中科大先研院的平台,价格实惠,但一块GPU只搭配2核CPU,通过提交任务,按运行时间收取费用
featurize 2080Ti、3090 2080Ti(¥2/h)、3090(¥3.6/h) 镜像环境,使用灵活,可以通过jupyter_lab、vscode、pycharm远程连接
智星云 1080Ti、3080、3090、V/A100等 ¥2.1/h~¥11/h 整机,可远程连接(pycharm/vs code)
沣云平台 ML270 ¥2.8/h 一站式AI计算平台,CPU可以增量配置,按运行时间收取费用
恒源云 2080Ti、3060、3090、V100等 ¥1.25/h~¥5.5/h 可以搭配完整的CPU和硬盘,相比bithub有更高的自由度,目前处于推广期,有很多优惠
并行云 V100、2080Ti、P100等 不明 计算节点来自超算,可个性化定制CPU核数、GPU、存储空间,有非常简便的操作界面,并且提供远程linux桌面,灵活度优于以上三个平台。目前处于推广期,有很多优惠
AI Studio V100 基本免费 由百度开发, 偶尔申请不到V100,最高可免费8卡。主要使用飞桨PaddlePaddle框架,其它框架需自行折腾,也可用X2Paddle一键转为飞桨的代码和模型,大部分比赛参与即送算力卡。
天池DSW p100 免费,单次限时8小时,不限次数 阿里的一个在线平台,运行时不能关闭
天池实验室 V100 免费,60h/年 相比于AI Studio不限制深度学习框架,就是时间比较短
Kaggle k80 免费,每周限时30小时 外网访问
Google Colab k80、T4、P4、P100 免费,单次限时12小时 外网访问,无法指定具体GPU,未订阅Colab Pro用户多数时间下估计会被分配k80

竞赛平台

  • 阿里天池 :阿里,奖金丰厚
  • AI Studio :百度AI Studio深度学习社区,成绩优异可获得飞桨开发者技术专家(PPDE) 认证申请绿色通道。
  • 讯飞开发平台 :科大讯飞
  • DataFountain : CCF指定专业大数据及人工智能竞赛平台,有很多训练赛
  • 图灵联邦 :NLP竞赛不多
  • biendata : 国内领先的人工智能竞赛平台,包含大量NLP学术评测
  • FlyAI-AI竞赛服务平台 :难度分为新手、简单、中等、精英、困难,有大量GPU算力可供获取,奖金不多,但适合练手
  • 和鲸社区 :一个综合的学习平台
  • ACL、EMNLP、NLPCC、CCL、CCKS、SMP等会议每年都会举办相关学术评测
  • Codalab :一个可重复计算平台,很多国外的竞赛都会在上面提交代码用于检验
  • DCLab :和天池比较像
  • AI研习社 :很多很多NLP竞赛

会议时间

**计算机学会推荐国际学术会议和期刊目录-2019
**计算机学会推荐中文科技期刊目录
dblp:计算机科学文献库
AI会议deadline :会议倒计时
会议时间记录表 :Updated by Jackie Tseng, Tsinghua Computer Vision and Intelligent Learning Lab
note:以下时间为官网默认时间,暂未换算成北京时间

会议 级别 摘要截稿 原文截稿 审稿通知 开会时间 说明
ICLR(官网dblp) * 2021.9.28 2021.10.5 2021.11.7~21 (rebuttal)
2022.1.24 (final)
2022.4.25~4.29 online
ACL(官网dblp) CCF-A 2021.11.15(roling review deadline) 2022.1.7 2022.2.20 2022.5.22~5.27 Dublin, Ireland
NeurIPS(官网dblp) CCF-A 2022.5.16 2022.5.19 2022.9.14 2022.11.28~12.9 New Orleans(first week), online(second week)
ICML(官网dblp) CCF-A 2022.1.20 2022.1.27 2022.3.2 & 2022.5.4 2022.7.17~7.23 Baltimore, Maryland USA
SIGIR(官网dblp) CCF-A 2022.2.14(shot paper)
2022.1.21(long paper)
2021.2.21(short paper)
2022.1.28(long paper)
2022.3.31(short paper)
2022.3.31(long paper)
2022.7.11~7.15 Madrid, Spain
WWW(官网dblp) CCF-A 2023.5.1-5.5 AUSTIN, TEXAS, USA
AAAI(官网dblp) CCF-A 2022.8.8 2022.8.15 2022.9.27-11.18 2023.2.7~2.14 Washington
IJCAI(官网dblp) CCF-A 2022.1.7 2022.1.14 2022.3.16~3.29(rebuttal)
2022.4.20(final)
2022.7.23~7.29 Vienna, Austria
EMNLP(官网dblp) CCF-B 2022.6.17 2022.6.24、7.24(ARR paper) 2022.8.23~8.29(rebuttal)、2022.10.6 2022.12.7~12.11 Abu Dhabi
NAACL(官网dblp) CCF-C 2022.1.15(roling review deadline) 2022.3.4 2022.4.7 2022.7.10~7.15 Seattle, Washington
COLING(官网dblp) CCF-B * 2022.5.17 2022.8.15 2022.10.12~10.17 Gyeongju, Korea
CoNLL(官网dblp) CCF-C * 2022.6.30、8.1(EMNLP ARR) 2022.9.15左右 2022.12.7~12.8 same as emnlp、online
NLPCC(官网dblp) CCF-C * 2022.5.9(extend to 5.13) 2022.7.4 2022.9.22~9.25 桂林
ICONIP(官网) CCF-C * 2022.6.15 2022.8.15 2022.11.22~11.26 New Delhi, India
ACML(官网) CCF-C * 2022.6.23(会议)
2022.5.26(期刊)
2022.8.11-8.18(rebuttal)、9.8 (final);
2022.7.7(初审)、9.8(final)
2022.12.14~12.16 Hyderabad, India (with online)
AACL(官网) * * 2022.7.15 2022.8.15~21(rebuttal)
2022.9.20 (final)
2022.11.21~11.24 台北
EACL(官网dblp) * * * * * 合并至ACL2022
CCL(官网dblp) * * 2022.6.15
2022.7.1(ARR投稿)
2022.8.1 2022.10.14~10.16 南昌
CCKS(官网dblp) * * 2022.6.3 2022.7.3 2022.8.25~8.28 秦皇岛
SMP(官网dblp) * * 2021.5.15 2021.6.20 2022.8.19-8.21 北京
CCIR(官网) * * 2022.6.30 2022.7.30 2022.9.16~9.18 重庆
CCMT(官网) * * 2022.6.12 2021.7.10 2022.8.6~8.10 西藏拉萨