NLPer-Arsenal

NLP人军火库，主要收录NLP竞赛经验贴、通用工具、学习资料等，如果对你有帮助，请给我们一个star，这是我们更新的动力。

本项目源于2020年7月一次竞赛的经历，当时在找参考资料时遇到了很多困难，包括内容分散、质量不高等。2021年3月开始更新本项目，志在帮助NLPer提升模型性能。2021年6月开放本项目的notion页面，NLPer-Arsenal-Notion ，主要收录我们整理的trick说明与实验验证，内容实时更新，欢迎大家一起参与NLPer-Arsenal开源项目。（因进度安排，Notion暂不更新）

下图是我们的项目导航图，以竞赛流程为主干，项目章节和notion对应的内容为分支。当您查看本项目时可以按序查看竞赛流程对应的项目章节，同时您也可以在我们的notion中查看一些竞赛相关的内容。

项目正在不断完善，如果您有什么建议，欢迎到issue 留言，或通过问卷，邮箱（receive@nlper-arsenal.cn）联系我们，同时我们也欢迎大家加入我们的项目。

所有内容均由我们从网络公开资料中收集得到，版权归原作者所有，如有侵权请立即与我们联系，我们将及时处理。

整理不易，转载时请务必备注本项目github链接，感谢您为维护良好的创作环境出一份力。

愿景：携有志者共建NLP开放社区，与NLPers共成长

重要事件

2021.3：开始更新项目
2021.6：开放notion界面，NLPer-Arsenal-Notion
2021.12：NLPer-Arsenal-Code 发布

当前赛事

重点赛

记录当前正在进行的竞赛，奖金丰厚，适合有一定基础的NLPer；结束时间为官网标准时间或会议召开时间。

领域/会议	竞赛	报名时间	结束时间
DravidianLangTech @ACL2022	官网：https://dravidianlangtech.github.io/2022/ 任务1：Toxic Span Identification in Tamil subtask 1: Supervised Offensive Span Identification subtask 2: Semi-Supervised Offensive Span Identification 任务2：Emotion Analysis in Tamil 任务3：Abusive Comment Detection in Tamil 任务4：Multi-task Learning for Dravidian Languages subtask 1: Multi-task Learning for sentiment analysis and Offensive language identification in Dravidian languages subtask 2: Meta-Learning in Dravidian languages subtask 3: Zero-shot offensive language identification in Telugu 任务5：Multimodal Sentiment Analysis in Dravidian Languages	2021.11.21-	2022.5.28
LT-EDI@ACL2022	官网：https://sites.google.com/view/lt-edi-2022/home 任务一：Hope Speech Detection for Equality, Diversity and Inclusion 任务二：Homophobia/Transphobia Detection in social media 任务三：Speech Recognition for Vulnerable Individuals in Tamil 任务四：Detecting Signs of Depression from Social Media Text	2021.11.21-	2022.5.26
NLGIW 2021	官网：http://nlgiw.cipsc.org.cn 任务一：面向事实一致性的生成评测任务二：基于大纲的条件故事生成任务三：面向图像描述生成自动评测方法任务四：中文句法错误检测技术评测	2021.8.3-10.31 2021.10.10-10.20 2021.10.10-10.20 2021.10.20-11.1	会议延期至2022.4
SDU@AAAI22	官网：https://sites.google.com/view/sdu-aaai22/home?authuser=0 Shared Task 1: Acronym Extraction Shared Task 2: Acronym Disambiguation	2021.9.10-11.10	2022.3.1
De-Factify@AAAI22	Multi-Modal Fact Verification Task on analysis of memes (to be confirmed)	2021.9.21-11.8	2022.3
CCF BDCI 2021	产品评论观点提取千言-问题匹配鲁棒性评测剧本角色情感识别客服通话文本摘要提取	2021.9.16-11.20 2021.9.16-11.20 2021.9.16-11.20 2021.9.27-11.20	2021.12 2021.12 2021.12 2021.12
CAIL2021	评测主页 1. 阅读理解 2. 类案检索 3. 司法考试 4. 司法摘要 5. 论辩理解 6. 案情标签预测 7. 信息抽取	2021.8.1-10.13 2021.8.1-10.10 2021.8.1-9.30 2021.8.1-8.31 2021.8.1-8.31 2021.8.1-8.31 2021.8.1-8.31	2021.12
SemEval2022	主页 1. CODWOE - Comparing Dictionaries and Word Embeddings 2. Multilingual Idiomaticity Detection and Sentence Embedding 3. Presupposed Taxonomies: Evaluating Neural Network Semantics (PreTENS) 4. Patronizing and Condescending Language Detection 5. Multimedia Automatic Misogyny Identification (MAMI) 6. iSarcasmEval: Intended Sarcasm Detection In English and Arabic 7. Identifying Plausible Clarifications of Implicit and Underspecified Phrases in Instructional Texts 8. Multilingual News Article Similarity 9. R2VQ - Competence-based Multimodal Question Answering 10. Structured Sentiment competition 11. MultiCoNER Multilingual Complex Named Entity Recognition 12. Linking mathematical symbols to their descriptions	2021.8	2022.1
NTCIR-16	官网：http://research.nii.ac.jp/ntcir/ntcir-16/tasks.html 核心任务： 1. Data Search 2 （IR 、QA 、UI ） 2. Dialogue Evaluation 2 3. Investor’s and Manager’s Fine-grained Claim Detection 4. Lifelog Access and Retrieval 5. Question Answering Lab for Political Information 6. We Want Web 4 with CENTRE 探索任务： 1. Reading Comprehension for Information Retrieval 2. Real document-based Medical Natural Language Processing 3. Session Search 4. Unbiased Learning to Ranking Evaluation Task	-	2022.2
中文医疗信息处理挑战榜CBLUE	目前任务包括医学文本信息抽取（实体识别、关系抽取）、医学术语归一化、医学文本分类、医学句子关系判定和医学QA共5大类任务8个子任务，-> 官网	现在	暂无
DataCLUE	官网：https://www.cluebenchmarks.com/dataclue.html Github：https://github.com/CLUEbenchmark/DataCLUE 以数据为中心的AI评测	2021.10.14-12.07	2022.1.6
文本生成	POI名称生成	2021.9.16-11.20	2021.12中旬
机器翻译	CCMT2021机器翻译评测（在线评测持续到12月份）	2021.4.15-	2021.12.15
其它	2021“创青春·交子杯”新网银行金融科技挑战赛（语言合成） 2021MAXP 任务一：基于DGL的图机器学习任务	2021.10.29-12.25 2021.9.15~12.20	2022.1.15 2021.12.30

训练赛

记录长期进行的训练赛，有排行榜，方便刚入门的NLPer练手

领域	竞赛	报名时间	结束时间
文本分类	数据分析达人赛1：用户情感可视化分析中文新闻文本标题分类金融用户评论分类中文对话情感分析科大讯飞-中文问题相似度挑战赛科大讯飞-学术论文分类挑战赛新闻文本分类文本分类对抗攻击虚假职位招聘预测疫情期间互联网虚假新闻检测疫情期间网民情绪识别 O2O商铺食品安全相关评论发现互联网新闻情感分析汽车行业用户观点主题及情感识别影评文本情感分析垃圾邮件分类短文本分类大赛-图灵联邦情感分类大赛-图灵联邦医疗文本分类 - FlyAI 中文垃圾短信识别 - FlyAI 英文垃圾信息分类社交网站消息内容分类 - FlyAI 用户商场评价情感分析 - FlyAI Stanford-Sentiment-Treebank 情感分析 - FlyAI COLA 英文句子可理解性分类 - FlyAI 今日头条新闻分类 - FlyAI 美国点评网站Yelp评价预测赛 - FlyAI 千言数据集：情感分析 - 百度AI Studio Kaggle-Contradictory, My Dear Watson Kaggle-Natural Language Processing with Disaster Tweets CLEF 2019 Lab ProtestNews (Document、Sentence、Token)	现在 2021.8.25- 现在现在 2021.7.26-10.24 2021.7.12- 现在现在现在现在现在现在现在现在现在现在每月1号每月1号现在现在现在现在现在现在现在现在现在现在现在现在 2021.8.9-	2022.4.30 2023.1 暂无暂无暂无 2021.10.24 暂无 2021.12.31 暂无暂无暂无暂无暂无暂无暂无暂无每月27号每月27号暂无暂无暂无暂无暂无暂无暂无暂无暂无 2023.1 暂无暂无暂无
文本匹配	Quora-检测两个问题是否重复 - FlyAI 千言数据集：文本相似度英文文本语义相似度 IMDB评论剧透检测	现在现在现在现在	暂无 2023.1 暂无暂无
推荐系统	零基础入门推荐系统 - 新闻推荐天池新人挑战赛之阿里移动推荐算法电商用户购买行为预测基于用户画像的商品推荐挑战赛 (大奖赛) 图书推荐系统	现在现在现在 2021.6.21-8.20 2021.9.27-	暂无暂无暂无 2021.10.24 暂无
问答	疫情政务问答助手医疗智能问答 - FlyAI 2021心理对话问答挑战赛 CommonsenseQA Dataset OpenBookQA Dataset	现在现在现在现在现在	暂无暂无暂无 2026.4.15 2026.4.15
语义解析	千言数据集：语义解析	现在	2023.1
摘要	媒体文章自动摘要知乎文本摘要新闻摘要自动生成问答摘要与推理（end: 2023.1）	现在	暂无
语音	生活场景汉语语音识别	现在	暂无
信息抽取	CCF BDCI 文本实体识别及关系抽取千言数据集：信息抽取英文文本实体关系抽取法律领域篇章级多事件检测	现在现在现在现在	暂无 2023.1.1 暂无暂无
实体链指	千言数据集：实体链指	现在	2023.1.1
机器翻译	千言数据集：低资源语言翻译机器翻译领域适应	现在现在	2023.1.1 暂无
实体识别	中文的命名实体识别 - FlyAI	现在	暂无
立场检测	中文微博的立场检测 - FlyAI 微博立场检测	现在现在	暂无暂无
对话	MuTual Dataset 千言数据集：开放域对话对话系统中的口语理解	现在现在现在	2026.4.15 2023.1.1 暂无
Text2SQL	耶鲁文本转SQL	现在	暂无
阅读理解	千言数据集：阅读理解中文成语填空挑战赛中文阅读理解练习赛 - FlyAI RACE Dataset RACE-C Dataset Dream Dataset C3 Dataset SciQ Dataset LogiQA Dataset MCTest Dataset	现在 2021.8.16-10.24 现在现在现在现在现在现在现在现在	2023.1.1 暂无暂无 2026.4.15 2026.4.15 2026.4.15 2026.4.15 2026.4.15 2026.4.15 2026.4.15
Graph	HGB-Node Classification HGB-Link Prediction HGB-Knowledge-aware Recommendation	2021.6.28-	2030.6
其它	MultiLexNorm Multilingual Lexical Normalization	2021.8.21-	2021.12.2

往期竞赛

这里记录整理好的竞赛，包含数据下载以及竞赛方案

目录	赛事
文本分类	2018法研杯-罪名预测 2018法研杯-法条推荐 2019法研杯-要素识别 2019CHIP-临床试验筛选标准短文本分类 2019“技术需求”与“技术成果”项目之间关联度计算模型 2020smp微博情绪分析评测 2020百度人工智能开源大赛-观点阅读理解任务 2020**人工智能大赛·语言与知识技术竞赛（个人赛） 2020CCKS新冠知识图谱构建与问答评测-子任务1：新冠百科知识图谱类型推断 2020CCKS新冠知识图谱构建与问答评测-子任务2：新冠概念图谱的上下位关系预测 2021SMP-ECISA中文隐式情感分析评测 2021DIGIX-基于多模型迁移预训练文章质量判别 2021试题标签预测挑战赛 2021非标准化疾病诉求的简单分诊挑战赛 2021CHIP-医学对话临床发现阴阳性判别任务
实体链指	2019CCKS中文短文本实体链指 2020CCKS面向中文短文本的实体链指任务 2020CCKS基于标题的大规模商品实体检索 2020千言数据集：面向中文短文本的实体链指任务 2021SDU@AAAI-Task2-Acronym Disambiguation
实体识别	2019互联网金融新实体发现 2020CHIP-中药说明书实体识别挑战 2020CHIP-中文医学文本命名实体识别 2020CCKS面向试验鉴定的命名实体识别 2020CCKS面向中文电子病历的医疗实体及事件抽取-子任务1：医疗命名实体识别 2021智能医疗决策 2021互联网舆情企业风险事件的识别和预警 2021海通&工商-2021互联网舆情企业风险事件的识别和预警
问题生成	2020CHIP-中医文献问题生成挑战
摘要生成	2020法研杯-司法摘要 2021MEDIQA-Summarization of Consumer Health Questions 2021MEDIQA-Summarization of Multiple Answers 2021MEDIQA-Summarization of Radiology Reports
阅读理解	2018机器阅读理解技术竞赛 2019法研杯-阅读理解 2020法研杯-阅读理解 2020语言与智能技术竞赛：机器阅读理解任务 2021海华AI挑战赛·中文阅读理解（技术组） 2021语言与智能技术竞赛：机器阅读理解任务 2021NLPCC-AIDebater
文本匹配	2019大数据挑战赛 2019金融信息负面及主体判定 2019CHIP-疾病问答迁移学习比赛 2019CHIP-临床术语标准化任务 2019法研杯-相似案例匹配 2020“公益AI之星”挑战赛-新冠疫情相似句对判定大赛 2020房产行业聊天匹配问答 2020CHIP-临床术语标准化任务 2020法研杯-论辩挖掘 2021搜狐校园文本匹配算法大赛 2021小布助手对话短文本语义匹配 2021CHIP-临床术语标准化任务
对话	2019SMP中文人机对话技术评测 2020千言：多技能对话 2020语言与智能技术竞赛：面向推荐的对话任务 2021SMP对话式AI算法技术评测（小样本对话式意图识别与槽位提取、对话式指代消解与省略恢复）
Text2SQL	2019中文NL2SQL挑战赛 2020语言与智能技术竞赛：语义解析任务
问答	2020CCKS新冠知识图谱构建与问答评测-子任务4：新冠百科知识图谱问答评测 2020法研杯-司法考试
信息抽取	2020科大讯飞事件抽取挑战赛 2020语言与智能技术竞赛：关系抽取任务 2020语言与智能技术竞赛：事件抽取任务 2020-SemEval Task 6: Definition Extraction from Free Text with the DEFT Corpus 2020CCKS面向中文电子病历的医疗实体及事件抽取-子任务2：医疗事件抽取 2020CCKS面向金融领域的小样本跨类迁移事件抽取 2020CCKS面向金融领域的篇章级事件主体与要素抽取 2020CHIP-中文医学文本实体关系抽取 2021语言与智能技术竞赛：多形态信息抽取任务 2021医疗实体与关系识别挑战赛 2021NLPCC-AutoIE 2 2021CHIP-临床发现事件抽取任务 2021SDU@AAAI-Task1-Acronym Identification
机器翻译	2020CCMT-双语、多语、语音、质量评估、语料过滤 2021NAACL同传Workshop：千言 - 机器同传 2021低资源多语种文本翻译挑战赛 2021领域迁移机器翻译挑战赛
其它	2018法研杯-刑期预测 2020NLP中文预训练模型泛化能力挑战赛 2020CCKS新冠知识图谱构建与问答评测-子任务3：新冠科研抗病毒药物图谱的链接预测 2021未来杯-探索科技未来 (论文推荐) 2021NLPCC-FewCLUE

自媒体推荐

学界、业界、理论、实践以及时事动态，NLPer都应该有所了解

平台	主要领域	自媒体
微信公众号	技术	Coggle数据科学、DataFunTalk
	行业信息	机器之心、机器之能、AI报道、AI前线、AI科技评论、机器学习研究组订阅
	理论	科学空间、PaperWeekly、智源社区、人工智能前沿讲习、专知、AINLP、AI TIME 论道
BiliBili	前沿论坛	智源社区、AITIME论道
网站	竞赛	Coggle数据科学
	学术	Paper With Code 、AMiner学术头条

算力推荐

结合个人情况使用不同的GPU平台

平台	算力	价格	说明
BitaHub	1080Ti、Titan xp、V100	1080Ti(￥0.7/h)、Titan xp(￥1/h)、V100(￥9/h)	中科大先研院的平台，价格实惠，但一块GPU只搭配2核CPU，通过提交任务，按运行时间收取费用
沣云平台	ML270	￥2.8/h	一站式AI计算平台，CPU可以增量配置，按运行时间收取费用
恒源云	2080Ti、rtx5000、3090	￥3/h~￥4.5/h	可以搭配完整的CPU和硬盘，相比bithub有更高的自由度，目前处于推广期，有很多优惠
并行云	V100、2080Ti、P100等	不明	计算节点来自超算，可个性化定制CPU核数、GPU、存储空间，有非常简便的操作界面，并且提供远程linux桌面，灵活度优于以上三个平台。目前处于推广期，有很多优惠
1024LAB	1080Ti、P102-100、2080Ti、2080、T4、2070、P100、XP、3080等	￥1/h ~ ￥6/h之间不等	这个是直接租用服务器的，有独立IP，使用虚拟货币DBC支付(可以用支付宝购买)，DBC汇率波动较大，请谨慎持有
AI Studio	V100	基本免费	由百度开发, 偶尔申请不到V100，最高可免费8卡。主要使用飞桨PaddlePaddle框架，其它框架需自行折腾，也可用X2Paddle一键转为飞桨的代码和模型，大部分比赛参与即送算力卡。
天池DSW	p100	免费，单次限时8小时，不限次数	阿里的一个在线平台，运行时不能关闭
天池实验室	V100	免费，60h/年	相比于AI Studio不限制深度学习框架，就是时间比较短
Kaggle	k80	免费，每周限时30小时	外网访问
Google Colab	k80、T4、P4、P100	免费，单次限时12小时	外网访问，无法指定具体GPU，未订阅Colab Pro用户多数时间下估计会被分配k80

竞赛平台

阿里天池：阿里，奖金丰厚
AI Studio ：百度AI Studio深度学习社区，成绩优异可获得飞桨开发者技术专家(PPDE) 认证申请绿色通道。
讯飞开发平台：科大讯飞
DataFountain ： CCF指定专业大数据及人工智能竞赛平台，有很多训练赛
图灵联邦：NLP竞赛不多
biendata ：国内领先的人工智能竞赛平台，包含大量NLP学术评测
FlyAI-AI竞赛服务平台：难度分为新手、简单、中等、精英、困难，有大量GPU算力可供获取，奖金不多，但适合练手
和鲸社区：一个综合的学习平台
ACL、EMNLP、NLPCC、CCL、CCKS、SMP等会议每年都会举办相关学术评测
Codalab ：一个可重复计算平台，很多国外的竞赛都会在上面提交代码用于检验
DCLab ：和天池比较像
AI研习社：很多很多NLP竞赛

会议时间

**计算机学会推荐国际学术会议和期刊目录-2019
**计算机学会推荐中文科技期刊目录
 dblp：计算机科学文献库
AI会议deadline ：会议倒计时
会议时间记录表：Updated by Jackie Tseng, Tsinghua Computer Vision and Intelligent Learning Lab
note：以下时间为官网默认时间，暂未换算成北京时间

会议	级别	摘要截稿	原文截稿	审稿通知	开会时间	说明
ICLR(官网、dblp)	*	~~2021.9.28~~	~~2021.10.5~~	2021.11.7~21 (rebutal) 2022.1.24 (final)	2022, 4.25~4.29	online
ACL(官网、dblp)	CCF-A	~~2021.11.15(roling review deadline)~~	2022.1.7	2022.2.20	2022，5.22~5.27	Dublin, Ireland
NeurIPS(官网、dblp)	CCF-A	~~2021.5.19~~	~~2021.5.26~~	~~2021.9.28~~	2021，12.6~12.14	online
ICML(官网、dblp)	CCF-A	2022.1.20	2022.1.27	TBA	2022，7.17~7.23	Baltimore, Maryland USA
SIGIR(官网、dblp)	CCF-A	2022.2.14(shot paper) 2022.1.21(long paper)	2021.2.21(short paper) 2022.1.28(long paper)	2022.3.31(short paper) 2022.3.31(long paper)	2022.7.11~7.15	Madrid, Spain
WWW(官网、dblp)	CCF-A	~~2021.10.14~~	~~2021.10.21~~	2022.1.13	2022，4.25~4.29	Lyon，France
AAAI(官网、dblp)	CCF-A	~~2021.8.30~~	~~2021.9.8~~	2021.10.15 (phase 1) 2021.11.29 (final)	2022，2.22~3.1	Vancouver，Canada
IJCAI(官网、dblp)	CCF-A	2022.1.7	2022.1.14	2022.3.16~3.29（rebutal） 2022.4.20（final）	2022，7.23~7.29	Vienna, Austria
EMNLP(官网、dblp)	CCF-B	~~2021.5.10~~	~~2021.5.17~~	~~2021.8.25~~	~~2021，11.7~11.11~~	Punta Cana, Dominican Republic
NAACL(官网、dblp)	CCF-C	2022.1.15(roling review deadline)	2022.3.2	2022.4.7	2022, 7.10~7.15	Seattle, Washington
COLING(官网、dblp)	CCF-B	*	2022.5.17	2022.8.15	2022，10.12~10.17	Gyeongju, Korea
CoNLL(官网、dblp)	CCF-C	*	~~2021.6.14~~	~~2021.8.31~~	~~2021，11.10~11.11~~	same as emnlp
NLPCC(官网、dblp)	CCF-C	*	~~2021.6.8~~	~~2021.7.30~~	~~2021，10.13~10.17~~	青岛
ICONIP(官网)	CCF-C	*	~~2021.6.30~~	~~2021.8.31~~	2021, 12.8~12.12	BALI, Indonesia
ACML(官网)	CCF-C	*	~~2021.7.2~~	~~2021.9.10~~	~~2021, 11.17~11.19~~	online
AACL(官网)	*	*	*	*	*	announced at EMNLP 2021
EACL(官网、dblp)	*	*	*	*	*	合并至ACL2022
CCL(官网、dblp)	*	*	~~2021.4.15~~	~~2021.5.29~~	2021.12.3-5	online(open)
CCKS(官网、dblp)	*	*	~~2021.5.25~~	~~2021.7.2~~	2021，12.25~12.26	广州
SMP(官网、dblp)	*	*	~~2021.5.15~~	~~2021.6.20~~	延期至2022年上半年	北京
CCIR(官网)	*	*	~~2021.6.10~~	~~2021.7.5~~	2021, 11.26~11.28	大连
CCMT(官网)	*	*	~~2021.6.12~~	~~2021.7.10~~	~~2021，10.8~10.10~~	青海西宁
WISE(官网)	*	~~2021.6.10~~	~~2021.6.17~~	~~2021.6.30~~	~~2021, 10.26~10.29~~	Melbourne, Australia

bettenW/NLPer-Arsenal