/NLPer-Arsenal

收录NLP相关竞赛经验贴(当前赛事、往期赛事、训练赛)、NLP会议时间、常用自媒体、GPU推荐等,持续更新中

Primary LanguagePythonMIT LicenseMIT

NLPer-Arsenal

NLP人军火库,主要收录NLP竞赛经验贴、通用工具、学习资料等,如果对你有帮助,请给我们一个star,这是我们更新的动力。

本项目源于2020年7月一次竞赛的经历,当时在找参考资料时遇到了很多困难,包括内容分散、质量不高等。2021年3月开始更新本项目,志在帮助NLPer提升模型性能。2021年6月开放本项目的notion页面,NLPer-Arsenal-Notion ,主要收录我们整理的trick说明与实验验证,内容实时更新,欢迎大家一起参与NLPer-Arsenal开源项目。(因进度安排,Notion暂不更新)

下图是我们的项目导航图,以竞赛流程为主干,项目章节和notion对应的内容为分支。当您查看本项目时可以按序查看竞赛流程对应的项目章节,同时您也可以在我们的notion中查看一些竞赛相关的内容。 NLPer-Arsenal-Guide

项目正在不断完善,如果您有什么建议,欢迎到issue 留言,或通过问卷 ,邮箱(receive@nlper-arsenal.cn)联系我们,同时我们也欢迎大家加入我们的项目。

所有内容均由我们从网络公开资料中收集得到,版权归原作者所有,如有侵权请立即与我们联系,我们将及时处理。

整理不易,转载时请务必备注本项目github链接,感谢您为维护良好的创作环境出一份力。

愿景:携有志者共建NLP开放社区,与NLPers共成长

重要事件

目录

当前赛事

重点赛

记录当前正在进行的竞赛,奖金丰厚,适合有一定基础的NLPer;结束时间为官网标准时间或会议召开时间。

领域/会议 竞赛 报名时间 结束时间
DravidianLangTech @ACL2022 官网:https://dravidianlangtech.github.io/2022/
任务1:Toxic Span Identification in Tamil
subtask 1: Supervised Offensive Span Identification
subtask 2: Semi-Supervised Offensive Span Identification
任务2:Emotion Analysis in Tamil
任务3:Abusive Comment Detection in Tamil
任务4:Multi-task Learning for Dravidian Languages
subtask 1: Multi-task Learning for sentiment analysis and Offensive language identification in Dravidian languages
subtask 2: Meta-Learning in Dravidian languages
subtask 3: Zero-shot offensive language identification in Telugu
任务5:Multimodal Sentiment Analysis in Dravidian Languages
2021.11.21- 2022.5.28
LT-EDI@ACL2022 官网:https://sites.google.com/view/lt-edi-2022/home
任务一:Hope Speech Detection for Equality, Diversity and Inclusion
任务二:Homophobia/Transphobia Detection in social media
任务三:Speech Recognition for Vulnerable Individuals in Tamil
任务四:Detecting Signs of Depression from Social Media Text
2021.11.21- 2022.5.26
NLGIW 2021 官网:http://nlgiw.cipsc.org.cn
任务一:面向事实一致性的生成评测
任务二:基于大纲的条件故事生成
任务三:面向图像描述生成自动评测方法
任务四:中文句法错误检测技术评测

2021.8.3-10.31
2021.10.10-10.20
2021.10.10-10.20
2021.10.20-11.1
会议延期至2022.4
SDU@AAAI22 官网:https://sites.google.com/view/sdu-aaai22/home?authuser=0
Shared Task 1: Acronym Extraction
Shared Task 2: Acronym Disambiguation
2021.9.10-11.10 2022.3.1
De-Factify@AAAI22 Multi-Modal Fact Verification
Task on analysis of memes (to be confirmed)
2021.9.21-11.8 2022.3
CCF BDCI 2021 产品评论观点提取
千言-问题匹配鲁棒性评测
剧本角色情感识别
客服通话文本摘要提取
2021.9.16-11.20
2021.9.16-11.20
2021.9.16-11.20
2021.9.27-11.20
2021.12
2021.12
2021.12
2021.12
CAIL2021 评测主页
1. 阅读理解
2. 类案检索
3. 司法考试
4. 司法摘要
5. 论辩理解
6. 案情标签预测
7. 信息抽取

2021.8.1-10.13
2021.8.1-10.10
2021.8.1-9.30
2021.8.1-8.31
2021.8.1-8.31
2021.8.1-8.31
2021.8.1-8.31
2021.12
SemEval2022 主页
1. CODWOE - Comparing Dictionaries and Word Embeddings
2. Multilingual Idiomaticity Detection and Sentence Embedding
3. Presupposed Taxonomies: Evaluating Neural Network Semantics (PreTENS)
4. Patronizing and Condescending Language Detection
5. Multimedia Automatic Misogyny Identification (MAMI)
6. iSarcasmEval: Intended Sarcasm Detection In English and Arabic
7. Identifying Plausible Clarifications of Implicit and Underspecified Phrases in Instructional Texts
8. Multilingual News Article Similarity
9. R2VQ - Competence-based Multimodal Question Answering
10. Structured Sentiment competition
11. MultiCoNER Multilingual Complex Named Entity Recognition
12. Linking mathematical symbols to their descriptions
2021.8 2022.1
NTCIR-16 官网:http://research.nii.ac.jp/ntcir/ntcir-16/tasks.html
核心任务:
1. Data Search 2IRQAUI
2. Dialogue Evaluation 2
3. Investor’s and Manager’s Fine-grained Claim Detection
4. Lifelog Access and Retrieval
5. Question Answering Lab for Political Information
6. We Want Web 4 with CENTRE
探索任务:
1. Reading Comprehension for Information Retrieval
2. Real document-based Medical Natural Language Processing
3. Session Search
4. Unbiased Learning to Ranking Evaluation Task
- 2022.2
中文医疗信息处理挑战榜CBLUE 目前任务包括医学文本信息抽取(实体识别、关系抽取)、医学术语归一化、医学文本分类、医学句子关系判定和医学QA共5大类任务8个子任务,-> 官网 现在 暂无
DataCLUE 官网:https://www.cluebenchmarks.com/dataclue.html
Github:https://github.com/CLUEbenchmark/DataCLUE
以数据为中心的AI评测
2021.10.14-12.07 2022.1.6
文本生成 POI名称生成 2021.9.16-11.20 2021.12中旬
机器翻译 CCMT2021机器翻译评测 (在线评测持续到12月份) 2021.4.15- 2021.12.15
其它 2021“创青春·交子杯”新网银行金融科技挑战赛 (语言合成)
2021MAXP 任务一:基于DGL的图机器学习任务
2021.10.29-12.25
2021.9.15~12.20
2022.1.15
2021.12.30

训练赛

记录长期进行的训练赛,有排行榜,方便刚入门的NLPer练手

领域 竞赛 报名时间 结束时间
文本分类 数据分析达人赛1:用户情感可视化分析
中文新闻文本标题分类
金融用户评论分类
中文对话情感分析
科大讯飞-中文问题相似度挑战赛
科大讯飞-学术论文分类挑战赛
新闻文本分类
文本分类对抗攻击
虚假职位招聘预测
疫情期间互联网虚假新闻检测
疫情期间网民情绪识别
O2O商铺食品安全相关评论发现
互联网新闻情感分析
汽车行业用户观点主题及情感识别
影评文本情感分析
垃圾邮件分类
短文本分类大赛-图灵联邦
情感分类大赛-图灵联邦
医疗文本分类 - FlyAI
中文垃圾短信识别 - FlyAI
英文垃圾信息分类
社交网站消息内容分类 - FlyAI
用户商场评价情感分析 - FlyAI
Stanford-Sentiment-Treebank 情感分析 - FlyAI
COLA 英文句子可理解性分类 - FlyAI
今日头条新闻分类 - FlyAI
美国点评网站Yelp评价预测赛 - FlyAI
千言数据集:情感分析 - 百度AI Studio
Kaggle-Contradictory, My Dear Watson
Kaggle-Natural Language Processing with Disaster Tweets
CLEF 2019 Lab ProtestNews (Document、Sentence、Token)
现在
2021.8.25-
现在
现在
2021.7.26-10.24
2021.7.12-
现在
现在
现在
现在
现在
现在
现在
现在
现在
现在
每月1号
每月1号
现在
现在
现在
现在
现在
现在
现在
现在
现在
现在
现在
现在
2021.8.9-
2022.4.30
2023.1
暂无
暂无
暂无
2021.10.24
暂无
2021.12.31
暂无
暂无
暂无
暂无
暂无
暂无
暂无
暂无
每月27号
每月27号
暂无
暂无
暂无
暂无
暂无
暂无
暂无
暂无
暂无
2023.1
暂无
暂无
暂无
文本匹配 Quora-检测两个问题是否重复 - FlyAI
千言数据集:文本相似度
英文文本语义相似度
IMDB评论剧透检测
现在
现在
现在
现在
暂无
2023.1
暂无
暂无
推荐系统 零基础入门推荐系统 - 新闻推荐
天池新人挑战赛之阿里移动推荐算法
电商用户购买行为预测
基于用户画像的商品推荐挑战赛 (大奖赛)
图书推荐系统
现在
现在
现在
2021.6.21-8.20
2021.9.27-
暂无
暂无
暂无
2021.10.24
暂无
问答 疫情政务问答助手
医疗智能问答 - FlyAI
2021心理对话问答挑战赛
CommonsenseQA Dataset
OpenBookQA Dataset
现在
现在
现在
现在
现在
暂无
暂无
暂无
2026.4.15
2026.4.15
语义解析 千言数据集:语义解析 现在 2023.1
摘要 媒体文章自动摘要
知乎文本摘要
新闻摘要自动生成
问答摘要与推理 (end: 2023.1)
现在 暂无
语音 生活场景汉语语音识别 现在 暂无
信息抽取 CCF BDCI 文本实体识别及关系抽取
千言数据集:信息抽取
英文文本实体关系抽取
法律领域篇章级多事件检测
现在
现在
现在
现在
暂无
2023.1.1
暂无
暂无
实体链指 千言数据集:实体链指 现在 2023.1.1
机器翻译 千言数据集:低资源语言翻译
机器翻译领域适应
现在
现在
2023.1.1
暂无
实体识别 中文的命名实体识别 - FlyAI 现在 暂无
立场检测 中文微博的立场检测 - FlyAI
微博立场检测
现在
现在
暂无
暂无
对话 MuTual Dataset
千言数据集:开放域对话
对话系统中的口语理解
现在
现在
现在
2026.4.15
2023.1.1
暂无
Text2SQL 耶鲁文本转SQL 现在 暂无
阅读理解 千言数据集:阅读理解
中文成语填空挑战赛
中文阅读理解练习赛 - FlyAI
RACE Dataset
RACE-C Dataset
Dream Dataset
C3 Dataset
SciQ Dataset
LogiQA Dataset
MCTest Dataset
现在
2021.8.16-10.24
现在
现在
现在
现在
现在
现在
现在
现在
2023.1.1
暂无
暂无
2026.4.15
2026.4.15
2026.4.15
2026.4.15
2026.4.15
2026.4.15
2026.4.15
Graph HGB-Node Classification
HGB-Link Prediction
HGB-Knowledge-aware Recommendation
2021.6.28- 2030.6
其它 MultiLexNorm Multilingual Lexical Normalization 2021.8.21- 2021.12.2

往期竞赛

这里记录整理好的竞赛,包含数据下载以及竞赛方案

目录 赛事
文本分类 2018法研杯-罪名预测
2018法研杯-法条推荐
2019法研杯-要素识别
2019CHIP-临床试验筛选标准短文本分类
2019“技术需求”与“技术成果”项目之间关联度计算模型
2020smp微博情绪分析评测
2020百度人工智能开源大赛-观点阅读理解任务
2020**人工智能大赛·语言与知识技术竞赛(个人赛)
2020CCKS新冠知识图谱构建与问答评测-子任务1:新冠百科知识图谱类型推断
2020CCKS新冠知识图谱构建与问答评测-子任务2:新冠概念图谱的上下位关系预测
2021SMP-ECISA中文隐式情感分析评测
2021DIGIX-基于多模型迁移预训练文章质量判别
2021试题标签预测挑战赛
2021非标准化疾病诉求的简单分诊挑战赛
2021CHIP-医学对话临床发现阴阳性判别任务
实体链指 2019CCKS中文短文本实体链指
2020CCKS面向中文短文本的实体链指任务
2020CCKS基于标题的大规模商品实体检索
2020千言数据集:面向中文短文本的实体链指任务
2021SDU@AAAI-Task2-Acronym Disambiguation
实体识别 2019互联网金融新实体发现
2020CHIP-中药说明书实体识别挑战
2020CHIP-中文医学文本命名实体识别
2020CCKS面向试验鉴定的命名实体识别
2020CCKS面向中文电子病历的医疗实体及事件抽取-子任务1:医疗命名实体识别
2021智能医疗决策
2021互联网舆情企业风险事件的识别和预警
2021海通&工商-2021互联网舆情企业风险事件的识别和预警
问题生成 2020CHIP-中医文献问题生成挑战
摘要生成 2020法研杯-司法摘要
2021MEDIQA-Summarization of Consumer Health Questions
2021MEDIQA-Summarization of Multiple Answers
2021MEDIQA-Summarization of Radiology Reports
阅读理解 2018机器阅读理解技术竞赛
2019法研杯-阅读理解
2020法研杯-阅读理解
2020语言与智能技术竞赛:机器阅读理解任务
2021海华AI挑战赛·中文阅读理解(技术组)
2021语言与智能技术竞赛:机器阅读理解任务
2021NLPCC-AIDebater
文本匹配 2019大数据挑战赛
2019金融信息负面及主体判定
2019CHIP-疾病问答迁移学习比赛
2019CHIP-临床术语标准化任务
2019法研杯-相似案例匹配
2020“公益AI之星”挑战赛-新冠疫情相似句对判定大赛
2020房产行业聊天匹配问答
2020CHIP-临床术语标准化任务
2020法研杯-论辩挖掘
2021搜狐校园文本匹配算法大赛
2021小布助手对话短文本语义匹配
2021CHIP-临床术语标准化任务
对话 2019SMP中文人机对话技术评测
2020千言:多技能对话
2020语言与智能技术竞赛:面向推荐的对话任务
2021SMP对话式AI算法技术评测(小样本对话式意图识别与槽位提取、对话式指代消解与省略恢复 )
Text2SQL 2019中文NL2SQL挑战赛
2020语言与智能技术竞赛:语义解析任务
问答 2020CCKS新冠知识图谱构建与问答评测-子任务4:新冠百科知识图谱问答评测
2020法研杯-司法考试
信息抽取 2020科大讯飞事件抽取挑战赛
2020语言与智能技术竞赛:关系抽取任务
2020语言与智能技术竞赛:事件抽取任务
2020-SemEval Task 6: Definition Extraction from Free Text with the DEFT Corpus
2020CCKS面向中文电子病历的医疗实体及事件抽取-子任务2:医疗事件抽取
2020CCKS面向金融领域的小样本跨类迁移事件抽取
2020CCKS面向金融领域的篇章级事件主体与要素抽取
2020CHIP-中文医学文本实体关系抽取
2021语言与智能技术竞赛:多形态信息抽取任务
2021医疗实体与关系识别挑战赛
2021NLPCC-AutoIE 2
2021CHIP-临床发现事件抽取任务
2021SDU@AAAI-Task1-Acronym Identification
机器翻译 2020CCMT-双语、多语、语音、质量评估、语料过滤
2021NAACL同传Workshop:千言 - 机器同传
2021低资源多语种文本翻译挑战赛
2021领域迁移机器翻译挑战赛
其它 2018法研杯-刑期预测
2020NLP中文预训练模型泛化能力挑战赛
2020CCKS新冠知识图谱构建与问答评测-子任务3:新冠科研抗病毒药物图谱的链接预测
2021未来杯-探索科技未来 (论文推荐)
2021NLPCC-FewCLUE

自媒体推荐

学界、业界、理论、实践以及时事动态,NLPer都应该有所了解

平台 主要领域 自媒体
微信公众号 技术 Coggle数据科学、DataFunTalk
行业信息 机器之心、机器之能、AI报道、AI前线、AI科技评论、机器学习研究组订阅
理论 科学空间、PaperWeekly、智源社区、人工智能前沿讲习、专知、AINLP、AI TIME 论道
BiliBili 前沿论坛 智源社区、AITIME论道
网站 竞赛 Coggle数据科学
学术 Paper With CodeAMiner学术头条

算力推荐

结合个人情况使用不同的GPU平台

平台 算力 价格 说明
BitaHub 1080Ti、Titan xp、V100 1080Ti(¥0.7/h)、Titan xp(¥1/h)、V100(¥9/h) 中科大先研院的平台,价格实惠,但一块GPU只搭配2核CPU,通过提交任务,按运行时间收取费用
沣云平台 ML270 ¥2.8/h 一站式AI计算平台,CPU可以增量配置,按运行时间收取费用
恒源云 2080Ti、rtx5000、3090 ¥3/h~¥4.5/h 可以搭配完整的CPU和硬盘,相比bithub有更高的自由度,目前处于推广期,有很多优惠
并行云 V100、2080Ti、P100等 不明 计算节点来自超算,可个性化定制CPU核数、GPU、存储空间,有非常简便的操作界面,并且提供远程linux桌面,灵活度优于以上三个平台。目前处于推广期,有很多优惠
1024LAB 1080Ti、P102-100、2080Ti、2080、T4、2070、P100、XP、3080等 ¥1/h ~ ¥6/h之间不等 这个是直接租用服务器的,有独立IP,使用虚拟货币DBC支付(可以用支付宝购买),DBC汇率波动较大,请谨慎持有
AI Studio V100 基本免费 由百度开发, 偶尔申请不到V100,最高可免费8卡。主要使用飞桨PaddlePaddle框架,其它框架需自行折腾,也可用X2Paddle一键转为飞桨的代码和模型,大部分比赛参与即送算力卡。
天池DSW p100 免费,单次限时8小时,不限次数 阿里的一个在线平台,运行时不能关闭
天池实验室 V100 免费,60h/年 相比于AI Studio不限制深度学习框架,就是时间比较短
Kaggle k80 免费,每周限时30小时 外网访问
Google Colab k80、T4、P4、P100 免费,单次限时12小时 外网访问,无法指定具体GPU,未订阅Colab Pro用户多数时间下估计会被分配k80

竞赛平台

  • 阿里天池 :阿里,奖金丰厚
  • AI Studio :百度AI Studio深度学习社区,成绩优异可获得飞桨开发者技术专家(PPDE) 认证申请绿色通道。
  • 讯飞开发平台 :科大讯飞
  • DataFountain : CCF指定专业大数据及人工智能竞赛平台,有很多训练赛
  • 图灵联邦 :NLP竞赛不多
  • biendata : 国内领先的人工智能竞赛平台,包含大量NLP学术评测
  • FlyAI-AI竞赛服务平台 :难度分为新手、简单、中等、精英、困难,有大量GPU算力可供获取,奖金不多,但适合练手
  • 和鲸社区 :一个综合的学习平台
  • ACL、EMNLP、NLPCC、CCL、CCKS、SMP等会议每年都会举办相关学术评测
  • Codalab :一个可重复计算平台,很多国外的竞赛都会在上面提交代码用于检验
  • DCLab :和天池比较像
  • AI研习社 :很多很多NLP竞赛

会议时间

**计算机学会推荐国际学术会议和期刊目录-2019
**计算机学会推荐中文科技期刊目录
dblp:计算机科学文献库
AI会议deadline :会议倒计时
会议时间记录表 :Updated by Jackie Tseng, Tsinghua Computer Vision and Intelligent Learning Lab
note:以下时间为官网默认时间,暂未换算成北京时间

会议 级别 摘要截稿 原文截稿 审稿通知 开会时间 说明
ICLR(官网dblp) * 2021.9.28 2021.10.5 2021.11.7~21 (rebutal)
2022.1.24 (final)
2022, 4.25~4.29 online
ACL(官网dblp) CCF-A 2021.11.15(roling review deadline) 2022.1.7 2022.2.20 2022,5.22~5.27 Dublin, Ireland
NeurIPS(官网dblp) CCF-A 2021.5.19 2021.5.26 2021.9.28 2021,12.6~12.14 online
ICML(官网dblp) CCF-A 2022.1.20 2022.1.27 TBA 2022,7.17~7.23 Baltimore, Maryland USA
SIGIR(官网dblp) CCF-A 2022.2.14(shot paper)
2022.1.21(long paper)
2021.2.21(short paper)
2022.1.28(long paper)
2022.3.31(short paper)
2022.3.31(long paper)
2022.7.11~7.15 Madrid, Spain
WWW(官网dblp) CCF-A 2021.10.14 2021.10.21 2022.1.13 2022,4.25~4.29 Lyon,France
AAAI(官网dblp) CCF-A 2021.8.30 2021.9.8 2021.10.15 (phase 1)
2021.11.29 (final)
2022,2.22~3.1 Vancouver,Canada
IJCAI(官网dblp) CCF-A 2022.1.7 2022.1.14 2022.3.16~3.29(rebutal)
2022.4.20(final)
2022,7.23~7.29 Vienna, Austria
EMNLP(官网dblp) CCF-B 2021.5.10 2021.5.17 2021.8.25 2021,11.7~11.11 Punta Cana, Dominican Republic
NAACL(官网dblp) CCF-C 2022.1.15(roling review deadline) 2022.3.2 2022.4.7 2022, 7.10~7.15 Seattle, Washington
COLING(官网dblp) CCF-B * 2022.5.17 2022.8.15 2022,10.12~10.17 Gyeongju, Korea
CoNLL(官网dblp) CCF-C * 2021.6.14 2021.8.31 2021,11.10~11.11 same as emnlp
NLPCC(官网dblp) CCF-C * 2021.6.8 2021.7.30 2021,10.13~10.17 青岛
ICONIP(官网) CCF-C * 2021.6.30 2021.8.31 2021, 12.8~12.12 BALI, Indonesia
ACML(官网) CCF-C * 2021.7.2 2021.9.10 2021, 11.17~11.19 online
AACL(官网) * * * * * announced at EMNLP 2021
EACL(官网dblp) * * * * * 合并至ACL2022
CCL(官网dblp) * * 2021.4.15 2021.5.29 2021.12.3-5 online(open)
CCKS(官网dblp) * * 2021.5.25 2021.7.2 2021,12.25~12.26 广州
SMP(官网dblp) * * 2021.5.15 2021.6.20 延期至2022年上半年 北京
CCIR(官网) * * 2021.6.10 2021.7.5 2021, 11.26~11.28 大连
CCMT(官网) * * 2021.6.12 2021.7.10 2021,10.8~10.10 青海西宁
WISE(官网) * 2021.6.10 2021.6.17 2021.6.30 2021, 10.26~10.29 Melbourne, Australia