NLP人军火库,主要收录NLP竞赛经验贴、通用工具、学习资料等,如果对你有帮助,请给我们一个star,这是我们更新的动力。
本项目源于2020年7月一次竞赛的经历,当时在找参考资料时遇到了很多困难,包括内容分散、质量不高等。2021年3月开始更新本项目,志在帮助NLPer提升模型性能。2021年6月开放本项目的notion页面,NLPer-Arsenal-Notion ,主要收录我们整理的trick说明与实验验证,内容实时更新,欢迎大家一起参与NLPer-Arsenal开源项目。
下图是我们的项目导航图,以竞赛流程为主干,项目章节和notion对应的内容为分支。当您查看本项目时可以按序查看竞赛流程对应的项目章节,同时您也可以在我们的notion中查看一些竞赛相关的内容。 为了帮助您快速地了解本项目的目录结构,我们上传了如下的思维导图,您可以在链接 处查看更多细节以及最新内容。
项目正在不断完善,如果您有什么建议,欢迎到issue 留言,或通过问卷 ,邮箱(receive@nlper-arsenal.cn)联系我们,同时我们也欢迎大家加入我们的项目。
所有内容均由我们从网络公开资料中收集得到,版权归原作者所有,如有侵权请立即与我们联系,我们将及时处理。
整理不易,转载时请务必备注本项目github链接,感谢您为维护良好的创作环境出一份力。
愿景:携有志者共建NLP开放社区,与NLPers共成长
- 2021.3:开始更新项目
- 2021.6:开放notion界面,NLPer-Arsenal-Notion
记录当前正在进行的竞赛,奖金丰厚,适合有一定基础的NLPer
记录长期进行的训练赛,有排行榜,方便刚入门的NLPer练手
这里记录整理好的竞赛,包含数据下载以及竞赛方案
目录 | 赛事 |
---|---|
文本分类 | 2018法研杯-罪名预测 2018法研杯-法条推荐 2019“技术需求”与“技术成果”项目之间关联度计算模型 2020smp微博情绪分析评测 2020百度人工智能开源大赛-观点阅读理解任务 2020CCKS新冠知识图谱构建与问答评测-子任务1:新冠百科知识图谱类型推断 2020CCKS新冠知识图谱构建与问答评测-子任务2:新冠概念图谱的上下位关系预测 2021SMP-ECISA中文隐式情感分析评测 |
实体链指 | 2019CCKS中文短文本实体链指 2020CCKS面向中文短文本的实体链指任务 2020CCKS基于标题的大规模商品实体检索 2020千言数据集:面向中文短文本的实体链指任务 |
实体识别 | 2019互联网金融新实体发现 2020中药说明书实体识别挑战 2020中文医学文本命名实体识别 2020CCKS面向试验鉴定的命名实体识别 2020CCKS面向中文电子病历的医疗实体及事件抽取-子任务1:医疗命名实体识别 2021智能医疗决策 2021互联网舆情企业风险事件的识别和预警 2021海通&工商-2021互联网舆情企业风险事件的识别和预警 |
问题生成 | 2020中医文献问题生成挑战 |
摘要生成 | 2020法研杯-司法摘要 2021MEDIQA-Summarization of Consumer Health Questions 2021MEDIQA-Summarization of Multiple Answers 2021MEDIQA-Summarization of Radiology Reports |
阅读理解 | 2018机器阅读理解技术竞赛 2020法研杯-阅读理解 2020语言与智能技术竞赛:机器阅读理解任务 2021海华AI挑战赛·中文阅读理解 2021NLPCC语言与智能技术竞赛:机器阅读理解任务 |
文本匹配 | 2019大数据挑战赛 2019金融信息负面及主体判定 2019法研杯-相似案例匹配 2020“公益AI之星”挑战赛-新冠疫情相似句对判定大赛 2020房产行业聊天匹配问答 2021搜狐校园文本匹配算法大赛 2021小布助手对话短文本语义匹配 |
对话 | 2020千言:多技能对话 2020语言与智能技术竞赛:面向推荐的对话任务 2021心理对话问答挑战赛 2021SMP对话式AI算法技术评测(小样本对话式意图识别与槽位提取、对话式指代消解与省略恢复 ) |
Text2SQL | 2019中文NL2SQL挑战赛 2020语言与智能技术竞赛:语义解析任务 |
问答 | 2020CCKS新冠知识图谱构建与问答评测-子任务4:新冠百科知识图谱问答评测 2020法研杯-司法考试 |
信息抽取 | 2019法研杯-要素识别 2020科大讯飞事件抽取挑战赛 2020语言与智能技术竞赛:关系抽取任务 2020语言与智能技术竞赛:事件抽取任务 2020SemEval-自由文本关系抽取 2020CCKS面向中文电子病历的医疗实体及事件抽取-子任务2:医疗事件抽取 2020CCKS面向金融领域的小样本跨类迁移事件抽取 2020CCKS面向金融领域的篇章级事件主体与要素抽取 2020法研杯-论辩挖掘 2021NLPCC语言与智能技术竞赛:多形态信息抽取任务 |
机器翻译 | 2018IWSLT-low resource machine translation of TED Talks 2018IWSLT-speech translation of lectures 2018WMT-News Translation Task 2018WMT-BioMedical Translation Task 2018WMT-Automatic Post-Editing Task 2018WMT-Quality Estimation Task 2018WMT-MultiModal Translation Task 2019WMT-News Translation Task 2019IWSLT-Speech translation of audiovisual content 2019IWSLT-Clean speech translation of spontaneous, disfluent telephone conversations 2019IWSLT-Text translation on a less resourced language pair 2019WMT-BioMedical Translation Task 2019WMT-Robustness Translation Task 2019WMT-Simlar Language Translation Task 2019WMT-Automatic Post-Editing Task 2019WMT-Quality Estimation Task 2020IWSLT-Simultaneous speech translation 2020IWSLT-Video speech translation 2020IWSLT-Offline speech translation 2020IWSLT-Conversational speech translation 2020IWSLT-Open domain translation 2020IWSLT-Non-native speech translation 2020WMT-News Translation Task 2020WMT-BioMedical Translation Task 2020WMT-Similar Language Translation Task 2020WMT-Unsupervised And Very Low Resource Task 2020WMT-Automatic Post-Editiing Task 2020WMT-Metrics Task 2020WMT-Quality Estimation Task 2020WMT-Lifelong Learning MT Task 2020WMT-Chat Translation 2021NAACL同传Workshop:千言 - 机器同传 |
其它 | 2018法研杯-刑期预测 2020NLP中文预训练模型泛化能力挑战赛 2020CCKS新冠知识图谱构建与问答评测-子任务3:新冠科研抗病毒药物图谱的链接预测 |
学界、业界、理论、实践以及时事动态,NLPer都应该有所了解
平台 | 主要领域 | 自媒体 |
---|---|---|
微信公众号 | 技术 | Coggle数据科学、DataFunTalk |
行业信息 | 机器之心、机器之能、AI报道、AI前线、AI科技评论、机器学习研究组订阅 | |
理论 | 科学空间、PaperWeekly、智源社区、人工智能前沿讲习、专知、AINLP、AI TIME 论道 | |
BiliBili | 前沿论坛 | 智源社区、AITIME论道 |
网站 | 竞赛 | Coggle数据科学 |
学术 | Paper With Code 、AMiner学术头条 |
结合个人情况使用不同的GPU平台
平台 | 算力 | 价格 | 说明 |
---|---|---|---|
BitaHub | 1080Ti、Titan xp、V100 | 1080Ti(¥0.7/h)、Titan xp(¥1/h)、V100(¥9/h) | 中科大先研院的平台,价格实惠,但一块GPU只搭配2核CPU,通过提交任务,按运行时间收取费用 |
沣云平台 | ML270 | ¥2.8/h | 一站式AI计算平台,CPU可以增量配置,按运行时间收取费用 |
恒源云 | 2080Ti、rtx5000、3090 | ¥3/h~¥4.5/h | 可以搭配完整的CPU和硬盘,相比bithub有更高的自由度,目前处于推广期,有很多优惠 |
并行云 | V100、2080Ti、P100等 | 不明 | 计算节点来自超算,可个性化定制CPU核数、GPU、存储空间,有非常简便的操作界面,并且提供远程linux桌面,灵活度优于以上三个平台。目前处于推广期,有很多优惠 |
1024LAB | 1080Ti、P102-100、2080Ti、2080、T4、2070、P100、XP、3080等 | ¥1/h ~ ¥6/h之间不等 | 这个是直接租用服务器的,有独立IP,使用虚拟货币DBC支付(可以用支付宝购买),DBC汇率波动较大,请谨慎持有 |
AI Studio | V100 | 基本免费 | 由百度开发, 偶尔申请不到V100,主要使用PaddlePaddle框架,其它框架好像也可以用(请自行搜索使用方法) |
天池DSW | p100 | 免费,单次限时8小时,不限次数 | 阿里的一个在线平台,运行时不能关闭 |
天池实验室 | V100 | 免费,60h/年 | 相比于AI Studio不限制深度学习框架,就是时间比较短 |
Kaggle | k80 | 免费,每周限时30小时 | 外网访问 |
Google Colab | k80、T4、P4、P100 | 免费,单次限时12小时 | 外网访问,无法指定具体GPU,未订阅Colab Pro用户多数时间下估计会被分配k80 |
- 阿里天池 :阿里,奖金丰厚
- AiStudio :百度
- 讯飞开发平台 :科大讯飞
- DataFountain : CCF指定专业大数据及人工智能竞赛平台,有很多训练赛
- 图灵联邦 :NLP竞赛不多
- biendata : 国内领先的人工智能竞赛平台,包含大量NLP学术评测
- FlyAI-AI竞赛服务平台 :难度分为新手、简单、中等、精英、困难,有大量GPU算力可供获取,奖金不多,但适合练手
- 和鲸社区 :一个综合的学习平台
- ACL、EMNLP、NLPCC、CCL、CCKS、SMP等会议每年都会举办相关学术评测
- Codalab :一个可重复计算平台,很多国外的竞赛都会在上面提交代码用于检验
- DCLab :和天池比较像
- AI研习社 :很多很多NLP竞赛
**计算机学会推荐国际学术会议和期刊目录-2019
**计算机学会推荐中文科技期刊目录
dblp:计算机科学文献库
AI会议deadline :会议倒计时
会议时间记录表 :Updated by Jackie Tseng, Tsinghua Computer Vision and Intelligent Learning Lab
note:以下时间为官网默认时间,暂未换算成北京时间
会议 | 级别 | 摘要截稿 | 原文截稿 | 审稿通知 | 开会时间 | 说明 |
---|---|---|---|---|---|---|
ICLR(官网、dblp) | * | 2021.9.28 | 2021.10.5 | 2021.11.7~21 (rebutal) 2022.1.24 (final) |
2022, 4.25~4.29 | online |
ACL(官网、dblp) | CCF-A | 2021.11.15(roling review deadline) | 2022.1.7 | 2022.2.20 | 2022,5.22~5.27 | Dublin, Ireland |
NeurIPS(官网、dblp) | CCF-A | 2021.9.28 | 2021,12.6~12.14 | online | ||
ICML(官网、dblp) | CCF-A | online | ||||
SIGIR(官网、dblp) | CCF-A | online | ||||
WWW(官网、dblp) | CCF-A | 2021.10.14 | 2021.10.21 | 2022.1.13 | 2022,4.25~4.29 | Lyon,France |
AAAI(官网、dblp) | CCF-A | 2021.9.8 | 2021.10.15 (phase 1) 2021.11.29 (final) |
2022,2.22~3.1 | Vancouver,Canada | |
IJCAI(官网、dblp) | CCF-A | Montreal, Canada | ||||
EMNLP(官网、dblp) | CCF-B | 2021,11.7~11.11 | Punta Cana, Dominican Republic | |||
NAACL(官网、dblp) | CCF-C | 2022.1.15(roling review deadline) | 2022.3.2 | 2022.4.7 | 2022, 7.10~7.15 | Seattle, Washington |
COLING(官网、dblp) | CCF-B | ? | ? | ? | 2022,10.12~10.17 | Gyeongju, Korea |
CoNLL(官网、dblp) | CCF-C | * | 2021,11.10~11.11 | same as emnlp | ||
NLPCC(官网、dblp) | CCF-C | * | 2021,10.13~10.17 | 青岛 | ||
ICONIP(官网) | CCF-C | * | 2021.8.31 | 2021, 12.8~12.12 | BALI, Indonesia | |
ACML(官网) | CCF-C | * | 2021.9.10 | 2021, 11.17~11.19 | online | |
AACL(官网) | * | * | * | * | * | announced at EMNLP 2021 |
EACL(官网、dblp) | * | * | * | * | * | 合并至ACL2022 |
CCL(官网、dblp) | * | * | 2021,10.22~24 | 呼和浩特 | ||
CCKS(官网、dblp) | * | * | 2021,11.4~11.7 | 广州 | ||
SMP(官网、dblp) | * | * | 2021,11.12~11.14 | 北京 | ||
CCIR(官网) | * | * | 2021, 10.29~10.31 | 大连 | ||
CCMT(官网) | * | * | 延期待定 | 青海西宁 | ||
WISE(官网) | * | 2021, 10.26~10.29 | Melbourne, Australia |