/awesome-pretrained-chinese-nlp-models

Awesome Pretrained Chinese NLP Models,高质量中文预训练模型集合

MIT LicenseMIT

Awesome Pretrained Chinese NLP ModelsAwesome

在自然语言处理领域中,预训练语言模型(Pretrained Language Models)已成为非常重要的基础技术,本仓库主要收集目前网上公开的一些高质量中文预训练模型(感谢分享资源的大佬),并将持续更新......

: 🤗huggingface模型下载地址: 1. 清华大学开源镜像 2. 官方地址

Expand Table of Contents

NLU系列

BERT

  • 2018 | BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding | Jacob Devlin, et al. | arXiv | PDF
  • 2019 | Pre-Training with Whole Word Masking for Chinese BERT | Yiming Cui, et al. | arXiv | PDF
模型

参数
大小

语料
大小

TensorFlow PyTorch 作者 源地址

应用
领域

BERT-Base 110M

中文维基
(词数0.4B)

Google Drive Google Research github 通用
BERT-wwm 110M

中文维基
(词数0.4B)

Google Drive
讯飞云-07Xj

Google Drive Yiming Cui github 通用
BERT-wwm-ext 110M

通用语料
(词数5.4B)

Google Drive
讯飞云-4cMG

Google Drive Yiming Cui github 通用
bert-base-民事 2654万民事文书 阿里云 THUNLP github 司法
bert-base-刑事 663万刑事文书 阿里云 THUNLP github 司法
BAAI-JDAI-BERT 42G电商客服对话数据 京东云 JDAI github 电商客服对话
FinBERT 400万金融领域数据

Google Drive
百度网盘-1cmp

Google Drive
百度网盘-986f

Value Simplex github 金融科技领域
EduBERT 2000万教育领域数据 好未来AI tal-tech tal-tech github 教育领域
WoBERT 30通用语料+医学专业词典 百度网盘-kim2 natureLanguageQing github 医学领域
MC-BERT Google Drive Alibaba AI Research github 医学领域
guwenbert-base 古代文献语料(词数1.7B)

百度网盘-4jng
huggingface

Ethan github 古文领域
guwenbert-large 古代文献语料(词数1.7B)

百度网盘-m5sz
huggingface

Ethan github 古文领域

备注:

[1] wwm全称为**Whole Word Masking **,一个完整的词的部分WordPiece子词被mask,则同属该词的其他部分也会被mask

[2] ext表示在更多数据集下训练

RoBERTa

  • 2019 | RoBERTa: A Robustly Optimized BERT Pretraining Approach | Yinhan Liu, et al. | arXiv | PDF
模型

参数
大小

语料
大小

TensorFlow PyTorch 作者 源地址

应用
领域

RoBERTa-tiny-clue 7.5M 通用语料100G Google Drive 百度网盘-8qvb CLUE github 通用
RoBERTa-tiny-pair 7.5M 通用语料100G google drive 百度网盘-8qvb CLUE github 通用
RoBERTa-tiny3L768-clue 38M 通用语料100G Google Drive CLUE github 通用
RoBERTa-tiny3L312-clue <7.5M 通用语料100G google drive 百度网盘-8qvb CLUE github 通用
RoBERTa-large-pair 290M 通用语料100G Google Drive 百度网盘-8qvb CLUE github 通用
RoBERTa-large-clue 290M 通用语料100G google drive 百度网盘-8qvb CLUE github 通用
RBTL3 通用语料(词数5.4B)

Google Drive
讯飞云-vySW

Google Drive Yiming Cui github 通用
RBTL4 通用语料(词数5.4B) 讯飞云-e8dN Yiming Cui github 通用
RBTL6 通用语料(词数5.4B) 讯飞云-XNMA Yiming Cui github 通用
RoBERTa-wwm-ext 通用语料(词数5.4B)

Google Drive
讯飞云-Xe1p

Google Drive Yiming Cui github 通用
RoBERTa-wwm-ext-large 通用语料(词数5.4B)

Google Drive
讯飞云-u6gC

Google Drive Yiming Cui github 通用
RoBERTa-base 通用语料30G

Google Drive
百度网盘

Google Drive
百度网盘

brightmart github 通用
RoBERTa-Large 通用语料30G

Google Drive
百度网盘

Google Drive brightmart github 通用

ALBERT

  • 2019 | ALBERT: A Lite BERT For Self-Supervised Learning Of Language Representations | Zhenzhong Lan, et al. | arXiv | PDF
模型

参数
大小

语料
大小

TensorFlow PyTorch 作者 源地址

应用
领域

Albert_tiny 4M 通用语料30G Google Drive Google Drive brightmart github 通用
Albert_base_zh 12M 通用语料30G Google Drive Google Drive brightmart github 通用
Albert_large_zh 通用语料30G Google Drive Google Drive brightmart github 通用
Albert_xlarge_zh 通用语料30G Google Drive Google Drive brightmart github 通用
Albert_base 通用语料30G Google Drive Google Research github 通用
Albert_large 通用语料30G Google Drive Google Research github 通用
Albert_xlarge 通用语料30G Google Drive Google Research github 通用
Albert_xxlarge 通用语料30G Google Drive Google Research github 通用

NEZHA

  • 2019 | NEZHA: Neural Contextualized Representation for Chinese Language Understanding | Junqiu Wei, et al. | arXiv | PDF
模型

参数
大小

语料
大小

TensorFlow PyTorch 作者 源地址

应用
领域

NEZHA-base

Google Drive
百度网盘-ntn3

lonePatient HUAWEI github 通用
NEZHA-base-WWM

Google Drive
百度网盘-f68o

lonePatient HUAWEI github 通用
NEZHA-large

Google Drive
百度网盘-7thu

lonePatient HUAWEI github 通用
NEZHA-large-WWM

Google Drive
百度网盘-ni4o

lonePatient HUAWEI github 通用
WoNEZHA

30通用语料
和医学专业词典

百度网盘-qgkq natureLanguageQing github 医学领域

MacBERT

  • 2020 | Revisiting Pre-Trained Models for Chinese Natural Language Processing | Yiming Cui, et al. | arXiv | PDF
模型

参数
大小

语料
大小

TensorFlow PyTorch 作者 源地址

应用
领域

MacBERT-base 102M 通用语料(词数5.4B)

Google Drive
讯飞云-E2cP

Yiming Cui github 通用
MacBERT-large 324M 通用语料(词数5.4B)

Google Drive
讯飞云-3Yg3

Yiming Cui github 通用

XLNET

  • 2019 | XLNet: Generalized Autoregressive Pretraining for Language Understanding | Zhilin Yang, et al. | arXiv | PDF
模型

参数
大小

语料
大小

TensorFlow PyTorch 作者 源地址

应用
领域

XLNet-base 117M 通用语料(词数5.4B)

Google Drive
讯飞云-uCpe

Google Drive Yiming Cui github 通用
XLNet-mid 209M 通用语料(词数5.4B)

Google Drive
讯飞云-68En

Google Drive Yiming Cui github 通用
XLNet_zh_Large 百度网盘 brightmart github 通用

ELECTRA

  • 2020 | ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators | Kevin Clark, et al. | arXiv | PDF
模型

参数
大小

语料
大小

TensorFlow PyTorch 作者 源地址

应用
领域

ELECTRA-180g-large

Google Drive
讯飞云-Yfcy

Yiming Cui github 通用
ELECTRA-180g-small-ex

Google Drive
讯飞云-GUdp

Yiming Cui github 通用
ELECTRA-180g-base

Google Drive
讯飞云-Xcvm

Yiming Cui github 通用
ELECTRA-180g-small

Google Drive
讯飞云-qsHj

Yiming Cui github 通用
legal-ELECTRA-large

Google Drive
讯飞云-7f7b

Yiming Cui github 司法领域
legal-ELECTRA-base

Google Drive
讯飞云-7f7b

Yiming Cui github 司法领域
legal-ELECTRA-small

Google Drive
讯飞云-7f7b

Yiming Cui github 司法领域
ELECTRA-tiny CLUE 10G Chinese Corpus

Google Drive
百度网盘-rs99

CLUE github 通用

ZEN

  • 2019 | ZEN: Pre-training Chinese Text Encoder Enhanced by N-gram Representations | Shizhe Diao, et al. | arXiv | PDF
模型

参数
大小

语料
大小

TensorFlow PyTorch 作者 源地址

应用
领域

ZEN-Base

Google Drive
百度网盘

Sinovation Ventures AI Institute github 通用

ERNIE

  • 2019 | ERNIE: Enhanced Representation through Knowledge Integration | Yu Sun, et al. | arXiv | PDF

  • 2020 | SKEP: Sentiment Knowledge Enhanced Pre-training for Sentiment Analysis | Hao Tian, et al. | arXiv | PDF

模型

参数
大小

语料
大小

PaddlePaddle PyTorch 作者 源地址

应用
领域

ernie-1.0-base link PaddlePaddle github 通用
ernie_1.0_skep_large_ch link Baidu github 情感分析

备注:

[1] PaddlePaddle转TensorFlow可参考: tensorflow_ernie

[2] PaddlePaddle转PyTorch可参考: ERNIE-Pytorch

NLG系列

GPT

  • 2019 | Improving Language Understandingby Generative Pre-Training | Alec Radford, et al. | arXiv | PDF

  • 2019 | Language Models are Unsupervised Multitask Learners | Alec Radford, et al. | arXiv | PDF

模型

参数
大小

语料
大小

TensorFlow PyTorch 作者 源地址

应用
领域

GPT2 15亿 30G语料

Google Drive
百度网盘-ffz6

Caspar ZHANG gpt2-ml
GPT2 15亿 15G语料

Google Drive
百度网盘-q9vr

Caspar ZHANG gpt2-ml
CDial-GPTLCCC-base 95.5M LCCC-base huggingface thu-coai CDial-GPT
CDial-GPT2LCCC-base 95.5M LCCC-base huggingface thu-coai CDial-GPT
CDial-GPTLCCC-large 95.5M LCCC-large huggingface thu-coai CDial-GPT
GPT2-dialogue 常见中文闲聊

Google Drive
百度网盘-osi6

yangjianxin1 GPT2-chitchat
GPT2-mmi

50w中文闲聊语料
百度网盘-jk8d
GoogleDrive

Google Drive
百度网盘-1j88

yangjianxin1 GPT2-chitchat
GPT2-散文模型 130MB散文数据集

Google Drive
百度网盘-fpyu

Zeyao Du GPT2-Chinese
GPT2-诗词模型 180MB古诗词数据集

Google Drive
百度网盘-7fev

Zeyao Du GPT2-Chinese
GPT2-对联模型 40MB对联数据集

Google Drive
百度网盘-i5n0

Zeyao Du GPT2-Chinese

NEZHA-Gen

模型

参数
大小

语料
大小

TensorFlow PyTorch 作者 源地址

应用
领域

NEZHA-Gen 中文维基+新闻

Google Drive
百度网盘-rb5m

HUAWEI github 通用
NEZHA-Gen Yuefu (乐府)

Google Drive
百度网盘-ytim

HUAWEI github

UniLM

  • 2019 | Unified Language Model Pre-training for Natural Language Understanding and Generation | Li Dong, et al. | arXiv | PDF
模型

参数
大小

语料
大小

TensorFlow PyTorch 作者 源地址

应用
领域

Unilm CLUE中的维基+新闻 百度网盘-tblr 百度网盘-etwf YunwenTechnology github 通用