Awesome Pretrained Chinese NLP Models

在自然语言处理领域中，预训练语言模型（Pretrained Language Models）已成为非常重要的基础技术，本仓库主要收集目前网上公开的一些高质量中文预训练模型(感谢分享资源的大佬)，并将持续更新......

注: 🤗huggingface模型下载地址: 1. 清华大学开源镜像 2. 官方地址

Expand Table of Contents

NLU系列
- BERT
- RoBERTa
- ALBERT
- NEZHA
- XLNET
- MacBERT
- ELECTRA
- ZEN
- ERNIE
NLG系列
- GPT
- NEZHA-GEN
- UniLM

NLU系列

BERT

2018 | BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding | Jacob Devlin, et al. | arXiv | PDF
2019 | Pre-Training with Whole Word Masking for Chinese BERT | Yiming Cui, et al. | arXiv | PDF

模型	参数大小	语料大小	TensorFlow	PyTorch	作者	源地址	应用领域
BERT-Base	110M	中文维基 (词数0.4B)	Google Drive		Google Research	github	通用
BERT-wwm	110M	中文维基 (词数0.4B)	Google Drive 讯飞云-07Xj	Google Drive	Yiming Cui	github	通用
BERT-wwm-ext	110M	通用语料 (词数5.4B)	Google Drive 讯飞云-4cMG	Google Drive	Yiming Cui	github	通用
bert-base-民事		2654万民事文书	阿里云		THUNLP	github	司法
bert-base-刑事		663万刑事文书	阿里云		THUNLP	github	司法
BAAI-JDAI-BERT		42G电商客服对话数据	京东云		JDAI	github	电商客服对话
FinBERT		400万金融领域数据	Google Drive 百度网盘-1cmp	Google Drive 百度网盘-986f	Value Simplex	github	金融科技领域
EduBERT		2000万教育领域数据	好未来AI	tal-tech	tal-tech	github	教育领域
WoBERT		30通用语料+医学专业词典	百度网盘-kim2		natureLanguageQing	github	医学领域
MC-BERT			Google Drive		Alibaba AI Research	github	医学领域
guwenbert-base		古代文献语料(词数1.7B)		百度网盘-4jng huggingface	Ethan	github	古文领域
guwenbert-large		古代文献语料(词数1.7B)		百度网盘-m5sz huggingface	Ethan	github	古文领域

备注:

[1] wwm全称为**Whole Word Masking **,一个完整的词的部分WordPiece子词被mask，则同属该词的其他部分也会被mask

[2] ext表示在更多数据集下训练

RoBERTa

2019 | RoBERTa: A Robustly Optimized BERT Pretraining Approach | Yinhan Liu, et al. | arXiv | PDF

模型	参数大小	语料大小	TensorFlow	PyTorch	作者	源地址	应用领域
RoBERTa-tiny-clue	7.5M	通用语料100G	Google Drive	百度网盘-8qvb	CLUE	github	通用
RoBERTa-tiny-pair	7.5M	通用语料100G	google drive	百度网盘-8qvb	CLUE	github	通用
RoBERTa-tiny3L768-clue	38M	通用语料100G	Google Drive		CLUE	github	通用
RoBERTa-tiny3L312-clue	<7.5M	通用语料100G	google drive	百度网盘-8qvb	CLUE	github	通用
RoBERTa-large-pair	290M	通用语料100G	Google Drive	百度网盘-8qvb	CLUE	github	通用
RoBERTa-large-clue	290M	通用语料100G	google drive	百度网盘-8qvb	CLUE	github	通用
RBTL3		通用语料(词数5.4B)	Google Drive 讯飞云-vySW	Google Drive	Yiming Cui	github	通用
RBTL4		通用语料(词数5.4B)	讯飞云-e8dN		Yiming Cui	github	通用
RBTL6		通用语料(词数5.4B)	讯飞云-XNMA		Yiming Cui	github	通用
RoBERTa-wwm-ext		通用语料(词数5.4B)	Google Drive 讯飞云-Xe1p	Google Drive	Yiming Cui	github	通用
RoBERTa-wwm-ext-large		通用语料(词数5.4B)	Google Drive 讯飞云-u6gC	Google Drive	Yiming Cui	github	通用
RoBERTa-base		通用语料30G	Google Drive 百度网盘	Google Drive 百度网盘	brightmart	github	通用
RoBERTa-Large		通用语料30G	Google Drive 百度网盘	Google Drive	brightmart	github	通用

ALBERT

2019 | ALBERT: A Lite BERT For Self-Supervised Learning Of Language Representations | Zhenzhong Lan, et al. | arXiv | PDF

模型	参数大小	语料大小	TensorFlow	PyTorch	作者	源地址	应用领域
Albert_tiny	4M	通用语料30G	Google Drive	Google Drive	brightmart	github	通用
Albert_base_zh	12M	通用语料30G	Google Drive	Google Drive	brightmart	github	通用
Albert_large_zh		通用语料30G	Google Drive	Google Drive	brightmart	github	通用
Albert_xlarge_zh		通用语料30G	Google Drive	Google Drive	brightmart	github	通用
Albert_base		通用语料30G	Google Drive		Google Research	github	通用
Albert_large		通用语料30G	Google Drive		Google Research	github	通用
Albert_xlarge		通用语料30G	Google Drive		Google Research	github	通用
Albert_xxlarge		通用语料30G	Google Drive		Google Research	github	通用

NEZHA

2019 | NEZHA: Neural Contextualized Representation for Chinese Language Understanding | Junqiu Wei, et al. | arXiv | PDF

模型	语料大小	TensorFlow	PyTorch	作者	源地址	应用领域
NEZHA-base		Google Drive 百度网盘-ntn3	lonePatient	HUAWEI	github	通用
NEZHA-base-WWM		Google Drive 百度网盘-f68o	lonePatient	HUAWEI	github	通用
NEZHA-large		Google Drive 百度网盘-7thu	lonePatient	HUAWEI	github	通用
NEZHA-large-WWM		Google Drive 百度网盘-ni4o	lonePatient	HUAWEI	github	通用
WoNEZHA	30通用语料和医学专业词典	百度网盘-qgkq		natureLanguageQing	github	医学领域

MacBERT

2020 | Revisiting Pre-Trained Models for Chinese Natural Language Processing | Yiming Cui, et al. | arXiv | PDF

模型	参数大小	语料大小	TensorFlow	PyTorch	作者	源地址	应用领域
MacBERT-base	102M	通用语料(词数5.4B)	Google Drive 讯飞云-E2cP		Yiming Cui	github	通用
MacBERT-large	324M	通用语料(词数5.4B)	Google Drive 讯飞云-3Yg3		Yiming Cui	github	通用

XLNET

2019 | XLNet: Generalized Autoregressive Pretraining for Language Understanding | Zhilin Yang, et al. | arXiv | PDF

模型	参数大小	语料大小	TensorFlow	PyTorch	作者	源地址	应用领域
XLNet-base	117M	通用语料(词数5.4B)	Google Drive 讯飞云-uCpe	Google Drive	Yiming Cui	github	通用
XLNet-mid	209M	通用语料(词数5.4B)	Google Drive 讯飞云-68En	Google Drive	Yiming Cui	github	通用
XLNet_zh_Large			百度网盘		brightmart	github	通用

ELECTRA

2020 | ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators | Kevin Clark, et al. | arXiv | PDF

模型	语料大小	TensorFlow	作者	源地址	应用领域
ELECTRA-180g-large		Google Drive 讯飞云-Yfcy	Yiming Cui	github	通用
ELECTRA-180g-small-ex		Google Drive 讯飞云-GUdp	Yiming Cui	github	通用
ELECTRA-180g-base		Google Drive 讯飞云-Xcvm	Yiming Cui	github	通用
ELECTRA-180g-small		Google Drive 讯飞云-qsHj	Yiming Cui	github	通用
legal-ELECTRA-large		Google Drive 讯飞云-7f7b	Yiming Cui	github	司法领域
legal-ELECTRA-base		Google Drive 讯飞云-7f7b	Yiming Cui	github	司法领域
legal-ELECTRA-small		Google Drive 讯飞云-7f7b	Yiming Cui	github	司法领域
ELECTRA-tiny	CLUE 10G Chinese Corpus	Google Drive 百度网盘-rs99	CLUE	github	通用

ZEN

2019 | ZEN: Pre-training Chinese Text Encoder Enhanced by N-gram Representations | Shizhe Diao, et al. | arXiv | PDF

模型	参数大小	语料大小	TensorFlow	PyTorch	作者	源地址	应用领域
ZEN-Base				Google Drive 百度网盘	Sinovation Ventures AI Institute	github	通用

ERNIE

2019 | ERNIE: Enhanced Representation through Knowledge Integration | Yu Sun, et al. | arXiv | PDF
2020 | SKEP: Sentiment Knowledge Enhanced Pre-training for Sentiment Analysis | Hao Tian, et al. | arXiv | PDF

模型	参数大小	语料大小	PaddlePaddle	PyTorch	作者	源地址	应用领域
ernie-1.0-base			link		PaddlePaddle	github	通用
ernie_1.0_skep_large_ch			link		Baidu	github	情感分析

备注:

[1] PaddlePaddle转TensorFlow可参考: tensorflow_ernie

[2] PaddlePaddle转PyTorch可参考: ERNIE-Pytorch

NLG系列

GPT

2019 | Improving Language Understandingby Generative Pre-Training | Alec Radford, et al. | arXiv | PDF
2019 | Language Models are Unsupervised Multitask Learners | Alec Radford, et al. | arXiv | PDF

模型	参数大小	语料大小	PyTorch	作者	源地址
GPT2	15亿	30G语料	Google Drive 百度网盘-ffz6	Caspar ZHANG	gpt2-ml
GPT2	15亿	15G语料	Google Drive 百度网盘-q9vr	Caspar ZHANG	gpt2-ml
CDial-GPTLCCC-base	95.5M	LCCC-base	huggingface	thu-coai	CDial-GPT
CDial-GPT2LCCC-base	95.5M	LCCC-base	huggingface	thu-coai	CDial-GPT
CDial-GPTLCCC-large	95.5M	LCCC-large	huggingface	thu-coai	CDial-GPT
GPT2-dialogue		常见中文闲聊	Google Drive 百度网盘-osi6	yangjianxin1	GPT2-chitchat
GPT2-mmi		50w中文闲聊语料百度网盘-jk8d GoogleDrive	Google Drive 百度网盘-1j88	yangjianxin1	GPT2-chitchat
GPT2-散文模型		130MB散文数据集	Google Drive 百度网盘-fpyu	Zeyao Du	GPT2-Chinese
GPT2-诗词模型		180MB古诗词数据集	Google Drive 百度网盘-7fev	Zeyao Du	GPT2-Chinese
GPT2-对联模型		40MB对联数据集	Google Drive 百度网盘-i5n0	Zeyao Du	GPT2-Chinese

NEZHA-Gen

模型	参数大小	语料大小	TensorFlow	PyTorch	作者	源地址	应用领域
NEZHA-Gen		中文维基+新闻	Google Drive 百度网盘-rb5m		HUAWEI	github	通用
NEZHA-Gen		Yuefu (乐府)	Google Drive 百度网盘-ytim		HUAWEI	github

UniLM

2019 | Unified Language Model Pre-training for Natural Language Understanding and Generation | Li Dong, et al. | arXiv | PDF

模型	参数大小	语料大小	TensorFlow	PyTorch	作者	源地址	应用领域
Unilm		CLUE中的维基+新闻	百度网盘-tblr	百度网盘-etwf	YunwenTechnology	github	通用

lqfarmer/awesome-pretrained-chinese-nlp-models

Awesome Pretrained Chinese NLP Models

Expand Table of Contents

NLU系列

BERT

RoBERTa

ALBERT

NEZHA

MacBERT

XLNET

ELECTRA

ZEN

ERNIE

NLG系列

GPT

NEZHA-Gen

UniLM