在自然语言处理领域中,预训练语言模型(Pretrained Language Models)已成为非常重要的基础技术,本仓库主要收集目前网上公开的一些高质量中文预训练模型(感谢分享资源的大佬),并将持续更新......
注: 🤗huggingface模型下载地址: 1. 清华大学开源镜像 2. 官方地址
- 2018 | BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding | Jacob Devlin, et al. | arXiv |
PDF
- 2019 | Pre-Training with Whole Word Masking for Chinese BERT | Yiming Cui, et al. | arXiv |
PDF
模型 | 参数 |
语料 |
TensorFlow | PyTorch | 作者 | 源地址 | 应用 |
---|---|---|---|---|---|---|---|
BERT-Base | 110M | 中文维基 |
Google Drive | Google Research | github | 通用 | |
BERT-wwm | 110M | 中文维基 |
Google Drive | Yiming Cui | github | 通用 | |
BERT-wwm-ext | 110M | 通用语料 |
Google Drive | Yiming Cui | github | 通用 | |
bert-base-民事 | 2654万民事文书 | 阿里云 | THUNLP | github | 司法 | ||
bert-base-刑事 | 663万刑事文书 | 阿里云 | THUNLP | github | 司法 | ||
BAAI-JDAI-BERT | 42G电商客服对话数据 | 京东云 | JDAI | github | 电商客服对话 | ||
FinBERT | 400万金融领域数据 | Value Simplex | github | 金融科技领域 | |||
EduBERT | 2000万教育领域数据 | 好未来AI | tal-tech | tal-tech | github | 教育领域 | |
WoBERT | 30通用语料+医学专业词典 | 百度网盘-kim2 | natureLanguageQing | github | 医学领域 | ||
MC-BERT | Google Drive | Alibaba AI Research | github | 医学领域 | |||
guwenbert-base | 古代文献语料(词数1.7B) | Ethan | github | 古文领域 | |||
guwenbert-large | 古代文献语料(词数1.7B) | Ethan | github | 古文领域 |
备注:
[1] wwm全称为**Whole Word Masking **,一个完整的词的部分WordPiece子词被mask,则同属该词的其他部分也会被mask
[2] ext表示在更多数据集下训练
- 2019 | RoBERTa: A Robustly Optimized BERT Pretraining Approach | Yinhan Liu, et al. | arXiv |
PDF
模型 | 参数 |
语料 |
TensorFlow | PyTorch | 作者 | 源地址 | 应用 |
---|---|---|---|---|---|---|---|
RoBERTa-tiny-clue | 7.5M | 通用语料100G | Google Drive | 百度网盘-8qvb | CLUE | github | 通用 |
RoBERTa-tiny-pair | 7.5M | 通用语料100G | google drive | 百度网盘-8qvb | CLUE | github | 通用 |
RoBERTa-tiny3L768-clue | 38M | 通用语料100G | Google Drive | CLUE | github | 通用 | |
RoBERTa-tiny3L312-clue | <7.5M | 通用语料100G | google drive | 百度网盘-8qvb | CLUE | github | 通用 |
RoBERTa-large-pair | 290M | 通用语料100G | Google Drive | 百度网盘-8qvb | CLUE | github | 通用 |
RoBERTa-large-clue | 290M | 通用语料100G | google drive | 百度网盘-8qvb | CLUE | github | 通用 |
RBTL3 | 通用语料(词数5.4B) | Google Drive | Yiming Cui | github | 通用 | ||
RBTL4 | 通用语料(词数5.4B) | 讯飞云-e8dN | Yiming Cui | github | 通用 | ||
RBTL6 | 通用语料(词数5.4B) | 讯飞云-XNMA | Yiming Cui | github | 通用 | ||
RoBERTa-wwm-ext | 通用语料(词数5.4B) | Google Drive | Yiming Cui | github | 通用 | ||
RoBERTa-wwm-ext-large | 通用语料(词数5.4B) | Google Drive | Yiming Cui | github | 通用 | ||
RoBERTa-base | 通用语料30G | brightmart | github | 通用 | |||
RoBERTa-Large | 通用语料30G | Google Drive | brightmart | github | 通用 |
- 2019 | ALBERT: A Lite BERT For Self-Supervised Learning Of Language Representations | Zhenzhong Lan, et al. | arXiv |
PDF
模型 | 参数 |
语料 |
TensorFlow | PyTorch | 作者 | 源地址 | 应用 |
---|---|---|---|---|---|---|---|
Albert_tiny | 4M | 通用语料30G | Google Drive | Google Drive | brightmart | github | 通用 |
Albert_base_zh | 12M | 通用语料30G | Google Drive | Google Drive | brightmart | github | 通用 |
Albert_large_zh | 通用语料30G | Google Drive | Google Drive | brightmart | github | 通用 | |
Albert_xlarge_zh | 通用语料30G | Google Drive | Google Drive | brightmart | github | 通用 | |
Albert_base | 通用语料30G | Google Drive | Google Research | github | 通用 | ||
Albert_large | 通用语料30G | Google Drive | Google Research | github | 通用 | ||
Albert_xlarge | 通用语料30G | Google Drive | Google Research | github | 通用 | ||
Albert_xxlarge | 通用语料30G | Google Drive | Google Research | github | 通用 |
- 2019 | NEZHA: Neural Contextualized Representation for Chinese Language Understanding | Junqiu Wei, et al. | arXiv |
PDF
模型 | 参数 |
语料 |
TensorFlow | PyTorch | 作者 | 源地址 | 应用 |
---|---|---|---|---|---|---|---|
NEZHA-base | lonePatient | HUAWEI | github | 通用 | |||
NEZHA-base-WWM | lonePatient | HUAWEI | github | 通用 | |||
NEZHA-large | lonePatient | HUAWEI | github | 通用 | |||
NEZHA-large-WWM | lonePatient | HUAWEI | github | 通用 | |||
WoNEZHA | 30通用语料 |
百度网盘-qgkq | natureLanguageQing | github | 医学领域 |
- 2020 | Revisiting Pre-Trained Models for Chinese Natural Language Processing | Yiming Cui, et al. | arXiv |
PDF
模型 | 参数 |
语料 |
TensorFlow | PyTorch | 作者 | 源地址 | 应用 |
---|---|---|---|---|---|---|---|
MacBERT-base | 102M | 通用语料(词数5.4B) | Yiming Cui | github | 通用 | ||
MacBERT-large | 324M | 通用语料(词数5.4B) | Yiming Cui | github | 通用 |
- 2019 | XLNet: Generalized Autoregressive Pretraining for Language Understanding | Zhilin Yang, et al. | arXiv |
PDF
模型 | 参数 |
语料 |
TensorFlow | PyTorch | 作者 | 源地址 | 应用 |
---|---|---|---|---|---|---|---|
XLNet-base | 117M | 通用语料(词数5.4B) | Google Drive | Yiming Cui | github | 通用 | |
XLNet-mid | 209M | 通用语料(词数5.4B) | Google Drive | Yiming Cui | github | 通用 | |
XLNet_zh_Large | 百度网盘 | brightmart | github | 通用 |
- 2020 | ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators | Kevin Clark, et al. | arXiv |
PDF
模型 | 参数 |
语料 |
TensorFlow | PyTorch | 作者 | 源地址 | 应用 |
---|---|---|---|---|---|---|---|
ELECTRA-180g-large | Yiming Cui | github | 通用 | ||||
ELECTRA-180g-small-ex | Yiming Cui | github | 通用 | ||||
ELECTRA-180g-base | Yiming Cui | github | 通用 | ||||
ELECTRA-180g-small | Yiming Cui | github | 通用 | ||||
legal-ELECTRA-large | Yiming Cui | github | 司法领域 | ||||
legal-ELECTRA-base | Yiming Cui | github | 司法领域 | ||||
legal-ELECTRA-small | Yiming Cui | github | 司法领域 | ||||
ELECTRA-tiny | CLUE 10G Chinese Corpus | CLUE | github | 通用 |
- 2019 | ZEN: Pre-training Chinese Text Encoder Enhanced by N-gram Representations | Shizhe Diao, et al. | arXiv |
PDF
模型 | 参数 |
语料 |
TensorFlow | PyTorch | 作者 | 源地址 | 应用 |
---|---|---|---|---|---|---|---|
ZEN-Base | Sinovation Ventures AI Institute | github | 通用 |
-
2019 | ERNIE: Enhanced Representation through Knowledge Integration | Yu Sun, et al. | arXiv |
PDF
-
2020 | SKEP: Sentiment Knowledge Enhanced Pre-training for Sentiment Analysis | Hao Tian, et al. | arXiv |
PDF
模型 | 参数 |
语料 |
PaddlePaddle | PyTorch | 作者 | 源地址 | 应用 |
---|---|---|---|---|---|---|---|
ernie-1.0-base | link | PaddlePaddle | github | 通用 | |||
ernie_1.0_skep_large_ch | link | Baidu | github | 情感分析 |
备注:
[1] PaddlePaddle转TensorFlow可参考: tensorflow_ernie
[2] PaddlePaddle转PyTorch可参考: ERNIE-Pytorch
-
2019 | Improving Language Understandingby Generative Pre-Training | Alec Radford, et al. | arXiv |
PDF
-
2019 | Language Models are Unsupervised Multitask Learners | Alec Radford, et al. | arXiv |
PDF
模型 | 参数 |
语料 |
TensorFlow | PyTorch | 作者 | 源地址 | 应用 |
---|---|---|---|---|---|---|---|
GPT2 | 15亿 | 30G语料 | Caspar ZHANG | gpt2-ml | |||
GPT2 | 15亿 | 15G语料 | Caspar ZHANG | gpt2-ml | |||
CDial-GPTLCCC-base | 95.5M | LCCC-base | huggingface | thu-coai | CDial-GPT | ||
CDial-GPT2LCCC-base | 95.5M | LCCC-base | huggingface | thu-coai | CDial-GPT | ||
CDial-GPTLCCC-large | 95.5M | LCCC-large | huggingface | thu-coai | CDial-GPT | ||
GPT2-dialogue | 常见中文闲聊 | yangjianxin1 | GPT2-chitchat | ||||
GPT2-mmi | 50w中文闲聊语料 |
yangjianxin1 | GPT2-chitchat | ||||
GPT2-散文模型 | 130MB散文数据集 | Zeyao Du | GPT2-Chinese | ||||
GPT2-诗词模型 | 180MB古诗词数据集 | Zeyao Du | GPT2-Chinese | ||||
GPT2-对联模型 | 40MB对联数据集 | Zeyao Du | GPT2-Chinese |
模型 | 参数 |
语料 |
TensorFlow | PyTorch | 作者 | 源地址 | 应用 |
---|---|---|---|---|---|---|---|
NEZHA-Gen | 中文维基+新闻 | HUAWEI | github | 通用 | |||
NEZHA-Gen | Yuefu (乐府) | HUAWEI | github |
- 2019 | Unified Language Model Pre-training for Natural Language Understanding and Generation | Li Dong, et al. | arXiv |
PDF
模型 | 参数 |
语料 |
TensorFlow | PyTorch | 作者 | 源地址 | 应用 |
---|---|---|---|---|---|---|---|
Unilm | CLUE中的维基+新闻 | 百度网盘-tblr | 百度网盘-etwf | YunwenTechnology | github | 通用 |