Dialog-PrLM: A Python repository from xyease

Our code is based on the Transformers repo: https://github.com/huggingface/transformers/ Version 3.4.0

Dialogue-oriented pre-training on Wikipedia

Our data sampling code is in examples/data_sampling

Firstly, Please download datasets to directory "mydata"

English https://dumps.wikimedia.org/enwiki/latest/enwiki-latest-pages-articles.xml.bz2

Chinese https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2
Sampling code

MyProcess_wiki.py/zhMyProcess_wiki.py are to generate articles from raw English/Chinese Wikipedia dataset.

zhwiki_tradition2simplify.py is to convert traditional Chinese into simplified version.

data_sampling_3.py/zh_data_sampling_3.py is to sample from each article for three tasks.

gather_wikipretrain_data.py is to gather samples from each article to generate final pre-trainig datasets of the three tasks.
Our pre-training datasets are uploaded to https://drive.google.com/drive/folders/1v8HYbE6A28GWT19lk6pC4xi0cgFraxc_?usp=sharing

Our pre-training code for English/Chinese & BERT/ELECTRA is in examples/wiki_pretrain

Please download pre-trainig datasets to wikipretrain_v3, then you can directly run

python run_bert_wikipretrain_sptoken_sot_3.py

After pre-training, Dialog-BERT model will be saved in --output_dir.
Our pre-trained Dialog-PrLM models are uploaded to https://drive.google.com/drive/folders/1wGRQMjMXzhKEWqx1-Q_pCB746YglxMPX?usp=sharing, where

Dialog-BERT(en) is in "wikipretrain_v3"; Dialog-BERT(zh) is in "zh_wikipretrain_v3"; Dialog-ELECTRA(en) is in "electra_base_wikipretrain_v3"; Dialog-ELECTRA(zh) is in "electra_base_zh_wikipretrain_v3"

Please download datasets to the corresponding directory under "mydata"

If you use this code please cite our paper:

@article{xu2021dialogue,
  title={Dialogue-oriented Pre-training},
  author={Xu, Yi and Zhao, Hai},
  journal={ACL2021 Findings},
  year={2021}
}