linwhitehat/ET-BERT

为什么采用bi-gram的形式,而不用tri-gram的形式

Closed this issue · 1 comments

即原始流量为 e8 e7 32 3c ... 的情况下为什么要表示为 e8e7 e732 323c 3c65 ...,又为什么不表示为“e8e732 e7323c...”的形式

这部分考虑的还是输入的信息量以及流量传输单元规模的关系,同时还要考虑预训练过程中可接受输入的数据规模。