NLPScott/bert-Chinese-classification-task

Max_sequence_length

cloudfool opened this issue · 5 comments

Hi,
我想问下 max_sequence_length = 256 在中文里是不是指 256个词?也就是每个样本最多能读入接近500~600个字?

Tks

hi,这里是词汇个数,如果长度大于256,那么进行截取,如果不够,进行pad

也就是说 它会先对输入样本进行中文分词,然后取前256个词?

是的

Tks

对于文章来说,这样截取是不是不够表达文本含义啊