Tokens especiais

Question

Tokens especiais

SamaraAlves opened this issue 5 years ago · 1 comments

Gostaríamos de incluir novas palavras ao corpus, mas 100 espaços ([unused]) não serão suficientes. Vocês acreditam que é possível substituir subwords com caracteres especiais do tipo 분 com esse nosso vocabulário específico? Uma vez que esses tipos de caracteres não fazem sentido para o nosso domínio.

Answer 1 · 2020-06-17T01:45:44.000Z

Olá Samara,
Acredito que seja possível sim substituir esses tokens de outras línguas sem problemas. Talvez possa ser interessante reinicializar o valor dos embeddings desses tokens, ou aleatóriamente ou seguindo alguma regra que leve em conta a grafia desses novos tokens (se não forem tokens especiais). Uma adaptação do BERT multilíngua para russo reportou que inicializar tokens novos com o valor médio dos embeddings das subwords das suas tokenizações fez o modelo convergir mais rápido no pré-treinamento.