Tokens especiais
SamaraAlves opened this issue · 1 comments
Gostaríamos de incluir novas palavras ao corpus, mas 100 espaços ([unused]) não serão suficientes. Vocês acreditam que é possível substituir subwords com caracteres especiais do tipo 분 com esse nosso vocabulário específico? Uma vez que esses tipos de caracteres não fazem sentido para o nosso domínio.
Olá Samara,
Acredito que seja possível sim substituir esses tokens de outras línguas sem problemas. Talvez possa ser interessante reinicializar o valor dos embeddings desses tokens, ou aleatóriamente ou seguindo alguma regra que leve em conta a grafia desses novos tokens (se não forem tokens especiais). Uma adaptação do BERT multilíngua para russo reportou que inicializar tokens novos com o valor médio dos embeddings das subwords das suas tokenizações fez o modelo convergir mais rápido no pré-treinamento.