/corretor-ortografico-em-python

O que aprendi no 8º curso da formação: Python para Data Science (Alura)

Primary LanguageJupyter Notebook

corretor-ortografico-em-python

Badge em Desenvolvimento

Badge code size

🪧 Vitrine.Dev
✨ Nome Corretor Ortográfico em Python
🏷️ Tecnologias python
🚀 URL Notebook no Kaggle
🔥 Desafio Conteúdo do curso Corretor Ortográfico em Python

Sobre o curso 📚

Neste curso, do instrutor Thiago Santos, tive meu primeiro contato com os conceitos fundamentais de NLP (processamento de linguagem natural) para criar um corretor de palavras, parecido com o temos no smartphone e sites de pesquisa.

O foco do curso era criar um modelo capaz de corrigir os diversos tipos de erro de digitação, por exemplo além da palavra com ortografia incorreta, também pode ocorrer erro ao esbarrar acidentalmente na letra do lado, acabar trocando a ordem de algumas letras ou esquecer de digitar alguma. Para cada tipo de erro foi criado uma função que fatia cada letra da palavra e efetuava a inserção, troca, inversão de ordem, delete de caracteres e, ao final, verificar se alguma palavra gerada nas funções consta no corpus, a base de dados composta por 18.464 termos únicos.

image image

E para verificar o desempenho do modelo, importamos mais um arquivo com 186 palavras, escrita da maneira correta e depois com algum erro. Uma nova função foi criada para ler a grafia incorreta, passar pelas funções de correção e comparar com a palavra escrita de maneira correta. Ao final do curso, chegamos a um modelo com 76,34% de taxa de acerto.

Minha prática 👩🏻‍💻

Para minha base de dados, usei um dataset disponível no Kaggle, o 14 million word corpus. Mesmo com essa quantidade absurda de palavras, meu modelo teve um desempenho menor do que o que foi desenvolvido no curso. Enquanto o modelo do instrutor foi avaliado com mais de 70% de acerto, o meu atingiu no máximo 64,54%.

image

Conclusão 🏁

Mesmo sendo algo recorrente no nosso cotidiano, eu nunca havia parado para pensar no que há por trás dos corretores ou como foram desenvolvidos. Este foi um dos projetos mais desafiadores, até o momento, e apesar da complexidade, eu gostei de conhecer sobre processamento de linguagem natural e de ver outras áreas de aplicação para inteligência artificial.

Muito obrigada por chegar até aqui e até a próxima 🤗

Ferramentas utilizadas 🧰

python nltk