/English-Text-Evaluation

Este es un proyecto de Data Science en el que aplicaremos: NLP + Clasificación + Streamlit

Primary LanguagePython

Evaluación de textos en inglés

streamlit-app_02

Resumen:

El objetivo de este proyecto es evaluar la calidad lingüística de textos en inglés. Utilizaremos un conjunto de datos de ensayos escritos por estudiantes y sus correspondientes evaluaciones para desarrollar una herramienta que sirva de apoyo a cualquier persona que pretenda mejorar su competencia en lengua inglesa.

El conjunto de datos comprende ensayos argumentativos escritos por estudiantes de inglés. Los ensayos se han puntuado según seis medidas analíticas: cohesión, sintaxis, vocabulario, fraseología, gramática y convenciones. Cada medida representa un componente de la competencia en la redacción de ensayos, y las puntuaciones más altas corresponden a una mayor competencia en esa medida. Las puntuaciones van de 1,0 a 5,0 en incrementos de 0,5. Utilizando estos datos, entrenaremos un modelo que predecirá la puntuación de cada una de las seis medidas para los textos introducidos en la herramienta. Para ello divideremos los datos en datos de entrenamiento y datos de prueba.

Los datos con los que hemos trabajado los encontramos aquí.

Paso 1: Carga y procesamiento de los datos

Procesaremos y corregiremos los textos originales de manera que resulte más fácil su interpretación y, al mismo tiempo, crearemos nuevos atributos que midan la cantidad de errores, ampliando así la cantidad de variables totales del modelo.

Paso 2: Procesamiento del lenguaje natural (NLP)

Una vez hemos limpiado y corregido el texto, nos interesa evaluar la polaridad y la subjetividad. Añadiremos estos atributos a los datos.

Paso 3: Clasificación

Llevaremos a cabo la clasificación supervisada de los datos. Para ello utilizamos previamente los datos de entrenamiento para entrenar el modelo, que luego aplicaremos sobre los datos de prueba. Estudiaremos diferentes métodos de clasificación y buscaremos los valores óptimos de los parámetros.

Paso 4: Evaluación de los resultados

Tras la evaluación de los distintos métodos, nos centraremos en el que mejor resultados nos aporta para nuestro fin. Escogimos utilizar Logistic Regression por es el que nos devuelve los resultados de la clasificación lo más similares a nuestros datos de prueba.

Paso 6: Integración

Una vez que tenemos el modelo listo, lo integraremos con Streamlit Share y lo probaremos sobre nuevos datos.

streamlit-app_gif

Puedes utilizar nuestra app de corrector de textos en el siguiente enlace.

Esperamos que la disfrutes!! 😄

Autores:

Marta Búa Fernández ➡️ Ir al perfil de LinkedIn

Laura Arufe Jorge ➡️ Ir al perfil de LinkedIn