/GPT3-en-espannol

🧠 Aquí mostramos como al escalar el tamaño del modelo mejora en gran medida el rendimiento el perfomance de pocos intentos o few shots, a veces incluso alcanzando niveles de competitividad con enfoques anteriores de vanguardia con fine tuning. Específicamente, entrenamos GPT-3, un modelo de lenguaje con 175 mil millones de parámetros, 10 veces más que cualquier modelo non-sparse anterior, y probamos su rendimiento en la configuración few shots.

Indice de Contenidos

  1. Introducción
  2. Enfoque
    1. Modelo y arquitecturas
    2. Datasets de entrenamiento
    3. Proceso de entrenamiento
    4. Evaluación
  3. Resultados
    1. Modelado de lenguaje, Cloze y finalización de tareas
    2. Preguntas y respuestas a libro cerrado
    3. Traducción
    4. Tareas de Winograd-style
    5. Razonamiento de sentido común
    6. Comprensión lectora
    7. SuperGLUE
    8. NLI
    9. Tareas sintéticas y tareas cualitativas
  4. Midiendo y preveniniendo la memorización de benchmarks
  5. Limitaciones
  6. Gran impacto
    1. Uso indebido de modelos de lenguaje
    2. Justicia, parcialidad (sesgo) y representación
    3. Uso de energía
  7. Trabajo relacionado
  8. Conclusión

Resumen

Trabajos recientes han demostrado grandes avances en tareas de procesamiento de lenguaje natural (PLN ó NLP en inglés) y en muchas comparativas (benchmarks) y mediante el pre-entrenamiento sobre un gran corpus de texto, seguido de fine-tuning sobre una tarea específica.

Si bien la arquitectura es agnostica o independiente de la tarea, este método aún requiere fine-tuning sobre datasets de miles o decenas de miles de ejemplos. En contraste, los humanos pueden realizar una tarea nueva de lenguaje a partir de solo algunos ejemplos o instrucciones simples, -- algo que los sistemas de PNL actuales todavía tienen muchas dificultades para hacer --. Aquí mostramos que al escalar el tamaño del modelo se obtiene una gran mejora en el rendimiento en la modalidad de pocos intentos (few shots), a veces alcanzando incluso niveles de competitividad con enfoques anteriores de vanguardia. Específicamente, entrenamos GPT-3, un modelo de lenguaje autoregresivo (transformer) con 175 mil millones de parámetros, 10 veces más que cualquier modelo anterior no disperso (non-sparse), y probamos su rendimiento en la configuración few shots.

Para todas las tareas, se aplica GPT-3 sin ajuste del gradiente o fine tunning demostrando la interacción del texto con el modelo. GPT-3 alcanza un alto rendimiento en diferentes datasets de NLP, incluyendo tareas de traducción, responder preguntas, así como varias tareas que requieren razonamiento sobre la marcha o adaptación de dominio, tales como descifrar palabras, usar una palabra nueva en una oración, o realizar aritmética de 3 dígitos.

Al mismo tiempo, también identificamos algunos datasets donde el aprendizaje de few shots de GPT-3 todavía tiene dificultades, así como algunos datasets donde GPT-3 enfrenta problemas metodológicos relacionados con el entrenamiento basado en corpora de la web GPT3 envenena GPT3.

Finalmente, encontramos que GPT-3 puede generar muestras de artículos de noticias dificiles de distinguir por evaluadores humanos. Discutimos ademas los impactos sociales más amplios de este hallazgo y de GPT-3 en general.

@article{brown2020language, title={Language Models are Few-Shot Learners}, author={Tom B. Brown and Benjamin Mann and Nick Ryder and Melanie Subbiah and Jared Kaplan and Prafulla Dhariwal and Arvind Neelakantan and Pranav Shyam and Girish Sastry and Amanda Askell and Sandhini Agarwal and Ariel Herbert-Voss and Gretchen Krueger and Tom Henighan and Rewon Child and Aditya Ramesh and Daniel M. Ziegler and Jeffrey Wu and Clemens Winter and Christopher Hesse and Mark Chen and Eric Sigler and Mateusz Litwin and Scott Gray and Benjamin Chess and Jack Clark and Christopher Berner and Sam McCandlish and Alec Radford and Ilya Sutskever and Dario Amodei}, year={2020}, eprint={2005.14165}, archivePrefix={arXiv}, primaryClass={cs.CL} }