/corpus-es

Lista de corpus de PLN en español ✨ #Somos600M: Ayuda a desarrollar IA inclusiva que entienda las diferentes variedades de nuestras lenguas ✨ English-speaking contributors welcome!

Primary LanguagePython

🔥 Open-source corpus ES: https://somosnlp.org/recursos/datasets 🔥


[English below]

📚 Corpus de PLN en español

Queremos modelos que entiendan y hablen el español de las 600M personas hispanohablantes. ¿Nos ayudas?

Estamos recolectando datasets de diferentes países, registros y dominios. ¡Cuantas más variedades de la lengua, mejor! También son válidos datasets de audio e imágenes, así como datasets de idiomas cercanos al español (e.g., catalán, quechua).

Puedes colaborar aportando un enlace a un dataset ya existente, traduciendo uno del inglés o creando uno tú. ¡Toda la ayuda es bienvenida! 🚀

➡️ Lee la guía de contribución, elige un issue, ¡y a por ello!

Si tienes cualquier duda estamos a tu disposición en Discord.

¡Muchas gracias por apoyarnos en nuestra misión de democratizar el PLN en español!

📚 NLP Corpus in Spanish

We want AI models to understand and speak Spanish as the 600M Spanish speakers in the world. Are you ready to help us?

We are collecting datasets from different countries, registers, and domains. The more varieties of the language, the better! Datasets of audio and images are also welcome, as well as datasets of languages close to Spanish (e.g., Catalan, Quechua).

You can contribute by providing a link to an existing dataset, translating one from English, or creating one yourself. All help is welcome! 🚀

➡️ Read the contribution guide, choose an issue, and go for it!

If you have any questions, we are at your disposal on Discord.

Thank you for supporting us in our mission to democratize NLP in Spanish!