Este proyecto utiliza modelos preentrenados con redes convolucionales y el almacenamiento de Quick Draw de Google para clasificar imágenes de personajes y lugares. Además, genera una historia corta con Gemini AI de Google utilizando una API Key que debe ser configurada en el archivo text_generation.py
.
- Descripción
- Requisitos
- Instalación
- Entrenamiento
- Generación de Imágenes
- Generación de Texto
- Referencias
- Ejemplos
Este proyecto emplea redes convolucionales para entrenar modelos con mapas de bits .npy
de personajes y lugares provenientes de Quick Draw de Google. Los modelos ayudan a clasificar las imágenes y se integran con Gemini AI de Google para la generación de texto.
CLASSES_PERSONAJES = {
0: "oso",
1: "serpiente",
2: "leon",
3: "raton",
4: "cerdo",
5: "pinguino",
6: "conejo",
7: "cabra",
8: "perro",
9: "ardilla"
}
CLASSES_LUGARES = {
0: "arbol",
1: "avion",
2: "casa",
3: "submarino",
4: "torre-eiffel",
5: "tren"
}
- Python 3.12.1
- Keras
- Tkinter
- Una cuenta de Google Cloud con acceso a Gemini AI y una API Key válida
Los modelos fueron entrenados en Google Colab. Puedes ver y ejecutar el notebook de entrenamiento aquí.
Para generar imágenes, se utilizan los modelos entrenados que se guardan en un archivo .h5
.
Para generar texto, se utiliza la API de Gemini AI de Google. Debes modificar la API Key en el archivo text_generation.py
.
- Abre
text_generation.py
y edita la línea:GOOGLE_API_KEY = "TU_API_KEY"