Este proyecto consiste en la construcción de un sistema de recuperación de información que puede manipular documentos de diferentes formatos provenientes de un repositorio de información. La aplicación utiliza herramientas como Lucene y Tika para indexar y extraer información de los documentos. Los resultados de las búsquedas se organizan por grupos de documentos afines utilizando los algoritmos de agrupamiento K-means, Fuzzy C-Means y Linkage.
- Indexación de documentos: Utiliza Apache Lucene para indexar documentos de diversos formatos.
- Extracción de contenido: Usa Apache Tika para extraer texto y metadatos de los documentos.
- Búsqueda de información: Permite realizar búsquedas en el índice creado por Lucene.
- Agrupamiento de documentos: Organiza los resultados de las búsquedas en grupos afines utilizando algoritmos de agrupamiento.
- Java: Lenguaje de programación principal del proyecto.
- Apache Lucene: Biblioteca de búsqueda de texto.
- Apache Tika: Biblioteca para la detección y extracción de contenido de documentos.
- K-means, Fuzzy C-Means, Linkage: Algoritmos de agrupamiento implementados para organizar los resultados.
- JDK 8 o superior
- Git
- Clona el repositorio:
git clone https://github.com/AidaRosaCalvo/info-retrieval-system.git cd info-retrieval-system
-
Ejecuta la aplicación.
-
Ingresa los documentos que deseas indexar en el repositorio configurado.
-
Realiza búsquedas y observa cómo se organizan los resultados en grupos afines.
Las contribuciones son bienvenidas. Si deseas contribuir, por favor sigue los siguientes pasos:
- Haz un fork del repositorio.
- Crea una rama para tu característica (
git checkout -b feature/nueva-caracteristica
). - Realiza tus cambios (
git commit -m 'Añadir nueva característica'
). - Sube tus cambios a tu fork (
git push origin feature/nueva-caracteristica
). - Abre un pull request.