por Andrés M. Coneo Pretelt.
Este repositorio se crea como parte de la entrega ME03 de Seminario de Investigación en el programa de Especialización en Analítica y Ciencia de Datos de la Universidad de Antioquia (Medellín, Colombia). Dentro de los objetivos de este proyecto es aplicar técnicas de Deep Learning para optimizar la detección temprana del cáncer de mama. Este proyecto es una exploración amplia de la relación entre la imagen médica y la biología del cáncer de mama. Se basa en estudios recientes que han demostrado que los fenotipos de imagen pueden proporcionar información valiosa sobre las características moleculares y genómicas de los tumores de forma temprana. Este proyecto se centra en un análisis amplio y multidisciplinario de esta relación, basado en un conjunto de datos de resonancia magnética de mama y anotaciones medicas de cada caso, tomados desde el 1 de enero de 2000 hasta el 23 de marzo de 2014, que contiene 922 pacientes con cáncer de mama invasivo y resonancia magnética preoperatoria reunidas en el Hospital Duke (Durham, NC, USA)
Siguiendo la línea de investigación de este estudio, se utilizará una muestra del conjunto de datos de resonancias magnéticas para entrenar modelos de Machine Learning, con el objetivo de mejorar la precisión en la identificación de tumores de mama y, al mismo tiempo, comprender mejor las relaciones entre los fenotipos de imagen y las características moleculares y genómicas de los tumores conocidas de segun los casos. A través de la aplicación de algoritmos de aprendizaje profundo, este proyecto busca contribuir al avance de la detección temprana del cáncer de mama y al entendimiento de sus implicaciones moleculares.
Para garantizar que nuestra muestra de datos sea representativa y que nuestros modelos de Machine Learning sean efectivos, se utilizará el estadístico Z para calcular el tamaño de muestra necesario. El estadístico Z nos permitirá determinar el tamaño óptimo de la muestra, teniendo en cuenta la población de 922 pacientes en nuestro conjunto de datos de resonancias magnéticas. Al configurar el nivel de confianza y el margen de error deseado, podremos determinar cuántas observaciones son necesarias para obtener resultados sólidos en nuestro análisis.
Para calcular el tamaño de muestra necesario usare una fórmula común para el cálculo del tamaño de muestra en una población finita, es la siguiente:
Donde:
-
$n$ =$(?)$ numero de imagenes para la muestra. -
$N$ =$(773888)$ total de imagenes. -
$Z$ =$1.96$ valor de la distribución normal estándar correspondiente a un nivel de confianza del$95$ %. -
$p$ =$0.5$ asumiendo que la proporción es igualmente probable de ser alta o baja dentro de la población. -
$E$ =$0.05$ es el margen de error que deseas permitir en la estimación.
Obtuve entonces un
Para trabajar las imagenes inicialmente tendremos que trabajar con una muestra del dataset de 384 imagenes, lo que implica una muestra con una confianza del 95%. Sin embargo para este punto nos enfocaremos en las caracteristicas clinicas y otras anotacion de interes de todos los pacientes en el estudio (922), al igual que de las caracteristicas de las imagenes del dataset completo, esta informacion estara disponible dentro del repositorio en formato .xlsx.
Descripción de la Fuente de Datos para el Conjunto de Datos de Resonancia Magnética de Mama
-
Visión General del Conjunto de Datos:
- Modalidades: Imágenes por Resonancia Magnética (MR), Segmentación (SEG).
- Número de Participantes: 922.
- Número de Estudios: 922.
- Número de Series: 5,161.
- Número de Imágenes: 773,888.
- Tamaño de Imágenes (GB): 368.4.
-
Población:
- El conjunto de datos incluye 922 pacientes diagnosticadas con cáncer de mama invasivo.
- Datos recopilados en el Hospital Duke desde el 1 de enero de 2000 hasta el 23 de marzo de 2014.
- Los pacientes deben haber tenido una resonancia magnética preoperatoria en el Hospital Duke.
-
Procedimiento de Anotación Radiologica:
- La anotación se llevó a cabo en dos fases:
- Fase 1: 271 pacientes anotadas por un panel de 6 radiólogos.
- Fase 2: 651 pacientes anotadas por un panel de 4 radiólogos.
- Las anotaciones fueron realizadas por 8 radiólogos utilizando una interfaz gráfica en MATLAB.
- La anotación incluyó tres secuencias de resonancia magnética: pre-contraste, primer post-contraste y sustracción.
- La anotación se llevó a cabo en dos fases:
-
Datos Demográficos, Clínicos, Patológicos, Genómicos, Tratamiento, Resultados y Otros:
- Los datos clínicos detallados están disponibles aquí bajo "Acceso a Datos" usando el elemento "Tipo de Datos" "Características Clínicas y Otros" en su version original, al igual que anidados en la carpeta data.
- Los datos incluyen información demográfica, características del tumor, hallazgos de la resonancia magnética, detalles de la cirugía, terapia de radiación, respuesta del tumor, recurrencia y seguimiento.
-
Información Técnica de Resonancia Magnética (MRI):
- Los detalles técnicos están disponibles aquí bajo "Acceso a Datos" usando el elemento "Tipo de Datos" "Características de Imágenes" en su version original, al igual que anidados en la carpeta data.
- La información incluye desde el diagnóstico hasta la fecha de la MRI, detalles del fabricante, opciones de escaneo, intensidad del campo y más.
-
Características de Imágenes:
- Las características se extrajeron previamente de tumores y tejido fibroglandular (FGT) utilizando secuencias T1.
- Las características se categorizan en varios grupos, incluyendo volumen, tamaño, morfología, realce y heterogeneidad.
-
Características para Analizar:
- Se tienen una serie de características que se pueden evaluar:
- Evaluación de la variabilidad de las características debido a cambios en el protocolo de resonancia magnética.
- Evaluación de la estabilidad entre lectores con un subconjunto de 50 pacientes.
- Validación para predecir subtipo tumoral, estado de receptor y estado de Ki-67.
- Validación para predecir niveles de puntuación de recurrencia de Oncotype DX.
- Validación para predecir respuesta completa a la terapia neoadyuvante (pCR).
- Validación de características asociadas con la supervivencia libre de recurrencia a distancia.
- Se tienen una serie de características que se pueden evaluar:
-
Publicaciones existentes basadas en el dataset:
- Los hallazgos relevantes se informan en documentos científicos, accesibles a través de los enlaces relacionados en Referencias.
Referencias:
Esta base de datos integral proporciona un recurso rico para investigar las características del cáncer de mama y los resultados del tratamiento mediante un análisis avanzado de resonancia magnética.
Para replicar los pasos que describire seguidamente, es necesario tener en cuenta que requiere algunas herramientas las cuales son:
-
Cuenta en Goggle Colab activa o algun entorno de escritorio que permita la ejecucion de codigo
python
,Jupyter-Notebook
y algunas librerias que describo a continuacion: -
Las librerias que se requieren tener instaladas son
pydicom
scikit-fuzzy
, se importan librerias comunes tambien como import os importpandas
,pydicom
,matplotlib.pyplot
,seaborn
,segmentation
from skimage,BytesIO
from io,Image
from PIL,numpy
,requests
,skfuzzy
, en caso de que le falte instalar una, instalela usando!pip install -U [nombre-del-paquete]
.
Para utilizar eficazmente este repositorio y replicar el estudio en otro entorno, se proporciona la siguiente guía:
- Clonación del Repositorio:
- Clone este repositorio en su entorno local utilizando el comando:
git clone <URL_del_Repositorio>
- Esto asegurará que tenga acceso a todos los archivos y datos necesarios.
- Clone este repositorio en su entorno local utilizando el comando:
Este repositorio no se encuentra publico, por lo que solo los usuarios invitados tendran la facultad de acceso.
-
Entorno de Trabajo en Colab:
- Para replicar el estudio en un entorno de Google Colab, abra el cuaderno Colab suministrado ("Pre-procesamientoME03.ipynb") desde el repositorio clonado.
-
Configuración del Entorno:
- Asegúrese de tener acceso a todas las bibliotecas y dependencias necesarias. Esto puede requerir la instalación de bibliotecas específicas utilizando los comandos
pip install
en las celdas del cuaderno.
- Asegúrese de tener acceso a todas las bibliotecas y dependencias necesarias. Esto puede requerir la instalación de bibliotecas específicas utilizando los comandos
-
Acceso a los Datos:
- Utilice los enlaces proporcionados en el cuaderno para acceder a los conjuntos de datos requeridos. Esto incluye datos clínicos, imágenes de resonancia magnética y características de imágenes. Profesor David V. tenga en cuenta que en esta ocasion me enfoque en los datos clinicos y caracteristicas de las imagenes, y no en si en las imagenes, por que el procesamiento de las mismas me tocaria mucho mas tiempo para la entrega ME03.
-
Ejecución del Código:
- Siga las celdas del cuaderno secuencialmente para ejecutar el código. Asegúrese de seguir cualquier instrucción específica proporcionada en los comentarios del código.
El análisis preliminar de datos realizado presenta limitaciones importantes que requieren consideración. La imputación de valores nulos mediante la mediana puede introducir sesgos, especialmente en casos de distribuciones significativas de datos faltantes. Además, las decisiones sobre la imputación de columnas pueden influir en la integridad del conjunto de datos resultante. Estas limitaciones subrayan la importancia de completar el trabajo y buscar diversas alternativas para poder evaluar y validar las hipotesis del trabajpo, seria ideal ampliar la idea y lograr correlacionar de manera efectiva y acertada todas las variables disponibles.
Gracias!