Impacto de la Dependencia de Datos en Modelos de Fine-Tuning para la anonimización de textos de ciencias de la vida
Trabajo de presentación para el curso "Minería de Datos para Textos" (Text Mining).
Profesores: Alemany Laura Alonso, Bordone Carranza Matias Eduardo, Teruel Milagros
Alumnos: Brunello Florencia, Storino Julieta Paola, Troiano Santiago
- Introducción
- Motivación
- Objetivos
- Trabajos Previos: Campaña MEDDOCAN
- Modelos a evaluar
- Conjunto de datos
- Ejecución de los modelos
- Análisis y comparación de los resultados
- Conclusiones
- Referencias
El texto (lenguaje natural) es el camino más natural para codificar el conocimiento humano. Como resultado, la mayor parte del conocimiento humano se codifica en forma de datos de texto. Por ejemplo, el conocimiento científico existe casi exclusivamente en la literatura científica, mientras que los manuales técnicos contienen explicaciones detalladas sobre cómo operar los dispositivos. El texto es, con diferencia, el tipo de información más común con el que se encuentran las personas. De hecho, la mayor parte de la información que una persona produce y consume a diario está en forma de texto. [ChengXiang Zhai & Sean Masung 2016]
En el ámbito del cuidado de la salud se genera una gran cantidad de datos valiosos para la detección y caracterización de enfermedades. El acceso a estos datos se ha facilitado gracias a la digitalización del sistema de salud, permitiendo el procesamiento de grandes cantidades de datos (big data), mediante técnicas como el procesamiento del lenguaje natural (NLP) y el aprendizaje automático (ML), que permite analizar información sobre la salud de las poblaciones y descubrir factores sociales que influyen en los resultados de salud. Sin embargo, estos textos médicos están compuestos, en gran medida, por datos relativos al paciente y requieren un manejo cuidadoso para evitar la identificación de las personas, ya que pueden aludir a información que históricamente ha dado lugar a diversos tipos de discriminación.
Esto plantea retos en cuanto a la protección de la privacidad de los datos de los pacientes, en la cual resalta el delicado equilibrio entre la utilidad de los datos y la privacidad, ya que, se pueden anonimizar datos hasta un punto en que no brinden información beneficiosa, volviéndose inútil o, por lo contrario, se puede tener datos que brinden información sustancial para ser vinculados a las personas a las que refieren. Por estas razones, investigadores de todo el mundo han desarrollado técnicas y algoritmos avanzados para anonimizar datos, permitiendo su uso para los fines solicitados mientras se mantiene el anonimato del paciente. Lo que nos lleva a la necesidad de evaluar la eficacia de estos algoritmos y técnicas de anonimización de datos, con el objetivo de identificar áreas de mejora y diseñar estrategias para optimizar su rendimiento.
El presente informe tiene como objetivo principal comparar la dependencia de datos presente en diferentes aproximaciones para la anonimización de textos médicos en español. Para ello, se establecen los siguientes objetivos específicos:
- Evaluar el rendimiento de modelos ya existentes: los datos usados para el desarrollo, entrenamiento y validación de los modelos de anonimización de textos médicos en español provienen de una fuente específica, desarrollados por un equipo en particular, con una estructura y contenido bien definidos, lo que puede afectar su rendimiento en contextos diferentes de la vida real, porque un problema común en el aprendizaje automático es que los modelos no generalizan bien a datos que no han visto antes (overfitting). Por ello, buscamos conocer su verdadera eficacia en la tarea de anonimización de textos, donde la notación de textos médicos pueden variar en su estructura y contenido, analizando la eficacia de los modelos seleccionados con datos que no fueron utilizados en su entrenamiento.
- Comparar el rendimiento de los modelos: buscaremos determinar en qué aspectos los modelos se destacan o presentan deficiencias al realizar la tarea de anonimización en el conjunto de datos.
- Fomentar la colaboración interdisciplinaria: el trabajo será en parte guiado por las críticas de nuestros compañeros, por lo que habrá un intercambio de conocimientos dado por la colaboración entre los diferentes equipos.
Este trabajo se centra en la campaña "Medical Document Anonymization (MEDDOCAN)" desarrollada por el Plan de Impulso de las Tecnologías del Lenguaje del Gobierno de España. Donde se propuso la tarea de anonimización de textos médicos en español, con el objetivo de desarrollar y evaluar la eficacia de modelos de aprendizaje automático para la identificación y desidentificación de información de salud protegida (PHI) en textos médicos en español. La campaña se llevó a cabo en el marco de la conferencia internacional IberLEF 2021, que se celebró en línea en septiembre de 2021.
En el marco de esta campaña, se creó un corpus sintético de 1000 registros clínicos con información de salud protegida (PHI, por sus siglas en inglés), denominado Corpus MEDDOCAN. Este corpus se distribuyó en texto plano con codificación UTF-8, donde cada caso clínico se almacena como un único archivo de texto y las anotaciones PHI se publican en formato BRAT e i2b2 para su visualización y evaluación.
Datos del paciente.
Nombre: Pedro.
Apellidos: De Miguel Rivera.
NHC: 2569870.
Domicilio: Calle Carmen Romero, 23, 1D.
Localidad/ Provincia: Madrid.
CP: 28035.
Datos asistenciales.
Fecha de nacimiento: 10/10/1963.
País: España.
Edad: 53 años Sexo: H.
Fecha de Ingreso: 17/06/2016.
Médico: Estefanía Romero Selas NºCol: 28 28 20943.
Informe clínico del paciente: varón de 53 años sin antecedentes de interés que ingresa procedente de urgencias con un cuadro de tromboembolismo pulmonar.
Ante la sospecha de neoplasia oculta y la presencia de hematuria no evidenciada previamente se procede a la realización de Ecografía abdominal donde se evidencia una masa renal derecha y se completa el estudio con TAC y RM..
Ambos estudios confirman la presencia de una tumoración heterogénea que infiltra los dos tercios inferiores del riñón derecho de aproximadamente 10x10 cms. con afectación del seno e hilio renal objetivándose también trombosis tumoral de la vena renal derecha y cava infrahepática. No se evidenciaban adenopatías ni metástasis.
Es intervenido quirúrgicamente realizándosele por vía anterior, una nefrectomía radical con cavotomía para la exéresis del trombo y una extensa linfadenectomía aorto-cava derecha.
El resultado anatomo-patológico fue de carcinoma de células renales claras grado 2 de Fuhrman de 9 cm. con invasión de hilio renal, grasa perinéfrica y vena renal, sin afectación metastásica de ganglios ni de los bordes de dicha grasa ni del hilio, así como uréter libres. (Estadio III, T3N0M0). El paciente fue dado de alta hospitalaria al sexto día.
A los 3 meses de la intervención el paciente refiere leve dolor e induración en el pene de reciente aparición. A la palpación se objetiva una masa indurada.
Se le realiza RM de pelvis que nos informa de la existencia de una masa que ocupa y expande el cuerpo cavernoso izquierdo, compatible con metástasis de carcinoma renal previo..
Se toma biopsia de dicha lesión, cuyo resultado nos confirma la sospecha evidenciándose en los cortes histológicos nidos aislados de células tumorales compatibles con metástasis de carcinoma de células claras.
Ante este diagnóstico, nos planteamos cuál sería la mejor actitud terapéutica para el paciente, y tuvimos en cuenta para ello, el incremento progresivo del dolor local, la edad del paciente y su buen estado general. Por ello, se optó por una penectomía total hasta confirmar intraoperatoriamente un borde quirúrgico libre de enfermedad.
Una semana después del alta ingresa en el servicio de Oncología con un cuadro de obnubilación y alteración motora y sensitiva, y presenta en el TC craneal lesiones en cerebelo y hemisferio cerebral derecho compatible con metástasis. Se realiza un TC torácico y aparecen también múltiples nódulos pulmonares y microadenopatías paratraqueales bilaterales en relación con metástasis.
El paciente fallece a los nueve meses de la primera intervención de su carcinoma renal, es decir seis meses después del diagnóstico de las metástasis en pene.
Remitido por: Dra. Estefanía Romero Selas. Email: eromeroselas@yahoo.es
T1 CORREO_ELECTRONICO 3042 3063 eromeroselas@yahoo.es
T2 SEXO_SUJETO_ASISTENCIA 363 368 varón
T3 EDAD_SUJETO_ASISTENCIA 372 379 53 años
T4 ID_TITULACION_PERSONAL_SANITARIO 320 331 28 28 20943
T5 NOMBRE_PERSONAL_SANITARIO 3011 3033 Estefanía Romero Selas
T6 NOMBRE_PERSONAL_SANITARIO 289 311 Estefanía Romero Selas
T7 FECHAS 269 279 17/06/2016
T8 PAIS 220 226 España
T9 SEXO_SUJETO_ASISTENCIA 248 249 H
T10 EDAD_SUJETO_ASISTENCIA 234 241 53 años
T11 FECHAS 202 212 10/10/1963
T12 TERRITORIO 153 158 28035
T13 TERRITORIO 141 147 Madrid
T14 CALLE 90 117 Calle Carmen Romero, 23, 1D
T15 ID_SUJETO_ASISTENCIA 70 77 2569870
T16 NOMBRE_SUJETO_ASISTENCIA 47 63 De Miguel Rivera
T17 NOMBRE_SUJETO_ASISTENCIA 29 34 Pedro
<?xml version='1.0' encoding='UTF-8'?>
<MEDDOCAN>
<TEXT><![CDATA[Datos del paciente.
Nombre: Pedro.
Apellidos: De Miguel Rivera.
NHC: 2569870.
Domicilio: Calle Carmen Romero, 23, 1D.
Localidad/ Provincia: Madrid.
CP: 28035.
Datos asistenciales.
Fecha de nacimiento: 10/10/1963.
País: España.
Edad: 53 años Sexo: H.
Fecha de Ingreso: 17/06/2016.
Médico: Estefanía Romero Selas NºCol: 28 28 20943.
Informe clínico del paciente: varón de 53 años sin antecedentes de interés que ingresa procedente de urgencias con un cuadro de tromboembolismo pulmonar.
Ante la sospecha de neoplasia oculta y la presencia de hematuria no evidenciada previamente se procede a la realización de Ecografía abdominal donde se evidencia una masa renal derecha y se completa el estudio con TAC y RM..
Ambos estudios confirman la presencia de una tumoración heterogénea que infiltra los dos tercios inferiores del riñón derecho de aproximadamente 10x10 cms. con afectación del seno e hilio renal objetivándose también trombosis tumoral de la vena renal derecha y cava infrahepática. No se evidenciaban adenopatías ni metástasis.
Es intervenido quirúrgicamente realizándosele por vía anterior, una nefrectomía radical con cavotomía para la exéresis del trombo y una extensa linfadenectomía aorto-cava derecha.
El resultado anatomo-patológico fue de carcinoma de células renales claras grado 2 de Fuhrman de 9 cm. con invasión de hilio renal, grasa perinéfrica y vena renal, sin afectación metastásica de ganglios ni de los bordes de dicha grasa ni del hilio, así como uréter libres. (Estadio III, T3N0M0). El paciente fue dado de alta hospitalaria al sexto día.
A los 3 meses de la intervención el paciente refiere leve dolor e induración en el pene de reciente aparición. A la palpación se objetiva una masa indurada.
Se le realiza RM de pelvis que nos informa de la existencia de una masa que ocupa y expande el cuerpo cavernoso izquierdo, compatible con metástasis de carcinoma renal previo..
Se toma biopsia de dicha lesión, cuyo resultado nos confirma la sospecha evidenciándose en los cortes histológicos nidos aislados de células tumorales compatibles con metástasis de carcinoma de células claras.
Ante este diagnóstico, nos planteamos cuál sería la mejor actitud terapéutica para el paciente, y tuvimos en cuenta para ello, el incremento progresivo del dolor local, la edad del paciente y su buen estado general. Por ello, se optó por una penectomía total hasta confirmar intraoperatoriamente un borde quirúrgico libre de enfermedad.
Una semana después del alta ingresa en el servicio de Oncología con un cuadro de obnubilación y alteración motora y sensitiva, y presenta en el TC craneal lesiones en cerebelo y hemisferio cerebral derecho compatible con metástasis. Se realiza un TC torácico y aparecen también múltiples nódulos pulmonares y microadenopatías paratraqueales bilaterales en relación con metástasis.
El paciente fallece a los nueve meses de la primera intervención de su carcinoma renal, es decir seis meses después del diagnóstico de las metástasis en pene.
Remitido por: Dra. Estefanía Romero Selas. Email: eromeroselas@yahoo.es
]]></TEXT>
<TAGS>
<NAME id="T17" start="29" end="34" text="Pedro" TYPE="NOMBRE_SUJETO_ASISTENCIA" comment=""/>
<NAME id="T16" start="47" end="63" text="De Miguel Rivera" TYPE="NOMBRE_SUJETO_ASISTENCIA" comment=""/>
<ID id="T15" start="70" end="77" text="2569870" TYPE="ID_SUJETO_ASISTENCIA" comment=""/>
<LOCATION id="T14" start="90" end="117" text="Calle Carmen Romero, 23, 1D" TYPE="CALLE" comment=""/>
<LOCATION id="T13" start="141" end="147" text="Madrid" TYPE="TERRITORIO" comment=""/>
<LOCATION id="T12" start="153" end="158" text="28035" TYPE="TERRITORIO" comment=""/>
<DATE id="T11" start="202" end="212" text="10/10/1963" TYPE="FECHAS" comment=""/>
<LOCATION id="T8" start="220" end="226" text="España" TYPE="PAIS" comment=""/>
<AGE id="T10" start="234" end="241" text="53 años" TYPE="EDAD_SUJETO_ASISTENCIA" comment=""/>
<OTHER id="T9" start="248" end="249" text="H" TYPE="SEXO_SUJETO_ASISTENCIA" comment=""/>
<DATE id="T7" start="269" end="279" text="17/06/2016" TYPE="FECHAS" comment=""/>
<NAME id="T6" start="289" end="311" text="Estefanía Romero Selas" TYPE="NOMBRE_PERSONAL_SANITARIO" comment=""/>
<ID id="T4" start="320" end="331" text="28 28 20943" TYPE="ID_TITULACION_PERSONAL_SANITARIO" comment=""/>
<OTHER id="T2" start="363" end="368" text="varón" TYPE="SEXO_SUJETO_ASISTENCIA" comment=""/>
<AGE id="T3" start="372" end="379" text="53 años" TYPE="EDAD_SUJETO_ASISTENCIA" comment=""/>
<NAME id="T5" start="3011" end="3033" text="Estefanía Romero Selas" TYPE="NOMBRE_PERSONAL_SANITARIO" comment=""/>
<CONTACT id="T1" start="3042" end="3063" text="eromeroselas@yahoo.es" TYPE="CORREO_ELECTRONICO" comment=""/>
</TAGS>
</MEDDOCAN>
Como parte de la campaña MEDDOCAN y para llevar a cabo la anotación manual, se construyeron las primeras pautas públicas para PHI en español, a manera de proporcionar un conjunto claro y conciso de reglas y directrices para la identificación y clasificación de información sensible dentro de los historiales clínicos en español, asegurando la coherencia y la precisión en la anotación de PHI en todo el corpus MEDDOCAN. La guía se basó en la especificaciones del Reglamento General de Protección de Datos (GDPR) de la Unión Europea para garantizar que el corpus anotado cumpliera con las normas de privacidad de datos. Se consideraron las directrices de anotación de los proyectos de desidentificación i2b2, basados en la Ley de Portabilidad y Responsabilidad del Seguro Médico (HIPAA) de los Estados Unidos. Esto permitió la adaptación de sistemas y enfoques utilizados para textos en inglés al contexto del español. Las pautas de anotación de MEDDOCAN definieron un total de 29 tipos de entidades.
Type | Train | Dev | Test | Total |
---|---|---|---|---|
TERRITORIO | 1875 | 987 | 956 | 3818 |
FECHAS | 1231 | 724 | 611 | 2566 |
EDAD_SUJETO_ASISTENCIA | 1035 | 521 | 518 | 2074 |
NOMBRE_SUJETO_ASISTENCIA | 1009 | 503 | 502 | 2014 |
NOMBRE_PERSONAL_SANITARIO | 1000 | 497 | 501 | 1998 |
SEXO_SUJETO_ASISTENCIA | 925 | 455 | 461 | 1841 |
CALLE | 862 | 434 | 413 | 1709 |
PAIS | 713 | 347 | 363 | 1423 |
ID_SUJETO_ASISTENCIA | 567 | 292 | 283 | 1142 |
CORREO_ELECTRONICO | 469 | 241 | 249 | 959 |
ID_TITULACION_PERSONAL_SANITARIO | 471 | 226 | 234 | 931 |
ID_ASEGURAMIENTO | 391 | 194 | 198 | 783 |
HOSPITAL | 255 | 140 | 130 | 525 |
FAMILIARES_SUJETO_ASISTENCIA | 243 | 92 | 81 | 416 |
INSTITUCION | 98 | 72 | 67 | 237 |
ID_CONTACTO_ASISTENCIAL | 77 | 32 | 39 | 148 |
NUMERO_TELEFONO | 58 | 25 | 26 | 109 |
PROFESION | 24 | 4 | 9 | 37 |
NUMERO_FAX | 15 | 6 | 7 | 28 |
OTROS_SUJETO_ASISTENCIA | 9 | 6 | 7 | 22 |
CENTRO_SALUD | 6 | 2 | 6 | 14 |
ID_EMPLEO_PERSONAL_SANITARIO | 0 | 1 | 0 | 1 |
IDENTIF_VEHICULOS_NRSERIE_PLACAS | 0 | 0 | 0 | 0 |
IDENTIF_DISPOSITIVOS_NRSERIE | 0 | 0 | 0 | 0 |
NUMERO_BENEF_PLAN_SALUD | 0 | 0 | 0 | 0 |
URL_WEB | 0 | 0 | 0 | 0 |
DIREC_PROT_INTERNET | 0 | 0 | 0 | 0 |
IDENTF_BIOMETRICOS | 0 | 0 | 0 | 0 |
OTRO_NUMERO_IDENTIF | 0 | 0 | 0 | 0 |
Durante el proyecto se desarrollaron diversos modelos entrenados con 500 casos clínicos del corpus, seleccionados aleatoriamente, siendo los casos restantes utilizados para desarrollo y prueba. Para evaluar el rendimiento de los sistemas de desidentificación, el proyecto definió dos subtareas o categorías principales que constribuyeron al objetivo general del proyecto:
-
NER offset and entity type classification: reconocimiento de entidades nombradas, posición y clasificación del tipo de entidad. Esta subtarea se centró en la identificación y clasificación precisa de la información sensible dentro de los textos médicos. Los sistemas participantes debían identificar las entidades de PHI, como nombres de pacientes, teléfonos, direcciones, etc., y clasificarlas correctamente según su tipo específico (NOMBRE_SUJETO_ASISTENCIA, ID ASEGURAMIENTO, ...).
-
Sensitive span detection: detección de segmento sensible. Esta subtarea se enfocó en la detección general de tramos de texto sensibles, sin necesidad de clasificarlos por tipo. El objetivo principal era identificar y enmascarar los datos confidenciales para su divulgación segura. La subtarea 2 se dividió en dos escenarios, que reflejan diferentes niveles de granularidad en la identificación:
- Sensitive token detection with strict spans: Detección de tokens sensibles con tramos estrictos. Los sistemas debían identificar los tramos de texto sensibles con precisión, sin fusionar tramos adyacentes.
- Sensitive token detection with merged spans: Detección de tokens sensibles con tramos fusionados. Se permitía la fusión de tramos de PHI conectados por caracteres no alfanuméricos, lo que refleja un escenario más práctico de desidentificación.
Cada equipo podía enviar hasta cinco archivos de predicción (ejecuciones) en un formato predefinido (BRAT o i2b2). La evaluación se basó en la precisión, la exhaustividad y la puntuación F1, junto con las puntuaciones de fuga para medir la cantidad de información sensible que no se identificó.
En este informe, se evaluará el rendimiento de los modelos seleccionados en la tarea de reconocimiento de entidades nombradas, posición y clasificación del tipo de entidad, junto con la detección de tramos sensibles con tramos estrictos.
De entre todos los proyectos presentados por los 18 equipos participantes en ambas categorías, seleccionamos 3 proyectos de código abierto que presentaron un rendimiento destacado en la tarea de anonimización de textos médicos en español. Los modelos seleccionados son los siguientes:
-
CLIN-X (Bosch Center for Artificial Intelligence - Spoken Language Systems, Saarland University, Alemania): El modelo CLIN-X es un modelo preentrenado basado en el transformador multilingüe XLM-R, entrenado en 100 idiomas. Para adaptarlo al dominio clínico español, se entrenó con un corpus de 790MB de documentos del archivo Scielo y los recursos MeSpEn, utilizando el objetivo de modelado de lenguaje enmascarado (MLM). Aunque el modelo se adaptó al español, sigue siendo multilingüe y se puede aplicar a tareas en inglés.
-
BiLSTM-CRF (University of Pennsylvania, Estados Unidos): Este modelo es una red neuronal que combina Bi-LSTM para capturar el contexto y CRF para la decodificación de etiquetas. Bi-LSTM (memoria bidireccional a largo y corto plazo) es un tipo de red neuronal recurrente (RNN) que procesa datos secuenciales tanto en dirección directa como inversa. Combina la potencia de LSTM con el procesamiento bidireccional, lo que permite que el modelo capture el contexto pasado y futuro de la secuencia de entrada. Por otro lado, CRF (campo aleatorio condicional) es un modelo estocástico utilizado para modelar secuencias de etiquetas en problemas de aprendizaje supervisado.
-
NeuroNer (Carlos III University of Madrid, España): Este modelo se basa en la herramienta NeuroNer, que utiliza una arquitectura de aprendizaje profundo (deep learning) que combina dos capas bidireccionales de memoria a corto plazo (BiLSTM) con una capa final de campos aleatorios condicionales (CRF). Se utiliza una segunda capa BiLSTM para obtener la secuencia de probabilidades para cada token de pertenecer a una etiqueta específica. La capa CRF se utiliza para modelar las dependencias entre las etiquetas y obtener la secuencia de etiquetas más probable.
Para llevar a cabo la comparación de los modelos seleccionados se generaron nuevos conjuntos de datos de textos médicos en español, obtenidos a partir del módulo Synthetic Patient Generator. Este módulo permite la generación de datos sintéticos de pacientes, incluyendo información de salud protegida (PHI), como nombres, direcciones, fechas de nacimiento, números de teléfono, entre otros. Los datos generados se almacenan en formato txt, ann y xml.
Luego, para generar el informe que contiene los datos sintéticos de los pacientes, se utilizó GPT-4o, un transformador generativo multimodal y multilingüe preentrenado, diseñado por OpenAI, que destaca por su capacidad para generar texto coherente y relevante en diferentes idiomas. De esta manera, se obtubieron informes médicos con texto sensible de manera semi-esctructurada.
Seguido de esto, se agregaron errores ortográficos y gramaticales a los informes médicos generados, como Agusitn acheccco De la Fuente en lugar de Agustín Pachecco De la Fuente y smtp:/LSCNBarbadosYOrtega-biotechcom en lugar de smtp://LSCNBarbadosYOrtega-biotech.com, para simular la variabilidad y complejidad de los datos reales. A demás se incluyeron notaciones especificadas en la guía de anotación de MEDDOCAN, como abreviaturas e iniciales de nombres , apodos, titulos nobiliarios, menciones seguidas del género, distintas notaciones de fechas, entre otros.
Por último, se modificaron las notaciones de los datos dados por el generador para que coincidieran con las modificaciones realizadas de manera manual, calculando las posiciones de las entidades con un programa en Python.
De esta manera, la cantidad de ocurrencias de cada tipo de entidad en el conjunto de datos generado es la siguiente:
- TERRITORIO: 26
- FECHAS: 16
- EDAD_SUJETO_ASISTENCIA: 9
- NOMBRE_SUJETO_ASISTENCIA: 12
- NOMBRE_PERSONAL_SANITARIO: 6
- SEXO_SUJETO_ASISTENCIA: 7
- CALLE: 8
- PAIS: 3
- ID_SUJETO_ASISTENCIA: 10
- CORREO_ELECTRONICO: 5
- ID_TITULACION_PERSONAL_SANITARIO: 4
- ID_ASEGURAMIENTO: 5
- HOSPITAL: 3
- FAMILIARES_SUJETO_ASISTENCIA: 6
- INSTITUCION: 5
- ID_CONTACTO_ASISTENCIAL: 4
- NUMERO_TELEFONO: 7
- PROFESION: 1
- NUMERO_FAX: 3
- OTROS_SUJETO_ASISTENCIA: 5
- CENTRO_SALUD: 3
- ID_EMPLEO_PERSONAL_SANITARIO: 10
- IDENTIF_VEHICULOS_NRSERIE_PLACAS: 4
- IDENTIF_DISPOSITIVOS_NRSERIE: 10
- NUMERO_BENEF_PLAN_SALUD: 0
- URL_WEB: 3
- DIREC_PROT_INTERNET: 7
- IDENTF_BIOMETRICOS: 8
- OTRO_NUMERO_IDENTIF: 5
Siendo un total de 195 entidades en el conjunto de datos generado, incluídas entidades de tipos que no habían sido utilizados en los datos del corpus original, como ID_EMPLEO_PERSONAL_SANITARIO, IDENTIF_VEHICULOS_NRSERIE_PLACAS, IDENTIF_DISPOSITIVOS_NRSERIE, URL_WEB, DIREC_PROT_INTERNET, IDENTF_BIOMETRICOS y OTRO_NUMERO_IDENTIF. Cabe aclarar que no se agregaron entidades de tipo NUMERO_BENEF_PLAN_SALUD ya que, a pesar de que se encuentra listada como una entidad sensible en la presentación del proyecto, no se detalla en la guía de anotación utilizada.
Dado que los modelos presentados fueron desarrollador a fines del 2019 y no se han actualizado desde entonces, se presentaron problemas de compatibilidad con las versiones de las bibliotecas utilizadas y requerimientos particulares. Por lo tanto, se realizaron modificaciones en los modelos para poder ejecutarlos con éxito en el conjunto de datos generado. A continuación, se detallan los pasos necesarios para ejecutar cada modelo:
- Descargar e inicializar los repositorios de los modelos:
git clone --recurse-submodules "https://github.com/JulietaStorino/Text-Mining-Proyect-FaMAF.git"
cd Text-Mining-Proyect-FaMAF/SPACCC_MEDDOCAN
git clone "https://github.com/PlanTL-GOB-ES/SPACCC_MEDDOCAN.git" .
cd ..
- Descomprimir y reestructurar los datos de entrenamiento:
cd models/BiLSTM-CRF
unzip data.zip
mv data/train .
mv data/dev .
mkdir output
mv data/test output
- Crear el entorno virtual:
python3 -m venv .env
source .env/bin/activate
- Instalar las dependencias:
pip install tensorflow==1.14.0 numpy==1.16.4 scipy==1.3.0 cython wheel spacy==2.3.2 nltk matplotlib gast==0.2.2 scikit-learn
- Descargar pipeline en español optimizado para CPU:
python3 -m spacy download es_core_news_sm
- Reemplaza todas las instancias de spacy.load('es') por spacy.load('es_core_news_sm'):
cd code
sed -i "s/spacy.load('es')/spacy.load('es_core_news_sm')/g" preprocessing.py
- Descargar los recursos necesarios:
python3 ../../../requirements.py
- Preprocesar los datos:
python3 preprocessing.py --dataDir ../train/gold --train
python3 preprocessing.py --dataDir ../dev/gold --dev
python3 preprocessing.py --dataDir ../test/gold --test
- Descarga el embedding de palabras necesario:
cd Extension2
wget -O wiki.es.vec https://dl.fbaipublicfiles.com/fasttext/vectors-wiki/wiki.es.vec
- Genera los archivos necesarios por el modelo neuronal:
python3 create_vocabs.py --trainpickle ../train_word_ner_startidx_dict.pickle --devpickle ../dev_word_ner_startidx_dict.pickle --testpickle ../test_word_ner_startidx_dict.pickle --embfile wiki.es.vec --vocabEmbFile vocab_embeddings.npz
- Crear directorios para guardar el modelo y los confusion plots:
mkdir models
mkdir plots
cd Code
- Correr el modelo:
python3 train.py
- Evaluar el modelo con los datos del MEDDOCAN:
cd ../..
python3 evaluate.py brat ner ../output/test/gold ../output/test/system
- Preprocesar los datos nuevos:
python3 preprocessing.py --dataDir ../../../data/brat/gold --test
- Genera los archivos necesarios por el modelo neuronal:
cd Extension2
python3 create_vocabs.py --trainpickle ../train_word_ner_startidx_dict.pickle --devpickle ../dev_word_ner_startidx_dict.pickle --testpickle ../test_word_ner_startidx_dict.pickle --embfile wiki.es.vec --vocabEmbFile vocab_embeddings.npz
- Modificar el código con la ubicación de los nuevos modelos:
cd Code
sed -i 's|\.\./\.\./\.\./output/test/system/|\.\./\.\./\.\./\.\./\.\./data/brat/system/|g' train.py
- Correr el modelo:
python3 train.py
- Evaluar los datos nuevos:
cd ../..
python3 evaluate.py brat ner ../../../data/brat/gold ../../../data/brat/system
- Crear el entorno virtual:
cd models/CLIN-X
conda create -n clin-x python==3.8.5
conda activate clin-x
- Instalar las dependencias:
pip3 install flair==0.8 transformers==4.6.1 torch==1.8.1 scikit-learn==0.23.1 scipy==1.6.3 numpy nltk tqdm seaborn matplotlib
- Crear las carpetas bio_files, split_files, models, predictions, models/clin_x_experiment y predictions/clin_x_experiment:
mkdir bio_files
mkdir bio_files/train
mkdir bio_files/dev
mkdir bio_files/test_m
mkdir bio_files/test_o
mkdir split_files
mkdir models
mkdir predictions
mkdir models/clin_x_experiment
mkdir predictions/old_data
mkdir predictions/new_data
- En caso de no tener una GPU disponible, modificar el archivo create_data_splits.py:
sed -i 's/.cuda()/.to("cpu")/g' create_data_splits.py
- Tokenizar los archivos de entrennamiento, desarrollo y prueba (del corpus MEDDOCAN y nuevos), convirtiéndolos en archivos BIO con el formato requerido:
python tokenize_files.py --input_path ../../SPACCC_MEDDOCAN/corpus/train/brat/ --output_path bio_files/train/
python tokenize_files.py --input_path ../../SPACCC_MEDDOCAN/corpus/dev/brat/ --output_path bio_files/dev/
python tokenize_files.py --input_path ../../SPACCC_MEDDOCAN/corpus/test/brat/ --output_path bio_files/test_m/
python tokenize_files.py --input_path ../../data/brat/gold/ --output_path bio_files/test_o/
- Dividir los datos tokenizados de entranamiento y desarrollo en varias partes de manera aleatoria:
python create_data_splits.py --train_files bio_files/train/ --dev_files bio_files/dev/ --method random --output_dir split_files/
- Entrenar el modelo:
python train_our_model_architecture.py --data_path split_files/ --train_files random_split_1.txt,random_split_2.txt,random_split_3.txt,random_split_4.txt --dev_file random_split_5.txt --model llange/xlm-roberta-large-spanish-clinical --name clin_x_experiment --storage_path models
- Realizar las predicciones:
python get_test_predictions.py --name models/clin_x_experiment/ --conll_path bio_files/test_m/ --out_path predictions/old_data/
python get_test_predictions.py --name models/clin_x_experiment/ --conll_path bio_files/test_o/ --out_path predictions/new_data/
- Evaluar los datos del MEDDOCAN y los datos nuevos.
Para hacer más fácil la ejecución de este modelo, ya que originalmente se corre con una notebook de Jupyter con los parámetros ya definidos, se convirtió el archivo Train.ipynb a un archivo .py para poder ejecutarlo en la terminal, agregando a demás distinción entre los archivos de salida old_data y new_data, para poder evaluar los datos del MEDDOCAN y los datos generados respectivamente.
- Crear el entorno virtual:
cd models/NeuroNer/
python3 -m venv .env
source .env/bin/activate
- Instalar las dependencias:
pip install cython tensorflow==1.14.0 keras==2.2.4 spacy pyneuroner
- Mover el archivo NeuroNer.py a la carpeta del modelo:
mv ../../NeuroNer.py .
- Crear los directorios necesarios:
mkdir output/old_data
mkdir output/new_data
- Correr el modelo:
python NeuroNer.py
- Evaluar los datos.
- Datos de prueba (MEDDOCAN):
Report (SYSTEM: system):
------------------------------------------------------------
SubTrack 1 [NER] Measure Micro
------------------------------------------------------------
Total (156 docs) Precision 0.8918
Recall 0.8337
F1 0.8618
------------------------------------------------------------
- Datos de prueba (generados):
Report (SYSTEM: system):
------------------------------------------------------------
SubTrack 1 [NER] Measure Micro
------------------------------------------------------------
Total (5 docs) Precision 0.3871
Recall 0.3077
F1 0.3429
------------------------------------------------------------
No se pudo concluir la ejecución del modelo debido a limitaciones de tiempo. El repositorio proporcionado por el equipo contenía el modelo original y los scripts necesarios para su entrenamiento desde cero, un proceso que requería más de 24 horas de cómputo continuo. Dada la complejidad del entrenamiento y las restricciones temporales, no fue posible realizar la evaluación del rendimiento del modelo en los datos nuevos generados para este análisis.
Figura 4: Matriz de confusión de las predicciones del modelo BiLSTM-CRF en los datos de prueba generados
En el modelo BiLSTM-CRF, se observa que el desempeño en la detección de entidades y posiciones es inconsistente. Aunque logra identificar correctamente las entidades más comunes y típicas en relación al conjunto de datos original, presenta dificultades al tratar casos más complejos. Por ejemplo, al añadir números aleatorios a las direcciones, siguiendo las guías de notación, el modelo no logra reconocerlos adecuadamente, lo que afecta su rendimiento. Asimismo, algunos números de teléfono no son detectados, lo que impide su anonimización y, por ende, podría resultar en la identificación de las personas a partir de esos datos. Además, el modelo mostró un deterioro significativo en su desempeño al evaluar datos no vistos, con una precisión del 0.3871 y una recuperación de 0.3077. Esto sugiere que ha sufrido de sobreajuste al conjunto de entrenamiento, lo que limita su capacidad de generalización a nuevos contextos. Aunque fue capaz de identificar correctamente las entidades comunes en el conjunto original, tuvo dificultades con información menos frecuente y con errores ortográficos intencionales que se introdujeron en los datos generados. Esta falta de reconocimiento de variantes en nombres, direcciones y números de teléfono indica que el modelo necesita una mayor robustez para adaptarse a la variabilidad natural del lenguaje. Si comparamos los cinco casos clínicos, podemos observar las siguientes diferencias entre el texto anonimizado generado por el modelo y la versión correcta, siguiendo las guías de notación:
Donde el modelo identifica:
T8 TERRITORIO 204 212 Castilla
T9 TERRITORIO 213 214 y
T10 TERRITORIO 215 219 León
En lugar de:
T10 TERRITORIO 204 219 Castilla y León
Donde el modelo identifica:
T9 CALLE 221 234 +34 941 83 66
En lugar de:
T11 NUMERO_TELEFONO 222 237 34 941 83 66 19
Donde el modelo identifica:
T25 NOMBRE_PERSONAL_SANITARIO 3687 3713 José Ángel Guerrero Rivera
En lugar de:
T31 NOMBRE_PERSONAL_SANITARIO 1641 1667 José Ángel Guerrero Rivera
Donde el modelo identifica:
T20 ID_SUJETO_ASISTENCIA 1142 1215 acompañado por sus dos hijas de 20 años y 35 años debido a la reciente de
En lugar de:
T27 FAMILIARES_SUJETO_ASISTENCIA 1161 1170 dos hijas
T28 FAMILIARES_SUJETO_ASISTENCIA 1174 1181 20 años
T29 FAMILIARES_SUJETO_ASISTENCIA 1184 1191 35 años
Donde el modelo no identifica entidades sensibles como:
T12 NUMERO_FAX 245 260 34 941 71 73 23
T20 DIREC_PROT_INTERNET 520 550 smtp://jfhernandez-biotech.com
O reconoce incorrectamente:
T1 NOMBRE_SUJETO_ASISTENCIA 28 29 A
En lugar de:
T1 NOMBRE_SUJETO_ASISTENCIA 28 42 A. "Spaghetti"
T2 NOMBRE_SUJETO_ASISTENCIA 43 55 Martín López
Donde el modelo identifica entidades como:
T6 CALLE 140 195 Paseo de Zorrilla, 1, quinto a la izquierda, Valladolid
...
T11 ID_ASEGURAMIENTO 232 269 Fijo 983 82 84 99, Móvil 683 78 02 65
En lugar de:
T7 CALLE 140 183 Paseo de Zorrilla, 1, quinto a la izquierda
T8 TERRITORIO 185 195 Valladolid
...
T11 NUMERO_TELEFONO 237 249 983 82 84 99
T12 NUMERO_TELEFONO 257 269 683 78 02 65
Donde el modelo identifica:
T19 ID_SUJETO_ASISTENCIA 586 640 asociada 249.36.206.164 - MAC asociada 3D9.E0F.A68.E2A
En lugar de:
T21 IDENTIF_DISPOSITIVOS_NRSERIE 595 609 249.36.206.164
T22 IDENTIF_DISPOSITIVOS_NRSERIE 625 640 3D9.E0F.A68.E2A
Donde el modelo identifica:
T32 ID_SUJETO_ASISTENCIA 3191 3221 906382828.
En lugar de:
T39 ID_EMPLEO_PERSONAL_SANITARIO 3191 3200 906382828
Los modelos presentados muestran un rendimiento variable en la tarea de anonimización de textos médicos en español. Aunque el modelo BiLSTM-CRF logra identificar y clasificar correctamente las entidades más comunes en el conjunto de datos original, presenta dificultades al tratar casos más complejos y al adaptarse a nuevos contextos. Las variabilidades que tiene el lenguaje natural, como errores ortográficos y gramaticales, abreviaciones, iniciales, sobrenombres y la inclusión de información irrelevante, afectan su capacidad de generalización y su precisión en la detección de entidades sensibles. Esto da como conclusión que el modelo necesita una mayor robustez para poder ser utilizado dentro de la tarea para la cual fue pensada.
Si tuviéramos la oportunidad o responsabilidad de seguir con el proyecto dentro de un año, contando con un equipo de cinco empleados, podríamos optimizar diversos aspectos clave. En primer lugar, sería fundamental tener entrenados más modelos de los presentados para poder comparar la eficacia de cada uno respecto al dataset generado. Además, sería necesario aumentar la cantidad de datos generados para obtener un dataset más amplio y representativo, lo que permitiría mejorar la precisión y fiabilidad de los resultados obtenidos por los modelos, al tener un entrenamiento más completo y variado.
Por último, sería necesario mejorar los algoritmos utilizados, ya sea optimizando los existentes o explorando nuevas arquitecturas que se adapten mejor a la naturaleza específica de los datos. Esto incluiría mejorar algunos de los modelos existentes para garantizar que se ajusten adecuadamente a las particularidades del lenguaje y los contextos clínicos representados. También incluiría adaptar el código de los modelos existentes a las versiones más recientes de las bibliotecas y dependencias utilizadas, para garantizar su compatibilidad y eficacia en la ejecución, ya que ninguno ha sido actualizado desde su presentación en 2019.
- ChengXiang Zhai & Sean Masung (2016). Text Data Management and Analysis: A Practical Introduction to Information Retrieval and Text Mining. ACM Books.
- Pérez Ponte, Marcela. Protección de datos personales y el tratamiento de los datos de la salud.
- Automatic De-Identification of Medical Texts in Spanish: the MEDDOCAN Track, Corpus, Guidelines, Methods and Evaluation of Results.
- BRAT: a Web-based Tool for NLP-Assisted Text Annotation.
- Guías de anotación de información de salud protegida.
- GDPR: General Data Protection Regulation.
- HIPAA: Health Insurance Portability and Accountability Act.
- i2b2: Informatics for Integrating Biology and the Bedside.
- Bhavna Saluja, Gaurav Kumar, João Sedoc, Chris Callison-Burch. Anonymization of Sensitive Information in Medical Health Records.
- Lukas Lange, Heike Adel, Jannik Strötgen. NLNDE: The Neither-Language-Nor-Domain-Experts’ Way of Spanish Medical Document De-Identification.
- Cristóbal Colón-Ruiz, Isabel Segura-Dedmar. Protected Health Information Recognition by BiLSTM-CRF.
«Este trabajo utilizó recursos computacionales del CCAD de la Universidad Nacional de Córdoba (https://ccad.unc.edu.ar/), que forman parte del SNCAD del MinCyT de la República Argentina.»