/COVID_patient_cards

Getting and analysing the data from .docx cards of the COVID-19 patients provided by one of the Moscow hospitals

Primary LanguageR

COVID patient cards

Анализ карт пацентов, больных коронавирусом

1. Зачем?

Есть гипотеза, что нарушение дыхания у людей, больных коронавирусом, во многом связано с нарушениями свертывания крови. Для исследования этого вопроса был начат анализ течения этого заболевания у пациентов одной из московских больниц.

Более подробно о научной основе работы: https://philologist.livejournal.com/11454551.html

Было 600+ карт пацентов, написанных более-менее свободным языком, информацию из которых нужно было достать для анализа. Примерное время на обработки карт одного пацента - 5-10 часов. Автоматизировать обработку было сложно из-за того, что карты заполнялись людьми и для людей.

Данная работа - попытка автоматизировать сбор 50-70% данных. В основном, удачная

2. Как?

С помощью пакета stringr (библиотека Tidyverse) на языке R.

Типичная строка кода выглядела как-то так:

patients$Диастолическое_давление[i] <- str_sub(str_extract((patients_in[[i]]
                                       [which(str_detect(patients_in[[i]], "Диастолическое"))[1]]), 
                                       "Диастолическое\\sдавление:.............."), start = 26, end = 28)

Здесь применяются функции str_sub(), str_extract() и str_detect() из библиотеки stringr и регулярные выражения для поиска ключевых слов. И полученное значение заносится в соответствующую строку таблицы.

3. Что получилось?

Из 600+ карт получилось сделать две таблицы с данными

  1. При поступлении - более подробные измерения: скрипт для поступления

  2. Ежедневные исследования - до 10-15 для каждого пациента: скрипт для ежедневных осмотров

Итог:

В дальнейшем будут собраны также другие данные (в том числе анализы крови и результаты КТ, так как информация о них представлена в более сложных для автоматизации форматах).