Есть гипотеза, что нарушение дыхания у людей, больных коронавирусом, во многом связано с нарушениями свертывания крови. Для исследования этого вопроса был начат анализ течения этого заболевания у пациентов одной из московских больниц.
Более подробно о научной основе работы: https://philologist.livejournal.com/11454551.html
Было 600+ карт пацентов, написанных более-менее свободным языком, информацию из которых нужно было достать для анализа. Примерное время на обработки карт одного пацента - 5-10 часов. Автоматизировать обработку было сложно из-за того, что карты заполнялись людьми и для людей.
Данная работа - попытка автоматизировать сбор 50-70% данных. В основном, удачная
С помощью пакета stringr (библиотека Tidyverse) на языке R.
Типичная строка кода выглядела как-то так:
patients$Диастолическое_давление[i] <- str_sub(str_extract((patients_in[[i]]
[which(str_detect(patients_in[[i]], "Диастолическое"))[1]]),
"Диастолическое\\sдавление:.............."), start = 26, end = 28)
Здесь применяются функции str_sub(), str_extract() и str_detect() из библиотеки stringr и регулярные выражения для поиска ключевых слов. И полученное значение заносится в соответствующую строку таблицы.
Из 600+ карт получилось сделать две таблицы с данными
-
При поступлении - более подробные измерения: скрипт для поступления
-
Ежедневные исследования - до 10-15 для каждого пациента: скрипт для ежедневных осмотров
Итог:
В дальнейшем будут собраны также другие данные (в том числе анализы крови и результаты КТ, так как информация о них представлена в более сложных для автоматизации форматах).