Провести аналитику для атрибутов решения
MrsBadger opened this issue · 3 comments
Idea proposal
В чём заключается идея
Исследование необходимо для понимания структуры решения: какие у него существуют атрибуты (например: номер, судьи, заключение и т.п.) и особенности, отличающие его от других документов. Это позволит упростить дальнейшие работы с ними.
Возможное решение
Создание wiki с подробным описанием структуры решения.
Дополнительный контекст или ссылки на связанные с данной задачей issues
@MrsBadger, вообще ничего не понятно, что нужно сделать, из описания issue. Стоит уточнить и переписать.
Принял новые правки.
Выполненная работа отражена в соответствующей ветке.
beginnings_list.txt - список всех начальных частей документов, содержащих дату и город, если они нашлись.
resolutions_list.txt - список всех резолютивных частей документов.
endings_list.txt - список всех концовок документов, в них содержится информация о судьях.
raw_dates.txt - список всех дат в том виде, в котором они записаны в тексте документов.
formatted_dates.txt - список всех дат в отформатированном виде.
docs-words_stats.txt - статистика встречаемости ключевых слов, после которых следует резолютивная часть.
weird-docs_list.txt - список "странных" документов, странность которых заключается в необычном числе ключевых слов. Включает и единственный "битый" файл.
links_in_beginnings.txt - список ссылок на другие решения КС РФ, расположенных в начальных частях решений КС РФ, вместе с долей по отношению к общему числу ссылок в документе. Как правило, это означает, что в документе запрашивается или указывается разъяснение другого документа.
links_in_resolution.txt - список ссылок на другие решения КС РФ, расположенных в резолютивных частях решений КС РФ, вместе с долей по отношению к общему числу ссылок в документе.
links_positions_stats.txt - статистика по доле ссылок, находящихся в разных частях документа, а также по судьям - встречаемость списков судей, главных судей и т.д.
research_results.txt - список всех документов, разделённых на атрибуты.