Old-High-German: An HTML repository from dkbrz

Древненемецкий корпус 2017-2018

Проект создания корпуса текстов на древневерхненемецких диалектах (VII-XI вв. н.э.), а также на древненижненемецком (древнесаксонском) языке. Работа с оцифрованными прозаическими и поэтическими хрестоматийными текстами.

Над проектом работают студенты 3 и 4 курса бакалаврской программы «Фундаментальная и компьютерная лингвистика» Высшей школы экономики:

Михаил Айсин
Влада Александрова
Женя Глазунов
Лера Зеленкова
Алина Исламова
Оля Рудина
Александра Савченко
Полина Сонина
Соня Стырина

под руководством к.ф.н. Пименовой Натальи Борисовны и к.ф.н. Орехова Бориса Валерьевича.

Текущие задачи:

1. Кластеризация словаря-1

Конечная цель:
выделить из массива словоформ лексемы и автоматически сопоставить любую словоформу заголовочному слову из словаря.

Ближайшая цель:
корректирование полученных с помощью расстояния Левенштейна результатов:

незначащие совпадения по двум произвольным соседним буквам.
элементы буквенно-фонологических сочетаний, не учтенных при автоматической обработке
устранение латинских слов из списка, слова на hh.

2. Кластеризация словаря-2

Конечная цель:
получить соответствия между классическим словом и его вариациями в текстах, используя таблицу буквенно-фонетических переходов между текстами.

Ближайшая цель:

убрать латинские слова и другие неподходящие моменты;
проверить, какие исключения порождает поиск с учетом буквенно-фонетических переходов;
все сложить в словарь типа {современное слово : вариация1, вариация2, … }.

3. Аналитическая обработка словаря

Конечная цель:
унификация документов, приведение текстов к удобному для обработки виду, подготовка к созданию словарных статей на самом сайте.

Ближайшая цель:

создание списка префиксов для определения корня, в котором действуют чередования,
тэггинг/обратное индексирование для поиска по лексеме в словаре формата json;
тэггинг толкований, частей речи, письменных источников, лексем на других языках, прочих грамматических пометок

4. Веб-интерфейс

Конечная цель:
интерфейс с:

онлайн-словарем
текстами с тултипами
статистикой по документам, возможно - с визуализацией объема тех или иных языковых явлений для разных текстов удобным поиском, навигацией, подкорпусом

Задачи:

План

Словарь - завершить работу со словарем, преобразовать в удобный вид
Тексты - перевести в формат TEI, разметить по леммам, заполнить метаданные
Интерфейс - навигация по главам (как в Perseus), визуализация (придумать по ходу работы с данными)
Поиск - интеграция генератора вариантов для поиска всех возможным, поиск нескольких словоформ, индексы, поиск пересечением, матрица (?) раз текстов не так много, должно быть быстро

Timeline: