Проект создания корпуса текстов на древневерхненемецких диалектах (VII-XI вв. н.э.), а также на древненижненемецком (древнесаксонском) языке. Работа с оцифрованными прозаическими и поэтическими хрестоматийными текстами.
Над проектом работают студенты 3 и 4 курса бакалаврской программы «Фундаментальная и компьютерная лингвистика» Высшей школы экономики:
Михаил Айсин
Влада Александрова
Женя Глазунов
Лера Зеленкова
Алина Исламова
Оля Рудина
Александра Савченко
Полина Сонина
Соня Стырина
под руководством к.ф.н. Пименовой Натальи Борисовны и к.ф.н. Орехова Бориса Валерьевича.
Конечная цель:
выделить из массива словоформ лексемы и автоматически сопоставить любую словоформу заголовочному слову из словаря.
Ближайшая цель:
корректирование полученных с помощью расстояния Левенштейна результатов:
- незначащие совпадения по двум произвольным соседним буквам.
- элементы буквенно-фонологических сочетаний, не учтенных при автоматической обработке
- устранение латинских слов из списка, слова на hh.
Конечная цель:
получить соответствия между классическим словом и его вариациями в текстах, используя таблицу буквенно-фонетических переходов между текстами.
Ближайшая цель:
- убрать латинские слова и другие неподходящие моменты;
- проверить, какие исключения порождает поиск с учетом буквенно-фонетических переходов;
- все сложить в словарь типа {современное слово : вариация1, вариация2, … }.
Конечная цель:
унификация документов, приведение текстов к удобному для обработки виду, подготовка к созданию словарных статей на самом сайте.
Ближайшая цель:
- создание списка префиксов для определения корня, в котором действуют чередования,
- тэггинг/обратное индексирование для поиска по лексеме в словаре формата json;
- тэггинг толкований, частей речи, письменных источников, лексем на других языках, прочих грамматических пометок
Конечная цель:
интерфейс с:
- онлайн-словарем
- текстами с тултипами
- статистикой по документам, возможно - с визуализацией объема тех или иных языковых явлений для разных текстов
удобным поиском, навигацией, подкорпусом
Задачи:
- Словарь - завершить работу со словарем, преобразовать в удобный вид
- Тексты - перевести в формат TEI, разметить по леммам, заполнить метаданные
- Интерфейс - навигация по главам (как в Perseus), визуализация (придумать по ходу работы с данными)
- Поиск - интеграция генератора вариантов для поиска всех возможным, поиск нескольких словоформ, индексы, поиск пересечением, матрица (?) раз текстов не так много, должно быть быстро
Timeline:
- сентябрь: тексты TEI, словарь, метаразметка текстов, формат данных, поиск
- октябрь-ноябрь : визуальное на сайте (навигация), отладка поиска, добавление новых данных от других
- ноябрь-декабрь : интегрировать всё сделанное в проект (в том числе финальные данные), отладка, оптимизация, дополнительные элементы (статистика и тд)