/Old-High-German

HSE School of Linguistics Workshop

Primary LanguageHTML

Древненемецкий корпус 2017-2018

Проект создания корпуса текстов на древневерхненемецких диалектах (VII-XI вв. н.э.), а также на древненижненемецком (древнесаксонском) языке. Работа с оцифрованными прозаическими и поэтическими хрестоматийными текстами.

Над проектом работают студенты 3 и 4 курса бакалаврской программы «Фундаментальная и компьютерная лингвистика» Высшей школы экономики:

Михаил Айсин
Влада Александрова
Женя Глазунов
Лера Зеленкова
Алина Исламова
Оля Рудина
Александра Савченко
Полина Сонина
Соня Стырина

под руководством к.ф.н. Пименовой Натальи Борисовны и к.ф.н. Орехова Бориса Валерьевича.

Текущие задачи:

Конечная цель:
выделить из массива словоформ лексемы и автоматически сопоставить любую словоформу заголовочному слову из словаря.

Ближайшая цель:
корректирование полученных с помощью расстояния Левенштейна результатов:

  • незначащие совпадения по двум произвольным соседним буквам.
  • элементы буквенно-фонологических сочетаний, не учтенных при автоматической обработке
  • устранение латинских слов из списка, слова на hh.

Конечная цель:
получить соответствия между классическим словом и его вариациями в текстах, используя таблицу буквенно-фонетических переходов между текстами.

Ближайшая цель:

  • убрать латинские слова и другие неподходящие моменты;
  • проверить, какие исключения порождает поиск с учетом буквенно-фонетических переходов;
  • все сложить в словарь типа {современное слово : вариация1, вариация2, … }.

Конечная цель:
унификация документов, приведение текстов к удобному для обработки виду, подготовка к созданию словарных статей на самом сайте.

Ближайшая цель:

  • создание списка префиксов для определения корня, в котором действуют чередования,
  • тэггинг/обратное индексирование для поиска по лексеме в словаре формата json;
  • тэггинг толкований, частей речи, письменных источников, лексем на других языках, прочих грамматических пометок

Конечная цель:
интерфейс с:

  • онлайн-словарем
  • текстами с тултипами
  • статистикой по документам, возможно - с визуализацией объема тех или иных языковых явлений для разных текстов удобным поиском, навигацией, подкорпусом

Задачи:

План

  • Словарь - завершить работу со словарем, преобразовать в удобный вид
  • Тексты - перевести в формат TEI, разметить по леммам, заполнить метаданные
  • Интерфейс - навигация по главам (как в Perseus), визуализация (придумать по ходу работы с данными)
  • Поиск - интеграция генератора вариантов для поиска всех возможным, поиск нескольких словоформ, индексы, поиск пересечением, матрица (?) раз текстов не так много, должно быть быстро

Timeline:

  • сентябрь: тексты TEI, словарь, метаразметка текстов, формат данных, поиск
  • октябрь-ноябрь : визуальное на сайте (навигация), отладка поиска, добавление новых данных от других
  • ноябрь-декабрь : интегрировать всё сделанное в проект (в том числе финальные данные), отладка, оптимизация, дополнительные элементы (статистика и тд)