Программа курса по современным методам анализа данных для аспирантов Ботанического сада-института ДВО РАН.
Упрощенный вариант
Введение (Лекция 1).
- Историческое формирование понятия вероятности события.
- Основные задачи теории вероятностей и математической статистики.
Базовые понятия теории вероятностей (4 часа, Лекция 2).
- Вероятность события, случайные величины.
- Дискретные и непрерывные законы распределения случайных величин.
- Серии независимых испытаний (схема Бернулли, полиномиальная схема).
- Нормальное распределение.(математическое ожидание, дисперсия и моменты более высоких порядков).
- Моменты случайных величин (математическое ожидание, дисперсия и моменты более высоких порядков).
- Основные неравенства в теории вероятностей.
Оценивание параметров (3 часа, Лекция 3).
- Оценка среднего и дисперсии нормального распределения. "Правило" трех сигм.
- Интервальное оценивание параметров. Понятие доверительной вероятности. Параметрические и непараметрические оценки доверительных интервалов.
- Планирование эксперимента: определение необходимого числа измерений для достижения заданной точности.
- Примеры решения задач.
- Оценка всхожести семян.
- Опыт Бюффона с подбрасыванием иглы.
Анализ нечисловых данных (2 часа, Лекция 4).
- Таблицы сопряженности.
- Количественные походы при работе с нечисловыми данными (меры сходства и различия, эквивалентность мер).
- Методы теории графов.
- Точный тест Фишера.
Проверка статистических гипотез (4 часа, Лекция 6).
Понятие ошибок первого и второго рода.
Критерии согласия.
- Проверка данных на соответствие нормальному распределению. Критерий Шапиро-Уилка.
- Непараметрические критерии. Критерий хи-квадрат. Критерий Колмогорова-Смирнова.
Дисперсионный анализ.
- Критерий Стьюдента
- Однофакторный дисперсионный анализ (одномерный и многомерный случаи). Примеры задач.
- Попарное сравнение в дисперсионном анализе.
- Многофакторный дисперсионный анализ и обобщения.
Примеры решения задач.
Методы многомерной статистики (10 часов, Лекции 7-10).
Принцип наименьших квадратов.
Метод главных компонент.
Регрессионный анализ.
Кластерный анализ. Иерархическая кластеризация. Метод k-средних.
- Сравнение кластерных структур. Индекс Рэнда. Скорректированный индекс Рэнда.
- Оценка количества кластеров. Информационные критерии Акаике и Байса.
Визуализация данных
- Столбцовые диаграммы, "ящик с усами"
- Одномерные и двумерные оценки плотности распределения вероятностей.
- Визуализация регрессионных моделей.
Классификация по прецедентам.
- Линейная и квадратическая классификации.
- Деревья решений.
- Проектирование эксперимета. Формирование обучающей и проверочной выборок. Методы перекрестной проверки.
- Комплексирование алгоритмов классификации. Случайный лес, метод голосования, адаптивный бустинг.
- Количественные оценки качества классификации.
Отбор и инжиниринг признаков при решении классификационных задач.
- Методы снижения размерности: главные компоненты и дискриминантный анализ.
- Методы пошагового добавления и исключения признаков.
Обзор прикладных задач.
- Классическая задачи систематики, пример: классификация Ирисов Фишера.
- Прогнозирование структуры растительного покрова по факторам среды.
- Сравнение форм плоских кривых: классификация контуров листьев растений.