/biostat

Primary LanguageJupyter Notebook

Статистический анализ данных

Программа курса по современным методам анализа данных для аспирантов Ботанического сада-института ДВО РАН.

Упрощенный вариант

Содержание

  1. Введение (Лекция 1).

    1. Историческое формирование понятия вероятности события.
    2. Основные задачи теории вероятностей и математической статистики.
  2. Базовые понятия теории вероятностей (4 часа, Лекция 2).

    1. Вероятность события, случайные величины.
    2. Дискретные и непрерывные законы распределения случайных величин.
    3. Серии независимых испытаний (схема Бернулли, полиномиальная схема).
    4. Нормальное распределение.(математическое ожидание, дисперсия и моменты более высоких порядков).
    5. Моменты случайных величин (математическое ожидание, дисперсия и моменты более высоких порядков).
    6. Основные неравенства в теории вероятностей.
  3. Оценивание параметров (3 часа, Лекция 3).

    1. Оценка среднего и дисперсии нормального распределения. "Правило" трех сигм.
    2. Интервальное оценивание параметров. Понятие доверительной вероятности. Параметрические и непараметрические оценки доверительных интервалов.
    3. Планирование эксперимента: определение необходимого числа измерений для достижения заданной точности.
    4. Примеры решения задач.
      1. Оценка всхожести семян.
      2. Опыт Бюффона с подбрасыванием иглы.
  4. Анализ нечисловых данных (2 часа, Лекция 4).

    1. Таблицы сопряженности.
    2. Количественные походы при работе с нечисловыми данными (меры сходства и различия, эквивалентность мер).
    3. Методы теории графов.
    4. Точный тест Фишера.
  5. Проверка статистических гипотез (4 часа, Лекция 6).

    1. Понятие ошибок первого и второго рода.

    2. Критерии согласия.

      1. Проверка данных на соответствие нормальному распределению. Критерий Шапиро-Уилка.
      2. Непараметрические критерии. Критерий хи-квадрат. Критерий Колмогорова-Смирнова.
    3. Дисперсионный анализ.

      1. Критерий Стьюдента
      2. Однофакторный дисперсионный анализ (одномерный и многомерный случаи). Примеры задач.
      3. Попарное сравнение в дисперсионном анализе.
      4. Многофакторный дисперсионный анализ и обобщения.
    4. Примеры решения задач.

  6. Методы многомерной статистики (10 часов, Лекции 7-10).

    1. Принцип наименьших квадратов.

    2. Метод главных компонент.

    3. Регрессионный анализ.

    4. Кластерный анализ. Иерархическая кластеризация. Метод k-средних.

      1. Сравнение кластерных структур. Индекс Рэнда. Скорректированный индекс Рэнда.
      2. Оценка количества кластеров. Информационные критерии Акаике и Байса.
    5. Визуализация данных

      1. Столбцовые диаграммы, "ящик с усами"
      2. Одномерные и двумерные оценки плотности распределения вероятностей.
      3. Визуализация регрессионных моделей.
    6. Классификация по прецедентам.

      1. Линейная и квадратическая классификации.
      2. Деревья решений.
      3. Проектирование эксперимета. Формирование обучающей и проверочной выборок. Методы перекрестной проверки.
      4. Комплексирование алгоритмов классификации. Случайный лес, метод голосования, адаптивный бустинг.
      5. Количественные оценки качества классификации.
    7. Отбор и инжиниринг признаков при решении классификационных задач.

      1. Методы снижения размерности: главные компоненты и дискриминантный анализ.
      2. Методы пошагового добавления и исключения признаков.
    8. Обзор прикладных задач.

      1. Классическая задачи систематики, пример: классификация Ирисов Фишера.
      2. Прогнозирование структуры растительного покрова по факторам среды.
      3. Сравнение форм плоских кривых: классификация контуров листьев растений.