Курс по анализу данных онлайн-магистратуры МФТИ осень 2021
Описание: Описательные статистики. Квантили, квартили. Гистограммы. Ядерная оценка плотности. Ящики с усами. Выбросы.
Что такое случайность. Случайная величина и ее распределение. Характеристики случайных величин. Какими бывают случайные величины (примеры распределений).
Генерация случайных велечин в Python. Расчет описательных статистик. Гистограмма и эмпирическая функция распределения: расчет. Эмпирическое распределение в Python. Описательные статистики в pandas. pandas: группировка и простые методы визуализации.
Зависимы и независимые случайные величины: Корреляция Спирмена, Корреляция Пирсона, Ковариация. Независимость и ковариация. Корреляция в python. Нормальное распределение и его свойства. Многомерное нормальное распределение.
Типы данных, меры и типы переменных. Выборка, ошибки выборки, объем выборки. Пропуски и выбросы. Преобразование Бокса - Кокса. Масштабирование и категориальные переменные.
Иерархический кластерный анализ. Кластер, расстояния между объектами, расстояния между кластерами. Алгоритм построения дендрограммы. Каменистая осыпь/локоть. Стандартизация данных. Типичные ошибки при подготовке данных. Интрепретация результатов.
Метод к-средних. Датчики случайных чисел, зерно датчика. Визуализация алгоритма метода к-средних. Методы определения числа кластеров. Библиотека Sklearn
.
Каменистая осыпь/локоть. Многомерное шкалирование для визуализации кластеров.
Парсинг данных с помощью Selenium