Введение 11.09.2020 |
Вводная лекция |
Оценки среднего, вероятности и плотности; весовые схемы 11.09.2020 |
Понятие «среднее»: разные формализации, полюсы/минусы, практика. Среднее арифметическое. Медиана. многомерная медиана.Многомерная медиана как результат итерационного процесса. Среднее как решение оптимизационной задачи. Оценка минимального контраста. Среднее для номинальных признаков? Среднее по А.Н.Колмогорову. Тропическое среднее. Оценка вероятности как среднего: сглаживание Лапласа и весовые схемы. case: некорректности при вычислении вероятности. |
CASE: Прогнозирование визитов покупателей супермаркетов и сумм их покупок 18.09.2020 |
Постановка задачи. Предположения метода. Оценки вероятности / весовые схемы. Оценки плотности / весовые схемы. «Состыковка» алгоритмов. |
CASE: задача о пробках 18.09.2020 |
Постановка задачи. Двухмерное усреднение. Особенности данных. Специальное усреднение. |
Искусство визуализации (часть 1 - историческая) 18.09.2020 |
Обоснование визуализации: квартет Энскомба. Цели визуализации. История анализа данных и инфографики: Джозеф Пристли, Уильям Плейфэр, Шарль Жозеф Минар, Флоренс Найтингейл, Уильям Дюбуа, Джон Сноу. Примеры плохих визуализаций: 3D-графика, нелинейные сравнения, диаграммы-пироги (pie). Максимизация «Data-Ink». Визуальные обманы. Визуализация для профессионала. Правило минимализма. Правило использования разнообразных средств. Рекомендации по выбору масштаба графиков и шкалы, пояснительного текста, цвета и стиля изображений. Табличные данные. |
Игра "Что изображено?" слайды не выкладываются 25.09.2020 |
|
Искусство визуализации (часть 2 - одномерный анализ) 25.09.2020 |
Описательные статистики: среднее, характерные элементы, разброс значений, абсолютные вариации, относительные вариации, моменты, cтандартизованные моменты. Пример визуализаций описательных статистик. Исследование частей выборки (фолдов), визуализация важностей признаков, первичные действия при анализе признака. Визуализация отдельных признаков: диаграммы, гистограммы, плотности распределения, выбор числа бинов, трансформации признаков. Визуализация категориальных признаков: гистограммы, диаграммы-пироги и области, уточнение природы признака. |
Искусство визуализации (часть 3 - многомерный анализ) 02.10.2020 |
Визуализация пары признаков: корреляция, зависимость признаков, независимость признаков, типичные значения, выбросы, кластеры. Диаграмма рассеивания. Использования шума для визуализации. Сводные таблицы, треугольные зависимости. Визуализации пары «вещественный признак» – «категориальный». Сравнение с бенчмарком. Визуализация «ответ алгоритма» – «ответ алгоритма». Визуализация «ответ алгоритма» – «признак». Деформации ответов и признаков. Residual plot. Корреляции. 3D-визуализации. Визуализация служебных признаков. Проверка соответствия «train-test». Агрегация. |
Метрики качества. Часть 1. Функции ошибки в задаче регрессии 09.10.2020 |
Средний модуль отклонения MAE(MAD), средний квадрат отклонения MSE, его производные: RMSE, коэффициент детерминации R2, вероятностное и невероятностное обоснование RMSE, функция Хьюбера, Logcosh, обобщения MAE и RMSE, процентные функции ошибок (SMAPE, MAPE, PMAD), ошибки, основанные на сравнении с бенчмарком (MRAE, REL_MAE, PB), нормированные ошибки (MASE), несимметричные ошибки, ошибки с точностью до порога, использование функций ошибок для генерации признаков. |
Метрики качества. Часть 2. Чёткая бинарная классификации 09.10.2020 |
Матрица ошибок / несоответствий «Сonfusion Matrix», точность (Accuracy, MCE), ошибки 1 и 2 рода, полнота (Recall, TPR, Sensitivity), специфичность (Specificity , TNR), точность (Precision),обратная точность (Inverse Precision), FPR(False Positive Rate), F1-мера, F-мера, Каппа Коэна (Cohen's Kappa), , Коэффициент Мэттьюса (MCC), Сбалансированная точность (Balanced Accuracy), сравнение функционалов на модельной задаче. |
Метрики качества. Часть 3: скоринговые функции и кривые в машинном обучении 23.10.2020 |
Задачи с ответом в виде оценки принадлежности, скоринговые ошибки: логистическая функция ошибки Log Loss, MSE, Misclassification Loss, Exploss; Площадь под ROC-кривой, AUROC, GINI (кривая Лоренца), кривая «полнота-точность», Gain Curve (Chart), Lift Curve (Chart), Kolomogorov Smirnov chart, The Gains Table. |
Метрики качества. Часть 4: многоклассовые задачи, ранжирование, кластеризация 23.10.2020 |
Weighted kappa, Многоклассовая задача «Multi-label»: Hamming Loss, Log Loss (cross-entropy), Mean Probability Rate, MSE, MAE, многоклассовый AUCROC, точность, полнота, F1-мера, сбалансированная точность «Balanced accuracy». Усреднения: микро-подход, макро-подход, макро-подход с весами, по объектам. Оценка результатов поиска/рекомендаций: Precision at n, Average Precision at n, Mean Average Precision, Concordant – Discordant ratio, Mean Reciprocal Rank (MRR), Cumulative Gain at n, Discounted Cumulative Gain at n, Normalized DCG, Ранговые корреляции, Expected reciprocal rank (ERR). Редакторское расстояние. Задача с «неклассическим целевым вектором»: Коэффициент Жаккара (Jaccard), коэффициент Шимкевича-Симпсона (Szymkiewicz, Simpson), коэффициент Браун-Бланке (Braun-Blanquet), коэффициент Сёренсена (Sörensen), коэффициент Кульчинского (Kulczinsky), коэффициент Отиаи (Ochiai). Оценка результатов кластеризации: внешняя оценка (External evaluation): взаимная информация (mutual information - MI), скорректированная взаимная информация (Adjusted mutual information), V-мера, Adjusted Rand index, общий подход (Rand index, Fowlkes-Mallows index - FMI). Внутренняя оценка (Internal evaluation): Davies–Bouldin index, Dunn index, Silhouette, Calinski-Harabasz Index (Variance Ratio Criterion). курсивом - пропущенное |
Метрики качества: задачи и кейсы 30.10.2020 |
Как настраиваться на конкретные функции. Идеология РП. Критерий расщепления для AUC. CASE: Вычисление матожидания ошибки. Задачи с интервальными признаками. Обоснование деформации логарифмом. Градиентный спуск. Задачи для решения. |
Подготовка данных 06.11.2020 |
Фундаментальные свойства данных. Виды данных. Предобработка данных. Очистка данных (Data Cleaning): аномалии/выбросы, пропуски, шум, некорректные значения. Сокращение данных (Data Reduction): сэмплирование, сокращение размерности, отбор признаков, отбор объектов. Трансформация данных (Data Transformation): переименование признаков, объектов, значений признаков, преобразование типов; кодирование значений категориальных переменных; дискретизация; нормализация; сглаживание; создание признаков; агрегирование; обобщение; деформация значений. Интеграция данных. |
Генерация признаков 13.11.2020 |
Типы числовых признаков. Контекстные признаки. Служебные признаки. Утечка в данных. Странности в данных. Использование EDA для генерации признаков. Вещественные признаки. Строковые признаки. Временные признаки (характеристики моментов времени, взаимодействие пары признаков, использование для других признаков, использование для генерации признаков, использование для уточнения задачи). Географические (пространственные) признаки: Spatial Variables. (проекции на разные оси, кластеризация, идентификация, привязка, характеристики окрестности, анализ траекторий, деанонимизация данных, использование контекста и исследование странностей, генерация расстояний и использование для других признаков). Обработка категориальных признаков (обнаружение, создание новых, кодирование – по номеру категории Label Encoding, Dummy-кодирование / One-hot-encoding, по значениям вещественного признака, по значениям категориального признака – Count Encoding, Frequency Encoding, По значениям ДРУГОГО категориального признака, Хэш-кодирование, по значению целевого – Target Encoding, экспертное кодирование, вложение категориальных признаков в маломерное пространство – Category Embedding). Проблема мелких и новых категорий. |
Ансамбли 27.11.2020 |
Ансамбли алгоритмов: примеры и обоснование (статистическое, вычислительное, функциональное). Повышения разнообразия в ансамбле. Комитеты (голосование) / усреднение. Бэгинг (bootstrap aggregating). OOB-prediction. Кодировки / перекодировки ответов, ECOC (Error-Correcting Output Code). Стекинг (stacking) и блендинг. Бустинг: AdaBoost (алгоритм, вывод формул), Forward stagewise additive modeling (FSAM). «Ручные методы». Однородные ансамбли. |
Анализ социальных / сложных сетей 04.12.2020 |
Исследование социальных сетей (Social Network Analysis). Примеры соцсетей. Задачи с социальными сетями. Основные понятия теории графов. Понятие сложной сети (Complex network): 1. Степенные законы распределения степеней вершин (Power law degree distribution), правило Парето (Vilfredo Pareto, закон Ципфа (Zipf's Law) 2. Модель «малого мира»: малый диаметр и т.п. («small world»). Большая компонента связности (Giant component). 3. Высокий коэффициент кластеризации (Hight clustering coefficient). 4. Разреженность (Sparcity). 5. Сильные и слабые связи, кластерная структура. Теория связей. Гомофилия. Моделирование графов модель Пола Эрдёша и Альфреда Реньи (Erdös-Renyi). Моделирование графов: Модель Ваттса-Строгаца (Watts–Strogatz). Моделирование графов: Преимущественное присоединение Barábasi-Albert model (1999). Моделирование графов: выбор рёбер (Link Selection Model), Copying Model. Моделирование графов: c помощью кирпичиков (motif – кирпичик). Эволюция графов. Сети с негативными связями.Модель Шеллинга (Schelling’s model). |
Прогнозирование появления ребра в динамическом графе (Link Prediction Problem) 11.12.2020 |
Признаковые пространства, построенные по графам. Сходство вершин. Важность вершин. Степенная центральность (Degree centrality). Центральность по близости (Closeness centrality). Центральность по путям (Betweenness centrality). Собственная центральность (Eigenvector centrality) . Эксцентриситетная центральность (Eccentricity centrality). Устойчивость понятий. Важность группы (Group Centrality). Прогнозирование появления ребра в динамическом графе (Link Prediction Problem). Расстояние на графе (graph distance). Число соседей (common neighbors). коэффициент предпочтительности (preferential attachment). коэффициент Жаккара. коэффициент Адамик/Адара. SimRank. вероятностные методы. Алгоритм PageRank. HITS=«Hyperlink Induced Topic Search». Соревнование «IJCNN Social Network Challenge». |
Выделение сообществ (Community Detection) 11.12.2020 |
Сообщество в графе. Примеры сообществ. Датасет Карате-клуб. Разбиение графа: Kerninghan-Lin Algorithm. Обычная кластеризация с мерой схожести вершин. Edge betweenness (Girvan-Newmann’s method). модулярность. Fast community unfolding: Louvain method / Multilevel. Walktrap. Infomap. спектральная теория графов использование. Spectral modularity maximization. Тестирование разных методов. Задача: выделение кругов пользователей в эго-подграфах графов социальной сети. |
Случайный лес 18.12.2020 |
Универсальные методы. Случайный лес. Бэггинг. OOB (out of bag). Настройка параметров методов. Области устойчивости. Близости, вычисленные по RF. Extreme Random Trees. Приложения RF: Biological Response. Приложения RF: Реальная задача (Photo). Приложения RF: Калибровка RF. Приложения RF: Задача Search Results Relevance. |
Важность признаков в ансамблях деревьев 18.12.2020 |
Проблема формализации важности признаков. Примеры использования важности признаков. Важность по неоднородности (impurity-based importance). Перестановочная важность PFI (Permutation Feature Importance). Эксперименты по оцениванию важности. Boruta (идея). ACE (Artificial Contrasts with Ensembles). |
Градиентный бустинг 17.11.2021 |
Градиентный бустинг над деревьями. Итерация градиентного бустинга. Наискорейший спуск. Эвристика сокращения – Shrinkage. Стохастический градиентный бустинг. TreeBoost – градиентный бустинг над деревьями. Продвинутые методы оптимизации. Современные реализации градиентного бустинга: XGBoost, LightGBM, CatBoost. Встроенные способы контроля. Параметры градиентного бустинга. Case: Задача скоринга (TKS). Калибровка. Case: предсказание ответов на вопросы. |