⬇️ Scroll down for the Russian version ⬇️
❗ The course in English starts on Feb 5, 2018 as a series of Medium articles with assignments and Kaggle Inclass competitions. The 3-rd session (in Russian) launches at the same date. To participate in the course in Russian, please fill in the form. The course is free but you can support organizers by making a pledge on Patreon ❗
These are the topics of the Medium articles to appear from Feb 5 to Apr 7, 2018. With RUS are given the links to the corresponding Habrahabr articles in Russian (if you don't read Russian, math, code and figures can still give you an idea of what's going on).
- Exploratory data analysis with Pandas, RUS
- Visual data analysis with Python, RUS
- Classification, decision trees and k Nearest Neighbors, RUS
- Linear classification and regression, RUS
- Bagging and random forest, RUS
- Feature engineering and feature selection, RUS
- Unsupervised learning: Principal Component Anslysis and clustering, RUS
- Vowpal Wabbit: learning with gigabytes of data, RUS
- Time series analysis with Python, RUS
- Gradient boosting, RUS
- Prerequisites: Python, math and DevOps - how to get prepared for the course
- Software requirements and Docker container - this will guide you through installing all necessary stuff for working with course materials
❗ 3-ий запуск будет 5 февраля 2018 г., поддержать курс можно на краудфандинговой платформе Patreon ❗
Анонс курса на Хабре. Youtube-канал c онлайн-трансляциями и записями лекций. Курс обсуждается в Slack OpenDataScience в канале #mlcourse_open, объявления – в группе ВКонтакте.
Цель курса – развить понимание основных концепций машинного обучения (теория) и дать навыки его использования (практика). Поэтому статьи не без математики и поэтому в курсе множество активностей: домашние задания, соревнования на Kaggle Inclass, слушатели сами пишут тьюториалы по интересным темам и выполняют индивидуальные проекты.
Требуются начальные навыки программирования на Python и знание математики (математический анализ, линейная алгебра, теория вероятностей, математическая статистика) на уровне 2 курса технического ВУЗа. Подробнее – в Wiki репозитория.
- Первичный анализ данных с Pandas
- Визуальный анализ данных с Python
- Классификация, деревья решений и метод ближайших соседей
- Линейные модели классификации и регрессии
- Композиции: бэггинг, случайный лес
- Построение и отбор признаков
- Обучение без учителя: PCA и кластеризация
- Обучаемся на гигабайтах с Vowpal Wabbit
- Анализ временных рядов с помощью Python
- Градиентный бустинг
- Первичный анализ данных с Pandas
- Визуальный анализ данных с Seaborn и Matplotlib
- Классификация. Деревья решений
- Логистическая регрессия + обсуждение соревнования Kaggle
- Случайный лес
- Регрессия, регуляризация
- Обучение без учителя
- Признаки, SGD, Vowpal Wabbit
- Временные ряды
- Градиентный бустинг
- Анализ данных по доходу населения UCI Adult, ipynb
- Визуальный анализ данных о публикациях на Хабрахабре, ipynb
- Деревья решений в игрушечной задаче и на данных Adult репозитория UCI, ipynb
- Линейные модели классификации и регрессии в соревнованиях Kaggle Inclass. Часть 1: идентификация взломщика. ipynb Часть 2: прогноз популярности статьи на Хабрахабре, ipynb
- Логистическая регрессия и случайный лес в задаче кредитного скоринга, ipynb
- Работа с признаками, ipynb
- Метод главных компонент, t-SNE и кластеризация, ipynb
- Предсказание числа просмотров вики-страницы, ipynb
- Prerequisites: Python, математика, DevOps. О том, как лучше подготовиться к прохождению курса, если навыков программирования или знаний математики не хватает.
- План совместного прохождения курса cs231n c 23.04.2018
- Авторы статей и лекторы. Вкратце представляем всех, кто поработал над курсом.
- ПО для прохождения курса и Docker – как настроить все ПО для прохождения курса. В частности, описывается, как запустить у себя Docker-контейнер, в котором уже все установлено.
- Топ-100 1-ой сессии курса. 1-я сессия курса прошла с 28 февраля по 10 июня 2017 года – с домашними заданими, соревнованиями, тьюториалами, конкурсами по визуализации и общим рейтингом. Более 500 участников.
- Топ-100 2-ой сессии курса. 2-я сессия курса прошла с 6 сентября по 17 ноября 2017 года – добавились индивидуальные проекты. Более 1300 участников.
- Тьюториалы и проекты. Одним из заданий в курсе было написать тьюториал на одну из тем вокруг машинного обучения и анализа данных и выполнить индивидуальный проект по предложенному плану.