/mlcourse_open

OpenDataScience Machine Learning course (yet Russian-only)

Primary LanguagePython

Открытый курс OpenDataScience по машинному обучению

ODS stickers

❗ Новая сессия стартовала 6 сентября 2017 г. Тут подробное описание активностей в течение курса. А вот и календарь дедлайнов ❗

Статья про курс на Хабре. Youtube-канал c онлайн-трансляциями и записями лекций. Курс обсуждается в Slack OpenDataScience в канале mlcourse_open. Заявка на вступление.

В статьях курса даются теоретические основы машинного обучения. Навыки практического анализа данных и построения прогнозных моделей можно получить через выполнение домашних заданий и индивидуального проекта, а также за счет участия в 2 соревнованиях по анализу данных. Требуются начальные навыки программирования на Python и знание математики (математический анализ, линейная алгебра, теория вероятностей, математическая статистика) на уровне 2 курса технического ВУЗа.

Статьи на Хабрахабре

  1. Первичный анализ данных с Pandas
  2. Визуальный анализ данных с Python
  3. Классификация, деревья решений и метод ближайших соседей
  4. Линейные модели классификации и регрессии
  5. Композиции: бэггинг, случайный лес
  6. Построение и отбор признаков
  7. Обучение без учителя: PCA и кластеризация
  8. Обучаемся на гигабайтах с Vowpal Wabbit
  9. Анализ временных рядов с помощью Python
  10. Градиентный бустинг. Часть 1
  11. Градиентный бустинг. Часть 2. Скоро...

Видеолекции

  1. Первичный анализ данных с Pandas
  2. Визуальный анализ данных с Seaborn и Matplotlib
  3. Классификация. Деревья решений
  4. Логистическая регрессия + обсуждение соревнования Kaggle
  5. Случайный лес

Беседы с гуру Data Science

  1. Александр Дьяконов
  2. Константин Воронцов

Домашние задания

  1. Анализ данных по сердечно-сосудистым заболеваниям (ML Boot Camp V). ipynb
  2. Визуальный анализ данных по сердечно-сосудистым заболеваниям (ML Boot Camp V). ipynb
  3. Деревья решений для классификации и регрессии, ipynb. Реализация дерева решений (опционально, не в зачет рейтинга). ipynb
  4. Логистическая регрессия в задаче тегирования вопросов StackOverflow. Дедлайн: 23.59 UTC +3, 10.10.17г. ipynb
  5. Случайный лес и логистическая регрессия в задачах кредитного скоринга и классификации отзывов к фильмам. Дедлайн: 23.59 UTC +3, 12.10.17г. ipynb

Соревнования

  1. Идентификация пользователя по последовательности посещенных сайтов ("Элис"). Kaggle Inclass
  2. Прогноз популярности статьи на medium.com. Скоро...

Проекты

  1. Идентификация пользователей по последовательности посещенных сайтов ("Элис"). Описание. Тетрадки.
  2. Индивидуальные проекты. Описаны на Wiki.

Рейтинг

На рейтинг участников влияют домашки, соревнования, проекты, тьюториалы и мини-конкурсы по визуализации данных.

Wiki-страницы этого репозитория:

  • Все активности по втором запуске курса. Домашки, соревнования, проекты, тьюториалы и мини-конкурсы и все, за что еще можно получить баллы и, главное, опыт.
  • Prerequisites: Python, математика, DevOps. О том, как лучше подготовиться к прохождению курса, если навыков программирования или знаний математики не хватает.
  • Домашние задания 1-ой сессии курса. С решениями. На текущий рейтинг не влияют.
  • Авторы статей и лекторы. Вкратце представляем всех, кто поработал над курсом.
  • ПО для прохождения курса и Docker – как настроить все ПО для прохождения курса. В частности, описывается, как запустить у себя Docker-контейнер, в котором уже все установлено.
  • Топ-100 1-ой сессии курса. 1 сессия курса прошла с 28 февраля по 10 июня 2017 года – с домашними заданими, соревнованиями, тьюториалами, конкурсами по визуализации и общим рейтингом. Более 500 участников, было весело 😀. Увековечим имена тех, кто попал в топ-100 финального рейтинга.
  • Тьюториалы. Одним из заданий в курсе было написать тьюториал на одну из тем вокруг машинного обучения и анализа данных.