/mlcourse_open

OpenDataScience Machine Learning course (yet Russian-only)

Primary LanguagePython

Открытый курс OpenDataScience по машинному обучению (форк основного репозитория с личными изменениями)

#OpenDataScience course repo. (personal fork) ODS stickers

❗ Старт нового курса – 6 сентября 2017 г. Веб-форма для участия ❗

В курсе даются теоретические основы машинного обучения, а также с помощью обилия домашних заданий и 2 соревнований Kaggle Inclass можно приобрести навыки практического анализа данных и построения прогнозных моделей. Требуются начальные навыки программирования на Python и знание математики (математический анализ, линейная алгебра, теория вероятностей, математическая статистика) на уровне 2 курса технического ВУЗа.

Wiki-страницы этого репозитория:

  • Prerequisites: Python, математика, DevOps. О том, как лучше подготовиться к прохождению курса, если навыков программирования или знаний математики не хватает.
  • Авторы статей и лекторы. Вкратце представляем всех, кто поработал над курсом.
  • ПО для прохождения курса и Docker – как настроить все ПО для прохождения курса. В частности, описывается, как запустить у себя Docker-контейнер, в котором уже все установлено.
  • Топ-100 первого курса. 1 итерация курса прошла с 28 февраля по 10 июня 2017 года – с домашними заданими, соревнованиями, тьюториалами, конкурсами по визуализации и общим рейтингом. Более 500 участников, было весело 😀. Увековечим имена тех, кто попал в топ-100 финального рейтинга.
  • Тьюториалы. Одним из заданий в курсе было написать тьюториал на одну из тем вокруг машинного обучения и анализа данных.

Ниже перечислены основные темы курса (со ссылками на статьи на Хабре) и домашние задания с решениями.

Основные темы

  1. Первичный анализ данных с Pandas
  2. Визуальный анализ данных с Python
  3. Классификация, деревья решений и метод ближайших соседей
  4. Линейные модели классификации и регрессии
  5. Композиции: бэггинг, случайный лес
  6. Построение и отбор признаков
  7. Обучение без учителя: PCA и кластеризация
  8. Обучаемся на гигабайтах с Vowpal Wabbit
  9. Анализ временных рядов с помощью Python
  10. Градиентный бустинг. Часть 1
  11. Градиентный бустинг. Часть 2. Скоро...

Домашние задания

  1. Анализ данных по доходу населения UCI Adult. Тетрадка, веб-форма для ответов, решение
  2. Визуальный анализ данных о публикациях на Хабрахабре. Тетрадка, веб-форма для ответов, решение
  3. Деревья решений в игрушечной задаче и на данных Adult репозитория UCI. Тетрадка, веб-форма для ответов, решение
  4. Линейные модели классификации и регрессии в соревнованиях Kaggle Inclass. Часть 1: идентификация взломщика, Часть 2: прогноз популярности статьи на Хабрахабре, веб-форма для ответов, решение 1 части, решение 2 части
  5. Логистическая регрессия и случайный лес в задаче кредитного скоринга. Тетрадка, веб-форма для ответов, решение
  6. Работа с признаками. Тетрадка, веб-форма для ответов, решение
  7. Метод главных компонент, t-SNE и кластеризация. Тетрадка, решение, веб-форма для ответов
  8. Часть 1: Реализация алгоритмов онлайн-обучения, тетрадка, решение. Часть 2: Vowpal Wabbit в задаче классификации тегов вопросов на Stackoverflow, тетрадка, решение. веб-форма для ответов
  9. Предсказание числа просмотров вики-страницы. Тетрадка, решение, веб-форма для ответов
  10. Реализация градиентного бустинга. Тетрадка, решение, веб-форма для ответов