/mlcourse_open

OpenDataScience Machine Learning course (yet Russian-only)

Primary LanguagePythonOtherNOASSERTION

Open Machine Learning Course

ODS stickers

⬇️ Please scroll down for Russian version ⬇️

❗ The course in English starts on Feb 5, 2018 as a series of Medium articles with links to homeworks. The 3-rd session (in Russian) launches at the same date. To participate in the course in Russian, please fill in the form. The course is free but you can support organizers by making a pledge on Patreon

Outline

These are the topics of the Medium articles to appear from Feb 5 to Apr 7, 2018. With RUS are given the links to the corresponding Habrahabr articles in Russian (if you don't read Russian, math, code and figures can still give you an idea of what's going on).

  1. Exploratory data analysis with Pandas, RUS
  2. Visual data analysis with Python, RUS
  3. Classification, decision trees and k Nearest Neighbors, RUS
  4. Linear classification and regression, RUS
  5. Bagging and random forest, RUS
  6. Feature engineering and feature selection, RUS
  7. Unsupervised learning: Principal Component Anslysis and clustering, RUS
  8. Vowpal Wabbit: learning with gigabytes of data, RUS
  9. Time series analysis with Python, RUS
  10. Gradient boosting, RUS

More info in Russian

❗ 3-ий запуск будет 5 февраля 2018 г., поддержать курс можно на краудфандинговой платформе Patreon

Анонс курса на Хабре. Youtube-канал c онлайн-трансляциями и записями лекций. Курс обсуждается в Slack OpenDataScience в канале #mlcourse_open, объявления – в группе ВКонтакте.

Цель курса – развить понимание основных концепций машинного обучения (теория) и дать навыки его использования (практика). Поэтому статьи не без математики и поэтому в курсе множество активностей: домашние задания, соревнования на Kaggle Inclass, слушатели сами пишут тьюториалы по интересным темам и выполняют индивидуальные проекты.

Требуются начальные навыки программирования на Python и знание математики (математический анализ, линейная алгебра, теория вероятностей, математическая статистика) на уровне 2 курса технического ВУЗа. Подробнее – в Wiki репозитория.

Статьи на Хабрахабре

  1. Первичный анализ данных с Pandas
  2. Визуальный анализ данных с Python
  3. Классификация, деревья решений и метод ближайших соседей
  4. Линейные модели классификации и регрессии
  5. Композиции: бэггинг, случайный лес
  6. Построение и отбор признаков
  7. Обучение без учителя: PCA и кластеризация
  8. Обучаемся на гигабайтах с Vowpal Wabbit
  9. Анализ временных рядов с помощью Python
  10. Градиентный бустинг. Часть 1
  11. Градиентный бустинг. Часть 2. Скоро...

Видеолекции

  1. Первичный анализ данных с Pandas
  2. Визуальный анализ данных с Seaborn и Matplotlib
  3. Классификация. Деревья решений
  4. Логистическая регрессия + обсуждение соревнования Kaggle
  5. Случайный лес
  6. Регрессия, регуляризация
  7. Обучение без учителя
  8. Признаки, SGD, Vowpal Wabbit
  9. Временные ряды
  10. Градиентный бустинг

Беседы с гуру Data Science

  1. Александр Дьяконов
  2. Константин Воронцов
  3. Евгений Соколов

Домашние задания

  1. Анализ данных по доходу населения UCI Adult, ipynb
  2. Визуальный анализ данных о публикациях на Хабрахабре, ipynb
  3. Деревья решений в игрушечной задаче и на данных Adult репозитория UCI, ipynb
  4. Линейные модели классификации и регрессии в соревнованиях Kaggle Inclass. Часть 1: идентификация взломщика. ipynb Часть 2: прогноз популярности статьи на Хабрахабре, ipynb
  5. Логистическая регрессия и случайный лес в задаче кредитного скоринга, ipynb
  6. Работа с признаками, ipynb
  7. Метод главных компонент, t-SNE и кластеризация, ipynb
  8. Предсказание числа просмотров вики-страницы, ipynb

Проекты

  1. Идентификация пользователей по последовательности посещенных сайтов ("Элис"). Описание. Тетрадки.
  2. Индивидуальные проекты. Описаны на Wiki.

Wiki-страницы этого репозитория: