Открытый курс OpenDataScience по машинному обучению (форк основного репозитория с личными изменениями)
#OpenDataScience course repo. (personal fork)
❗ Старт нового курса – 6 сентября 2017 г. Веб-форма для участия ❗
В курсе даются теоретические основы машинного обучения, а также с помощью обилия домашних заданий и 2 соревнований Kaggle Inclass можно приобрести навыки практического анализа данных и построения прогнозных моделей. Требуются начальные навыки программирования на Python и знание математики (математический анализ, линейная алгебра, теория вероятностей, математическая статистика) на уровне 2 курса технического ВУЗа.
Wiki-страницы этого репозитория:
- Prerequisites: Python, математика, DevOps. О том, как лучше подготовиться к прохождению курса, если навыков программирования или знаний математики не хватает.
- Авторы статей и лекторы. Вкратце представляем всех, кто поработал над курсом.
- ПО для прохождения курса и Docker – как настроить все ПО для прохождения курса. В частности, описывается, как запустить у себя Docker-контейнер, в котором уже все установлено.
- Топ-100 первого курса. 1 итерация курса прошла с 28 февраля по 10 июня 2017 года – с домашними заданими, соревнованиями, тьюториалами, конкурсами по визуализации и общим рейтингом. Более 500 участников, было весело 😀. Увековечим имена тех, кто попал в топ-100 финального рейтинга.
- Тьюториалы. Одним из заданий в курсе было написать тьюториал на одну из тем вокруг машинного обучения и анализа данных.
Ниже перечислены основные темы курса (со ссылками на статьи на Хабре) и домашние задания с решениями.
- Первичный анализ данных с Pandas
- Визуальный анализ данных с Python
- Классификация, деревья решений и метод ближайших соседей
- Линейные модели классификации и регрессии
- Композиции: бэггинг, случайный лес
- Построение и отбор признаков
- Обучение без учителя: PCA и кластеризация
- Обучаемся на гигабайтах с Vowpal Wabbit
- Анализ временных рядов с помощью Python
- Градиентный бустинг. Часть 1
- Градиентный бустинг. Часть 2. Скоро...
- Анализ данных по доходу населения UCI Adult. Тетрадка, веб-форма для ответов, решение
- Визуальный анализ данных о публикациях на Хабрахабре. Тетрадка, веб-форма для ответов, решение
- Деревья решений в игрушечной задаче и на данных Adult репозитория UCI. Тетрадка, веб-форма для ответов, решение
- Линейные модели классификации и регрессии в соревнованиях Kaggle Inclass. Часть 1: идентификация взломщика, Часть 2: прогноз популярности статьи на Хабрахабре, веб-форма для ответов, решение 1 части, решение 2 части
- Логистическая регрессия и случайный лес в задаче кредитного скоринга. Тетрадка, веб-форма для ответов, решение
- Работа с признаками. Тетрадка, веб-форма для ответов, решение
- Метод главных компонент, t-SNE и кластеризация. Тетрадка, решение, веб-форма для ответов
- Часть 1: Реализация алгоритмов онлайн-обучения, тетрадка, решение. Часть 2: Vowpal Wabbit в задаче классификации тегов вопросов на Stackoverflow, тетрадка, решение. веб-форма для ответов
- Предсказание числа просмотров вики-страницы. Тетрадка, решение, веб-форма для ответов
- Реализация градиентного бустинга. Тетрадка, решение, веб-форма для ответов