/Intro_to_DS

Primary LanguageJupyter NotebookGNU General Public License v3.0GPL-3.0

Introduction to DS

Это не очень сложный курс по машинному обучению с математикой и питоном. Он состоит из двух частей: введение в DS и ML для маркетинга. Вторая часть только для маркетологов. Она в отдельном репозитории.

  • Материалы для каждого семинара лежат в папках ./sem*

  • В папке для каждой недели лежат файлы с семинаров, которые нужно изучить

  • В каждой папке есть свой небольшой README с дополнительными материалами, которые желательно посмотреть

  • Если вы хотите скачать из репозитория конкретную папку, просто вставьте ссылку на неё в сервис для скачки. Кнопка "скачать" есть в README к каждой неделе.

  • Wiki-страница курса

  • Таблица с оценками

  • Видео записи семинаров и лекций

  • Любые вопросы можно задать в чат с технической поддержкой. Найдите нужный и вступите в него:

TG1 TG2 TG3

Перед стартом курса:

БМБ 1901  LuBdyCA
БМБ 1902  a5xl0Jr
БМБ 1903  4Ope2KX
БМБ 1904  NiERtL8
БМБ 1905  dCeUWKm
БМБ 1906  zrfpbwl
БМБ 1907  rUSH2vx
БМБ 1908  Tkcqp3g
БМБ 1909  Bf2QY9a
БМБ 1910  KPKw6Y2

БММ 191   1zv8RNS
БММ 192   0Kf5VRE
БММ 193   8mOYYUj
БММ 194   cImCsEX
БММ 195   VOOZVlZ
БММ 196   1cu0iVn

Домашние задания

Дедлайны по домашкам указаны либо в яндекс.контест либо в anytask. Для каждой домашки есть анонимная анкета, в которой вы можете высказать своё мнение о ней.

домашка решение стоимость
Введение в python решение 10
Работа в pandas решения не будет 10
Описательные статистики решение 10
Визуализация решение 20
Регрессия решение 20
Классификация решение 10
АБ-тестирование Отменена 10
Групповой кекс (кекс по группам) решения не будет 10

Лекции

Найти все доступные лекции без смс и регистрации

Большой план маленьких побед

Онлайн часть: Вводимся в python на Datacamp. Зачем: когда начинаешь учить новый язык, возникает языковой барьер. В онлайн-модуле вам предстоит через боль и страдания преодолеть этот языковой барьер. Двойной языковой барьер. Курсы будут на английском. Не зря же вы его учите...

  • sem01 решаем в python задачки и убеждаемся, что мы уже много умеем, но многому ещё нужно научиться.
  • sem02 знакомимся с pandas, работаем с таблицами.
  • sem03 продолжаем работать с pandas. Решаем задачки на описательные статистики.
  • sem04 строим в python свой первый визуал.
  • sem05 знакомимся со своей первой моделью машинного обучения: линейной регрессией, разбираемся как она работает, говорим про деревья и случайный лес.
  • sem06 оцениваем свою первую регрессию.
  • sem07 На этом семинаре нас ожидает контрольная работа. Надо будет за полтора часа решить несколько простых задачек в питоне.
  • sem08 разбираемся с классификацией и метриками для неё.
  • sem09 разбираемся с алгоритмами классификации: KNN, случайный лес.
  • sem10 гоняем алгоритмы классификации на компьютере.
  • sem11 разбираемся что такое AB-тест и как проверяют гипотезы.
  • sem12 проводим AB на компьютере, разбираемся что такое бутстреп.

Задумка: ввелись в python, а затем прошлись по всем составным частям ML-пайплайна от работы с данными до обучения моделей и AB-тестов.

Самый важный раздел

Оценка ставится по формуле:

Накоп = 0.1*DC + 0.2*СР + 0.2*КР + 0.5*ДЗ

Итог = max(0.3*ЭКЗ + 0.7*Накоп, 0.5*ЭКЗ + 0.5*Накоп)
  • DC - ваша оценка за онлайн-часть
  • СР - средняя оценка, полученная за самостоятельные работы. Учитывается три лучшие работы из четырёх. В новых реалиях самостоялки проводятся в Яндекс.Контест в строго лимитированное время.
  • КР - ваша оценка за контрольную работу, она проводится в Яндекс.Контест
  • ДЗ - итоговая оценка, полученная за 8 домашних работ. Часть работ будет проверяться в Яндекс.Контест. Часть сдаётся в anytask.
  • ЭКЗ - оценка, полученная за экзамен.

Контрибьюторы и создатели

Лицензия

Весь контент, созданный для этого курса распространяются на правах лицензии Creative Commons Attribution-Share Alike 4.0. Материалы публикуются как общественное достояние.