/ppa-for-da

Репозиторий по дисциплине "Программные пакеты для анализа данных"

Primary LanguageJupyter Notebook

Репозиторий по дисциплине "Программные пакеты для анализа данных"

Темы и расписание

11 ноября 2021. 18:40-19:50 Стандартный процесс анализа данных - теория. http://www.machinelearning.ru/wiki/index.php?title=Crisp-dm

11 ноября 2021. 20:00-21:30 Python для анализа данных - самостоятельная работа студентов (в начале занятия я отключусь)

Курсы:

Начальный уровень:

Средний уровень:

Ссылка на форму: https://forms.gle/MK78DXicWkNQhRAF9 (прошу заполнить 11 ноября до 22:00)


12 ноября 2021. 15:20-17:00 Самостоятельная работа студентов (у меня параллельно другое занятие по расписанию)

12 ноября 2021. 17:00-19:00 Классические алгоритмы машинного обучения. Примеры задач на анализ данных. Ссылка на colab: https://colab.research.google.com/drive/1sMZx6Pv7hSWY6L2xPPpmRGNCsqKEVa4f?usp=sharing

12 ноября 2021. 19:00-20:00 Выбор и согласование тем для выполнения заданий

Темы для задания 1 и 2

  1. Сбор данных (1)
  2. Визуализация (1)
  3. Отбор признаков (2)
  4. Предобработка табличных данных (1)
  5. Предобработка текстовых данных (2)
  6. Предобработка мультимедийных данных (графика, звук, видео) (2)
  7. Классические модели машинного обучения (1)
  8. Нейросетевые модели: полносвязная сеть, CNN, RNN (1)
  9. Обучение с подкреплением (3)
  10. Генеративные модели (3)
  11. Оценка качества моделей (1)
  12. AutoML (3)
  13. Инфраструктура для анализа данных (docker, hadoop, облачные сервисы) (2)
  14. Специализированные задачи. Например, рекомендательные системы, работа с большими данными, анализ социальных сетей и т.п. (2)

Нужно сделать несколько туториалов по библиотекам для языка Python. Суммарно не менее 4 баллов. Нужно сделать review несколько туториалов. Суммарно не менее 6 баллов.

Туториал должен быть создан в формате Jupyter Notebook. Примеры таких туториалов: https://colab.research.google.com/drive/18McpH3UjUR3U8x0gRoGz0VGdNCqx9wVq и https://colab.research.google.com/drive/1PBovmFFS1dHnWQfW39cZStvOC1wIFB9n В туториале обязательно должны быть ссылки на источники. Это не плохо, если вы вдохновились официальной документацией или постом на Хабре. Если вы так сделали, то оставьте ссылку на первоисточник.

Все работы (и туториалы и review по ним) сдаются средствами создания Pull Request в папку students в этом репозитории

До 22:00 15 ноября нужно пройти опрос по выбору темы для туториала: https://forms.gle/1UYmbVfbnySq6j6q6


16 ноября 2021. 18:40-20:00 Самостоятельная работа студентов (я не смогу подключиться)

16 ноября 2021. 20:10-21:50 Консультация по заданиям 1-3.

Напоминаю, что по заданию 1 дедлайн - 19 ноября.


18 ноября 2021. 18:40-19:50 Нейросетевые алгоритмы для анализа данных. https://colab.research.google.com/drive/1nQ8bjQxiRIjhOecfcDE_q97HdIRLcf7t?usp=sharing#scrollTo=-vk8hn75sHWT

18 ноября 2021. 20:00-21:30 Самостоятельная работа студентов (я не смогу подключиться)


19 ноября 2021. 15:20-16:00 Самостоятельная работа студентов (я не смогу подключиться)

19 ноября 2021. 16:00-18:30 Консультация по заданию 1 и 2. Согласование тем для задания 3

Задание 3

  • Если есть публикация по теме, связанной с анализом данных, то нужно показать процесс анализа данных и применение прикладных пакетов в нём (не обязательно Python)
  • Если нет публикаций, то нужно сделать разбор чужой публикации. Для разбора можно брать только статьи, опубликованные в изданиях индексируемых международными наукометрическими базами

25 ноября 2021. 18:40-21.50 (перерыв с 20:00 до 20:30). Консультация по заданию 1, 2 и 3.
26 ноября 2021. 15:20-20:10 Расписание будет предварительно составлено. Индивидуальное собеседование по итогам курса (по 20 минут на студента)