/dvp-4-3v1

EDA practice v1

Primary LanguageJupyter Notebook

Вы получили основные навыки обработки данных, теперь пора испытать их на практике. Сейчас вам предстоит заняться задачей классификации.

Представлен известный датасет “Титаник”, и вашей задачей будет обучить модель таким образом, чтобы по определенным признакам была возможность максимально уверенно предсказать - выживет или умрёт пассажир (столбец “Survived”).

Здесь вы вольны делать что угодно. Я хочу видеть от вас:

  1. Проверка наличия/обработка пропусков
  2. Проверьте взаимосвязи между признаками
  3. Попробуйте создать свои признаки
  4. Удалите лишние
  5. Обратите внимание на имена пассажиров. Подумайте, что можно извлечь полезного оттуда
  6. Использование профайлера вам поможет.

Вспомните о всем, что я говорил на предыдущих занятиях. Не все будет пригодится, но в жизни вам никто не будет говорить, что использовать :)

Хорошим классификатором для этой задачи будет "Случайный лес" (https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html)

Понимать суть работы "леса" не обязательно на данном этапе, но качество предсказаний будет выше, чем с линейным классификатором. (если желаете, вот гайд https://adataanalyst.com/scikit-learn/linear-classification-method/)

Желаю успеха :)