dvp-4-3v1: A Jupyter Notebook repository from serp-ya

Вы получили основные навыки обработки данных, теперь пора испытать их на практике. Сейчас вам предстоит заняться задачей классификации.

Представлен известный датасет “Титаник”, и вашей задачей будет обучить модель таким образом, чтобы по определенным признакам была возможность максимально уверенно предсказать - выживет или умрёт пассажир (столбец “Survived”).

Здесь вы вольны делать что угодно. Я хочу видеть от вас:

Проверка наличия/обработка пропусков
Проверьте взаимосвязи между признаками
Попробуйте создать свои признаки
Удалите лишние
Обратите внимание на имена пассажиров. Подумайте, что можно извлечь полезного оттуда
Использование профайлера вам поможет.

Вспомните о всем, что я говорил на предыдущих занятиях. Не все будет пригодится, но в жизни вам никто не будет говорить, что использовать :)

Хорошим классификатором для этой задачи будет "Случайный лес" (https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html)

Понимать суть работы "леса" не обязательно на данном этапе, но качество предсказаний будет выше, чем с линейным классификатором. (если желаете, вот гайд https://adataanalyst.com/scikit-learn/linear-classification-method/)

Желаю успеха :)

serp-ya/dvp-4-3v1