Вы получили основные навыки обработки данных, теперь пора испытать их на практике. Сейчас вам предстоит заняться задачей классификации.
Представлен известный датасет “Титаник”, и вашей задачей будет обучить модель таким образом, чтобы по определенным признакам была возможность максимально уверенно предсказать - выживет или умрёт пассажир (столбец “Survived”).
Здесь вы вольны делать что угодно. Я хочу видеть от вас:
- Проверка наличия/обработка пропусков
- Проверьте взаимосвязи между признаками
- Попробуйте создать свои признаки
- Удалите лишние
- Обратите внимание на имена пассажиров. Подумайте, что можно извлечь полезного оттуда
- Использование профайлера вам поможет.
Вспомните о всем, что я говорил на предыдущих занятиях. Не все будет пригодится, но в жизни вам никто не будет говорить, что использовать :)
Хорошим классификатором для этой задачи будет "Случайный лес" (https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html)
Понимать суть работы "леса" не обязательно на данном этапе, но качество предсказаний будет выше, чем с линейным классификатором. (если желаете, вот гайд https://adataanalyst.com/scikit-learn/linear-classification-method/)
Желаю успеха :)