Определить задачу, которую мы собираемся решать и найти для нее соответствующие данные. Провести анализ найденных данных.
Рассматривается датасет «Go To College». Задача - для каждого школьника (американского) определить вероятность того, что он продолжит обучение в колледже. Если мы будем знать, что человек не будет учиться дальше, то преподавателям и психологам следует поговорить с ним, помочь найти себя и определиться с будущими действиями. С помощью машинного обучения мы хотим выявлять учеников, которым нужна такая помощь.
Сведения, которые мы знаем о каждом ученике:
- type_school - тип школы, в которую ходит ученик
- school_accreditation - аккредитация школы (A / B)
- gender - пол ученика
- interest - заинтересованность в учебе
- residence - место проживания (город / пригород)
- parent_age - возраст родителей
- parent_salary - зарплата родителей
- house_area - площадь родительского дома
- average_grades - средний балл (от 0 до 100)
- parent_was_in_college - учились ли родители в колледже
- in_college - пошел ли ученик в колледж - таргет
Я рассмотрел датасет 'Go to college' и провел его анализ. В ходе анализа получили следующие результаты:
- В датасете нет пропущенных данных
- Все количественные фичи имеют нормальное распределение
- Категориальные фичи распределены более-менее равномерно
- Классы сбалансированы
- В датасете нет линейно зависимых фичей
- Таргет хорошо коррелирует с несколькими количественными фичами.
Датасет готов к дальнейшей работе, приступаю к обучению моделей.