/ML_lab_0

Primary LanguageJupyter Notebook

Лабораторная по машинному обучению №0

Задание

Определить задачу, которую мы собираемся решать и найти для нее соответствующие данные. Провести анализ найденных данных.

Описание и структура датасета

Рассматривается датасет «Go To College». Задача - для каждого школьника (американского) определить вероятность того, что он продолжит обучение в колледже. Если мы будем знать, что человек не будет учиться дальше, то преподавателям и психологам следует поговорить с ним, помочь найти себя и определиться с будущими действиями. С помощью машинного обучения мы хотим выявлять учеников, которым нужна такая помощь.

Сведения, которые мы знаем о каждом ученике:

  1. type_school - тип школы, в которую ходит ученик
  2. school_accreditation - аккредитация школы (A / B)
  3. gender - пол ученика
  4. interest - заинтересованность в учебе
  5. residence - место проживания (город / пригород)
  6. parent_age - возраст родителей
  7. parent_salary - зарплата родителей
  8. house_area - площадь родительского дома
  9. average_grades - средний балл (от 0 до 100)
  10. parent_was_in_college - учились ли родители в колледже
  11. in_college - пошел ли ученик в колледж - таргет

Выводы

Я рассмотрел датасет 'Go to college' и провел его анализ. В ходе анализа получили следующие результаты:

  1. В датасете нет пропущенных данных
  2. Все количественные фичи имеют нормальное распределение
  3. Категориальные фичи распределены более-менее равномерно
  4. Классы сбалансированы
  5. В датасете нет линейно зависимых фичей
  6. Таргет хорошо коррелирует с несколькими количественными фичами.

Датасет готов к дальнейшей работе, приступаю к обучению моделей.