Практическим проектом будет анализ активности студентов онлайн курса Введение в анализ данных в R, спасибо команде stepik, что предоставили анонимизированные данные.
В этом модуле, мы разберемся с задачей, начнем исследовать данные!
events_train.csv - данные о действиях, которые совершают студенты со стэпами
- step_id - id стэпа
- user_id - анонимизированный id юзера
- timestamp - время наступления события в формате unix date
- action - событие, возможные значения:
- discovered - пользователь перешел на стэп
- viewed - просмотр шага,
- started_attempt - начало попытки решить шаг, ранее нужно было явно нажать на кнопку - начать решение, перед тем как приступить к решению практического шага
- passed - удачное решение практического шага
submissions_train.csv - данные о времени и статусах сабмитов к практическим заданиям
- step_id - id стэпа
- timestamp - время отправки решения в формате unix date
- submission_status - статус решения
- user_id - анонимизированный id юзера
notebooks - каталог с блокнотами решений и создания признаков для обученя моделей
libs - папка с кодом для генерации датасетов, признаков и вспомогательными модулями
data_iter1.py - признаки для модели(baseline) основанных на том что давали в курсе
data_iter_auto.py - признаки сгенерированные автоматически
data_iter_final.py - признаки для финальной модели в соревновании
data - папка с данными
event_data_train.zip - данные о действиях, которые совершают студенты со стэпами. Используются для обучения.
submissions_data_train.zip - данные о времени и статусах сабмитов к практическим заданиям. Используются для обучения.
events_data_test.zip - данные о действиях, которые совершают студенты со стэпами. Используются для прогноза.
submission_data_test.zip - данные о времени и статусах сабмитов к практическим заданиям. Используются для прогноза.
submission_example.csv - пример файла с предсказаниями.
course_data.json - дополнительный датасет с информацией о курсе Анализ данных в R. Содержит информацию о step-аx(доступна gо ключу steps), а также других сущностях курса.
hb_course_info.csv - дополнительный датасет c важной информацией о курсе, собранный в таблицу на основе данных из course_data.json. Удалены незначительные, на мой взгляд, признаки.
reports - в этой папке размещаются файлы с прогнозом.