1. Описание проекта
2. Какой кейс решаем?
3. Краткая информация о данных
4. Этапы работы над проектом
5. Результат
6. Выводы
Анализ вакансий с сайта HeadHunter.
Сначала нам необходимо понять, что из себя представляют данные и насколько они соответствуют целям проекта. В литературе эта часть работы над ML-проектом называется Data Understanding, или анализ данных.
Наш проект включает в себя несколько этапов:
- знакомство с данными
- предварительный анализ данных
- детальный анализ вакансий
- анализ работодателей
- предметный анализ
Требования к оформлению ноутбука-решения:
- Решение оформляется только в Jupyter Notebook.
- Решение оформляется в соответствии с ноутбуком-шаблоном.
- Каждое задание выполняется в отдельной ячейке, выделенной под задание (в шаблоне они помечены как ваш код здесь). Не следует создавать много ячеек для решения задачи — это провоцирует неудобства при проверке.
- Текст SQL-запросов и код на Python должны быть читаемыми. Не забывайте про отступы в SQL-коде.
- Выводы по каждому этапу оформляются в формате Markdown в отдельной ячейке (в шаблоне они помечены как ваши выводы здесь).
- Выводы можно дополнительно проиллюстрировать с помощью графиков. Они оформляются в соответствии с теми правилами, которые мы приводили в модуле по визуализации данных.
- Не забудьте удалить ячейку с данными соединения перед фиксацией работы в GitHub.
В нашем распоряжении будет база резюме, выгруженная с сайта поиска вакансий hh.ru
- Исследование структуры данных
- Преобразование данных
- Исследование зависимостей в данных
- Очистка данных
Данные обработанны и проанализированны, все подробности и выводы в можно посмотреть в ноутбуке.
Я испытал на себе основные этапы работы с данными на примере датасета о вакансиях и теперь не понаслышке знаю, как важно уметь правильно работать с данными.
⬆️к оглавлениюи