Данный проект представляет собой анализ московской недвижимости, данные для которого брались вручную из сайта Avito. Мной было поставлены следующие задачи:
- Произвести загрузку данных(scraping) с сайта Avito.
- Сделать предъобработку данных для дальнейшего анализа.
- Провести общий анализ данных.
- Выявить гипотезы
- Проверить гипотезы
Для анализа данных использовалось следующий стек технологий:
- Язык программирования Python
- Jupyter Notebook
- Библиотеки для python:
- pandas
- numpy
- BeautifulSoup
- matplotlib
- seaborn
- scipy.stats
- time
- unicodedata
- requests
Во время проверки гипотез использовались следующие статистические методы:
- Критерий Манна-Уитни
- Доверительные интервалы
- Однофакторный дисперсионный анализ
- Коэффицент корреляции Спирмена
- data - датасеты csv-расширения.
- apartment_data.csv - датасет, полученный после скрепинга данных.
- clean_apartment_data.csv - очищенный датасет, который используется в анализе.
- docs - вспомогательные файлы для оформления readme-файлов.
- notebooks - ноутбуки в которых производилась работа (смотрите readme в папке notebooks).