Описание проекта: для анализа получена таблица формата *.csv
, собранная из данных сервиса Яндекс Недвижимость — архив объявлений за несколько лет о продаже квартир в Санкт-Петербурге и соседних населённых пунктах. Необходимо обработать данные для анализа и выявить закономерности. Каждая квартира описана количественными и категориальными значениями. Какие-то из них заполняли пользователи, какие-то заполнялись картографическим методом.
Проблемы в данных: в ходе работы, мы столкнулись с некорректным заполнением некоторых строк, а именно:
- Данные представлены в неподходящем для анализа типе. Вещественные значения вместо целочисленных, объектные вместо временных. Мы произвели замену типов для корректной работы.
- В данных присутствует много пропусков, самые значительные, которые могу помешать анализу и ответу на поставленные вопросы – расстояния. Эти данные заполняются картографическим методом и видимо в нем присутствует какой-то сбой. По частоте пропусков второе место занимает – удаленность от ближайшего парка.
- А первое место в пропусках у категориального значения «апартаменты». Почти 21 тысяча пропусков это 88%, слишком много, чтобы быть уверенными, что, логически заполняя отсутствующие значения, мы не ошиблись.
- В 3181 строках отсутствует значение количества дней размещения объявления. Мы не стали врать в таких данных, приукрашивая значения и для этого анализа заменили пропущенные значения заглушкой.
- Также проблемными стали данные, заполняемые пользователем: количество балконов, высота потолков, площади. Помимо пропусков эти данные содержат аномальные значения, которые пришлось удалить из общей базы данных. В ходе обработки базы данных и решения проблем с пропущенными или аномальными значеними, от изначального набора данных мы оставили 99,15 %, заменив логически данные там, где было возможно.
Рекомендации: проверить картографический метод заполнения данных, внести все населенные пункты в базы данных, исключить возможность пропусков значений в расстояниях. Необходимо усилить контроль за вводимыми пользователями данными. Высоту потолков можно было бы привести к диапазонным категориям. Или ввести в данные год постройки дома, с предложением для пользователя, публикующего объявление, типичного значения по планировке квартиры выбранного дома.
Вывод По предложенной базе данных мы составили описание самой продаваемой квартиры по данным Яндекс Недвижимости:
Площадь такой квартиры составляет 40-45 кв.м, из нее кухонная зона занимает 7 кв.м. Цена стоимости за один квадратный метр составляет 100 000,00 рублей, и общая цена такой квартиры – 3,5 миллиона рублей. Это однокомнатная квартира с высотой потолка 2,6 метра, расположенная на 2 этаже пятиэтажного дома и удалена от центра города Санкт-Петербург на 14,7 км.
Можно утверждать, что быстрее всего продаются квартиры, размещенные в марте, январе или октябре - вполне реально найти покупателей за 44 дня. Однако, не советуем размещать объявления о продаже в начале лета - май, июнь. На общую цену квартиры сильное значение оказывает площадь самой квартиры и удаленность от центра города. Чем больше площадь, тем больше будет и стоимость, но чем дальше от центра, тем ниже будет цена.