- host_is_superhost
- host_has_profile_pic
- host_identity_verified
- is_location_exact
- is_business_travel_ready
- instant_bookable
- require_guest_profile_picture
- require_guest_phone_verification
- bed_type : 'Real Bed' = 0, 'Couch' = 1, 'Futon' = 2, 'Airbed' = 3, 'Pull-out Sofa' = 4 (解决办法:df.replace('x', 'y'))
- room_type : 'Entire home/apt' = 0, 'Private room' = 1, 'Shared room' = 2
- cancellation_policy :'strict_14_with_grace_period' = 0, 'moderate' = 1, 'flexible' = 2
- first version, 我们从106列特征通过人工筛选的方式将 与价格没有关系的特征缩减为47列
- second version, 我们将可分类的数据数字化, 将二元t/f换成1/0, 将多元成分也同样以数字的形式呈现。
- third version, 我们根据first review feature 删除了一些数据, 从 31457行 到 18545行, 因为我们认为没有人所观看的房子的价格没有可借鉴的价值
- Fourth version, 我们将host_response_rate中的null值 用剩余值的平均值替换
- Fifth version, 我们将price和 extra_price改为数字格式, 例子(1,000格式改为数字格式 1000)
- 0720_1750 全部内容处理完成(独热码),未进一步drop行。next step : rule : [price <(50 * accomondates)] -> drop
- 0721_2300 保留 ([price > (50 * accomondates)] & [price > (50 * beds]) & [min_nights <= 3])
- 0722_2300 删除了 >2w & 9999的数据, beds < 50, bathrooms = 101.5 -> 1
- 0725_2200 新增房屋距离市中心的距离Distance
- 0729_2200 新增房屋距离最近地铁站的距离subwayDistance