支援 591 的新網頁格式
Closed this issue · 2 comments
ddio commented
問題
591 的物件資料,除了網址變更外,也全都改為純前端渲染了~原本的 HTML 裡,只剩下載入 JS 的邏輯,沒有任何資料了。
這個問題是關於什麼?
所有的 591 物件
解法
治標
無 XD
治本
- 把新解法,修進 scrapy-tw-rental-house
- 讓專案程式,套用 scrapy-tw-rental-house , #31
既有資料修正
從統計資料來看, 06/17 後有 1/3 的物件頁面換成新版本,09/27 開始全面更換,因此在 06/17 後的資料,只有搜尋 API 回傳的資料,有成功存入資料庫中,包含:
- 物件 ID
- 封面圖片
- 縣市、鄉鎮市區
- 物件類型
- 坪數
- 所在樓層
- 建物樓高
- 月租金
其餘欄位,包含約略地點,都不會爬到。
在爬蟲版本更新後,會再根據目前網站資料,發佈一份 6~9 月的更新資料集,屆時會再統計,總共可以找回多少物件。
ddio commented
新版面資料增修規劃
刪除的資料
- 所有生活機能,包含學校、公園、百貨公司等
因為目前 591 頁面僅揭露餐廳與購物,資料類型較過去少非常多。建議直接參考相關的地理圖資套疊。
- 所有附近交通,包含捷運站、火車站等
因為目前 591 頁面僅揭露公車與捷運,資料類型較過去少非常多。建議直接參考相關的地理圖資套疊。
ddio commented
變更的資料:
- 刊登者編碼,因為判讀方式改變,所以無法相容於舊資料