g0v/tw-rental-house-data

支援 591 的新網頁格式

Closed this issue · 2 comments

ddio commented

問題

591 的物件資料,除了網址變更外,也全都改為純前端渲染了~原本的 HTML 裡,只剩下載入 JS 的邏輯,沒有任何資料了。

這個問題是關於什麼?

所有的 591 物件

解法

治標

無 XD

治本

  1. 把新解法,修進 scrapy-tw-rental-house
  2. 讓專案程式,套用 scrapy-tw-rental-house , #31

既有資料修正

新物件網頁比例

從統計資料來看, 06/17 後有 1/3 的物件頁面換成新版本,09/27 開始全面更換,因此在 06/17 後的資料,只有搜尋 API 回傳的資料,有成功存入資料庫中,包含:

  1. 物件 ID
  2. 封面圖片
  3. 縣市、鄉鎮市區
  4. 物件類型
  5. 坪數
  6. 所在樓層
  7. 建物樓高
  8. 月租金

其餘欄位,包含約略地點,都不會爬到。

在爬蟲版本更新後,會再根據目前網站資料,發佈一份 6~9 月的更新資料集,屆時會再統計,總共可以找回多少物件。

ddio commented

新版面資料增修規劃

刪除的資料

  1. 所有生活機能,包含學校、公園、百貨公司等

    因為目前 591 頁面僅揭露餐廳與購物,資料類型較過去少非常多。建議直接參考相關的地理圖資套疊。

  2. 所有附近交通,包含捷運站、火車站等

    因為目前 591 頁面僅揭露公車與捷運,資料類型較過去少非常多。建議直接參考相關的地理圖資套疊。

ddio commented

變更的資料:

  1. 刊登者編碼,因為判讀方式改變,所以無法相容於舊資料