Asoul/tsrtc

無法從 mis.tse.com.tw 取得資料

elleryq opened this issue · 6 comments

用 python crawl.py 無法抓到資料,會停住。
試著加上 timeout=30,則會丟出重連失敗的 exception。
試著用 wget + 網址去抓,會有 Tried to open a foreign host with url: http://1.1.1.1 的錯誤,我想是 mis.tse.com.tw 問題。

TSE 應該是有擋 外部直接使用 getStockInfo ,就這幾個月的事吧

我trace 他網頁的Javascript ,用法還是一樣
但從外部直接存取 getStockInfo 會傳回錯誤
如果模仿瀏覽器加上一些 header,偶爾會傳回正確資料,但還是很不穩定

我目前就卡在這 XD

@BlackStockton 謝謝回應~ 之前我是用 toomore/grs 的模組,也是遇到一樣的問題。

Asoul commented

目前沒有較好的辦法解決,如果有方法的話可以 PR 給我,感恩~~

@Asoul 朋友給我這個網址 http://www.coco-in.net/thread-41032-1-1.html
裏面有段 python 程式,他是用 requests.session() + header ,然後就可以抓到了~

Asoul commented

@elleryq 已經修好囉,順便把 code 重構一下,現在比較有架構了XD 比較好懂

Asoul commented

阿,然後有改的是現在如果需要抓的資料太多,有用 CrawlerController 拆成小段小段的資料去抓,就不用另外用 command line 加參數了