無法從 mis.tse.com.tw 取得資料
elleryq opened this issue · 6 comments
elleryq commented
用 python crawl.py 無法抓到資料,會停住。
試著加上 timeout=30,則會丟出重連失敗的 exception。
試著用 wget + 網址去抓,會有 Tried to open a foreign host with url: http://1.1.1.1 的錯誤,我想是 mis.tse.com.tw 問題。
BlackStockton commented
TSE 應該是有擋 外部直接使用 getStockInfo ,就這幾個月的事吧
我trace 他網頁的Javascript ,用法還是一樣
但從外部直接存取 getStockInfo 會傳回錯誤
如果模仿瀏覽器加上一些 header,偶爾會傳回正確資料,但還是很不穩定
我目前就卡在這 XD
elleryq commented
@BlackStockton 謝謝回應~ 之前我是用 toomore/grs 的模組,也是遇到一樣的問題。
Asoul commented
目前沒有較好的辦法解決,如果有方法的話可以 PR 給我,感恩~~
elleryq commented
@Asoul 朋友給我這個網址 http://www.coco-in.net/thread-41032-1-1.html
裏面有段 python 程式,他是用 requests.session() + header ,然後就可以抓到了~
Asoul commented
阿,然後有改的是現在如果需要抓的資料太多,有用 CrawlerController 拆成小段小段的資料去抓,就不用另外用 command line 加參數了