2023 / 07 / 31
- 第一次遇到瀏覽器版本不兼容問題 Chrome Browser 與 Driver 惱人的版本管理
- 版本問題兼容性、安全性混和問題太複雜了,直接使用 firefox 快速處理
2023 / 07 / 02
- 嘗試增加樂居網抓一些平常想關注的房屋物件
- 嘗試爬學習網站 viedo blob 檔案
2023 / 05 / 26
- 新增 line bot 爬各大股票指數定期通知
- asus bios 定時開機
- window+R =>
shell:startup
自動啟動 bat - window+R =>
compmgmt.msc
WS 排程 bat 啟動爬蟲 - Google App Script 串 line Notify
- GAS 鬧鐘設定觸發機制,程式碼請參考 GAS-Stock.js
- Google Sheet 操作方式 https://developers.google.com/apps-script/reference/spreadsheet/sheet?hl=zh-tw#getrowgrouprowindex,-groupdepth
- Google App Script 串 discord Notify
- useServiceAccountAuth 開啟 Google Sheet 權限
- 新增 auto punch time card
- 臺北市政府行政機關辦公日曆表
- 移除 shell:startup => clear.bat => :: 使顯示器停下,並顯示"請按任意鍵繼續..." pause
2023 / 05 / 03
- chrome://settings/help
- http://chromedriver.storage.googleapis.com/index.html
- https://chromedriver.chromium.org/downloads
- node index.js 使用 node 執行檔案
- dotenv:快速構建環境參數的套件
- selenium-webdriver: Error: chrome.setDefaultService is not a function
- ERROR:page_load_metrics_update_dispatcher.cc
- https://blog.csdn.net/weixin_45292658/article/details/108150531
- https://ithelp.ithome.com.tw/m/articles/10244446
- https://snyk.io/advisor/python/selenium/functions/selenium.webdriver.ChromeOptions
- https://github.com/dean9703111/ithelp_30days/tree/master/day29
- Add options to selenium chrome browser using nodejs
- google-spreadsheet:npm Google Sheet 在包一層,但已經很久沒更新了
- googleapis:比較麻煩要做一些基礎工作,較長更新且有谷哥參與
- https://github.com/theoephraim/node-google-spreadsheet
2023 / 04 / 30
先前因為忙碌且沒急迫性,所以這個需求就一直以手動方式執行,最近看到大男孩更新了一篇 第一次考爬蟲接案 | Web Scraping | 好賺嗎?,又讓我想到了這個專案,這次將以 Google Sheet 搭配 Google App Script。
花了兩天才發現 GAS 碰到 Google 政策問題與無法運行 browser automation 函式庫無法解析 SPA ,只能做一些簡單的爬蟲,發現此 solution 無法接續
( stackoverflow ) browser-automation-at-google-apps-scripts
cheerio:一種類似 JQ 的套件,用於爬回資料時做後續處理
接續其他 solution 以 selenium-webdriver Node 執行此專案,因為本身在做全端工程師,除了 c# 以外比較常接觸到 node 就用此架構開發比較不用搞環境跟學其他語言
參考 selenium-webdriver:爬蟲起手式,帶你認識所見即所得的爬蟲工具
2021 / 10 / 07
很難想像身為一個資訊人接觸到爬蟲已經是我從業 1.5 年後了,
從電腦網路 => [區域網路] => 網際網路 => 全球資訊網 => 瀏覽器 => 網路搜尋引擎 => 網路爬蟲
從 3G / 藍芽 / Wifi / NFC / RFID / 4G / 5G
這一系列硬體生態的蓬勃發展才造就了,軟體面 應用程式 => 雲端化 ( Web )、移動化 ( Mobile ) 的溫床
新技術的不斷產生 AI、AAI、IoT、大數據、區塊鏈 最終還是要回歸到應用層面,利用這些技術達到需求目的。
不好意思岔題了,所以回歸正題
- 希望做一個簡易的 Script 幫忙爬每天或每月的前端框架在各大論壇與人力銀行的熱度,方便讓我知道要寫哪個方向的 Side project 讓三年後的澳洲行機率提高些。
- 幫忙確認國發會景氣指標與目前 0050 0056 或 美股 VIX QQQ 之類的漲幅,這方面比較還好不急可以後續有機會再做。
技術選型 PHP,Python、Node.js
以上知乎討論串蠻詳細的如果之後有更細項的需求再從裡面找資料,所以選擇普通的 node.js 即可,剛好電腦裡面不用裝新的開發環境就能直接跑。
https://www.npmjs.com/package/google-spreadsheet
- | - | - |
---|---|---|
技能 | Seek | 104 |
java | 7,518 | 5701 |
python | 6,555 | 6277 |
c# | 5,153 | 5494 |
php | 3,787 | 6209 |
react | 3,579 | 1453 |
angular | 3,186 | 965 |
angularjs | 906 | 448 |
vue | 583 | 1486 |
ruby | 290 | 340 |
Golang | 228 | 459 |
ruby on rails | 99 | 2996 |
front end developer | 4,128 | |
前端工程師 | 3416 | |
back end developer | 565 | |
後端工程師 | 3437 | |
full stack developer | 2,177 | |
全端工程師 | 17916 |