2023 / 07 / 31

  1. 第一次遇到瀏覽器版本不兼容問題 Chrome Browser 與 Driver 惱人的版本管理
  2. 版本問題兼容性、安全性混和問題太複雜了,直接使用 firefox 快速處理

2023 / 07 / 02

  1. 嘗試增加樂居網抓一些平常想關注的房屋物件
  2. 嘗試爬學習網站 viedo blob 檔案

2023 / 05 / 26

image

  1. 新增 line bot 爬各大股票指數定期通知
  2. asus bios 定時開機
  3. window+R => shell:startup 自動啟動 bat
  4. window+R => compmgmt.msc WS 排程 bat 啟動爬蟲
  5. Google App Script 串 line Notify
  6. GAS 鬧鐘設定觸發機制,程式碼請參考 GAS-Stock.js
  7. Google Sheet 操作方式 https://developers.google.com/apps-script/reference/spreadsheet/sheet?hl=zh-tw#getrowgrouprowindex,-groupdepth
  8. Google App Script 串 discord Notify
  9. useServiceAccountAuth 開啟 Google Sheet 權限
  10. 新增 auto punch time card
  11. 臺北市政府行政機關辦公日曆表
  12. 移除 shell:startup => clear.bat => :: 使顯示器停下,並顯示"請按任意鍵繼續..." pause

2023 / 05 / 03

image

  1. chrome://settings/help
  2. http://chromedriver.storage.googleapis.com/index.html
  3. https://chromedriver.chromium.org/downloads
  4. node index.js 使用 node 執行檔案
  5. dotenv:快速構建環境參數的套件
  6. selenium-webdriver: Error: chrome.setDefaultService is not a function
  7. ERROR:page_load_metrics_update_dispatcher.cc
  8. https://blog.csdn.net/weixin_45292658/article/details/108150531
  9. https://ithelp.ithome.com.tw/m/articles/10244446
  10. https://snyk.io/advisor/python/selenium/functions/selenium.webdriver.ChromeOptions
  11. https://github.com/dean9703111/ithelp_30days/tree/master/day29
  12. Add options to selenium chrome browser using nodejs
  13. google-spreadsheet:npm Google Sheet 在包一層,但已經很久沒更新了
  14. googleapis:比較麻煩要做一些基礎工作,較長更新且有谷哥參與
  15. https://github.com/theoephraim/node-google-spreadsheet

2023 / 04 / 30

先前因為忙碌且沒急迫性,所以這個需求就一直以手動方式執行,最近看到大男孩更新了一篇 第一次考爬蟲接案 | Web Scraping | 好賺嗎?,又讓我想到了這個專案,這次將以 Google Sheet 搭配 Google App Script。

花了兩天才發現 GAS 碰到 Google 政策問題與無法運行 browser automation 函式庫無法解析 SPA ,只能做一些簡單的爬蟲,發現此 solution 無法接續

( stackoverflow ) browser-automation-at-google-apps-scripts

cheerio:一種類似 JQ 的套件,用於爬回資料時做後續處理

接續其他 solution 以 selenium-webdriver Node 執行此專案,因為本身在做全端工程師,除了 c# 以外比較常接觸到 node 就用此架構開發比較不用搞環境跟學其他語言

參考 selenium-webdriver:爬蟲起手式,帶你認識所見即所得的爬蟲工具


2021 / 10 / 07

很難想像身為一個資訊人接觸到爬蟲已經是我從業 1.5 年後了,

電腦網路 => [區域網路] => 網際網路 => 全球資訊網 => 瀏覽器 => 網路搜尋引擎 => 網路爬蟲

從 3G / 藍芽 / Wifi / NFC / RFID / 4G / 5G

這一系列硬體生態的蓬勃發展才造就了,軟體面 應用程式 => 雲端化 ( Web )、移動化 ( Mobile ) 的溫床

新技術的不斷產生 AIAAIIoT大數據區塊鏈 最終還是要回歸到應用層面,利用這些技術達到需求目的。


不好意思岔題了,所以回歸正題

需求

  1. 希望做一個簡易的 Script 幫忙爬每天或每月的前端框架在各大論壇與人力銀行的熱度,方便讓我知道要寫哪個方向的 Side project 讓三年後的澳洲行機率提高些。
  2. 幫忙確認國發會景氣指標與目前 0050 0056 或 美股 VIX QQQ 之類的漲幅,這方面比較還好不急可以後續有機會再做。

技術選型 PHP,Python、Node.js

以上知乎討論串蠻詳細的如果之後有更細項的需求再從裡面找資料,所以選擇普通的 node.js 即可,剛好電腦裡面不用裝新的開發環境就能直接跑。

開發軌跡

https://www.npmjs.com/package/google-spreadsheet


手動查詢範例

- - -
技能 Seek 104
java 7,518 5701
python 6,555 6277
c# 5,153 5494
php 3,787 6209
react 3,579 1453
angular 3,186 965
angularjs 906 448
vue 583 1486
ruby 290 340
Golang 228 459
ruby on rails 99 2996
front end developer 4,128
前端工程師 3416
back end developer 565
後端工程師 3437
full stack developer 2,177
全端工程師 17916