/work_crawler

小说漫画下载工具:腾讯漫画 大角虫漫画 哦漫画 看漫画 漫画台 汗汗酷漫 爱漫画 网易漫画 快看漫画 733动漫网 动漫之家 动漫屋 動漫屋 古风漫画网;アルファポリス カクヨム ハーメルン 小説家になろう 八一中文网 顶点小说 落霞小说网 卡提諾論壇→epub. Download online novels, comics. 小說漫畫下載

Primary LanguageJavaScript

CeJS 線上小說漫畫下載工具 online novels / comics downloader

  • [en] Download novels → epub and comics with GUI and command-line interface.
  • [TW] 批量下載小說 → epub、漫畫網站的工具。視窗+命令行介面。
  • [CN] 批量下载小说 → epub、漫画网站的工具。图形+命令行界面。
  • [ja] ウェブ小説 → epub、ウェブ漫画作品を一括ダウンロードツール。グラフィカル+コマンドラインインターフェース。

TOC 快速瀏覽

Features 特點

  • 可自動下載小說封面以及章節中的插圖。
  • 自動檢核下載的圖片是否是否完整。若有破損將重新下載。
  • 採用 CeJS 線上作品爬蟲程式庫來製作 crawler,可自行配置與設定。
  • 對於漫畫,下載完畢後可以章節為單位自動產生壓縮檔,並自動刪除下載目錄原始圖檔/清除暫存檔。每次下載前將自動讀取壓縮檔資料。(請注意:必須先安裝 7-Zip 18.01 以上的版本

Supported sites 已完成之網站工具

  • For novels, please install 7-Zip command-line version first. 請注意:必須先安裝 7-Zip 18.01 以上的版本,這樣才能製作 .epub 小說電子書、壓縮漫畫章節。
  • 各線上作品網站往往不時改版(更改結構),同時造成本工具無法正常作動;因此若有無法正常運作的情況請見諒,這通常得要更改原始碼方能回復正常。

已撰寫完的各大小說漫畫網站工具包括:

Japanese web fictions / Japanese light novels ライトノベル 日本輕小說 日本のオンライン小説

novel.ja-JP/*.js, web pages → epub

Site Tool file Note
アルファポリス AlphaPolis.js レンタルする話は取得できません
カクヨム kakuyomu.js
ハーメルン Hameln.js
小説を読もう! yomou.js 小説家になろう
ノクターンノベルズ noc.js 小説家になろう男性読者向けの18禁部門サイト

Chinese web fictions / novels **内地小说 **のオンライン小説

novel.cmn-Hans-CN/*.js, web pages → epub

Site Tool file Note
起点中文网 qidian.js 本工具無法下載 VIP章节內容
八一中文网 81xsw.js PTCMS系统
顶点小说 23us.js PTCMS
顶点小说 archive/23us.com.js PTCMS,限制了取得頁面的數量和頻率,暫時放棄。
八八读书网 88dus.js 88读书网(88dushu),PTCMS?
恋上你看书网 630book.js
飘天文学 piaotian.js NOT PTCMS
落霞小说网 luoxia.js WordPress,數量少、速度較慢但品質較高,較少錯字和自我審查。
卡提諾論壇 小說頻道 ck101.js Discuz! X3
  • 中國大陸之小說文字常常會被審查而消失、變造。例如黑名單關鍵字轉為拉丁字母或是打星號,以及數字 0 改成 o、9 改成 q 等等。有時需要多下載幾個網站的文件再做比較。

Chinese webcomics **内地漫画 **のウェブコミック

comic.cmn-Hans-CN/*.js, web pages → epub

  • 本工具無法下載需VIP付費、已屏蔽或刪除的內容。
Site Tool file Note
腾讯漫画 qq.js 本工具無法下載VIP付費內容 2017/8/15 起取消了今日限免
网易漫画 163.js 2017/7/13 本工具無法下載VIP付費內容
大角虫漫画 dajiaochong.js
快看漫画 kuaikanmanhua.js
看漫画 manhuagui.js 漫画柜爱看漫
漫画台 manhuatai.js
动漫之家 dmzj.js 僅處理漫畫。有時會無法讀取。
动漫屋网 dm5.js 似乎不能並行下載圖片,下載速度較慢。似乎拿來下載日本漫畫的人比較多。
733动漫网 733dm.js 僅處理漫畫。
733漫画网 733mh.js 有時會無法讀取。733mh與733dm其實是一樣的東西...
哦漫画 omanhua.js
爱漫画 2manhua.js 許多作品似乎從2017/9/3起就沒有更新。
汗汗酷漫 hhcool.js
古风漫画网 gufengmh.js
热漫吧 archive/remanba.js 自 2016/12/27 14:42 最後一次成功連接後,下午起就持續 404 至 2017/10/19 未復原。
三七阅读 archive/37yue.js 自 2017/6/9 下午最後一次連接後,2017/6/10 9時起就持續 404 至 2017/10/19 未復原。

Installation 安裝

若是想要使用圖形介面,您可以 直接下載安裝包,惟 安裝包並非最新的版本,有些網站下載起來會出問題。若是欲採用最新的版本,或者用作研究開發、想要使用命令行界面作批次處理,請採用下列步驟。

Lazy installation 懶人安裝法

為了想趕快嘗鮮的您~(已經做過的步驟可以跳過)

  1. 先安裝 Node.js7-Zip 18.01 以上的版本。
  2. 下載本工具壓縮檔並解壓縮,應能得到 work_crawler-master 目錄;這將是本工具將安裝的標的目錄,若有需要亦可將之改名。
  3. 下載 CeJS 安裝檔 _CeL.updater.node.js,將此檔儲存到前面所提,本工具將安裝的標的目錄下。

本工具安裝的目錄看起來的樣子

  1. 命令行界面下,進到本工具安裝的目錄,執行命令以下載 CeJS 程式庫:
    node _CeL.updater.node.js

執行命令以下載 CeJS 程式庫

  1. 然後就能開始試用囉。
    # sample commands to extract work_crawler + cejs
    mkdir work_crawler
    cd work_crawler
    wget --output-document=work_crawler.zip https://github.com/kanasimi/work_crawler/archive/master.zip
    unzip work_crawler.zip
    cd work_crawler-master
    wget --output-document=_CeL.updater.node.js https://raw.githubusercontent.com/kanasimi/CeJS/master/_for%20include/_CeL.updater.node.js
    node _CeL.updater.node.js

下載 CeJS 程式庫後本工具安裝的目錄看起來的樣子

  1. 若是您將 CeJS 放置在其他目錄底下,您可以從 _CeL.path.txt 這個檔案來設定放置的路徑。
  2. 您可設定 work_crawler_loder.configuration.js 以指定下載的檔案要放置的標的目錄。 (see work_crawler_loder.js)
  3. 每次要更新到最新 CeJS 程式庫時,只要重新執行一次 CeJS 安裝檔即可。
    node _CeL.updater.node.js
    由於本工具會 cache 作品資訊,更新幅度較大的時候您可能需要刪除作品目錄的 cache,重新下載作品。

Setup GUI 設定視窗型態介面

若是您在作研究開發時,希望使用圖形使用者介面,那麼您還需要安裝 Electron

  1. 請在命令行界面下,進到本工具安裝的目錄,執行命令以安裝 Electron 程式庫:
    npm install electron
  2. 在本工具安裝的目錄下,執行 start_gui_electron.shstart_gui_electron.bat

視窗型態介面

Normal installation 一般正常安裝方法

  1. Please see Node.js usage section at CeJS for detail.
  2. Setup _CeL.path.txt if necessary.
  3. Setup work_crawler_loder.configuration.js (see work_crawler_loder.js). 最後設定好設定檔 work_crawler_loder.configuration.js。例如指定 global.data_directory

Execution 執行

所有操作都必須進到工具檔所在的目錄,在命令行界面下執行。

  1. 確認要下載的網站名與作品名。之後在命令行界面下,執行:

    node 工具檔名.js "作品名" [option=true] [option=value]
    node 工具檔名.js "l=作品列表檔案名" [option=true] [option=value]

    e.g.,

    cd comic.cmn-Hans-CN && node qq.js 狐妖小红娘 skip_error=true
    cd novel.cmn-Hans-CN && node qidian free && echo 下载 起点中文网限免作品
    cd novel.cmn-Hans-CN && node 23us 斗罗大陆Ⅲ龙王传说
    cd comic.cmn-Hans-CN && node 2manhua 大主宰 recheck=true
    cd comic.cmn-Hans-CN && node ikanman l=ikanman.txt recheck=true
    cd novel.cmn-Hans-CN && echo "via id" && node 630book 267
    cd novel.ja-JP       && node yomou 転生したらスライムだった件
  2. 下載的檔案將放在設定檔 work_crawler_loder.configuration.jsglobal.data_directory 所設定的目錄下。若採懶人安裝法,則預設放在解壓縮後工具檔所在的目錄下。

  3. 若是下載出錯,重新執行即可接續下載

Workflow 工作流程

本工具將把所指定的漫畫下載至特定目錄中(預設為工具檔名,如 manhuatai),每套漫畫一個目錄。 folder

folder inside work

folder inside chapter

接續下載時,將從上次的進度(最後下載的章節)接著下載。

接續下載

若是下載小說,最後將包裝成可匯入 calibre 的 epub。

小說 → epub list

小說 → epub

Note 附注

  • 目前本工具不支援自動更新。
  • 對於本工具已經包含的下載模式,熟練後一般約需2至4小時新增或更新下載工具,以達初步可用狀態。
  • 小說作品採用單線程下載,以避免對網站造成過度的負荷。漫畫作品則以章節為單位多線程下載,每個章節的圖片下載完畢之後,再接著下一個章節。
  • 歡迎熱心友人加入,以改進這個工具。

Purpose 公開目的

  • 示範如何使用 CeJS線上作品爬蟲程式庫 (module) 批量下載各線上小說漫畫網站。
  • 展示程式撰寫當時,各線上小說漫畫網站之網站資料結構。
  • 提供離線瀏覽小說漫畫功能,以利個人化閱覽方式。增進閱覽體驗、掌控閱覽環境。
  • 增加對閱讀權的掌控能力,預防暫時無法連接網頁,或者數十年後找不到記憶中閱覽過的作品。

非常歡迎提供使用意見與改善建議

Announce 聲明

  • 本工具僅供同好學習和研究,嚴禁傳播或用於任何商業、非法用途!請小心利用本工具。所下載或備分之內容版權屬原作者所有,請勿公開散布傳播。利用本工具可能引起的任何糾紛或損失損害,本人恕不負責。

Uninstallation 移除

  • 要移除本工具,只需將解壓縮後工具檔所在的目錄整個刪除即可。
  • 作品下載的標的目錄(存放圖片檔與紀錄檔的目錄)需另外手動刪除。