/bookget

bookget 古籍图书下载器

Primary LanguageGoGNU General Public License v3.0GPL-3.0

bookget

bookget 数字图书馆下载工具

鸣谢: 书格shuge.org 有品格的数字古籍图书馆。

支持的数字图书馆:

  1. **国家图书馆
  2. 哈佛大学图书馆 或哈佛燕京图书馆藏
  3. **台北图书馆
  4. hathitrust数字图书馆
  5. 普林斯顿大学图书馆
  6. 日本京都大学图书馆
  7. 美国国会图书馆
  8. 日本国立国会图书馆
  9. 日本E国宝e-Museum
  10. 日本宫内厅书陵部
  11. 日本东京大学东洋文化研究所
  12. **香港中文大学图书馆
  13. 牛津大学博德利图书馆
  14. 日本国立公文书馆(内库文库)
  15. 日本东洋文库
  16. 日本早稻田大学图书馆
  17. 韩国国家图书馆 或开放数据 (注:请使用v0.2.6版。新版不再支持。)
  18. 新日本古典籍综合数据库
  19. 德国柏林国立图书馆
  20. 日本京都大学人文科学研究所 - 东方学数字图书博物馆
  21. 英国图书馆(藏有手稿本)
  22. **香港科技大学图书馆
  23. **台北故宫博物院 – 善本古籍
  24. 日本国立历史民俗博物馆
  25. 日本本市立米泽图书馆
  26. 日本庆应义塾大学图书馆
  27. 日本关西大学图书馆
  28. **河南省洛阳市图书馆
  29. **浙江省温州市图书馆-瓯越记忆
  30. 巴伐利亚州立图书馆
  31. 斯坦福大学图书馆
  32. **广东省深圳市图书馆-古籍
  33. familysearch.org 中國族譜收藏 1239-2014年
    familysearch.org 家譜圖像
  34. **广东省广州大典
  35. 國際敦煌項目

用户手册

请参见以下文档:

  1. 支持的URL格式
  2. IIIF自动检测下载
  3. 批量http下载
  4. 高级:自定义用户cookie
  5. 旧版:PDF手册 适用于v0.2.6及更低版本。

下载 bookget

第一次使用,请按以下步骤操作。

  1. 打开 最新正式版网页, 下载匹配你操作系统的版本 (Windows, MacOS, 或 Linux),
  2. 解压缩到电脑中任意文件夹下。
  3. 双击运行,并按提示输入URL。(例如:欽定古今圖書集成 - **国家图书馆)。
$ bookget
Enter an URL:
-> http://read.nlc.cn/allSearch/searchDetail?searchType=1002&showType=1&indexName=data_892&fid=411999021002
  1. 【可选】把 bookget 放到 C:\windows 目录下(Linux用户是 /usr/local/bin 或 /usr/bin/目录)。
    在终端下输入命令:bookget "URL" (推荐用双引号包含网址),按回车键开始下载。
    Windows 终端:cmd / PowerShell
    Linux / MacOS终端:bash / sh / zsh
$ bookget "http://read.nlc.cn/allSearch/searchDetail?searchType=1002&showType=1&indexName=data_892&fid=411999021002"
  1. 【可选】批量下载多个URL。在终端内输入以下命令:
$ bookget -i urls.txt

提示:urls.txt可以是任意文件名,内容是要下载的图书URL,一行一个URL,回车换行。

  1. 【可选】带上cookie下载:
$ bookget -c cookie.txt [URL]

支持的更多参数

$ bookget -h
Usage: bookget [OPTION]... [URL]...
  -a int
        自动检测下载URL。可选值[0|1|2],;0=默认;
        1=通用批量下载(类似IDM、迅雷);
        2= IIIF manifest.json 自动检测下载图片
  -c string
        指定cookie.txt文件路径
  -cdn int
        使用CDN加速,可选值[0|1]。0=否,1=是。仅对 www.loc.gov 有效。
  -ext string
        指定文件扩展名[.jpg|.tif|.png]等
  -fn int
        保存文件名规则。可选值[0|1]。0=中文名,1=数字名。仅对 read.nlc.cn 有效。 (default 1)
  -h    显示帮助
  -i string
        下载的URLs,指定任意本地文件,例如:urls.txt
  -mp int
        合并PDF文件下载,可选值[0|1]。0=否,1=是。仅对 rbk-doc.npm.edu.tw 有效。
  -n uint
        最大并发连接数 (default 16)
  -o string
        下载保存到目录 (default "D:/bookget/bookget")
  -rs string
        自定义dezoomify-rs路径,例如:D:/bookget/dezoomify-rs (default "dezoomify-rs")
  -seq int
        图书起始页面数字
  -ua string
        user-agent (default "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:103.0) Gecko/20100101 Firefox/103.0")
  -v    显示版本
  -w int
        指定图片宽度像素。推荐2400,若>6400为最大图 (default 7000)

批量下载

bookget -i urls.txt -c .\cookie.txt -a 1 -n 1 -ext ".jpg"
更多参数,请使用 bookget -h 查看。

urls.txt内容如下:
在urls.txt文件中,毎行一个URL,回车换行,可以有多个URL。

http://viewer.nl.go.kr:8080/nlmivs/view_image.jsp?cno=CNTS-00047981911&vol=1&page=(1-155)&twoThreeYn=N
http://viewer.nl.go.kr:8080/nlmivs/view_image.jsp?cno=CNTS-00047981911&vol=2&page=(1-163)&twoThreeYn=N
http://viewer.nl.go.kr:8080/nlmivs/view_image.jsp?cno=CNTS-00047981911&vol=3&page=(1-161)&twoThreeYn=N
http://viewer.nl.go.kr:8080/nlmivs/view_image.jsp?cno=CNTS-00047981911&vol=4&page=(1-163)&twoThreeYn=N
http://viewer.nl.go.kr:8080/nlmivs/view_image.jsp?cno=CNTS-00047981911&vol=5&page=(1-167)&twoThreeYn=N
http://viewer.nl.go.kr:8080/nlmivs/view_image.jsp?cno=CNTS-00047981911&vol=6&page=(1-135)&twoThreeYn=N

cookie.txt 格式如下:

Cookie: WMONID=soB981Rm1Zd; _ga=GA1.3.87528781.1649496227; PCID=f3195068-16ea-8747-eedd-b37cf8523975-1649496227656; _INSIGHT_CK_1101=a658ca0653f5817a32a1b3a6942409e8_96227|1cbbd600ff48120ce10fed8a58ea4686_80164:1650282843000; JSESSIONID="0cfPybFlA0z2qRiy8Fr7sJCtdJooLnY8oACN62iv.VWWAS1:tv-1"; _gid=GA1.3.1049050692.1659041876
User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.5060.134 Safari/537.36 Edg/103.0.1264.71