- python3
- selenium
- tqdm
- chromdriver
把 chromdriver 所在目录配置到环境变量即可;也可以修改脚本中的第一句话export PATH=[chromdriver_path]:$PATH
根据关键字批量爬取 github 项目;
./search.sh
爬取 arXiv 每日更新论文,导出成特定排版的 markdown 文本;
./new.sh
# use chromdriver
python arxiv/search_pdf.py --query low+light --output_dir $output
# use request, slowly, accuracy
python arxiv/search_pdf_no_driver.py --query low+light --output_dir $output
# use request, string, fast
python arxiv/search_pdf_string.py --query "low+light" --output_dir $output
## multi query
python arxiv/search_pdf_string.py --query "low+light" "super resolution" --output_dir $output
## use block
python arxiv/search_pdf_string.py --query UAV --blocked_keywords Aerial drone --output_dir $output
python arxiv/citations.py --url https://arxiv.org/abs/2211.03375 --driver $chromedriver --type all --output $output
python ICML.py --type ICML --output $dir
# download all years
python conference/ICRA.py --output $output
# download the year, like 2023
python conference/ICRA.py --output $output --url "https://www.iaarc.org/publications/search.php?series=1&query=&publication=45"
python arxiv/search_pdf_string.py --query CVPR 2024 --output_dir $output
# 下载全部年份的论文
python ISCA.py --year all --output $dir
# 下载特定年份的论文
python ISCA.py --year 2023 --output $dir
环境配置
pip install yt-dlp
pip install google-api-python-client
下载视频
python dataset/youtube.py --key "key" --query "jump rope" --output "output"
Message: session not created: This version of ChromeDriver only supports Chrome version 78
ChromeDriver与本地chrome浏览器的版本不一致导致
根据 chrom 查找对应版本号 https://blog.csdn.net/yoyocat915/article/details/80580066
ChromeDriver 下载地址 http://npm.taobao.org/mirrors/chromedriver/
- search_pdf.py 中舍弃 webdriver 的用法,用 requests 代替(顶会代码中有);