一个持续更新的专有领域知识库,聚焦单细胞与空转测序,通过收集和整理最新科研文献提供信息。
网址:https://single-cell-papers.bioinfo-assist.com/
本仓库从 what-deep-learning-does-in-biomedicine 拷贝和修改而来。
-
克隆本仓库:
git clone https://github.com/yanlinlin82/single-cell-papers.git
-
准备环境
python -m venv .venv . .venv/bin/activate pip install -U -r requirements.txt
-
配置环境参数
vi .env
OPENAI_BASE_URL=https://api.deepseek.com # 若使用 openai API,则留空,或使用 https://api.openai.com/v1 OPENAI_API_KEY=sk-XXXX # 填写自己账号的 API Key OPENAI_MODEL=deepseek-chat # 若使用 openai API,可设置为 gpt-4o-mini OPENAI_PROXY_URL=socks5://x.x.x.x:xxxx # 用于(从国内翻墙)调用 openai API,使用 DeepSeek 则可不配置此项
-
初始化并运行Django
python manage.py migrate python manage.py collectstatic
-
PubMed数据获取
lftp -c "mirror -c https://ftp.ncbi.nlm.nih.gov/pubmed/" # 注意全套下载有超过50G
PubMed数据每日更新,在相同目录中运行上述命令,即可自动增量下载
-
扫描PubMed文件,提取文献信息,导入数据库
python scripts/scan-pubmed.py /path/to/pubmed/updatefiles/pubmed24nXXXX.xml.gz
上述命令每次只导入一个
pubmed24nXXXX.xml.gz
文件(通常含有上万篇文献)中的匹配关键词的文献信息。如果希望扫描并导入全部PubMed数据,则可以使用如下bash循环:find /path/to/pubmed/{baseline,updatefiles}/ -type f -name 'pubmed*.xml.gz' \ | sort -r \ | while read f; do python scripts/scan-pubmed.py "$f" sleep 1 done
本项目信息由手工或AI整理,信息难免存在错漏,请使用时务必注意核实。此外,由于各种原因,项目可能会不定期断档停更,还请见谅!
本仓库基于 MIT协议 发布,允许自由修改和传播。