从addgene中爬取Cheryl_Arrowsmith相关质粒信息。 A web crawler for Cheryl_Arrowsmith of addgene.org 这项任务是导师临时给的,一开始遇见了表格爬下来是空的(后来发现存在包的更新)、试图从URL找原因发现URL不变(实际上只有包的改变)、无法解析包(暴力从控制台复制相关标签解决)、解析不出标签来(用的etree处理table)等问题,最后终于完成了第一个爬虫程序 第二项爬虫更艰巨,一开始发现标签大量重复,然后用xpath经常找不准。用bs4纯文本输出后又显得排版不齐,最后一狠心准备逐个爬取单独成列。第一次遇见问题是解析不出纯文本,用xpath中text()解决,随后是遇见路径不对(\会被转义)、个别网页缺少某几项导致标签解析不出来、标签空格多要去除空格、个别项目空格位置奇特导致去多了把正文搞没了……等等,更要命的是运行时候经常不明原因卡住,通过计数发现了卡住的地方没有规律性。没办法拆成了四步运行,终于成了。后续还会继续优化
blauemond/addgene-Cheryl_Arrowsmith-
从addgene中爬取Cheryl_Arrowsmith相关质粒信息。 A web crawler for Cheryl_Arrowsmith of addgene.org
Python