addgene-Cheryl_Arrowsmith-

从addgene中爬取Cheryl_Arrowsmith相关质粒信息。 A web crawler for Cheryl_Arrowsmith of addgene.org 这项任务是导师临时给的，一开始遇见了表格爬下来是空的（后来发现存在包的更新）、试图从URL找原因发现URL不变（实际上只有包的改变）、无法解析包（暴力从控制台复制相关标签解决）、解析不出标签来（用的etree处理table）等问题，最后终于完成了第一个爬虫程序第二项爬虫更艰巨，一开始发现标签大量重复，然后用xpath经常找不准。用bs4纯文本输出后又显得排版不齐，最后一狠心准备逐个爬取单独成列。第一次遇见问题是解析不出纯文本，用xpath中text（）解决，随后是遇见路径不对（\会被转义）、个别网页缺少某几项导致标签解析不出来、标签空格多要去除空格、个别项目空格位置奇特导致去多了把正文搞没了……等等，更要命的是运行时候经常不明原因卡住，通过计数发现了卡住的地方没有规律性。没办法拆成了四步运行，终于成了。后续还会继续优化

blauemond/addgene-Cheryl_Arrowsmith-

addgene-Cheryl_Arrowsmith-