开源Python爬取复审委决定代码
在专利法第四次修改草案中,明确提出了“提供专利信息基础数据,促进专利信息传播与利用”。无效、复审决定等数据对现实的专利实务具有借鉴意义。专利复审委网站有两个无效决定入口,一个为“无效决定公布”,每天及时无效决定列表,内容为图片格式;另一个入口提供了多个查询功能,特别是提供了无效决定及复审决定的WORD格式,这一点要强于美国PTAB决定的公开方式。
但对于无效决定、复审决定,没有提供全文检索入口。复审和无效实行合议审查制,无效决定中的观点、类似问题的处理方式等在一定程度反应了专利实物操作的主流观点,具有一定利用价值。无效决定和复审决定,配合行政诉讼文书,可以预测复审委合议组对相关问题的观点,也可以提高无效决定结果和诉讼结果的预期性。
开源Python爬取无效和复审决定代码
为研究学习目的,构建了用于爬取专利复审委无效决定WORD文档的Python源代码。由于非计算机专业,该源代码靠百度搜索及有限的C语言知识构建,运行效率可能不高,但整个代码为原创,简单粗暴实用。如下图所示,已在百度网盘共享,代码的运行与Python配置环境及复审委网站是否修改密切相关。
该代码将网址url最后的两个字母“wx”修改为“fs”,可以用来抓取复审决定的WORD文档。
文件输出结果为Python目录下Scripts文件夹中下载的word文档;屏幕输出结果如下图所示。
共享1.9万条无效决定和1.6万条复审决定
本次共享的无效决定时间跨度为2012年1月至2019年1月,约1.9万个WORD文档,这些都是复审委网站公开的文件,均提供了网址供下载。由于爬取过程中可能存在的异常情况,导致爬取的结果与实际公开可能存在偏差。根据无效决定号之差以及实际爬取的无效决定总数,计算无效决定爬取率约为92%。上述WORD文档及Python代码程序已在百度网盘**享,供专利代理人、专利律师用于研究目的,提高专利无效、行政诉讼结果的可预期性。在我的公众号页面中输入“无效决定”,可以获得相关无效决定及源代码的链接方式。(如果下载不方便,可微信向我索要)
另外,还爬取了2018年左右大约1.6万多个复审决定。在我的公众号页面中输入“复审决定”,可以获得共享链接。
下载到本地后,WIN7以上操作系统可以对其进行索引,或者利用专业的索引软件,进行全文检索。
上述WORD文档数据的共享纯属公益,谢绝用于商业目的。
在春节前的专利法第四次修改征求意见中,在人大网站提建议将“提供专利信息基础数据”修改为“提供专利信息数据”,删除“基础”二字,从法律层面促使进一步公开相关专利信息数据。我个人认为,这些信息数据不应该只为某些大型事务所或机构所独有,也不应该成为牟利的工具。
数据已成为第一生产力。我相信,无效决定、复审决定等专利信息数据的公开、传播与利用,可以赋能专利从业人员,提供其专业技能,从而进一步提高专利质量。
微信公众号:专利方舟
泊头子
2019-2-11
无效决定共享地址获取方式见链接:https://mp.weixin.qq.com/s/2GUeLhR1OpdmPx3o1jiDwQ