Pinned Repositories
-2020_University_Scholar_Discovery-system
利用网络爬虫技术,从国内外各大高校公开的网站和资源上,搜寻并下载各个高校专家,教授等学者信息,并为这些学者研究方向建立画像系统。用户可以按学校,专业,学科,论文,研究方向等各个维度去查看和对比各位学者的研究领域信息。 基本模块:专家数据爬取模块,论文信息爬取模块,基于专家画像的信息抽取,专家搜索引擎,研究方向提取,专家自我网络中主题圈发现,数据可视化
Chinese
Tools and resources for Chinese texts preprocessing. Validated in two papers, one CCF C, EI indexing and one CCF B, SCI indexing.
CookiesPool
CookiesPool Based on Redis
Final_word_Similarity
根据2016年7月论文,综合了词林扩展版与知网Hownet的相似度计算方法,达到了更大的词汇覆盖、更优的效果。
gpt-crawler
Crawl a site to generate knowledge files to create your own custom GPT from a URL
patent
专利信息及全文下载
Patent-1
使用pyautogui抓取CNIPA专利信息(抓取,下载,邮件提醒)
patent-analysis
使用python训练模型,并最终发布在web上的专利分析系统。实现了以下两个功能:1、预测侵权专利赔偿金额;2、根据产品特征和权利要求说明书文本判断产品是否侵权
PatentsDownloader
python, 中文专利下载
pymindmap
pymindmap是一个由python控制的脑图编辑工具
seekertrue's Repositories
seekertrue/ProxyPool
Proxy Pool System
seekertrue/Anti-Anti-Spider
越来越多的网站具有反爬虫特性,有的用图片隐藏关键数据,有的使用反人类的验证码,建立反反爬虫的代码仓库,通过与不同特性的网站做斗争(无恶意)提高技术。(欢迎提交难以采集的网站)
seekertrue/shadowsocks-windows
If you want to keep a secret, you must also hide it from yourself.
seekertrue/007
study code clone
seekertrue/Variant_Detect
商标变体识别