Pinned Repositories
amazon-wcs
亚马逊自助采集服务器,可根据提供的各类采集链接自动采集商品详细信息。支持美、英、日、法、意、西、德、印、加站点。
ccapi
A header-only C++ library for interacting with crypto exchanges. Binding for Python is provided. A spot market making application is also provided as an end-to-end solution for liquidity providers.
CupMobile
移动端电商 angularjs
etlpy
a smart stream-like crawler & etl python library
faceai
一款优秀的人脸、视频、文字:检测、识别的智能AI项目。
go-ethereum-rpc
imagepy
Image process framework based on plugin like imagej, it is esay to glue with skimage, opencv, mayavi...
Jianshu
简书网 http://www.jianshu.com/ 的用户抓取
jtyd_python_spider
LengyueSpiderEngine
冷月爬虫框架 提高爬虫统一管理 拓展性能 支持插件
xtuyaowu's Repositories
xtuyaowu/CEC-Automatic-Annotation
基于CEC语料库挖掘要素识别规则,对新闻报道类生语料进行自动标注
xtuyaowu/Crawer
各大电商网站数据抓取分析
xtuyaowu/DataVisual
数据可视化平台
xtuyaowu/DSP
Demand-Side Platform
xtuyaowu/gcimport
Convert various input files (csv, txt) to csv files that can be easily parsed with GnuCash.
xtuyaowu/GitHub-Scrapy-2
抓取GitHub上的用户信息(GitHub-Scrapy项目的升级版 规则变了)
xtuyaowu/goods-spider
抓取电商网站的商品信息.
xtuyaowu/grawler
Github Crawler - uses GitHub API to crawl and organize data
xtuyaowu/GuozhongCrawler
GuozhongCrawler的是一个无须配置、便于二次开发的爬虫开源框架,它提供简单灵活的API,只需少量代码即可实现一个爬虫。其设计灵感来源于多个爬虫国内外爬虫框架的总结。采用完全模块化的设计,功能覆盖整个爬虫的生命周期(链接提取、页面下载、内容抽取、持久化),支持多线程抓取,分布式抓取,并支持自动重试,定制执行js、自定义cookie等功能。在处理网站抓取多次后被封IP的问题上,guozhongCrawler采用动态轮换IP机制有效防止IP被封。另外,源码中的注释及Log输出全部采用通俗易懂的中文。让初学者能有更加深刻的理解
xtuyaowu/IWantYou
I Want You! 抓取github上的同学,然后联系他们。
xtuyaowu/linkedin
Linkedin crawler to search and collect user data
xtuyaowu/nodejs-timing-weibo
定时发微博的nodejs服务代码,基本功能是可以定时发微博,其他功能包括自动打水印,从制定网页抓取微博,批量从多个网页抓取微博并设置整点微博等。
xtuyaowu/onlineNews
一个Android Demo程序,实现了从sina、腾讯等新闻网站抓取新闻;
xtuyaowu/parser
简历解析的restful服务
xtuyaowu/php_css_selector_spider
赶集,58同城采集商家手机号码
xtuyaowu/poi-parent
关于通过百度地图API采集POI数据,并存储到HBase的项目。
xtuyaowu/ShuoshuoMonitor
监控别人的说说,并在对方新发说说时给予秒赞
xtuyaowu/sns-crm
社交网络数据抓取,以及CRM系统。
xtuyaowu/sorry-tangerine
IT桔子抓取公司数据
xtuyaowu/TrafficSpider
抓取矢量交通流量数据
xtuyaowu/xwapp
两个自己写的微信工具, 一个公众号内容抓取分类二次展示, 一个公众号后端服务, 均已部署在SAE上, 并取得日最高30万UV