thisnew

thisnew's Stars

996icu/996.ICU
Repo for counting stars and contributing. Press F to pay respect to glorious developers.
270k 4.2k 021.1k
hankcs/HanLP
Natural Language Processing for the next decade. Tokenization, Part-of-Speech Tagging, Named Entity Recognition, Syntactic & Semantic Dependency Parsing, Document Classification
Language:Python34.1k 1.1k 1.4k10.2k
alibaba/easyexcel
快速、简洁、解决大文件内存溢出的java处理Excel工具
Language:Java32.9k 595 3.6k7.6k
apache/dolphinscheduler
Apache DolphinScheduler is the modern data orchestration platform. Agile to create high performance workflow with low-code
Language:Java13.1k 328 7.7k4.7k
yahoo/CMAK
CMAK is a tool for managing Apache Kafka clusters
Language:Scala11.8k 531 6882.5k
leanote/leanote
Not Just A Notepad! (golang + mongodb) http://leanote.org
Language:JavaScript11.7k 571 02.5k
datahub-project/datahub
The Metadata Platform for your Data and AI Stack
Language:Java10k 253 2.3k3k
mobz/elasticsearch-head
A web front end for an elastic search cluster
Language:JavaScript9.4k 359 3272k
pentaho/pentaho-kettle
Pentaho Data Integration ( ETL ) a.k.a Kettle
Language:Java7.8k 458 03.5k
Ryochan7/DS4Windows
Like those other ds4tools, but sexier
Language:C#7k 142 2.6k810
NLPchina/elasticsearch-sql
Use SQL to query Elasticsearch
Language:Java7k 456 9891.5k
water8394/flink-recommandSystem-demo
:helicopter::rocket:基于Flink实现的商品实时推荐系统。flink统计商品热度，放入redis缓存，分析日志信息，将画像标签和实时记录放入Hbase。在用户发起推荐请求后，根据用户画像重排序热度榜，并结合协同过滤和标签两个推荐模块为新生成的榜单的每一个产品添加关联产品，最后返回新的用户列表。
Language:Java4.3k 142 401.5k
DTStack/chunjun
A data integration framework
Language:Java4k 167 1.2k1.7k
linkedin/databus
Source-agnostic distributed change data capture system
Language:Java3.6k 380 88735
DTStack/flinkStreamSQL
基于开源的flink，对其实时sql进行扩展；主要实现了流与维表的join，支持原生flink SQL所有的语法
Language:Java2k 117 323931
jly8866/archer
基于inception的自动化SQL操作平台，支持SQL执行、LDAP认证、发邮件、OSC、SQL查询、SQL优化建议、权限管理等功能，支持docker镜像
Language:JavaScript1.6k 83 45643
ucarGroup/DataLink
DataLink是一个满足各种异构数据源之间的实时增量同步、离线全量同步，分布式、可扩展的数据交换平台。
Language:Java1.1k 64 41413
RedisLabs/spark-redis
A connector for Spark that allows reading and writing to/from Redis cluster
Language:Scala940 72 238372
majinju/kettle-manager
专门为kettle这款优秀的ETL工具开发的web端管理工具。
Language:Java623 64 17368
zhaxiaodong9860/kettle-scheduler
一款简单易用的Kettle调度监控平台，专门用来调度和监控由kettle客户端创建的job和transformation。整体的框架是由spring+sprin gmvc +beetlsql整合而成，通过调用kettle的API来执行转换和作业，并且使用quartz框架完成调度工作。
Language:JavaScript587 24 8247
hortonworks-spark/shc
The Apache Spark - Apache HBase Connector is a library to support Spark accessing HBase table as external data source or sink.
Language:Scala553 426 248280
Qihoo360/logkafka
Collect logs and send lines to Apache Kafka
Language:C++500 58 26115
japila-books/spark-structured-streaming-internals
The Internals of Spark Structured Streaming
416 39 7171
polomarcus/Spark-Structured-Streaming-Examples
Spark Structured Streaming / Kafka / Cassandra / Elastic
Language:Scala184 11 479
ansrivas/spark-structured-streaming
Spark structured streaming with Kafka data source and writing to Cassandra
Language:Scala64 8 533
fooinha/nginx-json-log
Highly configurable JSON format logging per Location - nginx logging module - aka. kasha 🍲
Language:C42 7 1022
cloudera/parquet-examples
Example programs and scripts for accessing parquet files
Language:Java30 10 226
fansy1990/hanlp-test
HanLP 测试
Language:Scala16 2 011
jiang3ye/hdfsreader
parquet for DataX - hdfsreader
Language:Java13 0 29
zrk1000/drpcproxy
DRPC-Proxy是基于使用storm DRPC的RPC服务，解耦业务代码与storm框架代码的一个简单框架；在某些场景下，有使用DRPC但不注重使用storm的流式计算的需求，通常情况下使用DRPCServer做为服务提供方接收请求，bolt中处理业务，ReturnResults返回结果；bolt中会将业务代码与storm代码交织、耦合，为后期升级、扩展留下难题。 DRPC-Proxy提供解耦业务与storm，服务消费方使用动态代理生调用DRPCClient与DRPCServer通讯，DRPCServer将请求匹配到对应的服务提供方，最终结果由DRPCServer返回给消费方。
Language:Java5 3 05