sutugin

Software engineer with more than 10 years programming experience. Interested in data science and high load solutions. All the time trying to learn something new

Pinned Repositories

aerodrop
REST and Memcache proxy for aerospike
Language:Go00
connectors
Connectors for Delta Lake
Language:Scala0 1 00
data-generator
User web sessions data generator written in Python, for Kafka, Kinesis or local file system sinks
Language:Python0 0 00
shc
The Apache Spark - Apache HBase Connector is a library to support Spark accessing HBase table as external data source or sink.
Language:Scala2 2 00
spark-streaming-jdbc-source
Language:Scala25 6 49

sutugin's Repositories

sutugin/spark-streaming-jdbc-source
Language:Scala25 6 49
sutugin/connectors
Connectors for Delta Lake
Language:Scala0 1 00
sutugin/data-generator
User web sessions data generator written in Python, for Kafka, Kinesis or local file system sinks
Language:Python0 0 00
sutugin/data-model-generator
Data model generator based on Scala case classes
Language:Scala
sutugin/deequ
Deequ is a library built on top of Apache Spark for defining "unit tests for data", which measure data quality in large datasets.
Language:Scala1 0
sutugin/delta
An open-source storage layer that brings scalable, ACID transactions to Apache Spark™ and big data workloads.
sutugin/deordie-meetups
DE or DIE meetup made by data engineers for data engineers. Currently in Russian.
1 0
sutugin/metorikku
A simplified, lightweight ETL Framework based on Apache Spark
Language:Scala2 0
sutugin/odsc-west-streaming-trends
All Data, Relevant Information, Scripts, and Applications for the Open Data Science Conference (2018)
Language:Scala1 0
sutugin/ru-neophyte-guide-to-scala
Перевод на русский серии статей Daniel Westheide "The Neophyte's Guide to Scala"
0 0
sutugin/sbt-common-settings
collections of common plugins and settings for sbt
sutugin/scala-best-practices
A collection of Scala best practices
1 0
sutugin/scala-exercises
The easy way to learn Scala.
Language:Scala1 0
sutugin/scalacaster
Purely Functional Algorithms and Data Structures in Scala
sutugin/smartdata-fp-spark
Language:Scala1 0
sutugin/sope
Apache Spark ETL Utilities
Language:Scala1 0
sutugin/spark-clickhouse-plugin
The most intuitive Spark Plugin for interacting with Clickhouse
Language:Scala0 0
sutugin/spark-docker
Official Dockerfile for Apache Spark
Language:Shell0 0
sutugin/spark-http-streaming
Running Apache Spark Structured Streaming job on the local machine with an HTTP web server as a streaming source.
Language:Scala1 0
sutugin/spark-partition-sizing
Sizing partitions in Spark
Language:Scala0 0
sutugin/spark-platform
Basic Spark utilities
Language:Scala0 0
sutugin/spark-scala-examples
This project provides Apache Spark SQL, RDD, DataFrame and Dataset examples in Scala language
sutugin/spark-scala-playground
Sample processing code using Spark 2.1+ and Scala
Language:Scala2 0
sutugin/spark-schema-registry
Schema Registry integration for Apache Spark
Language:Scala1 0
sutugin/spark-sql-kafka-offset-committer
Kafka offset committer for structured streaming query
Language:Scala1 0
sutugin/spark-structured-streaming-jdbc-sink
Spark Structured Streaming JDBC Sink
Language:Scala1 0
sutugin/spark-utils
Basic framework utilities to quickly start writing production ready Apache Spark applications
Language:Scala1 0
sutugin/spark_easy_datalake
Language:Scala2 0
sutugin/sparkMeasure
This is the development repository for sparkMeasure, a tool for performance troubleshooting of Apache Spark workloads. It simplifies the collection and analysis of Spark task and stage metrics data.
Language:Scala0 0
sutugin/waimak
Waimak is an open-source framework that makes it easier to create complex data flows in Apache Spark.
Language:Scala1 0

sutugin

Pinned Repositories

aerodrop

connectors

data-generator

shc

spark-streaming-jdbc-source

sutugin's Repositories

sutugin/spark-streaming-jdbc-source

sutugin/connectors

sutugin/data-generator

sutugin/data-model-generator

sutugin/deequ

sutugin/delta

sutugin/deordie-meetups

sutugin/metorikku

sutugin/odsc-west-streaming-trends

sutugin/ru-neophyte-guide-to-scala

sutugin/sbt-common-settings

sutugin/scala-best-practices

sutugin/scala-exercises

sutugin/scalacaster

sutugin/smartdata-fp-spark

sutugin/sope

sutugin/spark-clickhouse-plugin

sutugin/spark-docker

sutugin/spark-http-streaming

sutugin/spark-partition-sizing

sutugin/spark-platform

sutugin/spark-scala-examples

sutugin/spark-scala-playground

sutugin/spark-schema-registry

sutugin/spark-sql-kafka-offset-committer

sutugin/spark-structured-streaming-jdbc-sink

sutugin/spark-utils

sutugin/spark_easy_datalake

sutugin/sparkMeasure

sutugin/waimak