CodeFest2017

Slides and further reading list from CodeFest talk 'Big Data Engineering 101'

Список книг, статей и презентаций

Отсортирован от вводных материалов к более продвинутым и полным.

Designing Data-Intensive Applications, Martin Kleppmann. Отличная вводная книга. Автор понятно и подробно описывает термины и принципы хранения и обработки данных в распределённых системах. Рассматриваются структуры данных, которые лежат в основе популярных хранилищ. Затронут вопрос форматов представления данных. Хорошо раскрыта тема шардинга и партицирования. Уделено внимание понятию консистентности данных. В последних главах рассматривается принципы и подходы обработки больших объёмов данных.
Hadoop: что, где и зачем, @ffriend. Хороший, короткий обзор экосистемы Hadoop.
Making sense of stream processing Martin Kleppmann. Вводный доклад о поточной обработке.
Kafka @ LinkedIn. Подборка статей об использовании Kafka в LinkedIn, компании, которая давно и плотно работает с этим решением.
Эволюция структур данных в Яндекс.Метрике. История развития Я.Метрики.
Streaming Architecture.New Designs Using Apache Kafka and MapR Streams.. Ted Dunning & Ellen Friedman. Более подробное введение в стримминг на примере Apache Kafka. Книга ещё пишется, зато пока бесплатна.
Hadoop. Подробное руководство.. Том Уайт. Пожалуй самая признанная книга по теме и даже переведена на русский язык, правда не в последнем издании. Совет не разбирайте подробно map/reduce, на нём в чистом виде мало кто считает.
Hadoop Ecosystem. Список компонентов экосистемы Hadoop с кратким описанием и ссылками по теме.

Eldar7/CodeFest2017

CodeFest2017

Список книг, статей и презентаций