Slides and further reading list from CodeFest talk 'Big Data Engineering 101'
Отсортирован от вводных материалов к более продвинутым и полным.
- Designing Data-Intensive Applications, Martin Kleppmann. Отличная вводная книга. Автор понятно и подробно описывает термины и принципы хранения и обработки данных в распределённых системах. Рассматриваются структуры данных, которые лежат в основе популярных хранилищ. Затронут вопрос форматов представления данных. Хорошо раскрыта тема шардинга и партицирования. Уделено внимание понятию консистентности данных. В последних главах рассматривается принципы и подходы обработки больших объёмов данных.
- Hadoop: что, где и зачем, @ffriend. Хороший, короткий обзор экосистемы Hadoop.
- Making sense of stream processing Martin Kleppmann. Вводный доклад о поточной обработке.
- Kafka @ LinkedIn. Подборка статей об использовании Kafka в LinkedIn, компании, которая давно и плотно работает с этим решением.
- Эволюция структур данных в Яндекс.Метрике. История развития Я.Метрики.
- Streaming Architecture.New Designs Using Apache Kafka and MapR Streams.. Ted Dunning & Ellen Friedman. Более подробное введение в стримминг на примере Apache Kafka. Книга ещё пишется, зато пока бесплатна.
- Hadoop. Подробное руководство.. Том Уайт. Пожалуй самая признанная книга по теме и даже переведена на русский язык, правда не в последнем издании. Совет не разбирайте подробно map/reduce, на нём в чистом виде мало кто считает.
- Hadoop Ecosystem. Список компонентов экосистемы Hadoop с кратким описанием и ссылками по теме.