/CodeFest2017

Slides and further reading list from CodeFest talk 'Big Data Engineering 101'

Primary LanguageJupyter Notebook

CodeFest2017

Slides and further reading list from CodeFest talk 'Big Data Engineering 101'

Список книг, статей и презентаций

Отсортирован от вводных материалов к более продвинутым и полным.

  1. Designing Data-Intensive Applications, Martin Kleppmann. Отличная вводная книга. Автор понятно и подробно описывает термины и принципы хранения и обработки данных в распределённых системах. Рассматриваются структуры данных, которые лежат в основе популярных хранилищ. Затронут вопрос форматов представления данных. Хорошо раскрыта тема шардинга и партицирования. Уделено внимание понятию консистентности данных. В последних главах рассматривается принципы и подходы обработки больших объёмов данных.
  2. Hadoop: что, где и зачем, @ffriend. Хороший, короткий обзор экосистемы Hadoop.
  3. Making sense of stream processing Martin Kleppmann. Вводный доклад о поточной обработке.
  4. Kafka @ LinkedIn. Подборка статей об использовании Kafka в LinkedIn, компании, которая давно и плотно работает с этим решением.
  5. Эволюция структур данных в Яндекс.Метрике. История развития Я.Метрики.
  6. Streaming Architecture.New Designs Using Apache Kafka and MapR Streams.. Ted Dunning & Ellen Friedman. Более подробное введение в стримминг на примере Apache Kafka. Книга ещё пишется, зато пока бесплатна.
  7. Hadoop. Подробное руководство.. Том Уайт. Пожалуй самая признанная книга по теме и даже переведена на русский язык, правда не в последнем издании. Совет не разбирайте подробно map/reduce, на нём в чистом виде мало кто считает.
  8. Hadoop Ecosystem. Список компонентов экосистемы Hadoop с кратким описанием и ссылками по теме.