Чтение книги Обработка больших данных страница 23

3. Локальная обработка данных: TaskTracker пытается выполнить задачи Map на данных, которые физически находятся на том же узле или поблизости, что минимизирует сетевой трафик и увеличивает эффективность обработки данных. Это достигается за счет интеграции с HDFS, где данные распределяются между узлами кластера.

Архитектура "мастер-слейв" в MapReduce также включает механизмы обработки сбоев, которые особенно важны для больших кластеров:

1. Перезапуск задач: Если TaskTracker не может завершить задачу из-за сбоя узла, JobTracker переназначает эту задачу другому TaskTracker'у. Это гарантирует, что задание будет выполнено, даже если часть узлов кластера выходит из строя.

2. Замена TaskTracker: В случае сбоя целого узла, включая его TaskTracker, JobTracker обнаруживает, что TaskTracker перестал отправлять отчеты о состоянии, и перестраивает распределение задач таким образом, чтобы другие узлы взяли на себя выполнение оставшихся задач.

3. Функция «сброс задач»: Если задача слишком долго остается в состоянии выполнения или возникает подозрение на сбой, JobTracker может принять решение о "сбросе" задачи и назначении ее новому TaskTracker'у для выполнения. Это предотвращает зависание задания и ускоряет его завершение.

Архитектура "мастер-слейв" в MapReduce с использованием JobTracker и TaskTracker обеспечивает централизованное управление заданиями и эффективное распределение задач по узлам кластера. JobTracker координирует все аспекты выполнения задания, включая распределение задач, мониторинг выполнения и управление сбоями. TaskTracker, в свою очередь, выполняет задачи и регулярно отчитывается о своем состоянии. Этот подход обеспечивает высокую производительность, устойчивость к сбоям и эффективное использование ресурсов кластера, что делает MapReduce мощной и надежной системой для обработки больших данных.

Рассмотрим пример использования модели MapReduce для анализа логов веб-сервера. Допустим, у крупного интернет-магазина ежедневно накапливаются гигабайты логов, и задача состоит в том, чтобы подсчитать, сколько раз каждая страница была посещена за день. Этот пример идеально подходит для MapReduce, так как данные объемны, но легко параллелятся.

1. Подготовка данных

Предположим, что логи веб-сервера содержат строки, каждая из которых представляет собой запись о посещении определенной страницы. Пример строки может выглядеть так:

```

192.168.1.1 – – [24/Feb/2024:10:00:00] "GET /home.html HTTP/1.1" 200 1234

```

В этой строке указаны IP-адрес пользователя, время запроса, тип запроса (в данном случае GET) и запрашиваемый ресурс (`/home.html`).

2. Стадия Map

На этапе Map входные данные (логи) разделяются на небольшие фрагменты, которые обрабатываются параллельно на разных узлах. Каждый фрагмент данных передается функции Map, которая извлекает запрашиваемую страницу и создает пары ключ-значение, где ключ – это имя страницы, а значение – число 1.

Для указанного выше примера строки функция Map создаст пару:

```

("/home.html", 1)

```

Эти пары ключ-значение будут сгенерированы для каждой строки лога, независимо от того, какой узел обрабатывает данные.

3. Сортировка и перегруппировка (Shuffle and Sort)

После того как функция Map сгенерировала все пары ключ-значение, система MapReduce автоматически сортирует и перегруппировывает их по ключам. На этом этапе все пары с одинаковыми ключами (например, все записи `/home.html`) собираются вместе и передаются на следующую стадию – Reduce. Например, если `/home.html` была посещена 10 раз, то все эти пары будут сгруппированы как:

```

("/home.html", [1, 1, 1, 1, 1, 1, 1, 1, 1, 1])

```

4. Стадия Reduce

На этапе **Reduce** каждая группа пар ключ-значение передается функции Reduce, которая агрегирует значения. В данном случае функция Reduce суммирует все единицы в списке, чтобы получить общее количество посещений для каждой страницы.

Для `/home.html` это будет выглядеть так:

```

("/home.html", 10)

```

Функция Reduce выполняется параллельно на различных узлах, каждый из которых обрабатывает свою часть данных. Например, один узел может обрабатывать страницы, начинающиеся на `/home`, а другой – страницы, начинающиеся на `/product`.

5. Результат

После завершения стадии Reduce, результаты (в данном случае, количество посещений каждой страницы) сохраняются в выходной файл или базу данных. Например, конечный результат может выглядеть так:

```

/home.html: 10

/product.html: 5

/cart.html: 2

```

6. Обработка сбоев

Предположим, что во время выполнения задачи один из узлов, обрабатывающий данные для страницы `/home.html`, выходит из строя. MapReduce автоматически обнаруживает это и перенаправляет задачу на другой узел. Этот узел заново выполняет функцию Map для своего сплита данных, а затем результаты снова передаются на стадию Reduce. В результате система завершает обработку данных без потерь, несмотря на сбой одного из узлов.

Обработка больших данных

Картер Джейд

Шрифт:

Полезные ссылки

Контакты

Подпишитесь на рассылку: