Вход/Регистрация
Революция в аналитике. Как в эпоху Big Data улучшить ваш бизнес с помощью операционной аналитики
вернуться

Фрэнкс Билл

Шрифт:

Помещаем большие данные в правильный контекст

Как большие данные вписываются в общую картину? В чем их специфика? Что будет с ними дальше? Эти типичные вопросы возникают у большинства организаций. Как и в любой другой относительно новой области, возникает немало путаницы и разногласий по поводу того, чем являются большие данные на самом деле. В этом разделе мы рассмотрим ряд тем и концепций, которые следует усвоить, чтобы поместить большие данные в правильный контекст. Это позволит гораздо эффективнее включить их в процессы операционной аналитики и добиться успеха.

Данные не столько большие, сколько разнообразные

Как мы уже отмечали ранее в этой главе, именно новая информация, которую содержат большие данные, делает их такими захватывающими. И также отмечали, что многие люди считают, будто сложность в управлении большими данными проистекает из их объема. Но отнюдь не объемом выделяются многие источники больших данных. Часто главная сложность связана с тем, что новая информация обнаруживается в данных разного типа или формата и может потребовать различных аналитических методологий.

Большинство данных, собиравшихся ранее для анализа в мире бизнеса, носили деловой или описательный характер и были хорошо структурированы. Это значит, что информация в них была представлена в четко установленной и легко читаемой форме. Например, колонка под названием «Продажи» в электронной таблице содержала только суммы в долларах. Менее структурированные данные, такие как письменные документы или изображения, считались непригодными для целей анализа. Сейчас, в эпоху больших данных, организации сталкиваются с новыми типами и форматами данных, многие из которых структурированы не так, как традиционные источники. Датчики выдают информацию в специальных форматах. Данные GPS устанавливают местонахождение людей и вещей в пространстве. Часто возникает необходимость определить, насколько крепки взаимоотношения между людьми или организациями. Все это принципиально разные типы данных в плане как формата, так и способов их анализа. О различных типах анализа мы поговорим в седьмой главе.

Главная сложность не в объеме, а в разнообразии

Несмотря на то что основное внимание привлекает «громадность» больших данных, зачастую реальную сложность представляет их разнообразие. Существует множество новых источников данных во множестве новых форматов, содержащих новые типы информации. Определить, как извлечь из этого разнообразия нужную информацию, может потребовать больше усилий, чем определить, как масштабировать аналитические процессы.

Анализ социальной сети с определением количества и крепости связей между ее подписчиками требует совершенно других методологий, чем, скажем, прогнозирование продаж. Подобное разнообразие больших данных представляет собой куда больший вызов, чем их «громадность». В чем заключается сложность? Давайте посмотрим на примере.

Предположим, что организация впервые решает запустить текстовый анализ сообщений по электронной почте. Даже для того чтобы проанализировать всего несколько тысяч имейлов, потребуется приобрести специальное программное обеспечение, установить его и настроить, а также определить желательную для организации логику анализа. Создание процесса текстового анализа для 10 000 писем потребует столько же времени и усилий, как и для 10 млн или 100 млн. Будет применяться одна и та же логика, только увеличится масштаб. Поскольку текст представляет собой иной тип данных, придется проделать много подготовительной работы, чтобы запустить анализ даже очень малого объема текстовых данных.

Разумеется, при выполнении аналитического процесса 10 000 имейлов будут обработаны быстрее, чем 100 млн. Несмотря на то что увеличение объема требует масштабирования процесса, лежащая в его основе логическая схема анализа остается прежней. Поэтому первым делом нужно решить, как управлять разнообразием источника больших данных. А затем решить, как управлять разнообразием при масштабировании.

Большие данные требуют масштабирования по нескольким параметрам

Главное внимание при работе с большими данными обычно уделяется проблеме масштабирования. Если конкретнее, то количеству данных и объему требуемой обработки. Между тем нужно учитывать и другие параметры масштабирования в том случае, если организация решает внедрить аналитику на уровне всего предприятия и особенно если решает превратить ее в операционную. Эти аспекты проиллюстрированы на рис. 2.3 и 2.4.

Во-первых, необходимо произвести масштабирование касательно количества и разнообразия пользователей, имеющих доступ как к исходным данным, так и к результатам основанных на них аналитических процессов. Десяткам и сотням тысяч сотрудников может потребоваться в любое время ознакомиться в разных аспектах с первичными данными и результатами их анализа. Корпоративные платформы должны быть дружественными к пользователям и совместимыми с широким спектром инструментов и приложений.

  • Читать дальше
  • 1
  • ...
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • ...

Ебукер (ebooker) – онлайн-библиотека на русском языке. Книги доступны онлайн, без утомительной регистрации. Огромный выбор и удобный дизайн, позволяющий читать без проблем. Добавляйте сайт в закладки! Все произведения загружаются пользователями: если считаете, что ваши авторские права нарушены – используйте форму обратной связи.

Полезные ссылки

  • Моя полка

Контакты

  • chitat.ebooker@gmail.com

Подпишитесь на рассылку: