Вход/Регистрация
Укрощение больших данных. Как извлекать знания из массивов информации с помощью глубокой аналитики
вернуться

Фрэнкс Билл

Шрифт:
Дело не в объеме данных, а в способе их использования!

Значимость большим данным придает вовсе не то, что они большие, и даже не то, что они представляют собой данные. Важно то, как вы анализируете и применяете эти данные для развития своего бизнеса.

Что делает большие данные интересными для вас и вашей организации? Вовсе не то, что они «большие». Самое интересное связано с новыми мощными средствами их анализа. Об этом и поговорим.

Чем большие данные отличаются от традиционных данных?

Большие данные отличаются от традиционных данных рядом важных характеристик. Не каждый источник больших данных имеет все перечисленные особенности, однако большинству свойственно следующее.

Во-первых, большие данные часто автоматически генерируются машиной без участия человека. Традиционные источники данных всегда предполагают присутствие человека. Возьмем, к примеру, розничные или банковские транзакции, записи с содержанием телефонных звонков, доставку товаров или выставление счетов на оплату. Все эти действия подразумевают присутствие человека, который способствует созданию данных. Кто-то должен внести деньги, сделать покупку, позвонить по телефону, отправить посылку или сделать платеж. В каждом случае частью процесса создания новых данных остается человек, совершающий какие-либо действия. С большими данными дело обстоит иначе. Многие источники больших данных генерируются вообще без взаимодействия с человеком, например встроенный в двигатель датчик генерирует данные, даже если никто его об этом не просит.

Во-вторых, большие данные обычно соотносятся с совершенно новыми источниками данных. Это не просто расширение возможностей сбора существующих данных. Например, через интернет потребители могут взаимодействовать с банком или магазином, однако выполняемые ими операции принципиально не отличаются от традиционных. Они просто выполняют те же операции через другой канал. Организация может собрать данные о транзакциях, совершенных через интернет, однако они мало чем отличаются от транзакций, которые совершались раньше. Тем не менее сбор данных о поведении потребителей в процессе совершения транзакции предоставляет принципиально новую информацию, о которой мы подробно поговорим во второй главе .

Иногда больший объем данных может превратиться в нечто новое. Например, вы, вероятно, в течение многих лет каждый месяц вручную снимали показания счетчика электроэнергии. Можно ли считать, что интеллектуальный счетчик, фиксирующий показания каждые 15 минут, предоставляет те же самые данные? Или эта информация совершенно иного качества, открывающая возможности для проведения более глубокого анализа? Об этом речь пойдет в третьей главе .

В-третьих, многие источники больших данных не замышлялись как дружественные к пользователю. Впрочем, некоторые из них вообще не замышлялись! Возьмем, к примеру, текстовые потоки от сайта социальных медиа. Пользователей невозможно убедить соблюдать определенные правила грамматики, синтаксиса или лексические нормы. Когда люди публикуют запись, вы получаете то, что получаете. Работать с такими данными в лучшем случае трудно, а в худшем – отвратительно. О текстовых данных говорится в главах 3 и 6 . Большинство традиционных источников данных дружественны к пользователю. Например, системы для отслеживания транзакций предоставляют данные в понятной форме, что облегчает их загрузку и работу с ними. Частично это было продиктовано исторически сложившейся необходимостью в эффективном использовании пространства. Для избыточных данных просто не было места.

Большие данные бывают неприглядными

Традиционные источники данных с самого начала разрабатывались с учетом определенных требований. Каждый бит данных имел высокую ценность, иначе он не был бы учтен. Поскольку стоимость хранения данных стремится к нулю, источники больших данных, как правило, содержат все, что может быть использовано. Это означает, что при проведении анализа необходимо разбираться в огромном количестве хлама.

И, наконец, потоки больших данных далеко не всегда представляют собой особую ценность. Большая часть данных может быть вообще бесполезной. В журнале логов содержится как очень полезная информация, так и не имеющая ценности. Необходимо отсортировать мусор и извлечь ценные и релевантные фрагменты информации. Традиционные источники данных с самого начала разрабатывались так, чтобы содержать на 100 % релевантные данные. Это было связано с ограничениями масштабируемости: включение в поток данных чего-то неважного слишком дорого обходилось. Мало того что записи данных были предопределены заранее – каждый фрагмент данных имел высокую ценность. С тех пор изменилось одно важное обстоятельство: мы более не ограничены объемом носителя. Это привело к тому, что большие данные по умолчанию включают всю возможную информацию, а позже приходится разбираться в том, что же из собранного имеет значение. Зато есть гарантия, что ничего не будет упущено, но усложняет процесс анализа больших данных.

В чем сходство между большими данными и традиционными данными?

Любая животрепещущая тема вызывает различные, порой взаимоисключающие толкования. Существует мнение, что большие данные в корне изменят способы анализа и использования его результатов. Однако если вдуматься, это не так. Это как раз тот случай, когда шумиха выходит за рамки реальности.

Ни для кого не новость, что большой объем больших данных создает проблемы масштабируемости. Большинство новых источников данных поначалу считались большими и сложными. Большие данные – это просто очередная волна новых данных, которая раздвигает существующие пределы. Аналитики смогли приручить прошлые источники данных с учетом существовавших в то время ограничений, и большие данные тоже будут приручены. В конце концов, аналитики в течение длительного времени находились в авангарде изучения новых источников данных. Так и будет продолжаться.

Кто первым начал анализировать данные о телефонных звонках в телекоммуникационных компаниях? Аналитики. На своей первой работе я проводил анализ данных, записанных на магнитные ленты. В то время казалось, что данных было огромное количество. Кто первым начал анализировать данные с мест продаж в розничных магазинах? Аналитики. Сначала анализ данных о сотнях тысяч товаров в тысячах магазинов считался огромной проблемой. Сегодня это не так.

Профессионалы в области аналитики, которые первыми начали работать с этими источниками, имели дело с тем, что в то время считалось немыслимо большими объемами данных. Им необходимо было найти способ анализа и использования данных с учетом существующих в то время ограничений. Многие сомневались в том, что это возможно, а некоторые даже ставили под сомнение ценность таких данных. Это очень похоже на то, что происходит с большими данными сегодня, не так ли?

Большие данные не повлияют ни на задачи, которые решают профессионалы в области аналитики, ни на причины, по которым они это делают. Даже для тех, кто сейчас называет себя не аналитиками, а учеными в области науки о данных, цели и задачи остаются прежними. Конечно, решаемые проблемы будут эволюционировать вместе с большими данными – так было всегда. Однако в конце концов аналитики и ученые будут просто изучать новые и немыслимо большие наборы данных, чтобы обнаружить ценные тенденции и модели, как они всегда это делали. В этой книге под термином «профессиональный аналитик» мы подразумеваем как традиционных аналитиков, так и ученых. Более подробно мы поговорим об этих специалистах в главах 7 , 8 и 9 . Сейчас важно понять, что задачи, связанные с большими данными, не так новы, как может показаться.

  • Читать дальше
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11

Ебукер (ebooker) – онлайн-библиотека на русском языке. Книги доступны онлайн, без утомительной регистрации. Огромный выбор и удобный дизайн, позволяющий читать без проблем. Добавляйте сайт в закладки! Все произведения загружаются пользователями: если считаете, что ваши авторские права нарушены – используйте форму обратной связи.

Полезные ссылки

  • Моя полка

Контакты

  • chitat.ebooker@gmail.com

Подпишитесь на рассылку: