Вход/Регистрация
Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим
вернуться

Майер-Шенбергер Виктор

Шрифт:

Типичным примером перехода, о котором идет речь, стала популярность системы Hadoop — конкурирующего аналога системы Google MapReduce с открытым исходным кодом. Hadoop отлично справляется с обработкой больших объемов данных, разбивая их на мелкие фрагменты и выделяя участки для других компьютеров. Она исходит из того, что оборудование может отказать, поэтому создает резервную копию. Система также предполагает, что поступающие данные не упорядочены и не выверены (а по факту и не могут быть выверены до обработки из-за поистине огромного объема). При типичном анализе данных в первую очередь требуется выполнить ETL (от англ. Extract, Transform, Load — «извлечение, преобразование, загрузка»), чтобы переместить данные в расположение для их анализа. Hadoop обходится без таких тонкостей. Напротив, исходя из того, что количество данных настолько велико, что их невозможно переместить, Hadoop анализирует данные на месте.

Результат, получаемый на выходе, не настолько точен, как в случае реляционных баз данных: на него нельзя рассчитывать при запуске космического корабля или при подтверждении реквизитов банковского счета. Но со многими менее важными задачами, где суперточный ответ не требуется (скажем, с задачами по сегментированию клиентов для проведения специальных маркетинговых кампаний), Hadoop справляется намного быстрее, чем другие. С помощью Hadoop компания по выпуску кредитных карт Visa сумела сократить время обработки тестовых записей, накопленных за два года (73 миллиарда транзакций) с одного месяца до каких-то 13 минут. Подобное сокращение времени обработки ведет к преобразованиям в деловой сфере. Возможно, оно не годится для формального учета, зато исключительно полезно, когда некоторая погрешность вполне допустима. [52]

52

Кукьер: трудности считывания данных по беспроводной связи: Data, data, everywhere // The Economist. — February 27, 2010. Система, безусловно, не является непогрешимой: причиной пожара на нефтеперерабатывающем заводе BP Cherry Point в феврале 2012 года оказались ржавые трубы.

Принимая беспорядочность, взамен мы получаем чрезвычайно ценные услуги, недоступные при использовании традиционных методов и инструментов, учитывая всю масштабность данных. По некоторым оценкам, только 5% всех цифровых данных «структурированы», то есть представлены в форме, подходящей для традиционных баз данных. Отказываясь от беспорядочности, мы теряем оставшиеся 95% неструктурированных данных, таких как веб-страницы и видео. Допуская неточность, мы открываем окно в непознанный мир открытий.

Общество пошло на два неявных компромисса, которые уже настолько укоренились в нашем быту, что воспринимаются как естественный порядок вещей. Во-первых, мы не замахиваемся на огромные массивы данных, поскольку исходим из того, что это невозможно. Но этот сдерживающий фактор становится все менее актуальным, и мы можем многого добиться, ориентируясь на подход «N = всё».

Второй компромисс — качество информации. В эпоху малых данных точность ставилась превыше всего, ведь тогда собирали только малую часть информации, поэтому она должна была быть как можно более точной. Во многом это актуально и сейчас. Но в большинстве случаев важнее не строго соблюсти точность, а быстро получить общее представление о данных или тенденциях их развития.

Представление о том, как использовать всю совокупность информации, а не ее часть, и постепенное осознание преимуществ менее точных данных коренным образом меняют взаимодействие людей с окружающим миром. По мере того как методы работы с большими данными становятся неотъемлемой частью повседневной жизни, общество в целом устремляется к всеобъемлющему, более широкому, чем раньше, пониманию явлений — своего рода мышлению «N = всё». Возможно, мы станем менее требовательными к точности и однозначности в областях, где полагались на четкость и определенность (пусть даже сомнительные). Мы согласимся с таким подходом при условии, что взамен получим более полную картину явлений. Так на картинах импрессионистов мазки кажутся беспорядочными при ближайшем рассмотрении, но отступите на шаг — и вы увидите величественную картину.

Большие данные со свойственной им полнотой и беспорядочностью помогают нам ближе подойти к осознанию реального положения вещей, чем это удавалось в условиях зависимости от малых данных и точности. Призыв к частичным, но точным данным вполне понятен. Наше постижение мира, возможно, было неполным, а порой и вовсе неверным в условиях ограниченности данных, поддающихся анализу, зато они давали ощущение уверенности и обнадеживающей стабильности. Кроме того, поскольку мы могли собрать и изучить лишь ограниченный объем данных, не возникало непреодолимого желания получить их абсолютно все и рассмотреть со всех возможных сторон. В узких рамках малых данных мы могли гордиться точностью, но, даже измеряя все до мельчайших подробностей, упускали из виду более масштабную картину.

Большие данные могут потребовать, чтобы мы научились спокойнее относиться к беспорядочности и неопределенности. Представления о точности, которые, казалось бы, служат нам ориентирами (например, что круглые фигуры подходят круглым отверстиям, существует только один ответ на вопрос и т. п.), лучше поддаются изменениям, чем мы можем предположить. Вместе с тем такое предположение, принятое на веру, приближает нас к пониманию реального положения вещей.

Описанные изменения образа мышления знаменуют радикальные преобразования. Они ведут к третьему шагу, который может во многом подорвать устои общества, основанного на понимании причин всех событий. Вместе с тем поиск логических взаимосвязей между данными и выполнение действий с ними (что и является темой следующей главы) зачастую дают вполне достойный результат. 

Глава 4

Корреляция

В 1997 году 24-летний Грег Линден на время отложил свою докторскую диссертацию в области искусственного интеллекта в Вашингтонском университете, чтобы поработать над местным стартапом по продаже книг в интернете. Этот онлайн-магазин появился всего два года назад, но уже вел оживленную торговлю. «Мне очень понравилась идея продавать книги, продавать знания, а еще помогать людям находить следующий источник знаний, с которым они с удовольствием бы ознакомились», — вспоминает Грег. Этим магазином был Amazon.com, и Линден был нанят в качестве инженера-программиста для обеспечения бесперебойной работы сайта.

  • Читать дальше
  • 1
  • ...
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • ...

Ебукер (ebooker) – онлайн-библиотека на русском языке. Книги доступны онлайн, без утомительной регистрации. Огромный выбор и удобный дизайн, позволяющий читать без проблем. Добавляйте сайт в закладки! Все произведения загружаются пользователями: если считаете, что ваши авторские права нарушены – используйте форму обратной связи.

Полезные ссылки

  • Моя полка

Контакты

  • chitat.ebooker@gmail.com

Подпишитесь на рассылку: