Шрифт:
Полученный результат полезен, поскольку наглядное представление данных делает их более понятными. Но это довольно упрощенный пример. В конце концов, не так уж трудно додуматься взять информацию относительно местоположения и наложить ее на карту. С большими данными мы можем пойти гораздо дальше. И датское исследование рака показывает, какие перспективы перед нами открываются.
Расширяемые данные
Повторное использование данных нетрудно обеспечить, если продумать их расширяемость с самого начала. Это получается не всегда (ведь мысль о том, что можно выжать из данных, иногда приходит намного позже, чем они были собраны), однако способствовать многократному потреблению одного и того же набора данных можно разными способами. Некоторые розничные торговцы устанавливают в магазинах камеры наблюдения таким образом, чтобы не только обнаруживать магазинных воров, но и отслеживать передвижение клиентов по магазину и места, где они останавливаются, чтобы присмотреться. Такая информация полезна для разработки лучшей выкладки товаров в магазине, а также для оценки эффективности маркетинговых кампаний. Ранее камеры видеонаблюдения служили только для обеспечения безопасности и рассматривались не более чем статья расходов. Теперь они рассматриваются как инвестиции, которые могут увеличить доход.
Как ни странно, одной из компаний, которые достигли наибольшего успеха в сборе данных с учетом расширяемости, является Google. Ее автомобили Street View, вызывающие неоднозначную реакцию общества, разъезжают по улицам, не только делая снимки домов и дорог, но и собирая данные GPS, проверяя картографическую информацию и даже попутно захватывая названия Wi-Fi-сетей (а также, вероятно, на незаконных основаниях, контент, доступный в открытых беспроводных сетях). За одну поездку автомобиль Google Street View накапливает множество потоков дискретных данных. Расширяемость обеспечивается тем, что Google применяет данные и для первичного использования, и для целого ряда вторичных. Например, данные GPS не только улучшили картографическую службу компании Google, но и были незаменимы для работы ее самоуправляемых автомобилей. [103]
103
GPS-записи и самоуправляемые автомобили Google Street View: Kirwan, Peter. This car drives itself // Wired UK. — January 2012. URL: http://www.wired.co.uk/magazine/archive/2012/01/features/this-car-drives-itself?page=all.
Дополнительные расходы на сбор нескольких потоков данных или намного большего числа точек данных в каждом потоке, как правило, невелики, поэтому имеет смысл собирать как можно больше данных, а также делать их расширяемыми, изначально рассматривая потенциальные виды вторичного использования. Благодаря этому увеличивается альтернативная ценность информации. Суть в том, чтобы искать наборы «2 в 1», когда один и тот же набор данных, собранных определенным образом, можно применять в различных целях. Так эти сведения приобретают двойное назначение.
Обесценение данных
Поскольку стоимость хранения цифровых данных резко упала, компании получили сильный экономический стимул сохранять их для повторного использования в тех же или аналогичных целях. Однако полезность данных небезгранична.
Компании Netflix и Amazon умело используют информацию о покупках клиентов, чтобы рекомендовать новые продукты. При этом у компаний возникает соблазн многократно использовать эти записи в течение многих лет. В такой ситуации можно было бы утверждать, что в рамках соблюдения обязательных нормативов (например, закона о неприкосновенности частной жизни) компаниям следует хранить цифровые записи всегда или по крайней мере пока это экономически целесообразно. Однако все не так просто.
Информация с течением времени теряет часть своей первичной пользы. В таких условиях дальнейшее использование старых данных может не только не добавить ценности, но и фактически нивелировать пользу более новых данных. Положим, вы купили книгу на сайте Amazon лет десять назад. Вряд ли она все еще отражает ваши интересы. Если Amazon будет отталкиваться от нее, рекомендуя вам другие книги, вы вряд ли их купите, а может, вообще перестанете обращать внимание на последующие рекомендации сайта. Поскольку рекомендации основываются на всех собранных данных, наличие устаревших данных сводит на нет всю пользу новых (все еще ценных).
Таким образом, у Amazon есть огромный стимул использовать данные ровно до тех пор, пока это продуктивно. Компания должна постоянно сортировать свою базу данных, удаляя информацию, которая уже утратила свою ценность. А как узнать, что данные стали бесполезными? Ориентироваться исключительно на время не всегда эффективно. Поэтому Amazon и другие компании разработали сложные модели, которые позволяют отделить полезные данные от бесполезных. Если клиент просматривает или покупает книгу, которая была рекомендована на основе его предыдущей покупки, интернет-магазин берет на заметку, что старые покупки по-прежнему отражают текущие предпочтения клиента. Это позволяет оценить полезность старых данных и, следовательно, смоделировать более конкретную «степень обесценения».
Не все данные обесцениваются. Некоторые компании имеют веские причины хранить данные как можно дольше, даже если регулирующие органы или общество предпочли бы их удалить или сделать анонимными в кратчайший срок. Вот почему Google давно сопротивляется призывам удалить полные IP-адреса старых поисковых запросов (вместо этого спустя 18 месяцев удаляются только четыре последние цифры, чтобы сделать поисковый запрос анонимным). Компания оставляет за собой возможность сравнивать данные (например, поисковые запросы для предпраздничного шопинга) в годовом исчислении. Кроме того, сведения о местоположении пользователей, выполняющих поиск, помогают повысить релевантность результатов. Если большинство жителей Нью-Йорка набирают Turkey (англ. «Турция», «индейка») и открывают сайты, связанные со страной, а не птицей, алгоритм будет ранжировать эти страницы выше и для остальных нью-йоркцев. Даже если ценность данных для первичного использования снижается, их альтернативная ценность может оставаться высокой.
Понятие альтернативной ценности наводит на мысль, что организациям следует собирать как можно больше данных в пределах своих возможностей для их хранения, а также передавать эти сведения третьим лицам при условии, что они сохраняют за собой так называемые «сквозные» права (термин, заимствованный из патентного лицензирования). Если повторное использование данных дает определенный коммерческий результат, первоначальный владелец этих данных может получить свою долю. Разумеется, что организации, собирающие данные и владеющие ими, не могут вообразить все возможные способы их повторного применения.