Шрифт:
Во-первых, необходимо посмотреть, какие совершенно новые и различные проблемы могут быть решены при помощи новой информации. Это кажется очевидным, однако люди с легкостью попадают в привычную колею и просто используют данные для решения обычных проблем. Организация должна сделать акцент на поиске новых возможностей для применения данных. Во-вторых, нужно попробовать найти новые, лучшие способы решения старых проблем. Для этого необходимо изучить проблемы, уже считающиеся преодоленными, и подумать, можно ли подойти к ним совсем с другой стороны за счет внедрения новых данных. Это позволит глубже вникнуть в проблему {16} .
16
На основе статьи в моем блоге для Международного института аналитики от 14 марта 2013 г., озаглавленной «Думайте иначе, чтобы максимизировать ценность аналитики больших данных» (“Think Differently to Maximize Value from Big Data Analytics”). См. http://iianalytics.com/2013/03/think-differently-to-maximize-value-from-bigdata-analytics/
Одной из полезных концепций для осуществления подобной деятельности в контексте клиентских данных является стратегия динамического управления отношениями с клиентами, описанная Джеффом Тэннером в книге «Стратегия динамического управления отношениями с клиентами: Большая прибыль от больших данных» (Dynamic Customer Strategy: Big Profits from Big Data) {17} . Она может послужить хорошим подспорьем для читателей, интересующихся заявленной темой.
С тем, как искать новые проблемы, должно быть все понятно, поэтому давайте рассмотрим пример того, как можно использовать большие данные для поиска новых способов решения старых проблем. В сфере здравоохранения клинические испытания служат золотым стандартом, а в их составе заключительный тест и управляющая конструкция выполняются посредством так называемого двойного слепого метода, когда ни пациенты, ни врачи не знают, кто какое лечение получает. Это исследование проводится в строго контролируемых условиях и позволяет с высокой точностью определить положительные и отрицательные эффекты тестируемых процедуры или препарата. Однако, после того как на их разработку были потрачены сотни миллионов долларов и многие годы исследований, клинические испытания в лучшем случае охватывают от 2000 до 3000 человек. Такой размер выборки недостаточен. И это означает, что хотя клинические испытания позволяют очень точно измерить показатели согласно пожеланиям исследователей, но попросту не хватит данных для того, чтобы выявить весь спектр непредвиденных последствий.
17
Jeff Tanner, Dynamic Customer Strategy: Big Profits from Big Data (Hoboken, NJ: John Wiley & Sons, 2014).
К чему ведет такая ограниченность выборки? К ситуациям наподобие тех, что случились несколько лет назад, когда применение многих препаратов-анальгетиков из класса ингибиторов ЦОГ-2, в том числе Vioxx и Celebrex, обернулось неприятностями. Исследователи обнаружили, что эти препараты в два – четыре раза повышают вероятность развития сердечных заболеваний по сравнению с нормой {18} . А ведь проблема не была выявлена в ходе первоначальных клинических испытаний, и прошло несколько лет после выведения препаратов на рынок, прежде чем ее определили.
18
См.: “Pfizer Study Finds that Celebrex May Increase the Risk of Heart Attack”, 10 августа 2010 г, на www.drugrecalls.com/celebrex.html
Когда вы находите новые данные, содержащие новую информацию, обязательно вернитесь к былым проблемам. Довольно часто оказывается, что проблему, уже считающуюся решенной, можно решить гораздо эффективнее, если использовать новую информацию и подойти к проблеме с другой стороны.
Теперь давайте перенесемся немного вперед. Можем ли мы повысить точность клинических испытаний при помощи больших данных, даже если они собираются за пределами контролируемой среды? В ближайшем будущем детальная электронная медицинская документация станет нормой. Благодаря этому после выпуска препарата на рынок можно будет отслеживать его действие на тысячах, сотнях тысяч или миллионах людей, которые начнут его использовать. А также проанализировать действие препарата при любых комбинациях болезней, которыми страдают использующие его пациенты, и в комбинациях с любыми другими препаратами и методами лечения, применяемыми одновременно с ним. Люди же, использующие препарат не по назначению и наряду с противопоказанными лекарствами, останутся за рамками клинических испытаний.
Использование электронных историй болезней позволит выявлять непредвиденные положительные и отрицательные эффекты препарата (разумеется, при сохранении конфиденциальности сведений о пациентах). Несмотря на то что эти данные будут поступать не из строго контролируемой среды, как при клинических испытаниях, они позволят намного раньше обнаруживать скрытые проблемы наподобие сердечных осложнений при использовании Vioxx. Чтобы подтвердить эти аналитические результаты, могут потребоваться контролируемые исследования, зато можно будет гораздо быстрее обнаружить источник проблем. Речь идет не о том, чтобы заменить клинические испытания анализом неконтролируемых медицинских данных, а о том, что использование этих данных способно помочь исследователям выявлять непредвиденные положительные и отрицательные эффекты препаратов и намного улучшать методы лечения. Всего-то и требуется задуматься о том, как по-иному подойти к решению проблем… Даже если сегодня они считаются уже решенными.
Хранение данных больше не требует двоичного выбора
Внедрение больших данных требует от организации изменения подходов к тому, как она собирает данные, хранит их и настолько долго. До недавнего времени было слишком дорого тратиться на что-то иное, кроме хранения самых важных данных. Если данные были достаточно важными для того, чтобы их собирать, значит, они были достаточно важными и для того, чтобы хранить их очень долго, если не бессрочно. Учитывая сегодняшнее изобилие источников больших данных, организации должны отказаться и от двоичного выбора «собирать или не собирать», и от бессрочного хранения собранного. Теперь необходимы многовекторные решения.
Во-первых, необходимо ли выбирать все части из источника данных или только отдельные части? Во-вторых, какие данные и на протяжении какого времени должны храниться? Возможно, потребуется лишь малая доля и хранить ее надо будет недолго, а потом удалить. Определение правильного подхода требует сначала определения ценности данных на сегодняшний день и в перспективе.
Чтобы наглядно проиллюстрировать, какие данные не нужно собирать, приведу вам следующий пример. Представьте себе современный умный дом, оснащенный массой всевозможных датчиков. В каждой комнате имеется свой термостат, который постоянно посылает данные о текущей температуре в центральную систему для того, чтобы поддерживать в комнатах постоянную температуру. В процессе взаимодействия термостатов с центральной системой генерируется непрерывный поток данных, но имеют ли они ценность? Эти данные необходимы для выполнения конкретной тактической задачи, но трудно представить, для чего бы они могли потребоваться спустя долгое время. Показания с разрывом в миллисекунду нужны только для выполнения главной задачи – обновления сведений в системе. Если же энергетическая компания будет скрупулезно собирать и хранить такие данные, поступающие из всех обслуживаемых ею домов и зданий, она переполнит свои хранилища данных и не создаст ничего ценного.
Для сокращения данных можно прибегнуть к аналитике. Сокращение данных – это процесс идентификации тех их областей, которые можно проигнорировать или же скомбинировать, чтобы уменьшить количество используемых метрик при небольшой потере информации. Например, если установлено, что температура в смежных комнатах вашего дома всегда отличается не более чем на полградуса, то можно собирать данные не для каждой комнаты, а только для одной и экстраполировать их на соответствующую зону внутри дома. Это позволит значительно сократить хранимые объемы данных без снижения качества информации, доступной для аналитики.