Шрифт:
Соответственно, ребята Флауэрса принялись поднимать данные по такого рода вопросам. Оказалось, что дело это на удивление непростое. Это в теории Нью-Йорк – золотая жила для любителей всевозможной статистики, поскольку там сорок с лишним управлений и служб напрямую подчинены мэрии и десятилетиями отчитываются перед ней о проделанной работе, сообщая, в частности, детальные цифровые показатели. Чиновники мэрии так гордились этими залежами данных, что Блумберг, когда он согнал их всех в один большой загон, распорядился развесить по стенам – прямо между историческими картинами маслом – плазменные панели для отображения столь любимых здешними обитателями статистических показателей. Но вот незадача: нужная информация хранилась в десятках разрозненных баз данных, причем они велись отдельно не только каждым управлением, но и каждым структурным подразделением! Цифры оказались настолько же фрагментированными, как и человеческие ресурсы.
По базе данных учета поступлений налогов на землепользование PLUTO [30] ребята составили выборку из 640 000 малоэтажных нью-йоркских домов, в каждом из которых, по регистрационным данным мэрии, проживало от одной до трех семей. Из-за причудливости законов города Нью-Йорка Управление пожарной охраны отвечало за проверку противопожарной безопасности примерно половины из них; вторую половину контролировало Управление жилищного строительства. Ребятам, однако, удалось поднять из архивов обоих управлений (опять же раздельных!) все данные и о пожарах в жилых домах, и о поступивших жалобах на незаконные перепланировки. Кроме того, они выудили из Финансового управления и Следственного управления (первое занималось налогами, второе – финансовыми махинациями) информацию о ранее выявленных невыплатах налогов и ипотечных кредитов и сверили ее с полученным из Управления жилищного строительства списком жилых домов, построенных до 1938 года. Наконец, данные из всех источников были ими сведены в единый массив и подвергнуты статистической обработке. Постепенно стала вырисовываться закономерность. По адресам, где присутствовали все четыре фактора риска одновременно, и пожары и несанкционированные перепланировки случались с пугающей частотой, вне зависимости от того, поступали на эти дома жалобы или нет. Иными словами, дома, являющиеся потенциальными огненными ловушками для своих жильцов, нужно выявлять не по сигналам на горячую линию 311 и не по письменным жалобам на безобразное противопожарное состояние и антисанитарию. Неблагополучные адреса узнаваемы по сочетанию четырех характерных, хотя и разнородных признаков: просроченная ипотека; нарушение строительных норм и правил; старая застройка; общая бедность квартала, определяемая по совокупности всех ее проявлений.
30
Данные PLUTO см.: http://www.nyc.gov/html/dcp/html/bytes/applbyte.shtml
С этими данными Флауэрс, заручившись поддержкой Голдсмита, отправился к инспекторам Управления жилищного строительства и попросил провести адресную проверку выявленных домов, построенных с нарушением строительных норм и правил и, в целом, неблагополучных по совокупности проанализированных данных. «Поначалу идея им совсем не понравилась, нас просто назвали чокнутыми, – вспоминает Флауэрс. – Но все-таки Управление жилищного строительства удалось взять измором, и инспектора отправились проверять адреса по нашим спискам». Результаты ошеломили. Традиционно по результатам проверок реальные проблемы у них выявлялись лишь по 13 % адресов. По новому методу нарушения были обнаружены в 70 % случаев [31] . Как по мановению волшебной палочки – и без дополнительных затрат – эффективность проверок соблюдения норм противопожарной безопасности выросла в четыре раза.
31
Kenneth Cukier and Viktor Mayer-Schoenberger, The Rise of Big Data, Foreign Afairs, May 1, 2013. См. также: Cukier and Mayer-Schoenberger, Big Data: A Revolution That Will Transform How We Live, Work, and Think (Eamon Dolan: Mariner, 2014).
Может, это случайно так подфартило? Ребята испытали тот же прием на многоквартирных домах. С первого раза ничего путного не вышло. Тогда Флауэрс снова отрядил часть молодых исследователей в совместные разъезды с инспекторами для разведки дополнительных данных на местах: чем же таким особенным большие дома отличаются от небольших? Дни шли, а ключа к разгадке все не находилось. И вдруг один из неутомимых искателей данных случайно услышал мимолетно обороненную бывалым инспектором реплику относительно большого жилого дома, к которому они подъехали: «Здесь точно все в порядке, по кладке видно!» Компьютерщик переспросил, какое отношение к делу имеет кирпичная кладка. Инспектор объяснил, что за долгие годы убедился: домовладельцы, не скупящиеся на новые кирпичи для латания кладки, не терпят и пожароопасных непорядков. Ребята сразу взяли след – и подняли кое-какие данные по поставкам кирпича по всему Нью-Йорку (нашлась и такая залежь в бездонных архивах нью-йоркской бюрократии). Дополнив ими карту статистики пожаров, они сразу же убедились в правильности своей догадки. Сами по себе данные о поставках кирпича ничего не раскрывали, а вот в сочетании с другими исходными данными они производили просто-таки взрывной эффект.
После этого найденный подход стал широко применяться, а горизонтальные связи выстраиваться и в других сферах. Хорошей иллюстрацией служит пример с незаконным оборотом сигарет. Контрабанду табачных изделий в Нью-Йорке не могли побороть десятилетиями, поскольку нью-йоркские цены на них были вдвое выше, чем в той же Виргинии (из-за более высокой ставки акцизного налога), а на 14 000 киосков с лицензиями на право продажи табачных изделий приходилось всего пятьдесят шерифов, призванных контролировать их торговлю [32] . Для резкого повышения раскрываемости команде Флауэрса хватило перекрестной сверки списка киосков с табачными лицензиями и данных о налоговых мошенничествах. Аналогичный фокус был проделан и для выявления точек незаконной безрецептурной продажи оксикодона, сильного обезболивающего, пользующегося популярностью у наркоманов. Аптек в городе тысячи, и обычными выборочными проверками незаконную продажу сильнодействующего препарата без рецепта было не обнаружить. Однако, сведя воедино и сопоставив ранее разрозненные базы данных, команда Флауэрса определила, что всего на один процент аптек приходится 24 % компенсационных выплат за отпуск оксикодона по рецептам в рамках покрытия расходов населения на лекарства по государственной программе Medicaid [33] . Раскрываемость резко пошла в гору.
32
Интервью с Майком Флауэрсом, http://radar.oreilly.com/2012/06/predictive-data-analytics-big-data-nyc.html
33
Alex Howard, Predictive Data Analytics in Saving Lives and Taxpayer Dollars in New York City, Radar Online, June 26, 2012; Mayor Moves Against Drugs, Wall Street Journal, December 13, 2011.
Ребятки углубились даже в столь малоаппетитную проблему, как загрязнение городской канализации «желтым жиром» [34] . В Нью-Йорке около 24 000 ресторанов, и большинство предлагает в том числе и блюда во фритюре. «Только представьте себе весь этот картофель-фри, роллы в тесте, да кучу всего!» – любил говаривать Флауэрс, указывая на свой животик. По закону нью-йоркским ресторанам полагалось сдавать отработанный жир на утилизацию, заключив для этого контракт с одной из уполномоченных компаний по вывозу отходов. На деле же многие привычно игнорировали этот закон и продолжали сливать отработанное масло в канализационные люки.
34
Отработанное растительное масло с предприятий пищевой промышленности и общественного питания, сливаемое из фритюрниц и подлежащее утилизации и промышленной переработке (на мыло, косметику, кормовые добавки, биотопливо и т. п.).
Власти годами ничего не могли поделать с этим беззаконием, поскольку нарушители предусмотрительно занимались спуском желтого жира в городскую канализацию под покровом ночи. Но «скунсы» затребовали в отделе охраны окружающей среды данные о месторасположении засоров канализации желтым жиром и провели их сравнительный анализ с отдельно полученными данными об имеющихся у ресторанов лицензиях, налоговых поступлениях и даже случаях возгораний на кухнях. Были оперативно выявлены рестораны, не имеющие ни лицензии на самостоятельную утилизацию отходов, ни контракта с лицензированной компанией, которые и составили список потенциальных нарушителей. После этого ребята обратились еще в один отдел бюрократического аппарата мэрии, отвечавший за внедрение на городском уровне практики переработки органических отходов в биодизельное топливо, и поинтересовались, не хотят ли они, совместно с санитарной, пожарной и технической инспекциями, убедить рестораторов прекратить засорять желтым жиром канализацию в ущерб себе вместо того, чтобы продавать ее за деньги сборщикам органического вторсырья для производства биотоплива. «Теперь инспектора, придя в ресторан по поводу выявленного факта сброса в городскую канализацию желтого жира, не врываются к владельцам с победным кличем: „Что, попались?! С вас 25 000 долларов штрафа!“ – вспоминал позже Флауэрс. – Нет, теперь они вежливо и доходчиво объясняют: „Не глупите лучше, а продавайте эту дрянь биодизельным компаниям! Это же целая отрасль у них теперь, и они этот желтый жир охотно покупают за живые деньги!“».
По правде говоря, преимущества слома «шахтной» психологии оказались настолько очевидны, что Флауэрсу оставалось только удивляться, почему до этого никто раньше не додумался. Ведь специалисты в области статистики годами используют сложнейшие методики формирования выборок данных, и им ли не знать о корреляциях и не уметь их отыскивать? Почему никто до сих пор не озаботился сопоставлением баз данных из разных источников? Впрочем, ответ на свой вопрос Флауэрс знал еще до того, как сам его задал: система управления Нью-Йорком уродливо расчленена на множество автономных, узкопрофильных структур, выстроенных параллельно друг другу, как орудия в артиллерийской батарее, а в результате люди в упор не видят проблем и возможностей прямо у себя под носом. Иными словами, история скунсодельни – это ведь на самом деле не рассказ о статистике. Это поучительная повесть о том, как мы организуем наш мир: как структурируем данные, как выстраиваем функциональные подразделения, в какие рамки втискиваем собственную жизнь и собственное сознание. «Здесь все как-то фрагментировано. Трудно собрать все воедино. Вот когда получится, и результаты будут куда лучше… – заметил когда-то Флауэрс и подытожил: – Почему-то мало что получается – и все тут. Осталось выяснить причину!»