Шрифт:
Афганские военные отчеты – которые мы обрабатывали вместе с New York Times и Der Spiegel – были настоящей журналистикой данных в действии. Что мы хотели сделать, так это дать возможность нашей команде специалистов вытащить какие–то серьезные человеческие истории из этой информации – и мы также хотели проанализировать данные, чтобы получить картину в целом, и показать, как действительно шла и идет война.
Практически сразу мы пришли к важному решению, что мы не будем публиковать полную базу данных. WikiLeaks уже собиралась это сделать, а мы хотели убедиться в том, что мы не раскроем имена лиц, ставших источниками информации, или не будем без необходимости подвергать опасности войска НАТО. В то же время нам нужно было сделать данные более легкими для понимания, а также для использования нашей командой расследовательских журналистов, возглавляемой Дэвидом Леем (David Leigh) и Ником Дэвисом (Nick Davies) (которые вели переговоры с Джулианом Ассанжем о публикации данных). Мы также хотели упростить задачу извлечения ключевой информации, чтобы она стала доступной всему миру, была при этом ясной, понятной и открытой – в максимально возможной степени, насколько у нас это получится.
Данные поступили к нам в виде огромного «экселевского» файла – 92 201 строка данных, в некоторых не было вообще ничего или же они были плохо отформатированы. Это никоим образом не помогало журналистам, которые продирались сквозь эти данные в поисках сюжетов для материалов, и вдобавок сам файл был слишком велик, чтобы сделать по нему содержательный отчет.
Наша команда соорудила простую внутреннюю базу данных с использованием SQL. Журналисты теперь могли осуществлять поиск по ключевым словам или тем или иным событиям. Получилось, что внезапно набор данных стал доступным, и создавать материалы на его основе стало гораздо легче.
Данные были хорошо структурированы: каждое событие имело следующие ключевые характеристики: время, дату, описание, количество пострадавших, и – самое важное – точные данные долготы и широты места, где оно произошло.
Мы также начали фильтровать данные, что должно было помочь нам рассказать одну из ключевых историй войны: рост числа атак с использованием самодельных взрывных устройств – придорожных мин домашнего изготовления, которые совершенно непредсказуемы и с которыми очень трудно бороться. Но и этот набор данных по–прежнему оставался слишком массивным – однако управляться с ним стало легче. Всего было примерно 7 500 случаев применения самодельных взрывных устройств или внезапных нападений, засад (за таковую атаку мы считали нападение, сочетающееся с, допустим, небольшой перестрелкой или использованием реактивных гранат) за период с 2004 по 2009 годы. И еще 8 000 самодельных взрывных устройств были обнаружены и обезврежены. Мы хотели посмотреть, как эта ситуация менялась со временем – и сравнить. Эти данные дали нам возможность увидеть, что юг, территория, где базировались британские и канадские войска, был самым «горячим» в этом плане районом, там происходило больше всего подобных инцидентов – и эти данные только подкрепили то, что наши журналисты, освещавшие войну, уже знали.
Публикация военных отчетов об Ираке в октябре 2010 выставила на публичное обозрение еще 391 000 записей, на этот раз по иракской войне.
И это было уже кое–что иное по сравнению с утечкой по Афганистану – вполне можно было, воспользовавшись этим случаем, сказать, что эта война стала самой задокументированной войной в истории. Любая, даже самая мелкая, подробность теперь была доступна для нас для анализа, обработки и выводов. Но обращает на себя один фактор: большое количество смертей, причем большинство погибших – гражданские лица.
Как и в случае с Афганистаном, Guardian решил не перепубликовывать всю базу целиком, в значительной мере потому, что мы не могли быть уверены, что поля с описанием не содержат конфиденциальную информацию или данные о тех людях, кто был источником информации, и так далее.
Но мы дали возможность нашим пользователям скачать таблицу с записями о каждом инциденте, где кто–то погиб. Таковых набралось примерно 60 000. Мы удалили при этом поля с кратким описанием, так что остались только основные данные: военный заголовок, число погибших и географическая разбивка.
Мы также взяли все эти инциденты с жертвами, и нанесли их на карту при помощи таблиц Google Fusion. Вариант оказался не идеальный, но в любом случае это было начало процесса попытки составления карт для отображения всех примеров разрушений и уничтожений, которые опустошили Ирак.
В декабре 2010 года были опубликованы депеши. И это был еще более внушительный набор данных – огромное собрание официальных документов: 251 287 дипломатических донесений, из более чем 250 американских посольств и консульств по всему миру. Получилась уникальная картина американского дипломатического языка – она включала в себя более 50 000 документов, касающихся и нынешней американской администрации Барака Обамы. Но что именно включали в себя эти данные?
Сами депеши поступили через огромную безопасную сеть на базе интернет–маршрутизатора (Secret Internet Protocol Router Network – SIPRNet). SIPRNet – это всемирная интернет–система американских военных, которая существует отдельно от обычного гражданского интернета и управляется Министерством обороны в Вашингтоне. Со времен терактов 11 сентября 2001 года в США наблюдалось движение в сторону объединения архивов правительственной информации, в надежде, что ключевые разведданные больше не попадут в ловушку в информационных бункерах, не пострадают от противоречий между федеральными агентствами США. Все большее число американских посольств подключались к SIPRNet в последнее десятилетие, таким образом, становилось возможным обмениваться военной и дипломатической информацией. К 2002 году с SIPRNet работали 125 посольств, к 2005 это количество выросло до 180, а сейчас подавляющее большинство американских зарубежных дипмиссий подключены к этой системе. Вот почему большая часть опубликованных депеш датируется 2008–2009 годами. Как писал Дэвид Лей:
«Посольская депеша, помеченная тегом SIPDIS, автоматически загружается на секретный сайт посольства. Оттуда к ней может получить доступ не только любой человек в Госдепартаменте, но также и любой в американской военной структуре, у кого есть доступ к закрытой информации уровня «секретно», пароль и компьютер, подсоединенный к SIPRNet»
что удивительным образом охватывает более 3 миллионов человек. Тут есть несколько уровней данных; вплоть до SECRET NOFORN, тэга, который означает, что эта информация никогда и ни в коем случае не может быть показана иностранному гражданину. Такие документы, как предполагается, должны читаться чиновниками в Вашингтоне вплоть до уровня госсекретаря Хиллари Клинтон. Депеши обычно составляются местным послом или его подчиненными. К документам, на которых стоит гриф «совершенно секретно», или указание еще более высокого уровня сохранения тайны, не может быть получен доступ через SIPRNet.