Чтение книги Пособие по журналистике данных страница 65

Пособие по журналистике данных

вернуться

Грей Д.

Шрифт:

Open Knowledge Foundation— Грегор Эйш

Для меня самый надежный инструмент – Excel, который может справиться с большинством автоматизированных задач журналистики. Более того, он прост в использовании и доступен большинству журналистов. Для объединения таблиц я обычно использую Access, затем экспортирую объединенную таблицу обратно в Excel и работаю дальше. Для географических анализов я использую ArcMap от ESRI. Им пользуются многие агентства, которые собирают геокодированные данные.

TextWrangler отлично подходит для изучения текстовых данных в замысловатом формате и разделителями. Он также может выполнять сложный поиск и замену с распространенными выражениями. Когда мне нужны статистические методы (линейная регрессия), я использую SPSS. У него очень удобное и простое меню. Для мудреных заданий (например, массивов данных с миллионами записей, которые нуждаются в сортировке и программировании переменных трансформаций) я используют SAS.

Школа журналистики имени Уолтера Кронкайта— Стив Дойг

Мы используем Python и Django для обработки, очистки и переработки данных. PostGIS, QGIS и MapBox мы используем для создания навороченных веб–карт. R и NumPy + MatPlotLib сейчас борются за превосходство в анализе научных данных, хотя последнее время мы все чаще обращаемся к «доморощенному» инструменту, CSVKit. Практически все, что мы делаем, происходит в облаке.

Chicago Tribune— Брайан Бойер

В La Nacion мы используем: * Excel для очистки, структурирования и анализа данных; * Таблицы Google для публикации и объединения с сервисами типа Google Fusion Tables и Junar Open Data Platform; * Junar для расшаривания данных и внедрения их в статьи и блоги; * Tableau Public для интерактивной визуализации данных; * Qlikview – очень быстрый инструмент бизнес–аналитики для анализа и фильтрования больших массивов данных; * NitroPDF для конвертирования PDF в текстовые и Excel–файлы; * Google Fusion Tables для визулизации карт.

La Nacion (Аргентина)— Анхелика Перальта Рамос

Как стихийное сообщество без предубеждений относительно технических средств, мы в Transparency Hackers используем множество различных инструментов и языков программирования. У каждого из нас свой список предпочтений, и в этом разнообразии наша сила и слабость одновременно. Кто–то разрабатывает дистрибутив Linux от Transparency Hacker, который загружается где угодно и начинает вскрывать данные. Этот набор инструментов имеет несколько любопытных функций и библиотек для работы с данными (Refine, RStudio и OpenOffice Calc), о которых подкованные пользователи обычно забывают, но которые очень полезны для быстрых и мелких операций. Я также часто использую Scraperwiki, чтобы быстро смоделировать и сохранить результаты данных онлайн.

Для визуализации данных и создания схем есть много хороших инструментов. Например, очень много возможностей у Python и NumPy. Кое–кто из нашего сообщества балуется с R, но в конечном счете в большинстве проектов мы все равно используем библиотеки графиков на Javascript типа d3, Flot и RaphaelJS. Наконец, мы много экспериментировали с составлением диаграмм, и для этого нам очень интересным показался Tilemill.

Как использовать визуализацию данных для поиска взаимосвязей

Визуализация крайне важна для анализа данных. Это главная линия нападения, открывающая запутанные структуры в данных, которые нельзя получить другим способом. Мы находим то, что не ожидали найти, и ставим под вопрос то, что было ожидаемо.

— Уильям С. Кливленд: визуализация данных

Сами по себе данные, состоящие из битов и байтов в файле на жестком диске, невидимы. Чтобы увидеть данные и разобраться в них, нужно их наглядно представить. В этой главе я расскажу о более широком понятии визуализации, которая включает и чисто текстовое представление данных. Например, уже загрузка массива данных в программу создания таблиц будет визуализацией. Невидимые данные внезапно превращаются во вполне видимую картинку на экране. Вопрос не в том, нужно или нет журналистам наглядно представлять данные, а какой вид представления данных может быть наиболее наглядным в конкретном случае.

Другими словами, когда есть смысл идти дальше табличного представления? Ответ: почти всегда. Самих таблиц явно недостаточно для общего представления массива данных. И только таблицы не дают быстро определить закономерности в данных. Самый простой пример – географические закономерности, которые можно наблюдать только после визуализации данных на схеме. Есть и другие закономерности, о которых мы поговорим далее в этой главе.

Выявление взаимосвязей с помощью визуализации

Было бы опрометчиво ожидать, что инструменты для наглядного представления данных способны тут же обрушить на вас тонну готовых историй, возникших по мановению палочки из массивов данных. Нет никакого алгоритма, никакой гарантии, что вы получите сюжет. Напротив, думаю, имеет смысл искать взаимосвязи, которые руками хорошего журналиста мастерски вплетаются в статью.

Каждая новая визуализация, скорее всего, поможет увидеть взаимосвязи между данными. Какие–то взаимосвязи нам уже известны (но еще не доказаны), тогда как другие могут быть совершенно новыми и даже неожиданными. Какие–то новые взаимосвязи могут дать начало истории, в то время как другие будут просто результатом ошибки, которые наверняка обнаружатся в процессе визуализации.

Пособие по журналистике данных

Грей Д.

Шрифт:

Полезные ссылки

Контакты

Подпишитесь на рассылку: