Журналистика данных

Журналистика данных или журналистика, управляемая данными ( DDJ ), — это журналистика , основанная на фильтрации и анализе больших наборов данных с целью создания или продвижения новостной статьи.

Журналистика данных отражает возросшую роль числовых данных в производстве и распространении информации в цифровую эпоху . Он предполагает смешение журналистики с другими областями, такими как визуализация данных , информатика и статистика , «перекрывающийся набор компетенций, взятых из разных областей». ^[1]

Журналистика данных широко использовалась для объединения нескольких концепций и связи их с журналистикой. Некоторые рассматривают их как уровни или этапы, ведущие от более простого к более сложному использованию новых технологий в журналистском процессе. ^[2]

Многие истории, основанные на данных, начинаются с новых доступных ресурсов, таких как программное обеспечение с открытым исходным кодом , публикации в открытом доступе и открытые данные , в то время как другие являются продуктами запросов публичных записей или просочившихся материалов. Этот подход к журналистике основан на старых практиках, в первую очередь на компьютерных репортажах (CAR) - ярлыке, который десятилетиями использовался в основном в США. Другие названия частично схожих подходов — «точная журналистика», основанная на книге Филиппа Мейера ^[3] , опубликованной в 1972 году, где он выступал за использование методов социальных наук при исследовании историй. Журналистика, основанная на данных, имеет более широкий подход. По сути, этот процесс основан на растущей доступности открытых данных, которые находятся в свободном доступе в Интернете и анализируются с помощью инструментов с открытым исходным кодом . ^[4] Журналистика, основанная на данных, стремится достичь новых уровней обслуживания общественности, помогая широкой общественности или конкретным группам или отдельным лицам понимать закономерности и принимать решения на основе полученных результатов. Таким образом, журналистика, основанная на данных, может помочь по-новому поставить журналистов на роль, значимую для общества.

Рассказывать истории на основе данных — основная цель. Выводы из данных могут быть преобразованы в любую форму журналистского письма . Визуализации можно использовать для создания четкого понимания сложной ситуации. Кроме того, элементы повествования можно использовать для иллюстрации того, что на самом деле означают полученные результаты, с точки зрения человека, на которого влияет развитие событий. Эту связь между данными и историей можно рассматривать как «новую дугу», пытающуюся преодолеть разрыв между событиями, которые актуальны, но плохо поняты, до истории, которая поддается проверке, заслуживает доверия, актуальна и легко запоминается.

Определения

Веглис и Братсас определили журналистику данных как «процесс извлечения полезной информации из данных, написания статей на основе этой информации и встраивания в статьи визуализаций (в некоторых случаях взаимодействующих) которые помогают читателям понять значение истории или позволяют им точно определить данные, которые к ним относятся» ^[5]

Антонопулос и Кариотакис определяют практику журналистики данных как «способ улучшения репортажей и написания новостей с использованием и анализом статистики, чтобы обеспечить более глубокое понимание новостного сюжета и выделить соответствующие данные». Одна из тенденций в цифровую эпоху журналистика заключается в распространении информации среди общественности через интерактивный онлайн-контент с помощью инструментов визуализации данных, таких как таблицы, графики, карты, инфографика, микросайты и визуальные миры. Углубленное изучение таких наборов данных может привести к более конкретным результатам и наблюдениям. относительно актуальных тем, представляющих интерес. Кроме того, журналистика данных может раскрыть скрытые проблемы, которые, казалось бы, не были приоритетом в освещении новостей». ^[6]

По мнению архитектора и мультимедийного журналиста Мирко Лоренца, журналистика, управляемая данными, — это прежде всего рабочий процесс , который состоит из следующих элементов: глубокое изучение данных путем их очистки, очистки и структурирования, фильтрация путем извлечения конкретной информации, визуализация и создание истории . ^[7] Этот процесс можно расширить, чтобы обеспечить результаты, отвечающие индивидуальным интересам и широкой общественности.

Тренер и писатель по журналистике данных Пол Брэдшоу описывает процесс журналистики, управляемой данными, аналогичным образом: необходимо найти данные , для чего могут потребоваться специальные навыки, такие как MySQL или Python , затем их опросить , для чего необходимо понимание жаргона и статистики, и, наконец, визуализируются и обрабатываются с помощью инструментов с открытым исходным кодом . ^[8]

Более ориентированное на результат определение дает репортер данных и веб-стратег Хенк ван Эсс (2012). ^[9] «Журналистика, основанная на данных, позволяет репортерам рассказывать невыразимые истории, находить новые точки зрения или завершать истории посредством рабочего процесса поиска, обработки и представления значительных объемов данных (в любой заданной форме) с открытыми инструментами или без них». Ван Эсс утверждает, что некоторые рабочие процессы, основанные на данных, приводят к созданию продуктов, которые «не соответствуют законам хорошего рассказывания историй», потому что результат направлен на демонстрацию проблемы, а не на ее объяснение. «Хорошее производство, основанное на данных, имеет разные уровни. Оно позволяет вам находить персонализированные материалы, которые важны только для вас, путем детализации до релевантных, но также позволяет вам уменьшить масштаб, чтобы получить общую картину».

^{В 2013 году Ван Эсс в [10]} предложил более короткое определение , которое не включает визуализацию как таковую: «Журналистика данных может быть основана на любых данных, которые необходимо сначала обработать с помощью инструментов, прежде чем станет возможным создание соответствующей истории. Я не включаю визуализацию как таковую».

Однако одна из проблем определения журналистики данных заключается в том, что многие определения недостаточно ясны и сосредоточены на описании вычислительных методов оптимизации, анализа и визуализации информации. ^[11]

Появление как концепция

Термин «журналистика данных» был придуман политическим обозревателем Беном Ваттенбергом в ходе его работы, начавшейся в середине 1960-х годов, когда он совмещал повествование со статистикой для поддержки теории о том, что Соединенные Штаты вступили в золотой век . ^[12]^[13]

Один из самых ранних примеров использования компьютеров в журналистике относится к попытке CBS в 1952 году использовать мэйнфрейм для прогнозирования результатов президентских выборов, но только в 1967 году использование компьютеров для анализа данных стало более широко использоваться. усыновленный. ^[14]

Работая в то время в Detroit Free Press , Филип Мейер использовал мэйнфрейм, чтобы улучшить освещение беспорядков, распространяющихся по всему городу. Имея новый прецедент анализа данных в журналистике, Мейер в сотрудничестве с Дональдом Барлеттом и Джеймсом Стилом изучил закономерности вынесения обвинительных приговоров в Филадельфии в 1970-е годы. Позже Мейер написал книгу под названием «Точная журналистика» , в которой пропагандировал использование этих методов для объединения анализа данных в журналистике.

К концу 1980-х годов начали происходить важные события, которые помогли формально организовать сферу компьютерной отчетности. Репортер-расследователь Билл Дедман из The Atlanta Journal-Constitution получил Пулитцеровскую премию в 1989 году за «Цвет денег», серию статей 1988 года, в которых используются методы CAR для анализа расовой дискриминации со стороны банков и других ипотечных кредиторов в чернокожих кварталах со средним уровнем дохода. ^[15] Национальный институт компьютерной репортажи (NICAR) ^[16] был создан в Школе журналистики Миссури в сотрудничестве с журналистами-расследователями и редакторами (IRE). Первая конференция, посвященная ЦАР, была организована NICAR совместно с Джеймсом Брауном в Университете Индианы и проведена в 1990 году. С тех пор конференции NICAR проводятся ежегодно и в настоящее время являются крупнейшим собранием журналистов данных.

Хотя журналистика данных неофициально использовалась практиками компьютерной журналистики на протяжении десятилетий, первым зафиксированным использованием ее стала газета The Guardian , которая запустила свой блог данных в марте 2009 года. ^[17] И хотя происхождение этого термина оспаривается. , он широко используется после утечки документов Wikileaks об афганской войне в июле 2010 года. ^[18]

В освещении военных журналов The Guardian использовали бесплатные инструменты визуализации данных, такие как Google Fusion Tables , еще один распространенный аспект журналистики данных. Редактор Datablog The Guardian Саймон Роджерс описывает журналистику данных следующим образом: « Факты священны» :

«Комментарии свободны, — писал в 1921 году редактор Guardian С. П. Скотт , — но факты священны». Девяносто лет спустя публикация этих священных фактов сама по себе стала новым типом журналистики: журналистикой данных. И оно быстро становится частью истеблишмента.

Расследовательская журналистика данных сочетает в себе область журналистики данных с журналистскими расследованиями. Примером журналистских расследований данных является исследование больших объемов текстовых или финансовых данных. Журналистика данных расследований также может относиться к области анализа больших данных для обработки больших наборов данных. ^[19]

С момента появления этой концепции ряд медиакомпаний создали «группы данных», которые разрабатывают визуализации для редакций. Наиболее примечательными являются команды, например, Reuters, ^[20] Pro Publica, ^[21] и La Nacion (Аргентина). ^[22] В Европе The Guardian ^[23] и Berliner Morgenpost ^[24] имеют очень продуктивные команды, а также общественные вещатели.

Как показывают такие проекты, как скандал с расходами депутата парламента (2009 г.) и публикация «офшорных утечек» в 2013 г., журналистика, основанная на данных, может взять на себя роль расследования, время от времени имея дело с «не столь открытыми», то есть секретными данными.

Ежегодная премия Data Journalism Awards ^[25] отмечает выдающиеся репортажи в области журналистики данных, а за последние годы за повествование, основанное на данных, были присуждены многочисленные Пулитцеровские премии , в том числе Пулитцеровская премия 2018 года в области международной журналистики ^[26] и Пулитцеровская премия 2017 года. в государственной службе ^[27]

Таксономии

Многие ученые предложили различные таксономии проектов журналистики данных. Меган Найт предложила таксономию, основанную на уровне интерпретаций и анализа, необходимых для создания проекта журналистики данных. В частности, таксономия включала: числовые цитаты, статическую карту, список и временные шкалы, таблицы, графики и диаграммы, динамическую карту, текстовый анализ и информационную графику. ^[28]

Саймон Роджерс предложил пять типов проектов журналистики данных: «Только факты», «Новости на основе данных», «Истории, рассказывающие о местных данных», «Анализ и предыстория» и «Глубокие расследования». ^[29] Марта Канг обсудила семь типов историй данных, а именно: рассказать об изменениях с течением времени, начать с большого и детализировать, начать с малого и уменьшить масштаб, выделить контрасты, изучить пересечение, проанализировать факторы и профилировать выбросы. ^[30]

Веглис и Братсас предложили другую таксономию, основанную на методе подачи информации аудитории. Их таксономия имела иерархическую структуру и включала следующие типы: статьи журналистики данных с цифрами, с таблицами и с визуализациями (интерактивными и неинтерактивными). Также в случае историй с интерактивной визуализацией они предложили три различных типа: трансляционный, консультативный и разговорный. ^[31]

Качество данных

Во многих исследованиях данные, которые можно найти, могут содержать упущения или вводить в заблуждение. В качестве одного из уровней журналистики, ориентированной на данные, важен критический анализ качества данных. В других случаях данные могут быть непубличными или иметь неправильный формат для дальнейшего анализа, например, доступны только в формате PDF . Здесь процесс журналистики, основанной на данных, может превратиться в истории о качестве данных или отказе учреждений предоставить данные. Поскольку практика в целом находится на ранних стадиях развития, изучение источников данных, наборов данных, качества данных и формата данных является не менее важной частью этой работы.

Журналистика, основанная на данных, и ценность доверия

Исходя из перспективы более глубокого изучения фактов и движущих сил событий, предлагается изменить медиа-стратегии: с этой точки зрения идея состоит в том, чтобы перейти «от внимания к доверию». Привлечение внимания, которое было основой медиа-бизнес-моделей, потеряло свою актуальность, поскольку сообщения о новых событиях часто быстрее распространяются через новые платформы, такие как Twitter, чем через традиционные каналы СМИ. С другой стороны, доверие можно понимать как дефицитный ресурс. Хотя распространять информацию через Интернет гораздо проще и быстрее, обилие предложений создает затраты на проверку и проверку содержания любой истории, создавая возможности. Идея превратить медиакомпании в надежные центры данных была описана в статье, опубликованной в феврале 2011 года на сайтах Owni.eu ^[32] и Nieman Lab. ^[33]

Процесс журналистики, основанной на данных

Процесс преобразования необработанных данных в истории сродни уточнению и преобразованию. Основная цель состоит в том, чтобы получить информацию, на основе которой получатели могут действовать. Задача дата-журналиста — извлечь то, что скрыто. Этот подход можно применять практически к любому контексту, например, к финансам, здравоохранению, окружающей среде или другим областям, представляющим общественный интерес.

Перевернутая пирамида журналистики данных

В 2011 году Пол Брэдшоу представил модель, которую он назвал «Перевернутая пирамида журналистики данных».

Этапы процесса

Для достижения этой цели процесс следует разбить на несколько этапов. Хотя шаги, ведущие к результатам, могут различаться, основное различие можно провести, рассмотрев шесть этапов:

Найти: поиск данных в Интернете.
Очистка: процесс фильтрации и преобразования данных, подготовка к визуализации.
Визуализация: отображение шаблона в виде статического или анимированного изображения.
Публикация: интеграция визуальных эффектов, прикрепление данных к историям.
Распространение: обеспечение доступа на различных устройствах, таких как Интернет, планшеты и мобильные устройства.
Мера: отслеживание использования историй данных с течением времени и по всему спектру применений.

Описание шагов

Поиск данных

Данные можно получить непосредственно из правительственных баз данных, таких как data.gov , data.gov.uk и API данных Всемирного банка ^[34] , а также путем размещения запросов о свободе информации в правительственных учреждениях; некоторые запросы делаются и агрегируются на таких веб-сайтах, как британский сайт What Do They Know. Несмотря на то, что во всем мире существует тенденция к открытию данных, существуют национальные различия в том, в какой степени эта информация находится в свободном доступе в удобных для использования форматах. Если данные находятся на веб-странице, для создания электронной таблицы используются парсеры. Примеры парсеров: WebScraper, Import.io, QuickCode , OutWit Hub и Needlebase (выход из эксплуатации в 2012 году ^[35] ). В других случаях для получения данных из PDF-файлов можно использовать программное обеспечение OCR.

Данные также могут создаваться общественностью посредством краудсорсинга, как показал в марте 2012 года на конференции по журналистике данных в Гамбурге Хенк ван Эсс. ^[36]

Очистка данных

Обычно данные не имеют формата, который легко визуализировать. Примерами могут служить слишком много точек данных или необходимость сортировки строк и столбцов по-разному. Другая проблема заключается в том, что после исследования многие наборы данных необходимо очистить, структурировать и преобразовать. Различные инструменты, такие как OpenRefine ( с открытым исходным кодом ), Data Wrangler и Google Spreadsheets ^[37], позволяют загружать, извлекать или форматировать данные.

Визуализация данных

Для визуализации данных в виде графиков и диаграмм доступны такие приложения, как Many Eyes или Tableau Public . Yahoo! Pipes и Open Heat Map ^[38] являются примерами инструментов, позволяющих создавать карты на основе электронных таблиц данных. Количество опций и платформ расширяется. Некоторые новые предложения предоставляют возможности поиска, отображения и внедрения данных, например Timetric. ^[39]

Для создания осмысленных и актуальных визуализаций журналисты используют все больше инструментов. На данный момент существует несколько описаний того, что искать и как это делать. Наиболее известные опубликованные статьи:

Джоэл Гюнтер: «#ijf11: Уроки журналистики данных из New York Times» ^[40]
Стив Майерс: «Использование визуализации данных в качестве инструмента отчетности может раскрыть форму истории», включая ссылку на учебник Сары Коэн ^[41]

С 2011 года использование библиотек HTML 5 с использованием тега Canvas становится все более популярным. Существует множество библиотек, позволяющих отображать данные в виде графиков в растущем разнообразии форм. Одним из примеров является RGraph . ^[42] По состоянию на 2011 год список библиотек JavaScript, позволяющих визуализировать данные, постоянно растет. ^[43]

Публикация данных

Существуют различные варианты публикации данных и визуализаций. Базовый подход — прикрепить данные к отдельным историям, аналогично встраиванию веб-видео. Более продвинутые концепции позволяют создавать отдельные досье, например, отображать несколько визуализаций, статей и ссылок на данные на одной странице. Часто такие специальные предложения приходится кодировать индивидуально, поскольку многие системы управления контентом предназначены для отображения отдельных сообщений в зависимости от даты публикации.

Распространение данных

Обеспечение доступа к существующим данным – это еще один этап, который приобретает все большее значение. Думайте о сайтах как о «торговых площадках» (коммерческих или нет), где другие могут легко найти наборы данных. Что касается информации для статьи, полученной из открытых данных, журналисты должны предоставить ссылку на данные, которые они использовали для расследования другими (потенциально это может начать новый цикл допросов, ведущий к новым знаниям).

Предоставление доступа к данным и предоставление группам возможности обсуждать, какую информацию можно извлечь, является основной идеей Buzzdata, ^[44] сайта, использующего такие концепции социальных сетей, как обмен информацией и подписка на нее, для создания сообщества для исследования данных.

Другие платформы (которые можно использовать как для сбора, так и для распространения данных):

Помогите мне в расследовании (создатель Пол Брэдшоу) ^[45]
Временной ^[46]
СкребокВики ^[47]

Измерение влияния историй данных

Последним шагом процесса является измерение частоты просмотра набора данных или визуализации.

В контексте журналистики, основанной на данных, масштабы такого отслеживания, такие как сбор пользовательских данных или любой другой информации, которая может быть использована в маркетинговых целях или для других целей, находящихся вне контроля пользователя, следует рассматривать как проблематичные. ^{[ по мнению кого? ]} Одним из новых, ненавязчивых способов измерения использования является легкий трекер PixelPing. Трекер — результат проекта ProPublica и DocumentCloud . ^[48] Для сбора данных существует соответствующий сервис. Программное обеспечение имеет открытый исходный код и может быть загружено через GitHub. ^[49]

Примеры

Список примеров применения журналистики, основанной на данных, постоянно растет. The Guardian , одна из медиа-компаний-новаторов в этой области (см. «Журналистика данных в Guardian: что это такое и как мы это делаем?» ^[50] ), составила обширный список историй о данных, см.: «Все нашей журналистики данных в одной таблице». ^[51]

Другое известное использование журналистики, основанной на данных, связано с публикацией разоблачительной организацией WikiLeaks « Дневника афганской войны» — сборника из 91 000 секретных военных отчетов, освещающих войну в Афганистане с 2004 по 2010 год . ^[52] Три глобальных информационных бюллетеня, а именно: The Guardian , The New York Times и Der Spiegel посвятили этим документам обширные разделы ^[53]^[54]^{[55] ;}Отчет The Guardian включал в себя интерактивную карту с указанием типа, местоположения и жертв, вызванных 16 000 атаками СВУ , ^[56] The New York Times опубликовала подборку отчетов, которая позволяет пролистывать подчеркнутый текст, чтобы получить объяснения военных терминов, ^{[57 ]} , в то время как Der Spiegel предоставил гибридные визуализации (содержащие как графики, так и карты) по таким темам, как количество смертей, связанных с бомбовыми атаками повстанцев. ^[58] Для публикации журналов войны в Ираке The Guardian использовала Google Fusion Tables для создания интерактивной карты каждого инцидента, где кто-то погиб, [ ^59] метод, который он снова использовал во время беспорядков в Англии в 2011 году ^{. [60]}

Смотрите также

Внешние ссылки

Веб-сайт Национального института компьютерной отчетности
DataJournalism.com: изучайте журналистику данных, читая, наблюдая и обсуждая
Список университетских курсов и программ по журналистике данных со всего мира
Справочник по журналистике данных: На пути к практике критической обработки данных - справочник в открытом доступе по журналистике данных во всем мире
Awesome-data-journalism — «подборный список общедоступных, бесплатных/открытых ресурсов и ресурсов с открытым доступом для обучения и ведения журналистики данных»