Журналистика данных или журналистика, основанная на данных ( DDJ ), — это журналистика, основанная на фильтрации и анализе больших наборов данных с целью создания или улучшения новостного сюжета.
Журналистика данных отражает возросшую роль числовых данных в производстве и распространении информации в цифровую эпоху . Она подразумевает смешение журналистики с другими областями, такими как визуализация данных , компьютерные науки и статистика , «перекрывающийся набор компетенций, взятых из разрозненных областей». [1]
Журналистика данных широко используется для объединения нескольких концепций и связывания их с журналистикой. Некоторые рассматривают их как уровни или этапы, ведущие от более простых к более сложным использованиям новых технологий в журналистском процессе. [2]
Многие истории, основанные на данных, начинаются с недавно доступных ресурсов, таких как программное обеспечение с открытым исходным кодом , публикации с открытым доступом и открытые данные , в то время как другие являются продуктами запросов на публичные записи или просочившихся материалов. Этот подход к журналистике основывается на старых практиках, в первую очередь на компьютерной отчетности (CAR), ярлык, используемый в основном в США на протяжении десятилетий. Другие ярлыки для частично похожих подходов - это "точная журналистика", основанная на книге Филиппа Мейера [3] , опубликованной в 1972 году, где он выступал за использование методов из социальных наук при исследовании историй. Журналистика, основанная на данных, имеет более широкий подход. В основе процесса лежит растущая доступность открытых данных, которые свободно доступны в Интернете и анализируются с помощью инструментов с открытым исходным кодом . [4] Журналистика, основанная на данных, стремится достичь новых уровней обслуживания общественности, помогая широкой общественности или определенным группам или лицам понимать закономерности и принимать решения на основе результатов. Таким образом, журналистика, основанная на данных, может помочь поставить журналистов в роль, актуальную для общества, по-новому.
Рассказывание историй на основе данных является основной целью. Выводы из данных могут быть преобразованы в любую форму журналистского письма . Визуализации могут использоваться для создания четкого понимания сложной ситуации. Кроме того, элементы повествования могут использоваться для иллюстрации того, что на самом деле означают выводы, с точки зрения человека, на которого повлияло развитие событий. Эту связь между данными и историей можно рассматривать как «новую дугу», пытающуюся преодолеть разрыв между событиями, которые являются значимыми, но плохо понятыми, к истории, которая является проверяемой, заслуживающей доверия, релевантной и легко запоминающейся.
Веглис и Братсас определили журналистику данных как «процесс извлечения полезной информации из данных, написания статей на основе этой информации и внедрения визуализаций (в некоторых случаях интерактивных) в статьи, которые помогают читателям понять значимость истории или позволяют им точно определить данные, которые имеют к ним отношение» [5].
Антонопулос и Кариотакис определяют практику журналистики данных как «способ улучшения репортажей и написания новостей с использованием и изучением статистики для обеспечения более глубокого понимания новостной истории и выделения соответствующих данных. Одной из тенденций цифровой эпохи журналистики стало распространение информации среди общественности с помощью интерактивного онлайн-контента с помощью инструментов визуализации данных, таких как таблицы, графики, карты, инфографика, микросайты и визуальные миры. Глубокое изучение таких наборов данных может привести к более конкретным результатам и наблюдениям относительно актуальных тем, представляющих интерес. Кроме того, журналистика данных может выявить скрытые проблемы, которые, казалось бы, не были приоритетными в новостном освещении». [6]
По словам архитектора и мультимедийного журналиста Мирко Лоренца, журналистика, основанная на данных, — это, прежде всего, рабочий процесс , состоящий из следующих элементов: глубокое изучение данных путем их извлечения, очистки и структурирования, фильтрация путем извлечения определенной информации, визуализация и создание истории . [7] Этот процесс можно расширить для получения результатов, которые отвечают индивидуальным интересам и интересам более широкой общественности.
Тренер и писатель по журналистике данных Пол Брэдшоу описывает процесс журналистики, основанной на данных, схожим образом: данные должны быть найдены , что может потребовать специальных навыков, таких как MySQL или Python , затем исследованы , для чего необходимо понимание жаргона и статистики, и, наконец, визуализированы и перемешаны с помощью инструментов с открытым исходным кодом . [8]
Более ориентированное на результаты определение дает репортер данных и веб-стратег Хенк ван Эсс (2012). [9] «Журналистика, основанная на данных, позволяет репортерам рассказывать нерассказанные истории, находить новые углы или завершать истории с помощью рабочего процесса поиска, обработки и представления значительных объемов данных (в любой заданной форме) с открытыми инструментами или без них». Ван Эсс утверждает, что часть рабочего процесса, основанного на данных, приводит к продуктам, которые «не находятся на орбите с законами хорошего повествования», потому что результат акцентирует внимание на показе проблемы, а не на ее объяснении. «Хорошее производство, основанное на данных, имеет разные слои. Оно позволяет вам находить персонализированные, которые важны только для вас, путем детализации до релевантных, но также позволяет вам уменьшать масштаб, чтобы получить общую картину».
В 2013 году Ван Эсс предложил более короткое определение в [10] , которое не включает визуализацию как таковую: «Журналистика данных может основываться на любых данных, которые необходимо сначала обработать с помощью инструментов, прежде чем станет возможной релевантная история. Она не включает визуализацию как таковую».
Однако одной из проблем определения журналистики данных является то, что многие определения недостаточно ясны и сосредоточены на описании вычислительных методов оптимизации, анализа и визуализации информации. [11]
Термин «журналистика данных» был придуман политическим комментатором Беном Ваттенбергом в его работе, начатой в середине 1960-х годов, где он накладывал повествование на статистику для поддержки теории о том, что Соединенные Штаты вступили в золотой век . [12] [13]
Один из самых ранних примеров использования компьютеров в журналистике относится к попытке CBS в 1952 году использовать мэйнфрейм для прогнозирования результатов президентских выборов, но только в 1967 году использование компьютеров для анализа данных стало более широко применяться. [14]
Работая в то время в Detroit Free Press , Филип Мейер использовал мэйнфрейм для улучшения освещения беспорядков, распространяющихся по всему городу. С новым прецедентом для анализа данных в журналистике Мейер сотрудничал с Дональдом Барлеттом и Джеймсом Стилом , чтобы изучить закономерности с обвинительными приговорами в Филадельфии в 1970-х годах. Позже Мейер написал книгу под названием Precision Journalism , в которой отстаивал использование этих методов для объединения анализа данных в журналистике.
Ближе к концу 1980-х годов начали происходить важные события, которые помогли официально организовать область компьютерной журналистики. Расследовательский репортер Билл Дедман из The Atlanta Journal-Constitution выиграл Пулитцеровскую премию в 1989 году за «Цвет денег», серию историй 1988 года, в которых он использовал методы компьютерной журналистики для анализа расовой дискриминации со стороны банков и других ипотечных кредиторов в чернокожих кварталах со средним уровнем дохода. [15] Национальный институт компьютерной журналистики (NICAR) [16] был создан в Школе журналистики Миссури в сотрудничестве с Investigative Reporters and Editors (IRE). Первая конференция, посвященная CAR, была организована NICAR совместно с Джеймсом Брауном в Университете Индианы и состоялась в 1990 году. С тех пор конференции NICAR проводятся ежегодно и в настоящее время являются крупнейшим собранием журналистов, работающих с данными.
Хотя журналистика данных неформально использовалась специалистами по компьютерной журналистике на протяжении десятилетий, первым зафиксированным случаем ее использования крупной новостной организацией является The Guardian , которая запустила свой Datablog в марте 2009 года. [17] И хотя происхождение термина оспаривается, он широко используется с момента утечки документов Wikileaks об афганской войне в июле 2010 года. [18]
The Guardian освещал военные журналы, используя бесплатные инструменты визуализации данных, такие как Google Fusion Tables , еще один распространенный аспект журналистики данных. Факты священны [19] редактора The Guardian Datablog Саймона Роджерса, который описывает журналистику данных следующим образом:
«Комментарии свободны, — писал редактор Guardian CP Scott в 1921 году, — но факты священны». Девяносто лет спустя публикация этих священных фактов сама по себе стала новым типом журналистики: журналистикой данных. И она быстро становится частью истеблишмента.
Расследовательская журналистика данных объединяет область журналистики данных с расследовательской отчетностью. Примером расследовательской журналистики данных является исследование больших объемов текстовых или финансовых данных. Расследовательская журналистика данных также может относиться к области аналитики больших данных для обработки больших наборов данных. [20]
С момента введения этой концепции ряд медиакомпаний создали «группы данных», которые разрабатывают визуализации для новостных редакций. Наиболее заметными являются группы, например, в Reuters, [21] Pro Publica, [22] и La Nacion (Аргентина). [23] В Европе очень продуктивные группы есть у The Guardian [24] и Berliner Morgenpost [25] , а также у государственных вещателей.
Как показывают такие проекты, как скандал с расходами депутатов (2009 г.) и публикация «офшорных утечек» в 2013 г., журналистика, основанная на данных, может взять на себя роль расследовательской деятельности, время от времени имея дело с «не такими уж открытыми», то есть секретными данными.
Ежегодная премия в области журналистики данных [26] отмечает выдающиеся достижения в области журналистики данных, а многочисленные Пулитцеровские премии в последние годы были присуждены за повествование, основанное на данных, включая Пулитцеровскую премию 2018 года в области международной журналистики [27] и Пулитцеровскую премию 2017 года в области государственной службы [28].
Многие ученые предложили различные таксономии проектов журналистики данных. Меган Найт предложила таксономию, которая основана на уровне интерпретаций и анализа, необходимых для создания проекта журналистики данных. В частности, таксономия включала: краткую цитату, статическую карту, список и временные шкалы, таблицу, графики и диаграммы, динамическую карту, текстовый анализ и инфографику. [29]
Саймон Роджерс предложил пять типов проектов в области журналистики данных: только факты, новостные истории на основе данных, истории, рассказывающие локальные данные, анализ и предыстория, а также глубокое расследование. [30] Марта Канг обсудила семь типов историй, а именно: повествование об изменениях с течением времени, начало с большого и детализация, начало с малого и уменьшение масштаба, выделение контрастов, исследование пересечений, анализ факторов и профилирование выбросов. [31]
Веглис и Братсас предложили другую таксономию, основанную на методе представления информации аудитории. Их таксономия имела иерархическую структуру и включала следующие типы: статьи журналистики данных только с числами, с таблицами и с визуализациями (интерактивными и неинтерактивными). Также в случае историй с интерактивными визуализациями они предложили 3 различных типа, а именно трансмиссионные, консультационные и разговорные. [32]
Во многих расследованиях данные, которые можно найти, могут иметь пропуски или вводить в заблуждение. Как один из слоев журналистики, основанной на данных, критический анализ качества данных важен. В других случаях данные могут быть непубличными или не иметь нужного формата для дальнейшего анализа, например, доступны только в формате PDF . Здесь процесс журналистики, основанной на данных, может превратиться в истории о качестве данных или отказах учреждений предоставлять данные. Поскольку практика в целом находится на ранних этапах развития, анализ источников данных, наборов данных, качества данных и формата данных, следовательно, является не менее важной частью этой работы.
На основе перспективы более глубокого изучения фактов и движущих сил событий предлагается изменить стратегии СМИ: с этой точки зрения идея заключается в переходе «от внимания к доверию». Создание внимания, которое было опорой моделей медиабизнеса, утратило свою актуальность, поскольку сообщения о новых событиях часто быстрее распространяются через новые платформы, такие как Twitter, чем через традиционные медиаканалы. С другой стороны, доверие можно понимать как дефицитный ресурс. Хотя распространение информации намного проще и быстрее через Интернет, обилие предложений создает затраты на проверку и проверку содержания любой истории, создавая возможность. Взгляд на превращение медиакомпаний в надежные центры данных был описан в статье, перекрестно опубликованной в феврале 2011 года на Owni.eu [33] и Nieman Lab. [34]
Процесс преобразования сырых данных в истории сродни уточнению и трансформации. Основная цель — извлечь информацию, с которой получатели могут действовать. Задача журналиста данных — извлечь то, что скрыто. Этот подход можно применять практически к любому контексту, например, к финансам, здравоохранению, окружающей среде или другим сферам общественного интереса.
В 2011 году Пол Брэдшоу представил модель, которую он назвал «Перевернутая пирамида журналистики данных».
Чтобы достичь этого, процесс должен быть разделен на несколько этапов. Хотя этапы, ведущие к результатам, могут различаться, основное различие можно провести, рассмотрев шесть фаз:
Данные можно получить напрямую из правительственных баз данных, таких как data.gov , data.gov.uk и World Bank Data API [35], а также путем размещения запросов о свободе информации в правительственных учреждениях; некоторые запросы делаются и агрегируются на таких веб-сайтах, как британский What Do They Know. Хотя во всем мире наблюдается тенденция к открытию данных, существуют национальные различия в том, в какой степени эта информация находится в свободном доступе в удобных для использования форматах. Если данные находятся на веб-странице, для создания электронной таблицы используются скреперы. Примерами скреперов являются: WebScraper, Import.io, QuickCode , OutWit Hub и Needlebase (вышел из обращения в 2012 году [36] ). В других случаях для получения данных из PDF-файлов можно использовать программное обеспечение OCR.
Данные также могут быть созданы общественностью посредством краудсорсинга, как это было показано в марте 2012 года на конференции по журналистике данных в Гамбурге Хенком ван Эссом. [37]
Обычно данные не находятся в формате, который легко визуализировать. Примерами являются слишком много точек данных или необходимость сортировки строк и столбцов по-разному. Другая проблема заключается в том, что после исследования многие наборы данных необходимо очищать, структурировать и преобразовывать. Различные инструменты, такие как OpenRefine ( с открытым исходным кодом ), Data Wrangler и Google Spreadsheets [38], позволяют загружать, извлекать или форматировать данные.
Для визуализации данных в виде графиков и диаграмм доступны такие приложения, как Many Eyes или Tableau Public . Yahoo! Pipes и Open Heat Map [39] являются примерами инструментов, которые позволяют создавать карты на основе электронных таблиц данных. Количество опций и платформ расширяется. Некоторые новые предложения предоставляют опции для поиска, отображения и встраивания данных, например Timetric. [40]
Для создания осмысленных и релевантных визуализаций журналисты используют все большее количество инструментов. На данный момент существует несколько описаний того, что искать и как это делать. Наиболее заметные опубликованные статьи:
Начиная с 2011 года, использование библиотек HTML 5 с использованием тега canvas набирает популярность. Существует множество библиотек, позволяющих графически отображать данные в растущем разнообразии форм. Одним из примеров является RGraph . [43] Начиная с 2011 года растет список библиотек JavaScript, позволяющих визуализировать данные. [44]
Существуют различные варианты публикации данных и визуализаций. Базовый подход заключается в прикреплении данных к отдельным историям, аналогично встраиванию веб-видео. Более продвинутые концепции позволяют создавать отдельные досье, например, для отображения ряда визуализаций, статей и ссылок на данные на одной странице. Часто такие специальные сообщения приходится кодировать индивидуально, поскольку многие системы управления контентом предназначены для отображения отдельных сообщений на основе даты публикации.
Предоставление доступа к существующим данным — это еще один этап, который приобретает все большее значение. Подумайте о сайтах как о «рынках» (коммерческих или нет), где наборы данных могут быть легко найдены другими. Особенно в отношении идей для статьи, полученных из открытых данных, журналисты должны предоставить ссылку на данные, которые они использовали, чтобы другие могли их расследовать (потенциально начав еще один цикл опроса, ведущий к новым идеям).
Предоставление доступа к данным и предоставление группам возможности обсуждать, какую информацию можно извлечь, является основной идеей Buzzdata [45] , сайта, использующего концепции социальных сетей, такие как обмен и подписка, для создания сообщества для исследования данных.
Другие платформы (которые могут использоваться как для сбора, так и для распространения данных):
Заключительным этапом процесса является измерение частоты просмотра набора данных или визуализации.
В контексте журналистики, основанной на данных, масштаб такого отслеживания, например, сбор пользовательских данных или любой другой информации, которая может быть использована в маркетинговых целях или других целях, не зависящих от пользователя, следует рассматривать как проблематичную. [ по мнению кого? ] Одним из новых, ненавязчивых вариантов измерения использования является легкий трекер PixelPing. Трекер является результатом проекта ProPublica и DocumentCloud . [49] Существует соответствующий сервис для сбора данных. Программное обеспечение имеет открытый исходный код и может быть загружено через GitHub. [50]
Существует растущий список примеров того, как можно применять журналистику, основанную на данных. The Guardian , одна из пионеров медиа-компаний в этой области (см. «Журналистика данных в The Guardian: что это такое и как мы это делаем?» [51] ), составила обширный список историй о данных, см.: «Вся наша журналистика данных в одной таблице». [52]
Другие известные примеры использования журналистики, основанной на данных, связаны с публикацией организацией-разоблачителем WikiLeaks « Дневника афганской войны » — сборника из 91 000 секретных военных отчетов, охватывающих войну в Афганистане с 2004 по 2010 год. [53] Три международных издания, а именно The Guardian , The New York Times и Der Spiegel , посвятили обширные разделы [54] [55] [56] этим документам; репортаж The Guardian включал интерактивную карту, указывающую тип, местоположение и жертвы, вызванные 16 000 атаками с применением СВУ , [57] The New York Times опубликовала подборку отчетов, позволяющую навести курсор на подчеркнутый текст, чтобы увидеть объяснения военных терминов, [58] в то время как Der Spiegel предоставила гибридные визуализации (содержащие как графики, так и карты) по таким темам, как количество смертей, связанных с бомбовыми атаками повстанцев. [59] Для публикации журналов войны в Ираке The Guardian использовала Google Fusion Tables для создания интерактивной карты каждого инцидента, в котором кто-то погиб, [60] метод, который она снова использовала во время беспорядков в Англии в 2011 году. [61]
{{cite web}}
: |first=
имеет общее название ( помощь )