Контент-анализ — это исследование документов и коммуникативных артефактов, которыми могут быть тексты различных форматов, изображения, аудио или видео. Социологи используют контент-анализ для изучения моделей общения воспроизводимым и систематическим образом. [1] Одним из ключевых преимуществ использования контент-анализа для анализа социальных явлений является его неинвазивный характер, в отличие от моделирования социального опыта или сбора ответов на опросы.
Практика и философия контент-анализа различаются в зависимости от академических дисциплин. Все они предполагают систематическое чтение или наблюдение за текстами или артефактами, которым присвоены метки (иногда называемые кодами) , указывающие на наличие интересных, значимых фрагментов контента. [2] [3] Систематически маркируя содержание набора текстов , исследователи могут анализировать закономерности содержания количественно, используя статистические методы , или использовать качественные методы для анализа значений содержания в текстах .
Компьютеры все чаще используются в контент-анализе для автоматизации маркировки (или кодирования) документов. Простые вычислительные методы могут предоставить описательные данные, такие как частота слов и длина документа. Классификаторы машинного обучения могут значительно увеличить количество текстов, которые можно пометить, но научная полезность этого является предметом споров. Кроме того, доступны многочисленные компьютерные программы компьютерного анализа текста (CATA), которые анализируют текст на предмет заранее определенных лингвистических, семантических и психологических характеристик. [4]
Контент-анализ лучше всего понимать как широкое семейство методов. Эффективные исследователи выбирают методы, которые лучше всего помогают им ответить на их содержательные вопросы. Тем не менее, по мнению Клауса Криппендорфа , в каждом контент-анализе необходимо ответить на шесть вопросов: [5]
Самая простая и объективная форма контент-анализа учитывает однозначные характеристики текста, такие как частота слов , площадь страницы, занимаемая газетной колонкой, или продолжительность радио- или телепрограммы . Анализ частотности простых слов ограничен, поскольку значение слова зависит от окружающего текста. Подпрограммы «Ключевое слово в контексте» (KWIC) решают эту проблему, помещая слова в их текстовый контекст. Это помогает устранить двусмысленности, возникающие, например, из-за синонимов и омонимов .
Следующим шагом в анализе является различие между словарными (количественными) подходами и качественными подходами. Подходы, основанные на словарях, создают список категорий, полученный из списка частотности слов, и контролируют распределение слов и их соответствующих категорий в текстах. В то время как методы количественного контент-анализа таким образом преобразуют наблюдения за найденными категориями в количественные статистические данные, качественный контент-анализ больше фокусируется на интенциональности и ее последствиях. Существуют сильные параллели между качественным контент-анализом и тематическим анализом . [6]
Количественный контент-анализ выделяет подсчет частот и статистический анализ этих закодированных частот. [7] Кроме того, количественный контент-анализ начинается с формулировки гипотезы, а кодирование принимается до начала анализа. Эти категории кодирования строго соответствуют гипотезе исследователя. Количественный анализ также использует дедуктивный подход. [8] Примеры контентно-аналитических переменных и конструкций можно найти, например, в базе данных открытого доступа DOCA. Эта база данных собирает, систематизирует и оценивает соответствующие контент-аналитические переменные областей и тем исследований в области коммуникации и политологии.
Зигфрид Кракауэр критикует количественный анализ, утверждая, что он чрезмерно упрощает сложные коммуникации, чтобы быть более надежными. С другой стороны, качественный анализ имеет дело с тонкостями скрытых интерпретаций, тогда как количественный фокусируется на явных значениях. Он также признает «совпадение» качественного и количественного контент-анализа. [7] При качественном анализе закономерности рассматриваются более внимательно, и на основе скрытых значений, которые может обнаружить исследователь, ход исследования может быть изменен. Он носит индуктивный характер и начинается с открытых исследовательских вопросов, а не с гипотезы. [8]
Инструментом сбора данных, используемым при контент-анализе, является кодовая книга или схема кодирования. При качественном контент-анализе кодовая книга создается и совершенствуется во время кодирования, тогда как при количественном контент-анализе кодовая книга должна быть разработана и предварительно проверена на надежность и достоверность перед кодированием. [4] Кодовая книга включает подробные инструкции для кодировщиков, а также четкие определения соответствующих понятий или переменных, подлежащих кодированию, а также присвоенные значения.
В соответствии с действующими стандартами надлежащей научной практики каждое исследование контент-анализа должно предоставлять свою кодовую книгу в приложении или в качестве дополнительного материала, чтобы обеспечить воспроизводимость исследования. На сервере Open Science Framework (OSF) Центра открытой науки множество кодовых книг исследований контент-анализа находятся в свободном доступе через поиск по запросу «кодовая книга».
Более того, База данных переменных для контент-анализа (DOCA) предоставляет открытый доступ к архиву предварительно протестированных переменных и установленным кодовым книгам для контент-анализа. [9] Меры из архива могут быть использованы в будущих исследованиях для обеспечения использования высококачественных и сопоставимых инструментов. DOCA охватывает, среди прочего, меры по контент-анализу вымышленных средств массовой информации и развлечений (например, меры по сексуализации в видеоиграх [10] ), пользовательского медиа-контента (например, меры по борьбе с разжиганием ненависти в Интернете [11] ) и средств массовой информации и журналистики (например, меры по использованию стоковых фотографий в репортажах прессы о сексуальном насилии над детьми [12] и меры персонализации при освещении избирательных кампаний [13] ).
С появлением обычных вычислительных средств, таких как ПК, популярность компьютерных методов анализа растет. [14] [15] [16] Ответы на открытые вопросы, газетные статьи, манифесты политических партий, медицинские записи или систематические наблюдения в экспериментах — все это может быть подвергнуто систематическому анализу текстовых данных.
Имея содержание общения в виде машиночитаемых текстов, входные данные анализируются на предмет частот и кодируются по категориям для построения выводов.
Компьютерный анализ может помочь в работе с большими наборами электронных данных, сокращая время и устраняя необходимость в привлечении нескольких человек-кодировщиков для установления надежности между кодировщиками. Тем не менее, для анализа контента по-прежнему можно использовать программистов-людей, поскольку они зачастую более способны распознавать в тексте нюансы и скрытые смыслы. Исследование показало, что программисты-люди способны оценивать более широкий диапазон и делать выводы на основе скрытых значений. [17]
Роберт Вебер отмечает: «Чтобы сделать правильные выводы из текста, важно, чтобы процедура классификации была надежной в смысле последовательности: разные люди должны кодировать один и тот же текст одинаковым образом». [18] Валидность, надежность между кодировщиками и надежность внутри кодеров являются предметом интенсивных методологических исследований на протяжении многих лет. [5] Нойендорф предполагает, что при использовании кодировщиков-людей в контент-анализе следует использовать как минимум двух независимых кодировщиков. Надежность человеческого кодирования часто измеряется с использованием статистической меры надежности между кодировщиками или «степени согласия или соответствия между двумя или более кодировщиками». [4] Лейси и Рифф определяют измерение надежности интеркодеров как сильную сторону количественного контент-анализа, утверждая, что, если контент-аналитики не измеряют надежность интеркодеров, их данные не более надежны, чем субъективные впечатления одного читателя. . [19]
Согласно сегодняшним стандартам отчетности, количественный контент-анализ должен публиковаться вместе с полными кодовыми книгами, а для всех переменных или показателей в кодовой книге должны сообщаться соответствующие коэффициенты надежности между кодировщиками или между экспертами на основе предварительных эмпирических испытаний. [4] [20] [21] Кроме того, должна быть обеспечена достоверность всех переменных или мер в кодовой книге. Этого можно достичь за счет использования установленных мер, которые доказали свою эффективность в более ранних исследованиях. Кроме того, достоверность содержания мер может быть проверена экспертами в данной области, которые изучают, а затем утверждают или исправляют инструкции, определения и примеры кодирования в кодовой книге.
В контент-анализе выделяют пять типов текстов:
Контент-анализ — это исследование с использованием категоризации и классификации речи, письменного текста, интервью, изображений или других форм общения. Вначале, когда в конце XIX века появились первые газеты, анализ проводился вручную путем измерения количества колонок по определенной теме. Этот подход также можно проследить, когда студент университета изучал закономерности в литературе Шекспира в 1893 году. [22]
На протяжении многих лет контент-анализ применялся в самых разных областях. Герменевтика и филология уже давно используют контент-анализ для интерпретации священных и светских текстов и, во многих случаях, для определения авторства и аутентичности текстов . [3] [5]
В последнее время, особенно с появлением средств массовой коммуникации , контент-анализ нашел все более широкое применение для глубокого анализа и понимания медиа-контента и медиа-логики. Политолог Гарольд Лассвелл сформулировал основные вопросы контент-анализа в его основной версии начала-середины 20-го века: «Кто что говорит, кому, почему, в какой степени и с каким эффектом?». [23] Сильный упор на количественный подход, начатый Лассвеллом, был наконец осуществлен другим «отцом» контент-анализа, Бернардом Берельсоном , который предложил определение контент-анализа, которое с этой точки зрения является символичным: методика исследования для объективного, систематического и количественного описания явного содержания общения». [24]
Количественный контент-анализ приобрел новую популярность в последние годы благодаря технологическим достижениям и плодотворному применению в исследованиях в области массовой коммуникации и личной коммуникации. Контент-анализ текстовых больших данных, создаваемых новыми медиа , особенно социальными сетями и мобильными устройствами, стал популярным. Эти подходы используют упрощенный взгляд на язык, игнорирующий сложность семиозиса — процесса, посредством которого значение формируется из языка. Количественных контент-аналитиков критиковали за ограничение объема контент-анализа простым подсчетом и за применение методологий измерения естественных наук без критического размышления об их пригодности для социальных наук. [25] И наоборот, качественные контент-аналитики подвергались критике за недостаточную систематичность и слишком импрессионистический подход. [25] Криппендорф утверждает, что количественные и качественные подходы к контент-анализу имеют тенденцию перекрываться и что не может быть общего вывода о том, какой подход лучше. [25]
Контент-анализ также можно охарактеризовать как изучение следов , представляющих собой документы прошлых времен, и артефактов, представляющих собой неязыковые документы. Под текстами понимаются процессы коммуникации в широком смысле этого слова, часто приобретающие значение посредством похищения . [3] [26]
Содержание манифеста легко понять по своей номинальной стоимости. Смысл его прямой. Скрытое содержание не столь явно и требует интерпретации, чтобы раскрыть смысл или подтекст. [27]
Холсти группирует пятнадцать применений контент-анализа на три основные категории : [28]
Он также помещает эти способы использования в контекст базовой коммуникационной парадигмы .
В следующей таблице показаны пятнадцать вариантов использования контент-анализа с точки зрения их общей цели, элемента коммуникационной парадигмы, к которой они применяются, и общего вопроса, на который они призваны ответить.
В качестве противовеса существуют ограничения на сферу использования процедур, характеризующих контент-анализ. В частности, если доступ к цели анализа может быть получен прямым путем без материального вмешательства, то методы прямого измерения дают более качественные данные. [30] Таким образом, в то время как контент-анализ пытается количественно описать коммуникации , характеристики которых в первую очередь категориальны — обычно ограничиваются номинальной или порядковой шкалой — через выбранные концептуальные единицы (унификация ) , которым присваиваются значения ( категоризация ) для перечисления при мониторинге. надежность интеркодера , если вместо этого целевая величина явно уже непосредственно измерима — обычно в интервальной шкале или шкале отношений — особенно непрерывная физическая величина, то такие цели обычно не включаются в число тех, которые требуют «субъективного» выбора и формулировок контент-анализа. . [31] [32] [33] [34] [35] [36] [20] [ 37] Например (из смешанных исследований и клинического применения), поскольку медицинские изображения передают врачам диагностические особенности, нейровизуализация инсульта (инфаркта) ) шкала объема, называемая АСПЕКТЫ, объединяет 10 качественно очерченных (неравных) областей мозга на территории средней мозговой артерии , которые она классифицирует как подвергшиеся хотя бы частично или вообще не пораженные инфарктом, чтобы перечислить последние, при этом в опубликованных сериях часто оценивается надежность интеркодера. по каппе Коэна . Вышеупомянутые операции, выделенные курсивом , накладывают неуказанную форму контент-анализа на оценку степени инфаркта, которую вместо этого достаточно легко и более точно измерить как объем непосредственно на изображениях. [38] [39] («Точность... является высшей формой надежности». [40] ) Однако сопутствующая клиническая оценка по шкале инсульта Национального института здоровья (NIHSS) или модифицированной шкале Рэнкина (mRS) , сохраняет необходимую форму контент-анализа. Признавая потенциальные ограничения контент-анализа как в отношении языкового содержания, так и изображений, Клаус Криппендорф утверждает, что «понимание [понимание]... может... вообще не соответствовать процессу классификации и/или подсчета, с помощью которого проводится большинство контент-анализов. », [41] предполагая, что контент-анализ может существенно исказить сообщение.
Процесс первоначальной схемы кодирования или подход к кодированию зависит от конкретного выбранного подхода к анализу контента. Посредством направленного контент-анализа ученые разрабатывают предварительную схему кодирования на основе ранее существовавшей теории или предположений. В то время как при традиционном подходе к контент-анализу первоначальная схема кодирования разрабатывалась на основе данных.
При любом из описанных выше подходов исследователям рекомендуется погрузиться в данные для получения общей картины. Кроме того, жизненно важно определить последовательную и четкую единицу кодирования, и выбор исследователей варьируется от одного слова до нескольких абзацев, от текстов до знаковых символов. Наконец, построение связей между кодами путем их сортировки по конкретным категориям или темам. [42]