Анализ контента — это изучение документов и артефактов коммуникации, которые могут быть текстами различных форматов, изображениями, аудио или видео. Социологи используют анализ контента для изучения закономерностей в коммуникации воспроизводимым и систематическим образом. [1] Одним из ключевых преимуществ использования анализа контента для анализа социальных явлений является его неинвазивный характер, в отличие от моделирования социального опыта или сбора ответов на опросы.
Практики и философия контент-анализа различаются в зависимости от академических дисциплин. Все они включают систематическое чтение или наблюдение за текстами или артефактами, которым присваиваются метки (иногда называемые кодами) , указывающие на наличие интересных, значимых фрагментов контента. [2] [3] Систематически маркируя контент набора текстов , исследователи могут количественно анализировать закономерности контента , используя статистические методы , или использовать качественные методы для анализа значений контента в текстах .
Компьютеры все чаще используются в контент-анализе для автоматизации маркировки (или кодирования) документов. Простые вычислительные методы могут предоставить описательные данные, такие как частоты слов и длина документов. Классификаторы машинного обучения могут значительно увеличить количество текстов, которые могут быть маркированы, но научная полезность этого является предметом споров. Кроме того, доступны многочисленные компьютерные программы компьютерного анализа текста (CATA), которые анализируют текст на предмет предопределенных лингвистических, семантических и психологических характеристик. [4]
Контент-анализ лучше всего понимать как широкое семейство методов. Эффективные исследователи выбирают методы, которые лучше всего помогают им отвечать на их существенные вопросы. Тем не менее, по словам Клауса Криппендорфа , в каждом контент-анализе необходимо рассмотреть шесть вопросов: [5]
Самая простая и объективная форма анализа контента рассматривает недвусмысленные характеристики текста, такие как частоты слов , площадь страницы, занимаемая газетной колонкой, или продолжительность радио- или телевизионной программы. Анализ простых частот слов ограничен, поскольку значение слова зависит от окружающего текста. Процедуры Key Word In Context (KWIC) решают эту проблему, помещая слова в их текстовый контекст. Это помогает разрешить неоднозначности, например, те, которые вносятся синонимами и омонимами .
Дальнейшим шагом в анализе является различие между подходами на основе словаря (количественными) и качественными подходами. Подходы на основе словаря создают список категорий, полученных из списка частотности слов, и контролируют распределение слов и их соответствующих категорий по текстам. В то время как методы количественного контент-анализа таким образом преобразуют наблюдения найденных категорий в количественные статистические данные, качественный контент-анализ больше фокусируется на преднамеренности и ее последствиях. Существуют сильные параллели между качественным контент-анализом и тематическим анализом . [6]
Количественный контент-анализ выделяет подсчеты частот и статистический анализ этих кодированных частот. [7] Кроме того, количественный контент-анализ начинается с сформулированной гипотезы с кодированием, определенным до начала анализа. Эти категории кодирования строго соответствуют гипотезе исследователя. Количественный анализ также использует дедуктивный подход. [8] Примеры контент-аналитических переменных и конструкций можно найти, например, в базе данных открытого доступа DOCA. Эта база данных компилирует, систематизирует и оценивает соответствующие контент-аналитические переменные областей и тем исследований в области коммуникации и политологии.
Зигфрид Кракауэр критикует количественный анализ, утверждая, что он упрощает сложные коммуникации, чтобы быть более надежным. С другой стороны, качественный анализ имеет дело с тонкостями скрытых интерпретаций, тогда как количественный фокусируется на явных значениях. Он также признает «перекрытие» качественного и количественного контент-анализа. [7] В качественном анализе шаблоны рассматриваются более подробно, и на основе скрытых значений, которые может найти исследователь, ход исследования может быть изменен. Он индуктивный и начинается с открытых исследовательских вопросов, а не с гипотезы. [8]
Инструментом сбора данных, используемым в контент-анализе, является кодовая книга или схема кодирования. В качественном контент-анализе кодовая книга создается и улучшается во время кодирования, в то время как в количественном контент-анализе кодовая книга должна быть разработана и предварительно протестирована на надежность и валидность перед кодированием. [4] Кодовая книга включает в себя подробные инструкции для кодировщиков-людей, а также четкие определения соответствующих концепций или переменных, которые должны быть закодированы, а также присвоенные значения.
Согласно действующим стандартам надлежащей научной практики, каждое исследование контент-анализа должно предоставлять свою кодовую книгу в приложении или в качестве дополнительного материала, чтобы обеспечить воспроизводимость исследования. На сервере Open Science Framework (OSF) Центра открытой науки множество кодовых книг исследований контент-анализа свободно доступны через поиск по запросу «codebook».
Кроме того, База данных переменных для анализа контента (DOCA) предоставляет архив с открытым доступом предварительно протестированных переменных и установленных кодовых книг для анализа контента. [9] Меры из архива могут быть приняты в будущих исследованиях для обеспечения использования высококачественных и сопоставимых инструментов. DOCA охватывает, среди прочего, меры для анализа контента вымышленных медиа и развлечений (например, меры сексуализации в видеоиграх [10] ), пользовательского медиаконтента (например, меры онлайн-языка ненависти [11] ), а также новостных СМИ и журналистики (например, меры использования стоковых фотографий в сообщениях прессы о сексуальном насилии над детьми [12] и меры персонализации в освещении предвыборной кампании [13] ).
С развитием таких распространенных вычислительных средств, как ПК, растет популярность компьютерных методов анализа. [14] [15] [16] Ответы на открытые вопросы, газетные статьи, манифесты политических партий, медицинские записи или систематические наблюдения в экспериментах могут быть предметом систематического анализа текстовых данных.
Благодаря тому, что содержание коммуникации доступно в форме машиночитаемых текстов, входные данные анализируются на предмет частотности и кодируются в категории для построения выводов.
Компьютерный анализ может помочь с большими электронными наборами данных, сокращая время и устраняя необходимость в нескольких людях-кодировщиках для установления межкодовой надежности. Тем не менее, люди-кодировщики все еще могут быть использованы для анализа контента, поскольку они часто более способны выделять нюансы и скрытые значения в тексте. Исследование показало, что люди-кодировщики способны оценивать более широкий диапазон и делать выводы на основе скрытых значений. [17]
Роберт Вебер отмечает: «Чтобы сделать обоснованные выводы из текста, важно, чтобы процедура классификации была надежной в смысле последовательности: разные люди должны кодировать один и тот же текст одинаково». [18] Достоверность, межкодирующая надежность и внутрикодирующая надежность являются предметом интенсивных методологических исследований в течение долгих лет. [5] Нойендорф предполагает, что при использовании человеческих кодировщиков в контент-анализе следует использовать по крайней мере двух независимых кодировщиков. Надежность человеческого кодирования часто измеряется с помощью статистической меры межкодирующей надежности или «объема согласия или соответствия между двумя или более кодировщиками». [4] Лейси и Рифф определяют измерение межкодирующей надежности как сильную сторону количественного контент-анализа, утверждая, что, если контент-аналитики не измеряют межкодирующую надежность, их данные не более надежны, чем субъективные впечатления одного читателя. [19]
Согласно сегодняшним стандартам отчетности, количественные контент-анализы должны публиковаться с полными кодовыми книгами, и для всех переменных или мер в кодовой книге должны сообщаться соответствующие коэффициенты межкодировочной или межоценочной надежности на основе эмпирических предварительных тестов. [4] [20] [21] Кроме того, должна быть обеспечена валидность всех переменных или мер в кодовой книге. Этого можно достичь с помощью установленных мер, которые доказали свою валидность в более ранних исследованиях. Кроме того, валидность содержания мер может быть проверена экспертами из области, которые тщательно изучают, а затем одобряют или корректируют инструкции по кодированию, определения и примеры в кодовой книге.
В контент-анализе выделяют пять типов текстов:
Контент-анализ — это исследование, использующее категоризацию и классификацию речи, письменного текста, интервью, изображений или других форм коммуникации. В самом начале, с использованием первых газет в конце 19 века, анализ проводился вручную путем измерения количества колонок, посвященных теме. Этот подход также можно проследить до студента университета, изучавшего закономерности в литературе Шекспира в 1893 году. [22]
На протяжении многих лет контент-анализ применялся в различных областях. Герменевтика и филология давно используют контент-анализ для интерпретации священных и мирских текстов и, во многих случаях, для определения авторства и подлинности текстов . [3] [5]
В последнее время, особенно с появлением массовой коммуникации , контент-анализ стал все чаще использоваться для глубокого анализа и понимания медиа-контента и медиа-логики. Политолог Гарольд Лассуэлл сформулировал основные вопросы контент-анализа в его общепринятой версии начала-середины 20-го века: «Кто что говорит, кому, почему, в какой степени и с каким эффектом?». [23] Сильный акцент на количественном подходе, начатый Лассуэллом, был в конечном итоге осуществлен другим «отцом» контент-анализа, Бернардом Берельсоном , который предложил определение контент-анализа, которое с этой точки зрения является символичным: «метод исследования для объективного, систематического и количественного описания явного содержания коммуникации». [24]
Количественный контент-анализ вновь обрел популярность в последние годы благодаря технологическим достижениям и плодотворному применению в исследованиях массовой коммуникации и личной коммуникации. Контент-анализ текстовых больших данных , созданных новыми медиа , в частности социальными сетями и мобильными устройствами, стал популярным. Эти подходы используют упрощенный взгляд на язык, который игнорирует сложность семиозиса , процесса, посредством которого смысл формируется из языка. Количественные контент-аналитики подвергались критике за ограничение сферы контент-анализа простым подсчетом и за применение методологий измерения естественных наук без критического размышления об их уместности в социальных науках. [25] И наоборот, качественные контент-аналитики подвергались критике за недостаточную систематичность и излишнюю импрессионистичность. [25] Криппендорф утверждает, что количественные и качественные подходы к контент-анализу, как правило, пересекаются, и что не может быть обобщенного вывода о том, какой подход лучше. [25]
Анализ контента можно также описать как изучение следов , которые являются документами прошлых времен, и артефактов, которые являются нелингвистическими документами. Тексты понимаются как созданные процессами коммуникации в широком смысле этой фразы — часто приобретая значение через похищение . [3] [26]
Явное содержание легко понять по его номинальной стоимости. Его значение прямое. Скрытое содержание не столь явно и требует интерпретации, чтобы раскрыть значение или подтекст. [27]
Холсти группирует пятнадцать вариантов использования контент-анализа в три основные категории : [28]
Он также помещает эти варианты использования в контекст базовой парадигмы коммуникации .
В следующей таблице показаны пятнадцать вариантов использования контент-анализа с точки зрения их общей цели, элемента парадигмы коммуникации, к которому они применяются, и общего вопроса, на который они призваны ответить.
В качестве контрапункта, существуют ограничения на область использования процедур, которые характеризуют контент-анализ. В частности, если доступ к цели анализа может быть получен прямыми средствами без материального вмешательства, то методы прямого измерения дают лучшие данные. [30] Таким образом, в то время как контент-анализ пытается количественно описать сообщения , характеристики которых в первую очередь категориальны — обычно ограничены номинальной или порядковой шкалой — через выбранные концептуальные единицы ( единица ), которым присваиваются значения ( категория ) для перечисления при мониторинге межкодовой надежности , если вместо этого целевая величина явно уже напрямую измерима — обычно по шкале интервалов или отношений — особенно непрерывная физическая величина, то такие цели обычно не включаются в число тех, которые нуждаются в «субъективных» выборах и формулировках контент-анализа. [31] [32] [33] [34] [35] [36] [20] [37] Например (из смешанных исследований и клинического применения), поскольку медицинские изображения сообщают диагностические признаки врачам, шкала объема инсульта ( инфаркта) нейровизуализации , называемая ASPECTS, унифицирована как 10 качественно очерченных (неравных) областей мозга в зоне средней мозговой артерии , которые она классифицирует как по крайней мере частично или совсем неинфарктные, чтобы перечислить последние, при этом опубликованные серии часто оценивают надежность интеркодера с помощью каппы Коэна . Вышеуказанные курсивом операции накладывают некредитованную форму анализа содержимого на оценку степени инфаркта, которая вместо этого достаточно легко и более точно измеряется как объем непосредственно на изображениях. [38] [39] («Точность... является высшей формой надежности». [40] ) Однако сопутствующая клиническая оценка по шкале инсульта Национального института здравоохранения (NIHSS) или модифицированной шкале Рэнкина (mRS) сохраняет необходимую форму контент-анализа. Признавая потенциальные ограничения контент-анализа как в отношении содержания языка, так и изображений, Клаус Криппендорф утверждает, что «понимание... может... вообще не соответствовать процессу классификации и/или подсчета, с помощью которого осуществляется большинство контент-анализов», [41] предполагая, что контент-анализ может существенно исказить сообщение.
Процесс начальной схемы кодирования или подхода к кодированию зависит от выбранного подхода к контент-анализу. С помощью направленного контент-анализа ученые разрабатывают предварительную схему кодирования на основе уже существующей теории или предположений. В то время как при традиционном подходе к контент-анализу начальная схема кодирования разрабатывается на основе данных.
С любым из подходов выше исследователи могут погрузиться в данные, чтобы получить общую картину. Последовательная и ясная единица кодирования имеет жизненно важное значение, с выбором от одного слова до нескольких абзацев и от текстов до иконических символов. Наконец, исследователи выстраивают отношения между кодами, сортируя их по определенным категориям или темам. [42]