Профилирование автора — это анализ заданного набора текстов в попытке раскрыть различные характеристики автора на основе стилистических и содержательных особенностей или идентифицировать автора. Анализируемые характеристики обычно включают возраст и пол , хотя более поздние исследования рассматривали и другие характеристики, такие как черты личности и род занятий [1]
Профилирование авторов является одним из трех основных направлений в автоматической идентификации авторства (AAI), два других — это атрибуция авторства и идентификация авторства. Процесс AAI возник в конце 19-го века. Томас Корвин Менденхолл , американский физик- самоучка и метеоролог , был первым, кто применил этот процесс к работам Фрэнсиса Бэкона , Уильяма Шекспира и Кристофера Марло . У этих трех исторических личностей Менденхолл стремился раскрыть их количественные стилистические различия, проверяя длину слов. [2]
Несмотря на значительный прогресс, достигнутый в XXI веке, задача профилирования авторов остается нерешенной из-за ее сложности.
С помощью анализа текстов можно применять различные методы профилирования автора для прогнозирования информации об авторе. Например, служебные слова, а также анализ частей речи могут быть использованы для определения пола автора и истинности текста. [3]
Процесс профилирования автора обычно включает следующие этапы: [4]
Алгоритмы машинного обучения для профилирования авторов со временем стали все более сложными. Алгоритмы, используемые в профилировании авторов, включают:
В прошлом профилирование авторов ограничивалось физическими документами, часто в форме книг и газетных статей . Различные комбинации текстовых атрибутов, принадлежащих авторам, были идентифицированы и проанализированы с помощью профилирования авторов, включая лексические и синтаксические особенности. [4] Новаторские исследования в области профилирования авторов были сосредоточены в основном на одном жанре до перехода к профилированию авторов в социальных сетях и Интернете. [9] Хотя атрибуты, такие как слова контента и теги POS , эффективны в прогнозировании профиля автора для физических документов, их эффективность в прогнозировании профиля автора для цифровых текстов субъективна и зависит от типа анализируемого онлайн-контента. [4]
С развитием технологий профилирование авторов в Интернете становится все более распространенным. В настоящее время используются цифровые тексты, такие как сообщения в социальных сетях, сообщения в блогах и электронные письма . [4] Это вызвало более активные исследовательские усилия из-за преимуществ, которые анализ цифровых текстов может принести таким секторам, как маркетинг и бизнес. [8] Профилирование авторов в цифровых текстах также позволило прогнозировать более широкий спектр характеристик авторов, таких как личность, [8] доход и род занятий. [10]
Наиболее эффективные атрибуты для профилирования авторов в цифровых текстах включают в себя комбинацию стилистических и содержательных характеристик. [4] Профилирование авторов в цифровых текстах фокусируется на кросс-жанровом профилировании авторов, при котором один жанр используется для обучающих данных, а другой жанр используется для тестовых данных, хотя оба жанра должны быть относительно схожи для получения хороших результатов. [9]
Существуют некоторые проблемы [4] при выполнении методов профилирования авторов в онлайн-текстах. Эти проблемы включают:
Рост популярности Интернета в 20-21 веках послужил катализатором роста исследований по профилированию авторов, поскольку данные можно было извлекать из Интернета, включая платформы социальных сетей, электронные письма и блоги. Контент из Интернета анализировался в задачах профилирования авторов для определения возраста, пола, географического происхождения, национальности и психометрических черт веб-пользователей. Полученная информация использовалась для различных приложений, включая маркетинг и криминалистику .
Возросшая интеграция социальных сетей в повседневную жизнь людей сделала их богатым источником текстовых данных для профилирования авторов. Это в основном связано с тем, что пользователи часто загружают и делятся контентом для различных целей, включая самовыражение, социализацию и личный бизнес. Социальный бот также является частой функцией платформ социальных сетей, особенно Twitter, генерируя контент, который может быть проанализирован для профилирования авторов. [11] Хотя разные платформы содержат схожие данные, они также могут содержать различные функции в зависимости от формата и структуры конкретной платформы.
Все еще существуют ограничения в использовании социальных сетей в качестве источников данных для профилирования авторов, поскольку полученные данные не всегда могут быть надежными или точными. Иногда пользователи предоставляют ложную информацию о себе или скрывают информацию. [12] В результате обучение алгоритмов для профилирования авторов может быть затруднено данными, которые менее точны. Еще одним ограничением является нерегулярность текста в социальных сетях. К особенностям нерегулярности относятся отклонение от обычных языковых стандартов, таких как орфографические ошибки, нестандартная транслитерация, например, замена букв цифрами, сокращения, созданные пользователем сокращения для фраз и т. д., что может представлять проблему для профилирования авторов. [13] Исследователи приняли методы для преодоления этих ограничений при обучении своих алгоритмов для профилирования авторов. [13]
Facebook полезен для исследований профилирования авторов как служба социальной сети . Это связано с тем, как социальная сеть может быть создана, расширена и использована для социальных действий на сайте. [14] В таких процессах пользователи делятся личным контентом, который может быть использован для исследований профилирования авторов. Текстовые данные извлекаются из Facebook для профилирования авторов из личных сообщений пользователя, таких как «обновления статуса». [15] Они приобретаются для создания корпуса на выбранном языке(ах) для профилирования авторов, чтобы создать либо двуязычную, либо многоязычную базу данных слов контента, [15] [16] которая затем может быть использована для профилирования авторов.
В контексте Facebook профилирование авторов в основном включает текстовые данные на английском языке, но также использует неанглийские языки, в том числе: римский урду , арабский , бразильский португальский , испанский. [16] [11] Хотя исследования профилирования авторов на Facebook в основном проводились для идентификации пола и возрастной группы, были попытки вывести атрибуты для прогнозирования религиозности , ИТ-образа пользователей и даже основных эмоций (как определено Полом Экманом ) среди прочего. [15] [17]
Sina Weibo — одна из немногих азиатских социальных сетей, которая содержит тексты на азиатских языках, которые были проанализированы для профилирования авторов. Основной контент, на котором фокусируется профилирование авторов в контенте Weibo, включает классические китайские иероглифы, хэштеги , смайлики , каомодзи, однородную пунктуацию , латинские последовательности (из-за многоязычности текста) и даже поэтические форматы. Особенно популярные китайские выражения, POS-теги и типы слов также отслеживаются для профилирования авторов. [18]
Профилирование авторов для контента Weibo требует алгоритмов, отличных от тех, которые используются для других платформ социальных сетей, в основном из-за языковых различий между мандаринским китайским и западными языками. Например, китайские эмоции включают китайские иероглифы, описывающие жест или выражение лица в скобках, такие как: например, [哈哈] «смех», [泪] «слезы», [偷笑] «хихиканье», [爱你] «любовь», [心] «сердце». [18] Это отличается от использования знаков препинания для смайликов в западных языках или обычного использования эмодзи Unicode на других платформах, таких как Facebook, Instagram и т. д. Кроме того, хотя существует около 161 западного смайлика, в материковом Китае для веб-контента, как в Weibo, регулярно используется около 2900 смайликов. [19] Чтобы устранить эти различия, алгоритмы профилирования авторов были обучены на китайских смайликах и языковых особенностях. Например, алгоритмы профилирования авторов были разработаны для обнаружения китайских стилистических выражений, выражающих формальность и сентиментальность , вместо алгоритмов, обнаруживающих английские лингвистические особенности, такие как заглавные буквы. [19]
По сравнению с другими более популярными, глобализированными платформами, тексты на Weibo не так часто используются для профилирования авторов. Вероятно, это связано с централизацией Weibo среди китайского населения материкового Китая, что ограничивает его использование преимущественно гражданами Китая. Исследования, проведенные для этой платформы, использовали ботов , алгоритмы машинного обучения для определения возраста и пола авторов. Данные берутся из сообщений микроблогов Weibo желающих участников для анализа и используются для обучения алгоритмов, которые создают основанные на концепциях профили пользователей с определенной точностью. [18]
Логи чатов изучались для профилирования авторов, поскольку они включают в себя много текстового дискурса , анализ которого способствовал прикладным исследованиям, включая социальные тенденции и судебную науку . Источниками данных для профилирования авторов из логов чатов являются такие платформы, как Yahoo!, AIM (программное обеспечение) и WhatsApp . [20] Вычислительные системы были разработаны для создания концептуальных профилей, перечисляющих темы чатов, обсуждаемых в одной чат-комнате или независимыми пользователями. [21]
Профилирование автора может быть использовано для определения характеристик авторов блогов, таких как их возраст, пол и географическое положение , на основе их различных стилей письма, [22] Это особенно полезно, когда речь идет об анонимных блогах . Выбор слов контента, основанные на стиле и основанные на теме особенности анализируются для выявления характеристик автора. [23]
В целом, часто встречающиеся в блогах особенности включают в себя высокое распределение глаголов на запись и относительно высокое использование местоимений . Частота глаголов, местоимений и других классов слов используется для профилирования и классификации эмоций в работах авторов, а также их пола и возраста. [24] Профилирование авторов с использованием моделей классификации, которые использовались для физических документов в прошлом, таких как машины опорных векторов, также было протестировано в блогах. Однако было доказано, что оно не подходит для последнего из-за его низкой производительности. [22]
Алгоритмы машинного обучения, которые хорошо подходят для профилирования авторов в блогах [22], включают:
Электронная почта была постоянным объектом внимания для профилирования авторов из-за богатых текстовых данных, которые можно найти в различных разделах типичной платформы электронной почты. Эти разделы включают отправленные, входящие, спам, корзину и архивные папки. [25] Многоязычные подходы к профилированию авторов для электронных писем включают в себя английские, испанские и арабские электронные письма в качестве источников данных, среди прочего. [25] [12] С помощью профилирования авторов можно идентифицировать данные пользователей электронной почты, такие как их возраст, пол, географическое происхождение, уровень образования, национальность и даже психометрические черты личности, которые включают невротизм , доброжелательность , добросовестность и экстраверсию и интроверсию из Большой пятерки черт личности . [ требуется ссылка ]
При профилировании автора для электронной почты контент обрабатывается для важных текстовых данных, в то время как неважные функции, такие как метаданные и другие избыточности языка гипертекстовой разметки (HTML), исключаются. Важные части многоцелевых расширений интернет-почты (MIME), которые содержат контент электронных писем, также включаются в анализ. Полученные данные часто разбираются на различные разделы контента, включая текст автора, текст подписи, рекламу, цитируемый текст и строки ответа. [25] Дальнейший анализ текстового контента электронной почты в задачах профилирования автора включает извлечение тона голоса, настроения , семантики и других языковых функций для обработки.
Профилирование авторов применяется в различных областях, где необходимо определить конкретные характеристики автора текста, и приобретает все большую значимость в таких областях, как криминалистика и маркетинг. [26] В зависимости от области применения задача профилирования авторов может различаться с точки зрения идентифицируемых характеристик, количества изученных авторов и количества текстов, доступных для анализа.
Хотя его применение традиционно ограничивалось письменными текстами, такими как литературные произведения, с развитием компьютеров и Интернета оно распространилось и на онлайн-тексты.
В контексте судебной лингвистики профилирование автора используется для определения характеристик автора анонимного, псевдонимного или поддельного текста на основе использования автором языка. С помощью лингвистического анализа судебные лингвисты стремятся определить мотивацию и идеологию подозреваемого, а также другие классовые признаки, такие как этническая принадлежность или профессия подозреваемого. Хотя это не всегда приводит к решающей идентификации автора, такая информация может помочь правоохранительным органам сузить круг подозреваемых. [27]
В большинстве случаев профилирование автора в контексте судебной лингвистики включает в себя единственную текстовую проблему, в которой либо нет, либо мало доступных для сравнения текстов и нет внешних доказательств, указывающих на автора. [28] Примеры текстов, проанализированных судебными лингвистами, включают письма с шантажом, признания , завещания , письма о самоубийстве и плагиат. [29] Это также распространилось и на онлайн-тексты, такие как сексуально откровенные онлайн-чаты между мужчинами среднего возраста и несовершеннолетними девочками, [28] с ростом числа киберпреступлений, совершаемых в Интернете. [30]
Одним из самых ранних и известных примеров использования профилирования автора является случай Роджера Шуя , которому было поручено изучить записку с требованием выкупа, связанную с печально известным делом о похищении в 1979 году. Основываясь на своем анализе идиолекта похитителя , Шуй смог выделить ключевые элементы личности похитителя из его орфографических ошибок и диалекта , а именно, что похититель был хорошо образован и был из Акрона, штат Огайо . [31] В конечном итоге это привело к успешному аресту и признанию подозреваемого.
Однако существуют критические замечания о том, что методы профилирования авторов не являются объективными, поскольку эти методы основаны на субъективной идентификации критических социолингвистических маркеров судебным лингвистом. Такие методы, как те, которые принял литературный критик Дональд Уэйн Фостер , считаются спекулятивными и основанными исключительно на субъективном опыте человека, и поэтому не могут быть проверены эмпирически . [32]
Профилирование авторов применяется при идентификации социальных ботов, наиболее распространенными из которых являются боты Twitter . Социальные боты считаются угрозой из-за их коммерческого, политического и идеологического влияния, например, президентских выборов в США в 2016 году , во время которых они поляризовали политические разговоры и распространяли дезинформацию и непроверенную информацию. В контексте маркетинга социальные боты могут искусственно завышать популярность продукта, публикуя положительные отзывы, и подрывать репутацию конкурирующих продуктов с помощью неблагоприятных отзывов. [33] Поэтому обнаружение ботов с точки зрения профилирования авторов является задачей высокой важности. [33] [34]
Созданные в виде человеческих аккаунтов, боты в основном могут быть идентифицированы по информации в их профилях, такой как имя пользователя, фотография профиля и время публикации. [34] Однако задача идентификации ботов исключительно по текстовым данным (т. е. без метаданных) значительно сложнее и требует применения методов профилирования авторов. [34] Обычно это включает задачу классификации, основанную на семантических и синтаксических признаках. [35] [36]
Задача профилирования ботов и пола была одной из четырех общих задач, организованных PAN, которая организует серию научных мероприятий и общих задач по цифровой текстовой криминалистике и стилометрии в своем выпуске 2019 года. [33] Участвующие команды добились больших успехов, показав наилучшие результаты по обнаружению ботов для английских и испанских твитов — 95,95% и 93,33% соответственно. [35]
Профилирование авторов также полезно с точки зрения маркетинга, поскольку позволяет компаниям определять демографические характеристики людей, которым нравятся или не нравятся их продукты, на основе анализа блогов, онлайн-обзоров продуктов и контента социальных сетей. [26] Это важно, поскольку большинство людей публикуют свои обзоры продуктов анонимно. Методы профилирования авторов полезны для бизнес-экспертов в принятии более обоснованных стратегических решений на основе демографических характеристик их целевой группы. [37] Кроме того, компании могут нацеливать свои маркетинговые кампании на группы потребителей, которые соответствуют демографическим характеристикам и профилю текущих клиентов. [38]
Методы профилирования авторов используются для изучения традиционных медиа и литературы с целью определения стиля письма различных авторов, а также тем их письменного контента. Профилирование авторов для литературы также проводится для определения социальных сетей авторов и их литературного влияния на основе их библиографических записей о соавторстве. В случаях анонимных или псевдоэпиграфических работ иногда этот метод используется для попытки идентифицировать автора или авторов или определить, какие работы были написаны одним и тем же человеком.
Некоторые примеры исследований по профилированию авторов в литературе и традиционных СМИ включают исследования по следующим темам: [39] [40]
Другое применение профилирования авторов заключается в разработке стратегий каталогизации библиотечных ресурсов на основе стандартных атрибутов. [42] При таком подходе методы профилирования авторов могут повысить эффективность библиотечной каталогизации , в которой библиотечные ресурсы автоматически классифицируются на основе библиографических записей авторов . Это было существенной проблемой в начале 21-го века, когда большая часть библиотечной каталогизации все еще выполнялась вручную.
При использовании профилирования авторов для библиотечной каталогизации исследователи использовали машинное обучение для автоматических процессов в библиотеке, таких как алгоритмы опорных векторных машин (SVM). При использовании SVM для профилирования авторов библиографические записи авторов в существующих базах данных могут быть идентифицированы, отслежены и обновлены для идентификации автора на основе его тем литературного содержания и опыта , указанных в его или ее библиографических записях. В этом случае профилирование авторов использует социальные структуры авторов, которые могут быть получены из физических копий опубликованных носителей для каталогизации библиотечных ресурсов. [42]
Профилирование авторов было представлено в популярной культуре. Мини-сериал Discovery Channel 2017 года Manhunt: Unabomber представляет собой вымышленный рассказ о расследовании ФБР вокруг Унабомбера . В нем фигурирует криминальный профайлер, который определяет определяющие характеристики личности Унабомбера на основе своего анализа идиолекта Унабомбера в его опубликованном манифесте и письмах. Шоу подчеркнуло важность профилирования авторов в криминалистической экспертизе, поскольку оно имело решающее значение для поимки настоящего преступника Унабомбера в 1996 году. [43]