stringtranslate.com

Профилирование автора

Томас Корвин Менденхолл, американский физик, 1841–1924

Профилирование автора — это анализ заданного набора текстов в попытке раскрыть различные характеристики автора на основе стилистических и содержательных особенностей или идентифицировать автора. Анализируемые характеристики обычно включают возраст и пол , хотя более поздние исследования рассматривали и другие характеристики, такие как черты личности и род занятий [1]

Профилирование авторов является одним из трех основных направлений в автоматической идентификации авторства (AAI), два других — это атрибуция авторства и идентификация авторства. Процесс AAI возник в конце 19-го века. Томас Корвин Менденхолл , американский физик- самоучка и метеоролог , был первым, кто применил этот процесс к работам Фрэнсиса Бэкона , Уильяма Шекспира и Кристофера Марло . У этих трех исторических личностей Менденхолл стремился раскрыть их количественные стилистические различия, проверяя длину слов. [2]

Несмотря на значительный прогресс, достигнутый в XXI веке, задача профилирования авторов остается нерешенной из-за ее сложности.

Методы

С помощью анализа текстов можно применять различные методы профилирования автора для прогнозирования информации об авторе. Например, служебные слова, а также анализ частей речи могут быть использованы для определения пола автора и истинности текста. [3]

Процесс профилирования автора обычно включает следующие этапы: [4]

  1. Определение конкретных особенностей, которые необходимо извлечь из текста
  2. Создание принятого стандартного представления (например, модели «мешка слов» ) для целевого профиля
  3. Построение модели классификации с использованием стандартного классификатора (например, метода опорных векторов ) для целевого профиля

Алгоритмы машинного обучения для профилирования авторов со временем стали все более сложными. Алгоритмы, используемые в профилировании авторов, включают:

В прошлом профилирование авторов ограничивалось физическими документами, часто в форме книг и газетных статей . Различные комбинации текстовых атрибутов, принадлежащих авторам, были идентифицированы и проанализированы с помощью профилирования авторов, включая лексические и синтаксические особенности. [4] Новаторские исследования в области профилирования авторов были сосредоточены в основном на одном жанре до перехода к профилированию авторов в социальных сетях и Интернете. [9] Хотя атрибуты, такие как слова контента и теги POS , эффективны в прогнозировании профиля автора для физических документов, их эффективность в прогнозировании профиля автора для цифровых текстов субъективна и зависит от типа анализируемого онлайн-контента. [4]

С развитием технологий профилирование авторов в Интернете становится все более распространенным. В настоящее время используются цифровые тексты, такие как сообщения в социальных сетях, сообщения в блогах и электронные письма . [4] Это вызвало более активные исследовательские усилия из-за преимуществ, которые анализ цифровых текстов может принести таким секторам, как маркетинг и бизнес. [8] Профилирование авторов в цифровых текстах также позволило прогнозировать более широкий спектр характеристик авторов, таких как личность, [8] доход и род занятий. [10]

Наиболее эффективные атрибуты для профилирования авторов в цифровых текстах включают в себя комбинацию стилистических и содержательных характеристик. [4] Профилирование авторов в цифровых текстах фокусируется на кросс-жанровом профилировании авторов, при котором один жанр используется для обучающих данных, а другой жанр используется для тестовых данных, хотя оба жанра должны быть относительно схожи для получения хороших результатов. [9]

Существуют некоторые проблемы [4] при выполнении методов профилирования авторов в онлайн-текстах. Эти проблемы включают:

Профилирование авторов и Интернет

Рост популярности Интернета в 20-21 веках послужил катализатором роста исследований по профилированию авторов, поскольку данные можно было извлекать из Интернета, включая платформы социальных сетей, электронные письма и блоги. Контент из Интернета анализировался в задачах профилирования авторов для определения возраста, пола, географического происхождения, национальности и психометрических черт веб-пользователей. Полученная информация использовалась для различных приложений, включая маркетинг и криминалистику .

Социальные сети

Возросшая интеграция социальных сетей в повседневную жизнь людей сделала их богатым источником текстовых данных для профилирования авторов. Это в основном связано с тем, что пользователи часто загружают и делятся контентом для различных целей, включая самовыражение, социализацию и личный бизнес. Социальный бот также является частой функцией платформ социальных сетей, особенно Twitter, генерируя контент, который может быть проанализирован для профилирования авторов. [11] Хотя разные платформы содержат схожие данные, они также могут содержать различные функции в зависимости от формата и структуры конкретной платформы.

Все еще существуют ограничения в использовании социальных сетей в качестве источников данных для профилирования авторов, поскольку полученные данные не всегда могут быть надежными или точными. Иногда пользователи предоставляют ложную информацию о себе или скрывают информацию. [12] В результате обучение алгоритмов для профилирования авторов может быть затруднено данными, которые менее точны. Еще одним ограничением является нерегулярность текста в социальных сетях. К особенностям нерегулярности относятся отклонение от обычных языковых стандартов, таких как орфографические ошибки, нестандартная транслитерация, например, замена букв цифрами, сокращения, созданные пользователем сокращения для фраз и т. д., что может представлять проблему для профилирования авторов. [13] Исследователи приняли методы для преодоления этих ограничений при обучении своих алгоритмов для профилирования авторов. [13]

Фейсбук

Facebook полезен для исследований профилирования авторов как служба социальной сети . Это связано с тем, как социальная сеть может быть создана, расширена и использована для социальных действий на сайте. [14] В таких процессах пользователи делятся личным контентом, который может быть использован для исследований профилирования авторов. Текстовые данные извлекаются из Facebook для профилирования авторов из личных сообщений пользователя, таких как «обновления статуса». [15] Они приобретаются для создания корпуса на выбранном языке(ах) для профилирования авторов, чтобы создать либо двуязычную, либо многоязычную базу данных слов контента, [15] [16] которая затем может быть использована для профилирования авторов.

В контексте Facebook профилирование авторов в основном включает текстовые данные на английском языке, но также использует неанглийские языки, в том числе: римский урду , арабский , бразильский португальский , испанский. [16] [11] Хотя исследования профилирования авторов на Facebook в основном проводились для идентификации пола и возрастной группы, были попытки вывести атрибуты для прогнозирования религиозности , ИТ-образа пользователей и даже основных эмоций (как определено Полом Экманом ) среди прочего. [15] [17]

Вейбо

Sina Weibo — одна из немногих азиатских социальных сетей, которая содержит тексты на азиатских языках, которые были проанализированы для профилирования авторов. Основной контент, на котором фокусируется профилирование авторов в контенте Weibo, включает классические китайские иероглифы, хэштеги , смайлики , каомодзи, однородную пунктуацию , латинские последовательности (из-за многоязычности текста) и даже поэтические форматы. Особенно популярные китайские выражения, POS-теги и типы слов также отслеживаются для профилирования авторов. [18]

Профилирование авторов для контента Weibo требует алгоритмов, отличных от тех, которые используются для других платформ социальных сетей, в основном из-за языковых различий между мандаринским китайским и западными языками. Например, китайские эмоции включают китайские иероглифы, описывающие жест или выражение лица в скобках, такие как: например, [哈哈] «смех», [泪] «слезы», [偷笑] «хихиканье», [爱你] «любовь», [心] «сердце». [18] Это отличается от использования знаков препинания для смайликов в западных языках или обычного использования эмодзи Unicode на других платформах, таких как Facebook, Instagram и т. д. Кроме того, хотя существует около 161 западного смайлика, в материковом Китае для веб-контента, как в Weibo, регулярно используется около 2900 смайликов. [19] Чтобы устранить эти различия, алгоритмы профилирования авторов были обучены на китайских смайликах и языковых особенностях. Например, алгоритмы профилирования авторов были разработаны для обнаружения китайских стилистических выражений, выражающих формальность и сентиментальность , вместо алгоритмов, обнаруживающих английские лингвистические особенности, такие как заглавные буквы. [19]

По сравнению с другими более популярными, глобализированными платформами, тексты на Weibo не так часто используются для профилирования авторов. Вероятно, это связано с централизацией Weibo среди китайского населения материкового Китая, что ограничивает его использование преимущественно гражданами Китая. Исследования, проведенные для этой платформы, использовали ботов , алгоритмы машинного обучения для определения возраста и пола авторов. Данные берутся из сообщений микроблогов Weibo желающих участников для анализа и используются для обучения алгоритмов, которые создают основанные на концепциях профили пользователей с определенной точностью. [18]

Логи чата

Логи чатов изучались для профилирования авторов, поскольку они включают в себя много текстового дискурса , анализ которого способствовал прикладным исследованиям, включая социальные тенденции и судебную науку . Источниками данных для профилирования авторов из логов чатов являются такие платформы, как Yahoo!, AIM (программное обеспечение) и WhatsApp . [20] Вычислительные системы были разработаны для создания концептуальных профилей, перечисляющих темы чатов, обсуждаемых в одной чат-комнате или независимыми пользователями. [21]

Блоги

Профилирование автора может быть использовано для определения характеристик авторов блогов, таких как их возраст, пол и географическое положение , на основе их различных стилей письма, [22] Это особенно полезно, когда речь идет об анонимных блогах . Выбор слов контента, основанные на стиле и основанные на теме особенности анализируются для выявления характеристик автора. [23]

В целом, часто встречающиеся в блогах особенности включают в себя высокое распределение глаголов на запись и относительно высокое использование местоимений . Частота глаголов, местоимений и других классов слов используется для профилирования и классификации эмоций в работах авторов, а также их пола и возраста. [24] Профилирование авторов с использованием моделей классификации, которые использовались для физических документов в прошлом, таких как машины опорных векторов, также было протестировано в блогах. Однако было доказано, что оно не подходит для последнего из-за его низкой производительности. [22]

Алгоритмы машинного обучения, которые хорошо подходят для профилирования авторов в блогах [22], включают:

Электронная почта

Электронная почта была постоянным объектом внимания для профилирования авторов из-за богатых текстовых данных, которые можно найти в различных разделах типичной платформы электронной почты. Эти разделы включают отправленные, входящие, спам, корзину и архивные папки. [25] Многоязычные подходы к профилированию авторов для электронных писем включают в себя английские, испанские и арабские электронные письма в качестве источников данных, среди прочего. [25] [12] С помощью профилирования авторов можно идентифицировать данные пользователей электронной почты, такие как их возраст, пол, географическое происхождение, уровень образования, национальность и даже психометрические черты личности, которые включают невротизм , доброжелательность , добросовестность и экстраверсию и интроверсию из Большой пятерки черт личности . [ требуется ссылка ]

При профилировании автора для электронной почты контент обрабатывается для важных текстовых данных, в то время как неважные функции, такие как метаданные и другие избыточности языка гипертекстовой разметки (HTML), исключаются. Важные части многоцелевых расширений интернет-почты (MIME), которые содержат контент электронных писем, также включаются в анализ. Полученные данные часто разбираются на различные разделы контента, включая текст автора, текст подписи, рекламу, цитируемый текст и строки ответа. [25] Дальнейший анализ текстового контента электронной почты в задачах профилирования автора включает извлечение тона голоса, настроения , семантики и других языковых функций для обработки.

Приложения

Профилирование авторов применяется в различных областях, где необходимо определить конкретные характеристики автора текста, и приобретает все большую значимость в таких областях, как криминалистика и маркетинг. [26] В зависимости от области применения задача профилирования авторов может различаться с точки зрения идентифицируемых характеристик, количества изученных авторов и количества текстов, доступных для анализа.

Хотя его применение традиционно ограничивалось письменными текстами, такими как литературные произведения, с развитием компьютеров и Интернета оно распространилось и на онлайн-тексты.

Судебная лингвистика

В контексте судебной лингвистики профилирование автора используется для определения характеристик автора анонимного, псевдонимного или поддельного текста на основе использования автором языка. С помощью лингвистического анализа судебные лингвисты стремятся определить мотивацию и идеологию подозреваемого, а также другие классовые признаки, такие как этническая принадлежность или профессия подозреваемого. Хотя это не всегда приводит к решающей идентификации автора, такая информация может помочь правоохранительным органам сузить круг подозреваемых. [27]

В большинстве случаев профилирование автора в контексте судебной лингвистики включает в себя единственную текстовую проблему, в которой либо нет, либо мало доступных для сравнения текстов и нет внешних доказательств, указывающих на автора. [28] Примеры текстов, проанализированных судебными лингвистами, включают письма с шантажом, признания , завещания , письма о самоубийстве и плагиат. [29] Это также распространилось и на онлайн-тексты, такие как сексуально откровенные онлайн-чаты между мужчинами среднего возраста и несовершеннолетними девочками, [28] с ростом числа киберпреступлений, совершаемых в Интернете. [30]

Одним из самых ранних и известных примеров использования профилирования автора является случай Роджера Шуя , которому было поручено изучить записку с требованием выкупа, связанную с печально известным делом о похищении в 1979 году. Основываясь на своем анализе идиолекта похитителя , Шуй смог выделить ключевые элементы личности похитителя из его орфографических ошибок и диалекта , а именно, что похититель был хорошо образован и был из Акрона, штат Огайо . [31] В конечном итоге это привело к успешному аресту и признанию подозреваемого.

Однако существуют критические замечания о том, что методы профилирования авторов не являются объективными, поскольку эти методы основаны на субъективной идентификации критических социолингвистических маркеров судебным лингвистом. Такие методы, как те, которые принял литературный критик Дональд Уэйн Фостер , считаются спекулятивными и основанными исключительно на субъективном опыте человека, и поэтому не могут быть проверены эмпирически . [32]

Обнаружение ботов

Профилирование авторов применяется при идентификации социальных ботов, наиболее распространенными из которых являются боты Twitter . Социальные боты считаются угрозой из-за их коммерческого, политического и идеологического влияния, например, президентских выборов в США в 2016 году , во время которых они поляризовали политические разговоры и распространяли дезинформацию и непроверенную информацию. В контексте маркетинга социальные боты могут искусственно завышать популярность продукта, публикуя положительные отзывы, и подрывать репутацию конкурирующих продуктов с помощью неблагоприятных отзывов. [33] Поэтому обнаружение ботов с точки зрения профилирования авторов является задачей высокой важности. [33] [34]

Созданные в виде человеческих аккаунтов, боты в основном могут быть идентифицированы по информации в их профилях, такой как имя пользователя, фотография профиля и время публикации. [34] Однако задача идентификации ботов исключительно по текстовым данным (т. е. без метаданных) значительно сложнее и требует применения методов профилирования авторов. [34] Обычно это включает задачу классификации, основанную на семантических и синтаксических признаках. [35] [36]

Задача профилирования ботов и пола была одной из четырех общих задач, организованных PAN, которая организует серию научных мероприятий и общих задач по цифровой текстовой криминалистике и стилометрии в своем выпуске 2019 года. [33] Участвующие команды добились больших успехов, показав наилучшие результаты по обнаружению ботов для английских и испанских твитов — 95,95% и 93,33% соответственно. [35]

Маркетинг

Профилирование авторов также полезно с точки зрения маркетинга, поскольку позволяет компаниям определять демографические характеристики людей, которым нравятся или не нравятся их продукты, на основе анализа блогов, онлайн-обзоров продуктов и контента социальных сетей. [26] Это важно, поскольку большинство людей публикуют свои обзоры продуктов анонимно. Методы профилирования авторов полезны для бизнес-экспертов в принятии более обоснованных стратегических решений на основе демографических характеристик их целевой группы. [37] Кроме того, компании могут нацеливать свои маркетинговые кампании на группы потребителей, которые соответствуют демографическим характеристикам и профилю текущих клиентов. [38]

Идентификация автора и отслеживание влияния

Распятие, четки и Святая Библия с апокрифами NRSV

Методы профилирования авторов используются для изучения традиционных медиа и литературы с целью определения стиля письма различных авторов, а также тем их письменного контента. Профилирование авторов для литературы также проводится для определения социальных сетей авторов и их литературного влияния на основе их библиографических записей о соавторстве. В случаях анонимных или псевдоэпиграфических работ иногда этот метод используется для попытки идентифицировать автора или авторов или определить, какие работы были написаны одним и тем же человеком.

Некоторые примеры исследований по профилированию авторов в литературе и традиционных СМИ включают исследования по следующим темам: [39] [40]

Каталогизация библиотек

Другое применение профилирования авторов заключается в разработке стратегий каталогизации библиотечных ресурсов на основе стандартных атрибутов. [42] При таком подходе методы профилирования авторов могут повысить эффективность библиотечной каталогизации , в которой библиотечные ресурсы автоматически классифицируются на основе библиографических записей авторов . Это было существенной проблемой в начале 21-го века, когда большая часть библиотечной каталогизации все еще выполнялась вручную.

При использовании профилирования авторов для библиотечной каталогизации исследователи использовали машинное обучение для автоматических процессов в библиотеке, таких как алгоритмы опорных векторных машин (SVM). При использовании SVM для профилирования авторов библиографические записи авторов в существующих базах данных могут быть идентифицированы, отслежены и обновлены для идентификации автора на основе его тем литературного содержания и опыта , указанных в его или ее библиографических записях. В этом случае профилирование авторов использует социальные структуры авторов, которые могут быть получены из физических копий опубликованных носителей для каталогизации библиотечных ресурсов. [42]

В популярной культуре

Профилирование авторов было представлено в популярной культуре. Мини-сериал Discovery Channel 2017 года Manhunt: Unabomber представляет собой вымышленный рассказ о расследовании ФБР вокруг Унабомбера . В нем фигурирует криминальный профайлер, который определяет определяющие характеристики личности Унабомбера на основе своего анализа идиолекта Унабомбера в его опубликованном манифесте и письмах. Шоу подчеркнуло важность профилирования авторов в криминалистической экспертизе, поскольку оно имело решающее значение для поимки настоящего преступника Унабомбера в 1996 году. [43]

Смотрите также

Связанные темы

Ссылки

  1. ^ Вигманн, М., Штайн, Б. и Поттхаст, М. (2019). «Обзор задания по профилированию знаменитостей на PAN 2019». CLEF .
  2. ^ Mikros, GK, & Perifanos, K. (2013). «Атрибуция авторства в греческих твитах с использованием многоуровневых профилей авторов n-грамм». Серия весенних симпозиумов AAAI 2013 года.
  3. ^ Коппель, М., Аргамон, С. и Шимони, А. Р. (2013). «Автоматическая категоризация письменных текстов по полу автора». Литературные и лингвистические вычисления, 17 , стр. 401–412.
  4. ^ abcdef Лопес-Монрой, AP, Монтес-и-Гомес, М., Эскаланте, Х.Дж., Вильясеньор-Пинеда, Л. и Стамататос, Э. (2015). «Дискриминационные представления, специфичные для подпрофилей, для профилирования авторов в социальных сетях». В: Системы, основанные на знаниях, 89, 134–147.
  5. ^ ab Lundeqvist, E. & Svensson, M. (2017). «Профилирование автора: подход машинного обучения к определению пола, возраста и родного языка пользователей в социальных сетях». В: Department of Information Technology.
  6. ^ Франко-Сальвадор, М., Плотникова, Н., Павар, Н. и Бенаджиба, Й. (2017). «Глубокие усредняющие сети на основе подслов для профилирования авторов в социальных сетях». CLEF .
  7. ^ Курита, К. (2018). «Разбор статьи: Глубокая неупорядоченная композиция конкурирует с синтаксическими методами классификации текста». Объяснение машинного обучения.
  8. ^ abc Bsi, B. & Zrigui, M. (2018). «Методы глубокого обучения для профилирования авторов в контенте социальных сетей». В: 31-я конференция IBIMA.
  9. ^ ab Билан, И. и Жекова, Д. (2016). «CAPS: система профилирования авторов разных жанров». CLEF.
  10. ^ Шлер, Дж., Коппель, М., Аргамон, С. и Пеннебейкер, Дж. В. (2005). «Влияние возраста и пола на ведение блогов». Весенний симпозиум AAAI: Вычислительные подходы к анализу веблогов.
  11. ^ ab Rangel, F., & Russo, P. (2019). «Обзор 7-й задачи по профилированию авторов на PAN 2019: боты и гендерное профилирование в Twitter». CLEF.
  12. ^ ab Rosso, P., Rangel, F., Farías, IH, Cagnina, L., Zaghouani, W., & Charfi, A. (2018). «Обзор профилирования авторов, обмана и обнаружения иронии для арабского языка». Language and Linguistics Compass, 12(4).
  13. ^ ab Гомес-Адорно, Х., Марков, И., Сидоров, Г., Посадас-Дуран, Х.-П., Санчес-Перес, М.А., и Чанона-Эрнандес, Л. (2016). «Улучшение представления признаков на основе нейронной сети для профилирования авторов в текстах социальных сетей». В: Вычислительный интеллект и нейронаука , стр. 1–13.
  14. ^ Dam, JWV, & Velden, MVD (2015). «Онлайн-профилирование и кластеризация пользователей Facebook». В: Системы поддержки принятия решений, 70 , 60–72.
  15. ^ abc Hsieh, FC, Sandroni, RF, & Paraboni, I. (2018). «Профилирование авторов из Facebook Corpora». LREC.
  16. ^ ab Fatima, M., Hasan, K., Anwar, S., & Nawab, RMA (2017). «Многоязычное профилирование авторов на Facebook». В: Обработка информации и управление, 53(4) , 886–904.
  17. ^ Ранхел, Ф. и Россо, П. (2013). «Использование языка и профилирование автора: определение пола и возраста».
  18. ^ abc Чжан, В., Кейнс, А., Аликаниотис, Д. и Баттери, П. (2015). «Прогнозирование возраста автора по сообщениям микроблога Weibo». LREC.
  19. ^ ab Chen, L., Qian, T., Wang, F., You, Z., Peng, Q., & Zhong, M. (2015). «Определение возраста китайских пользователей в Weibo». WAIM 2015, LNCS 9098 , 83–95.
  20. ^ Лин, Дж. (2007). «Автоматическое профилирование авторов журналов онлайн-чатов»
  21. ^ Bengel J., Gauch S., Mittur E., Vijayaraghavan R. (2004) ChatTrack: «Обнаружение тем чатов с использованием классификации». В: Chen H., Moore R., Zeng DD, Leavitt J. (ред.) Intelligence and Security Informatics. ISI 2004. Lecture Notes in Computer Science, 3073. Springer, Berlin, Heidelberg
  22. ^ abc Pham, DD, Tran, GB, & Pham, SB (2009). Профилирование авторов для вьетнамских блогов. [ нерабочая ссылка ‍ ] Международная конференция по обработке азиатских языков 2009 г., 190–194.
  23. ^ Сантош, К., Бансал, Р., Шекхар, М. и Варма, В. (2013). Профилирование авторов: прогнозирование возраста и пола с помощью блогов Notebook для PAN на CLEF 2013. CLEF.
  24. ^ Ранхел, Ф. и Россо, П. (2013). Использование языка и профилирование автора: определение пола и возраста. Обработка естественного языка и когнитивная наука 2013.
  25. ^ abc Эстивал, Д., Гаустад, Т., Фам, С.Б., Рэдфорд, У. и Хатчинсон, Б. (2007). Профилирование авторов для англоязычных электронных писем.
  26. ^ ab Профилирование авторов 2018. (nd).
  27. ^ Фостер, Д. (2000). Неизвестный автор: По следам анонима. Генри Холт и компания
  28. ^ ab Grant, TD (2008). «Подход к вопросам судебного анализа авторства». В Gibbons, J. & Turell, MT (ред.). Dimensions of Forensic Linguistics. Джон Бенджаминс.
  29. ^ Kotzé, EF (2010). «Идентификация автора с противоположных точек зрения в судебной лингвистике». Южноафриканская лингвистика и прикладные языковые исследования . 28(2). 185–197
  30. ^ Yang, M. & Chow, KP (2014) «Установление авторства для судебно-медицинского расследования с участием тысяч авторов». В: Cuppens-Boulahia N., Cuppens F., Jajodia S., Abou El Kalam A., Sans T. (ред.) Безопасность и защита конфиденциальности систем ИКТ. SEC 2014. Достижения IFIP в области информационных и коммуникационных технологий , том 428. Springer, Берлин, Гейдельберг.
  31. ^ Леонард, РА (2005). «Применение научных принципов анализа языка к вопросам права». Международный журнал гуманитарных наук. 3. 1–9
  32. ^ Часки, CE (2001). «Эмпирические оценки методов идентификации автора на основе языка». Судебная лингвистика , 8, 1–65.
  33. ^ abc "Боты и гендерное профилирование 2019". (nd).
  34. ^ abc Губен, Режис и Лефевр, Дориан и Альхамзе, Алаа и Митрович, Елена и Эдьед-Жигмонд, Эль и Фосси, Леопольд. (2019). «Боты и гендерное профилирование с использованием блокнота многоуровневой архитектуры для PAN на CLEF 2019».
  35. ^ ab Daelemans W. et al. (2019) «Обзор PAN 2019: боты и гендерное профилирование, профилирование знаменитостей, атрибуция кросс-доменного авторства и обнаружение изменения стиля». В: Crestani F. et al. (ред.) Experimental IR Meets Multilinguality, Multimodality, and Interaction. CLEF 2019. Lecture Notes in Computer Science , т. 11696. Springer, Cham.
  36. ^ Ковач, Г., Балог, В., Мехта, П., Шридхар, К., Алонсо, П. и Ливицки, М. (2019). «Профилирование авторов с использованием семантических и синтаксических признаков: блокнот для PAN на CLEF 2019».
  37. ^ Рагхунадха Редди Т., Лакшминараяна М., Вишну Вардхан Б., Саи Прасад К., Амарнат Редди Э. (2019) «Новый подход к представлению документов для гендерного прогнозирования с использованием профилей авторов». В: Бапи Р., Рао К., Прасад М. (ред.) Первая международная конференция по искусственному интеллекту и когнитивным вычислениям. Достижения в области интеллектуальных систем и вычислений , том 815. Springer, Сингапур
  38. ^ Махарджан, Сурадж и Шреста, Праша и Солорио, Тамар и Хасан, Рагиб. (2014). «Простой подход к профилированию авторов в MapReduce». ЛНКС (ЛНАИ).
  39. ^ Company, JS, & Wanner, L. (2017). «О значимости синтаксических и дискурсивных особенностей для профилирования и идентификации автора». Труды 15-й конференции Европейского отделения Ассоциации компьютерной лингвистики , 2, 681–687.
  40. ^ ab Dzikiene. JK, Utka, A., & Šarkute, L. (2015). «Атрибуция авторства и профилирование авторов литовских литературных текстов», 96–105.
  41. ^ Леджер, Г. (1994). «Шекспир, Флетчер и два знатных родственника». Литературные и лингвистические вычисления, 9(3) , 235–247.
  42. ^ ab Nomoto, T. (2009). «Классификация библиотечных каталогов по профилированию авторов». В: Труды 32-й Международной конференции ACM SIGIR по исследованиям и разработкам в области информационного поиска – SIGIR 09 .
  43. ^ Дэвис, Д. (22 августа 2017 г.). «Профайлер ФБР утверждает, что лингвистическая работа сыграла решающую роль в поимке Унабомбера».