stringtranslate.com

Стилометрия

Стилометрия — это приложение изучения лингвистического стиля , обычно к письменному языку. [1] Она также успешно применялась к музыке, [2] живописи, [3] и шахматам. [4]

Стилометрия часто используется для установления авторства анонимных или спорных документов. [5] Она имеет как юридическое , так и академическое и литературное применение, начиная от вопроса об авторстве произведений Шекспира и заканчивая судебной лингвистикой , и имеет методологическое сходство с анализом читаемости текста .

Стилометрия может использоваться для разоблачения псевдонимных или анонимных авторов или для раскрытия некоторой информации об авторе, не являющейся полной идентификацией. Авторы могут использовать состязательную стилометрию, чтобы противостоять этой идентификации, устраняя свои собственные стилистические характеристики, не меняя содержательного содержания своих сообщений. Она может победить анализы, которые не учитывают ее возможность, но окончательная эффективность стилометрии в состязательной среде неопределенна: стилометрическая идентификация может быть ненадежной, но и неидентификация не может быть гарантирована; сама практика состязательной стилометрии может быть обнаружена.

История

Стилометрия возникла из более ранних методов анализа текстов для подтверждения подлинности, идентификации автора и решения других вопросов.

Современная практика этой дисциплины получила известность благодаря изучению проблем авторства в английской драме эпохи Возрождения. Исследователи и читатели заметили, что некоторые драматурги той эпохи имели отличительные образцы языковых предпочтений, и попытались использовать эти образцы для идентификации авторов неопределенных или совместных работ. Ранние попытки не всегда были успешными: в 1901 году один исследователь попытался использовать предпочтение Джона Флетчера к «⁠ ⁠'em», сокращенной форме «them», в качестве маркера для различения Флетчера и Филиппа Массинджера в их совместных работах, но он по ошибке использовал издание работ Массинджера, в котором редактор расширил все случаи «⁠ ⁠'em» до «them». [6]

Основы стилометрии были установлены польским философом Винцентием Лютославским в «Принципах стилометрии» (1890). Лютославский использовал этот метод для разработки хронологии « Диалогов» Платона . [7]

Развитие компьютеров и их возможностей для анализа больших объемов данных увеличило этот тип усилий на порядки. Однако большие возможности компьютеров для анализа данных не гарантировали хорошего качества результата. В начале 1960-х годов преподобный А. К. Мортон провел компьютерный анализ четырнадцати Посланий Нового Завета, приписываемых Святому Павлу, который показал, что шесть разных авторов написали этот корпус работ. Проверка его метода, примененного к произведениям Джеймса Джойса , дала результат, что «Улисс », многоперспективный, многостилевой роман Джойса, был написан пятью отдельными людьми, ни один из которых, по-видимому, не принимал участия в создании первого романа Джойса, « Портрет художника в юности» . [8]

Однако со временем и с практикой исследователи и ученые усовершенствовали свои методы, чтобы получить лучшие результаты. Одним из заметных ранних успехов стало разрешение спорного авторства двенадцати « Федералиста» Фредерика Мостеллера и Дэвида Уоллеса. [9] Хотя все еще существуют вопросы относительно первоначальных предположений и методов (и, возможно, всегда будут), мало кто сейчас оспаривает основную предпосылку, что лингвистический анализ письменных текстов может дать ценную информацию и понимание. (Действительно, это было очевидно еще до появления компьютеров: успешное применение текстового/лингвистического анализа к канону Флетчера Сайрусом Хоем и другими дало четкие результаты в конце 1950-х и начале 1960-х годов.)

Приложения

Применение стилометрии включает литературные исследования, исторические исследования, социальные исследования, поиск информации и множество судебных дел и исследований. [10] [11] В последнее время давние дебаты об анонимных средневековых исландских сагах получили дальнейшее развитие благодаря ее использованию. [12] [13] [14] Ее также можно применять к компьютерному коду [15] и внутреннему обнаружению плагиата , которое заключается в обнаружении плагиата на основе изменений стиля письма в документе. [16] Стилометрию также можно использовать для определения того, является ли человек носителем английского языка или нет, по его скорости печати . ​​[17]

Стилометрия как метод уязвима к искажению текста во время редактирования. [18] Также есть случай, когда автор принимает разные стили в ходе своей карьеры, как это было продемонстрировано в случае Платона , который выбирал разные стилистические политики, такие как те, которые были приняты для ранних и средних диалогов, затрагивающих проблему Сократа. [19]

Функции

Текстовые признаки, представляющие интерес для атрибуции авторства, с одной стороны, вычисляют вхождения идиосинкразических выражений или конструкций (например, проверка того, как автор использует интерпунктуру или как часто автор использует пассивные конструкции без агента), а с другой стороны, аналогичны признакам, используемым для анализа читабельности, таким как меры лексической вариативности и синтаксической вариативности. [20] Поскольку авторы часто имеют предпочтения в отношении определенных тем, исследовательские эксперименты по атрибуции авторства в основном удаляют содержательные слова, такие как существительные, прилагательные и глаголы, из набора признаков, сохраняя только структурные элементы текста, чтобы избежать чрезмерного соответствия своих моделей теме, а не характеристикам автора. [21] [22] Стилистические признаки часто вычисляются как средние значения по тексту или по всему собранию работ автора, что дает такие меры, как средняя длина слова или средняя длина предложения. Это позволяет модели идентифицировать авторов, которые явно отдают предпочтение многословным или кратким предложениям, но скрывают вариации: автор с сочетанием длинных и коротких предложений будет иметь тот же средний показатель, что и автор с постоянными предложениями средней длины. Чтобы зафиксировать такую ​​вариацию, некоторые эксперименты используют последовательности или шаблоны вместо наблюдений, а не средние наблюдаемые частоты, отмечая, например, что автор проявляет предпочтение определенному ударению или шаблону акцента, [23] [24] или что автор имеет тенденцию следовать за последовательностью длинных предложений коротким. [25] [26]

Можно сказать, что один из первых подходов к идентификации авторства, предложенный Менденхоллом, заключается в объединении наблюдений без их усреднения. [27]

Более поздние модели атрибуции авторства используют модели векторного пространства для автоматического захвата особенностей стиля автора, но они также полагаются на разумную разработку признаков по тем же причинам, что и более традиционные модели. [28] [29]

Состязательная стилометрия

Состязательная стилометрия — это практика изменения стиля письма для снижения вероятности раскрытия стилометрией личности автора или его характеристик. [30] Эта задача также известна как запутывание авторства или анонимизация авторства. Стилометрия представляет собой значительную проблему конфиденциальности в своей способности разоблачать анонимных авторов или связывать псевдонимы с другими личностями автора, [31] что, например, создает трудности для осведомителей , [32] активистов, [33] а также мистификаторов и мошенников . [34] Ожидается, что риск конфиденциальности будет расти по мере развития методов машинного обучения и текстовых корпусов . [35]

Вся состязательная стилометрия разделяет основную идею точного перефразирования исходного текста таким образом, чтобы значение оставалось неизменным, но стилистические сигналы были скрыты. [36] [37] Такой точный перефраз является состязательным примером для стилометрического классификатора. [38] Существует несколько широких подходов к этому, с некоторым совпадением: имитация , замена собственного стиля автора на чужой; перевод , применение машинного перевода в надежде, что это устранит характерный стиль в исходном тексте; и обфускация , намеренное изменение стиля текста, чтобы он не походил на собственный стиль автора. [36]

Ручное сокрытие стиля возможно, но трудоемко; [39] в некоторых обстоятельствах это предпочтительно или необходимо. [40] Автоматизированные инструменты, как полуавтоматические, так и полностью автоматические, могут помочь автору. [39] Как лучше всего выполнить задачу и разработать такие инструменты, является открытым исследовательским вопросом. [41] [35] Хотя было показано, что некоторые подходы способны победить определенные стилометрические анализы, [42] особенно те, которые не учитывают потенциальную состязательность, [43] установление безопасности перед лицом неизвестных анализов является проблемой. [44] Обеспечение верности парафраза является критической проблемой для автоматизированных инструментов. [35]

Неясно, можно ли обнаружить практику состязательной стилометрии как таковую. Некоторые исследования показали, что определенные методы производили сигналы в выходном тексте, но стилометрист, который не уверен в том, какие методы могли быть использованы, может не иметь возможности надежно обнаружить их. [35]

Текущие исследования

Современная стилометрия использует компьютеры для статистического анализа , а также искусственный интеллект и доступ к растущему корпусу текстов, доступных через Интернет . [45] Такие программные системы, как Signature [46] (бесплатное программное обеспечение, разработанное Питером Милликаном из Оксфордского университета), JGAAP [47] (программа атрибуции графического авторства Java — бесплатное программное обеспечение, разработанное доктором Патриком Юолой из Университета Дюкесна), stylo [48] [49] (открытый пакет R для различных стилометрических анализов, включая атрибуцию авторства, разработанный Мацеем Эдером, Яном Рыбицки и Майком Кестемонтом) и Stylene [50] для голландского языка (бесплатное онлайн-программное обеспечение, разработанное профессором Вальтером Далемансом из Университета Антверпена и доктором Вероник Хосте из Университета Гента) делают его использование все более практичным даже для неспециалистов.

Академические площадки и мероприятия

Стилометрические методы используются для нескольких академических тем, как приложение лингвистики, лексикографии или литературоведения [1] в сочетании с обработкой естественного языка и машинным обучением, а также применяются для обнаружения плагиата, анализа авторства или поиска информации. [45]

Судебная лингвистика

Международная ассоциация судебных лингвистов (IAFL) организует двухгодичную конференцию Международной ассоциации судебных лингвистов (13-е издание в 2016 году в Порту ) и издает Международный журнал речи, языка и права, одной из центральных тем которого является судебная стилистика .

АААИ

Ассоциация по развитию искусственного интеллекта (AAAI) провела несколько мероприятий по субъективному и стилистическому анализу текста. [51] [52] [53]

КАСТРЮЛЯ

Семинары PAN (первоначально анализ плагиата, определение авторства и обнаружение почти дубликатов, позднее более общий семинар по выявлению плагиата, авторства и неправомерного использования социального программного обеспечения) организуются с 2007 года в основном совместно с конференциями по доступу к информации, такими как ACM SIGIR , FIRE и CLEF . PAN формулирует общие сложные задачи для обнаружения плагиата, [54] определения авторства, [55] определения пола автора, [56] профилирования автора , [57] обнаружения вандализма, [58] и других связанных задач анализа текста, многие из которых основаны на стилометрии.

Примеры интереса

Данные и методы

Поскольку стилометрия имеет как описательные варианты использования, используемые для характеристики содержимого коллекции, так и идентификационные варианты использования, например, для идентификации авторов или категорий текстов, методы, используемые для анализа данных и признаков, указанных выше, варьируются от методов, созданных для классификации элементов в наборы или для распределения элементов в пространстве вариации признаков. Большинство методов являются статистическими по своей природе, например, кластерный анализ и дискриминантный анализ , обычно основаны на филологических данных и признаках и являются плодотворными областями применения для современных методов машинного обучения .

В то время как в прошлом стилометрия подчеркивала самые редкие или самые яркие элементы текста, современные методы могут изолировать идентифицирующие закономерности даже в распространенных частях речи. Большинство систем основаны на лексической статистике, т.е. используют частоты слов и терминов в тексте для характеристики текста (или его автора). В этом контексте, в отличие от поиска информации , наблюдаемые закономерности появления наиболее распространенных слов более интересны, чем тематические термины, которые встречаются реже. [91] [92]

Первичный стилометрический метод — инвариант писателя : свойство, общее для всех текстов или, по крайней мере, для всех текстов, достаточно длинных, чтобы допустить анализ, дающий статистически значимые результаты, написанных данным автором. Примером инварианта писателя является частота функциональных слов , используемых писателем.

В одном из таких методов текст анализируется для нахождения 50 наиболее распространенных слов. Затем текст делится на блоки по 5000 слов, и каждый из блоков анализируется для нахождения частоты этих 50 слов в этом блоке. Это генерирует уникальный идентификатор из 50 чисел для каждого блока. Эти числа помещают каждый блок текста в точку в 50-мерном пространстве. Это 50-мерное пространство сглаживается в плоскость с помощью анализа главных компонент (PCA). Это приводит к отображению точек, которые соответствуют стилю автора. Если два литературных произведения помещаются на одну плоскость, полученный шаблон может показать, были ли оба произведения написаны одним и тем же автором или разными авторами.

Гауссовская статистика

Стилометрические данные распределены в соответствии с законом Ципфа-Мандельброта . Распределение чрезвычайно остроконечное и лептокуртичное , поэтому исследователи не могли использовать статистику для решения, например, проблем атрибуции авторства. Тем не менее, использование гауссовой статистики вполне возможно путем применения преобразования данных . [93]

Нейронные сети

Нейронные сети , особый случай методов статистического машинного обучения, использовались для анализа авторства текстов. Тексты с бесспорным авторством используются для обучения нейронной сети с помощью таких процессов, как обратное распространение , так что ошибка обучения вычисляется и используется для обновления процесса с целью повышения точности. Благодаря процессу, похожему на нелинейную регрессию, сеть получает возможность обобщать свою способность распознавания на новые тексты, с которыми она еще не сталкивалась, классифицируя их с указанной степенью уверенности. Такие методы были применены к давним утверждениям о сотрудничестве Шекспира с его современниками Джоном Флетчером и Кристофером Марло , [94] [95] и подтвердили мнение, основанное на более традиционной науке, что такое сотрудничество действительно имело место.

Исследование 1999 года показало, что программа нейронной сети достигла 70% точности в определении авторства стихотворений, которые она еще не анализировала. Это исследование от Vrije Universiteit изучало идентификацию стихотворений трех голландских авторов, используя только последовательности букв, такие как «den». [96]

В исследовании использовались сети глубоких убеждений (DBN) для модели проверки авторства, применимой для непрерывной аутентификации (CA). [97]

Одной из проблем этого метода анализа является то, что сеть может стать предвзятой в зависимости от своего обучающего набора, возможно, выбирая авторов, которых сеть анализировала чаще. [96]

Генетические алгоритмы

Генетический алгоритм — это еще один метод машинного обучения, используемый для стилометрии. Он включает метод, который начинается с набора правил. Примером правила может быть: «Если but встречается более 1,7 раз в каждой тысяче слов, то текст принадлежит автору X». Программе предоставляется текст, и она использует правила для определения авторства. Правила проверяются на наборе известных текстов, и каждому правилу присваивается оценка пригодности. 50 правил с наименьшими оценками не используются. Оставшимся 50 правилам вносятся небольшие изменения, и вводятся 50 новых правил. Это повторяется до тех пор, пока развитые правила не будут правильно атрибутировать тексты.

Редкие пары

Один из методов определения стиля называется «редкие пары» и опирается на индивидуальные привычки словосочетания . Использование определенных слов может быть, для конкретного автора, идиосинкразически связано с использованием других, предсказуемых слов. [ необходима цитата ]

Атрибуция авторства в мгновенных сообщениях

Распространение Интернета сместило внимание к авторству в сторону онлайн-текстов (веб-страниц, блогов и т. д.), электронных сообщений (электронных писем, твитов, постов и т. д.) и других типов письменной информации, которые намного короче, чем средняя книга, гораздо менее формальны и более разнообразны с точки зрения выразительных элементов, таких как цвета , макет , шрифты , графика , смайлики и т. д. Попытки учесть такие аспекты на уровне как структуры, так и синтаксиса были описаны в [98] . Кроме того, были введены специфические для контента и идиосинкразические подсказки (например, тематические модели и инструменты проверки грамматики), чтобы раскрыть преднамеренный стилистический выбор. [99]

Стандартные стилометрические признаки использовались для категоризации содержимого чата по мгновенному обмену сообщениями [ 100] или поведению участников [101] , но попытки идентифицировать участников чата все еще немногочисленны и ранние. Более того, сходство между устными разговорами и взаимодействиями в чате игнорировалось, хотя это было основным различием между данными чата и любым другим типом письменной информации.

Смотрите также

Примечания

  1. ^ ab Argamon, Shlomo , Kevin Burns, and Shlomo Dubnov , eds. Структура стиля: алгоритмические подходы к пониманию манеры и смысла. Springer Science & Business Media, 2010.
  2. Уэсткотт, Ричард (15 июня 2006 г.). «Превращение хитовой музыки в науку». BBC News .
  3. ^ Sethi, Ricky (2016-06-07). «Использование компьютеров для лучшего понимания искусства». The Conversation . Получено 2021-12-01 .
  4. ^ Макилрой-Янг, Рид; Ван, Ю; Сен, Сиддхартха; Клейнберг, Джон; Андерсон, Эштон (2021). Определение индивидуального стиля принятия решений: исследование поведенческой стилометрии в шахматах. 35-я конференция по системам обработки нейронной информации.
  5. ^ Чен, Хсинчунь; Янг, Кристофер К.; Чау, Майкл; Ли, Шу-Хсин (2009). Разведывательная и информатическая безопасность: Азиатско-Тихоокеанский семинар, PAISI 2009, Бангкок, Таиланд, 27 апреля 2009 г. Труды . Берлин: Springer Science & Business Media. стр. 15. ISBN 9783642013928.
  6. Сэмюэл Шенбаум , Внутренние свидетельства и елизаветинское драматургическое авторство; эссе по истории литературы и методу, стр. 171.
  7. ^ Лютославский, В. (1898). «Принципы аппликационной стилиометрии в хронологии произведений Платона». Ревю греческих этюдов . 11 (41): 61–81. дои : 10.3406/reg.1898.5847. ISSN  0035-2039.
  8. Сэмюэл Шенбаум , Внутренние свидетельства и елизаветинское драматургическое авторство; эссе по истории литературы и методу, стр. 196.
  9. ^ Ф. Мостеллер и Д. Уоллес (1964). Вывод и спорное авторство: Федералист . Рединг, Массачусетс : Addison-Wesley .
  10. ^ Часки, Кэрол (2012). Солан, Лоуренс М.; Тирсма, Питер М. (ред.). Идентификация автора в судебной экспертизе. Oxford University Press. doi : 10.1093/oxfordhb/9780199572120.001.0001. ISBN 9780199572120. {{cite book}}: |journal=проигнорировано ( помощь )
  11. ^ Часки, Кэрол (22 декабря 2005 г.). Вехт, Сирил Х.; Раго, Джон Т. (ред.). Судебная экспертиза и право: следственное применение в уголовном, гражданском и семейном правосудии. CRC Press. ISBN 978-1-4200-5811-6.
  12. ^ Майкл Макферсон и Йоав Тирош (2020). «Стилометрический анализ саги о Светлове». Gripla . 31 : 7–41.
  13. ^ Хаукур Торгейрссон (2018). «Насколько похожи Heimskringla и Egils saga? Применение дельты Берроуза к исландским текстам». Европейский журнал скандинавских исследований . 48 (1): 1–18. doi : 10.1515/ejss-2018-0001 .
  14. ^ Сигурдур Ингибергур Бьёрнссон, Стейнгримур Палл Карасон и Йон Карл Хельгасон (2021). «Стилометрия и выцветшие отпечатки пальцев авторов саг»». В поисках виновника: аспекты средневекового авторства, под редакцией Лукаса Рёсли и Стефани Гроппер : 97–122. дои : 10.1515/9783110725339-005 . ISBN 9783110725339.{{cite journal}}: CS1 maint: несколько имен: список авторов ( ссылка )
  15. ^ Claburn, Thomas (16 марта 2018 г.). "FYI: Инструменты ИИ могут разоблачать анонимных кодеров из их исполняемых двоичных файлов". The Register . Получено 2 августа 2018 г.
  16. ^ Бенсалем, Имене; Россо, Паоло; Чихи, Салим (2019). «Об использовании n-грамм символов как единственного внутреннего доказательства плагиата». Языковые ресурсы и оценка . 53 (3): 363–396. doi :10.1007/s10579-019-09444-w. hdl : 10251/159151 . S2CID  86630897.
  17. ^ Бризан, Дэвид (октябрь 2015 г.). «Использование лингвистически улучшенной динамики нажатия клавиш для прогнозирования познавательных способностей и демографии машинистки». Международный журнал исследований взаимодействия человека и компьютера . 82 : 57–68. doi : 10.1016/j.ijhcs.2015.04.005.
  18. ^ Аликан, Неджип Фикри (2012). Переосмысление Платона: картезианский поиск настоящего Платона . Амстердам: Rodopi. стр. 183. ISBN 9789042035379.
  19. ^ Роу, Кристофер (2000). Кембриджская история греческой и римской политической мысли. Кембридж, Великобритания: Cambridge University Press. стр. 160. ISBN 0521481368.
  20. ^ Стамататос, Эфстатиос (2009). «Обзор современных методов атрибуции авторства». JASIST . 60 (3): 538–556. doi :10.1002/asi.21001. S2CID  6231242.
  21. ^ Стамататос, Эфстатиос (2018). «Маскировка тематической информации для улучшения атрибуции авторства». JASIS . 69 (3).
  22. ^ Карлгрен, Юсси; Эспозито, Льюис; Граттон, Шанталь; Канерва, Пентти (2018). «Профилирование авторства без использования тематической информации». Рабочие заметки CLEF . CEUR-WS.
  23. ^ Корбара, Сильвия; Морео, Алехандро; Себастьяни, Фабрицио (2022). «Силлабические количественные модели как ритмические особенности для атрибуции латинского авторства». JASIST . 74 : 128–141. arXiv : 2110.14203 . doi :10.1002/asi.24660. S2CID  239998537.
  24. ^ Корбара, Сильвия; Чульви, Берта; Россо, Паоло; Морео, Алехандро (2022). «Ритмические и психолингвистические особенности задач авторства в испанском парламенте: оценка и анализ». Экспериментальный IR встречает многоязычие, мультимодальность и взаимодействие . CLEF. Springer. стр. 79–92. doi :10.1007/978-3-031-13643-6_6.
  25. ^ Карлгрен, Юсси; Эрикссон, Гуннар (2007). «Авторы, жанр и лингвистическая конвенция». Семинар SIGIR по анализу плагиата, идентификации авторства и обнаружению почти дубликатов . SIGIR. PAN.
  26. ^ Эрикссон, Линда (2014). Последовательное агрегирование текстовых признаков для доменно-независимой идентификации автора (магистр наук). Королевский технологический институт KTH.
  27. ^ Менденхолл, TC (1887). «Характерные кривые состава». Science . 9 (214S): 237–246. doi :10.1126/science.ns-9.214S.237. PMID  17736020.
  28. ^ Чен, Бэйчен (2021). Вложения для книжных сходств (PDF) (магистр наук). Королевский технологический институт KTH.
  29. ^ Стамататос, Эфстатиос; Кестемонт, Майк; Креденс, Кшиштоф; Пезик, Петр; Хайни, Аннина (2022). «Обзор задачи проверки авторства на PAN 2022». В Faggioli; Ferro; Hanbury; Potthast (ред.). Лаборатории и семинары CLEF 2022, записные книжки. CEUR-WS . Получено 6 сентября 2022 г.
  30. ^ Нил и др. 2018, стр. 5.
  31. ^ Gröndahl & Asokan 2020a, с. 3.
  32. ^ Качмарчик и Гамон 2006, с. 444.
  33. ^ Махмуд и др. 2019, стр. 54.
  34. ^ Афроз, Бреннан и Гринштадт 2012, стр. 461.
  35. ^ abcd Gröndahl & Asokan 2020a, с. 28.
  36. ^ ab Нил и др. 2018, стр. 6.
  37. ^ Поттхаст, Хаген и Штейн, 2016, стр. 10.
  38. ^ Саеди и Драс 2020, стр. 181.
  39. ^ ab Gröndahl & Asokan 2020a, с. 21-22.
  40. ^ Ван, Юола и Ридделл 2022, стр. 2.
  41. ^ Нил и др. 2018, стр. 27.
  42. ^ Бреннан, Афроз и Гринштадт 2012, стр. 2.
  43. ^ Чжай и др. 2022, стр. 7373.
  44. ^ Эммери, Кадар и Хрупала 2021, с. 2388-2389.
  45. ^ ab Argamon, Shlomo , Jussi Karlgren и James G. Shanahan. Стилистический анализ текста для доступа к информации. Доклады с семинара, проведенного совместно с 28-й ежегодной международной конференцией ACM по исследованиям и разработкам в области информационного поиска, 13–19 августа 2005 г., Сальвадор, Баия, Бразилия. Шведский институт компьютерных наук, 2005 г.
  46. ^ "The Signature Stylometric System". PhiloComp . Получено 2014-01-03 .
  47. ^ "JGAAP". JGAAP. 2012-09-04 . Получено 2012-10-15 .
  48. ^ ab "The stylo for R package". Computational Stylistics Group. 2014-10-24. Архивировано из оригинала 2014-12-21 . Получено 2014-10-24 .
  49. ^ Эдер, Мачей; Рыбицкий, Ян; Кестемонт, Майк (2016). «Стилометрия с R: пакет для вычислительного анализа текста» (PDF) . R Journal . 8 (1): 107–121. doi : 10.32614/RJ-2016-007 .
  50. ^ Daelemans, Walter & Hoste, Véronique (2013). STYLENE: среда для исследования стилометрии и читабельности для голландского языка (технический отчет). Серия технических отчетов CLiPS. ISSN  2033-3544.
  51. ^ Ян Ку, Джеймс Г. Шанахан и Джанис Вибе . «Изучение отношения и аффекта в тексте: теории и приложения». Технический отчет весеннего симпозиума AAAI SS-04-07. AAAI Press, Менло-Парк, Калифорния. 2004.
  52. ^ Юсси Карлгрен , Бьорн Гамбек и Пентти Канерва . «Приобретение (и использование) лингвистических (и мировых) знаний для доступа к информации». (2002). Весенний симпозиум AAAI. Технический отчет SS-02-09. AAAI Press, Менло-Парк, Калифорния. 2002.
  53. ^ Шломо Аргамон , Шломо Дубнов и Джули Юпп. «Стиль и значение в языке, искусстве, музыке и дизайне» (2004). Осенний симпозиум AAAI. Технический отчет FS-04-07.
  54. ^ Поттхаст, Мартин, Бенно Штайн, Альберто Баррон-Седеньо и Паоло Россо. «Система оценки для обнаружения плагиата». В Трудах 23-й международной конференции по компьютерной лингвистике: Постеры, стр. 997–1005. Ассоциация компьютерной лингвистики, 2010.
  55. ^ Стамататос, Эфстатиос, Уолтер Далеманс, Бен Верховен, Патрик Хуола, Аурелио Лопес-Лопес, Мартин Поттаст и Бенно Штайн. «Обзор задачи по идентификации автора на PAN 2014». В CLEF (Рабочие заметки), стр. 877–897. 2014.
  56. ^ Ранхел, Франциско, Паоло Россо, Мартин Поттхаст и Бенно Штайн. «Обзор 5-й задачи по профилированию авторов на конференции 2017: идентификация пола и языкового разнообразия в Twitter». Рабочие заметки CLEF (2017).
  57. ^ Ранхель Пардо, Франциско Мануэль, Фабио Челли, Паоло Россо, Мартин Поттхаст, Бенно Штайн и Уолтер Даэлеманс. «Обзор 3-й задачи по профилированию авторов на PAN 2015». В CLEF 2015 Evaluation Labs and Workshop Working Notes Papers, стр. 1–8. 2015.
  58. ^ Поттхаст, Мартин, Бенно Штайн и Тереза ​​Холфельд. ​​«Обзор 1-го международного конкурса по обнаружению вандализма в Википедии». В CLEF (Notebook Papers/LABs/Workshops). 2010.
  59. ^ Обработка текста, анализ и генерация текста – типология текста и атрибуция. Материалы Нобелевского симпозиума 51. Под редакцией Стуре Аллена . Стокгольм: Almqvist & Wiksell International, 1982. Data лингвистика, 16. Нобелевский симпозиум, 51. ISBN 91-22-00594-3 . 
  60. ^ Карлгрен, Юсси (2003). "Helander: An Authorship Attribution Case" . Получено 4 октября 2017 г.
  61. ^ Airoldi, Edoardo M .; Fienberg, Stephen E.; Skinner, Kiron K. (июль 2007 г.). «Чьи идеи? Чьи слова? Авторство радиообращений Рональда Рейгана» (PDF) . PS: Политология и политика . 40 (3): 501–506. CiteSeerX 10.1.1.190.5798 . doi :10.1017/S1049096507070874. S2CID  18730541. 
  62. Автор неизвестен. Салон Гэвина Макнетта, 2 ноября 2000 г.
  63. Беллак, Пэм (10 апреля 1996 г.). «В деле Унабома — боль для семьи подозреваемого». The New York Times . Архивировано из оригинала 10 августа 2017 г. Получено 5 июля 2008 г.
  64. ^ «Исследование показало, что спорная пьеса Шекспира носит клеймо мастера». Los Angeles Times . 2015-04-10 . Получено 2015-04-13 .
  65. ^ Boyd, Ryan L.; Pennebaker, James W. (2015). «Писал ли Шекспир двойную ложь? Идентификация личностей путем создания психологических подписей с помощью анализа текста». Psychological Science . 26 (5): 570–582. doi :10.1177/0956797614566658. PMID  25854277. S2CID  13022405.
  66. ^ Джексон, Макдональд П. (27 апреля 2016 г.). Кто написал «Ночь перед Рождеством»? Анализ вопроса Клемента Кларка Мура против Генри Ливингстона . McFarland & Co. ISBN 978-1476664439.
  67. ^ Фуллер, Саймон; О'Салливан, Джеймс (2017). «Структура превыше стиля: совместное авторство и возрождение литературного капитализма». Digital Humanities Quarterly . 11 (1) . Получено 20 апреля 2017 г. .
  68. ^ Лейн, Энтони (18 июня 2018 г.). «Поразительное сотрудничество Билла Клинтона и Джеймса Паттерсона». The New Yorker . Получено 07.06.2018 .
  69. ^ «Почему вам не нужно много писать, чтобы стать автором бестселлеров в мире». The Conversation . 3 апреля 2017 г. Получено 20 апреля 2017 г.
  70. ^ О'Салливан, Джеймс (2018-06-07). «Билл Клинтон и Джеймс Паттерсон являются соавторами — но кто написал?». The Guardian . Получено 2018-06-07 .
  71. ^ Савой, Жак (2018). «Действительно ли Старноне является автором Ферранте?». Цифровая наука в области гуманитарных наук . 33 (4): 902–918. doi :10.1093/llc/fqy016.
  72. ^ Рюэлл, Питер: «Вы говорите Джон, я говорю Пол. Но что говорит стилометрия?»
  73. ^ Гликман, Марк; Браун, Джейсон; Сонг, Райан (2019). «(A) Данные в жизни: атрибуция авторства в песнях Леннона-Маккартни». Harvard Data Science Review . 1 (1). arXiv : 1906.05427 . doi : 10.1162/99608f92.130f856e . S2CID  189762434.
  74. ^ Проект ETSO.
  75. ^ "Un monstruo de la naturaleza llamado Lope" [Чудовище природы по имени Лопе]. abc (на испанском языке). 28.11.2018 . Проверено 11 августа 2019 г.
  76. ^ "Rastreadores digitales en el Siglo de Oro" [Цифровые трекеры в Золотой век]. Эль-Норте-де-Кастилия (на испанском языке). 23 декабря 2018 г. Проверено 11 августа 2019 г.
  77. ^ Реал, Ла Трибуна де Сьюдад (09 июля 2019 г.). «Хуан Руис де Аларкон aumenta su obra cinco siglos después» [Хуан Руис де Аларкон увеличивает свою работу пять столетий спустя]. La Tribuna de Ciudad Real (на испанском языке) . Проверено 11 августа 2019 г.
  78. Мигеланьес, Даниэль (28 июля 2019 г.). «Эль Холмс де ла филология». PSOE Чамбери . № 6. с. 8. Архивировано из оригинала 18 июля 2020 г. Проверено 11 августа 2019 г.
  79. ^ "Сор Хуана Инес в центре 42 Хорнадас де Театро Класико" . Lanza Digital (на европейском испанском языке). 14 июля 2019 г. Проверено 11 августа 2019 г.
  80. ^ «'La monja alférez' ya no es de Pérez de Montalbán, sino de Ruiz de Alarcón» ['La monja alférez' больше не принадлежит Пересу де Монтальбану, а принадлежит Руису де Аларкону]. Эль-Норте-де-Кастилия (на испанском языке). 10 июля 2019 г. Проверено 11 августа 2019 г.
  81. ^ «Искусственный интеллект помог найти выдающегося испанского драматурга Лопе де Вегу как автора пьесы по рукописи, написанной спустя годы после его смерти». newsendip.com . 31 января 2023 г. . Получено 8 февраля 2023 г. .
  82. ^ Джонс, Сэм (5 февраля 2023 г.). «Искусственный интеллект раскрывает утерянную работу титана испанского «золотого века»». The Guardian . Получено 8 февраля 2023 г.
  83. ^ Моралес, Мануэль (31 января 2023 г.). «La inteligencia Artificial atribuye a Lope de Vega una obra anónima del Fondo de Manuscritos de la Biblioteca Nacional» [Искусственный интеллект приписывает Лопе де Веге анонимное произведение из коллекции рукописей Национальной библиотеки]. Эль Паис (на испанском языке) . Проверено 8 февраля 2023 г.
  84. ^ Маккарти, Рэйчел; О'Салливан, Джеймс (2020). «Кто написал «Грозовой перевал»?». Цифровая наука в области гуманитарных наук . 36 (2): 383–391. doi :10.1093/llc/fqaa031. hdl : 10468/10194 .
  85. ^ Ильсеманн, Хармут (2020) «Призрак Марлоу: Paradigmenwechsel в Autorschaftsbestimmungen des English Renaissancedramas». Дюрен: Шейкер, ISBN 978-3-8440-7412-3
  86. ^ Ильземанн, Хармут (2020). «Возвращение к корпусу Марло». Цифровая наука в области гуманитарных наук . 36 (2): 333–360. doi :10.1093/llc/fqaa010.
  87. ^ Ильземанн, Хармут (2021). «Краткое дополнение к «The Marlowe Corpus Revisited» и «Phantom Marlowe». Цифровая наука в области гуманитарных наук . 37 (2): 462–468. doi :10.1093/llc/fqab078.
  88. ^ Ребора, Симоне и Сальгаро, Массимо (2022). «Является ли Феликс Зальтен автором романа Муценбахера (1906)? Да и нет» . Язык и литература: Международный журнал стилистики . 31 (2): 243–264. doi :10.1177/09639470221090384. S2CID  248135373.{{cite journal}}: CS1 maint: несколько имен: список авторов ( ссылка )
  89. ^ AI avslöjar: Läckberg har antagligen spökskrivare – skjuter ned anklagelserna. Hufvudstadsbladet , 27 сентября 2023 г. (на шведском языке).
  90. ^ "Läckberg om rykterna: 'Han petade i meningarna'" . Hufvudstadsbladet (на шведском языке). Гельсингфорс. 21 декабря 2023 г. с. 23.
  91. ^ Бибер, Дуглас. Различия в устной и письменной речи. Cambridge University Press, 1991.
  92. ^ Карлгрен, Юсси ; Каттинг, Дугласс (1994). «Распознавание жанров текста с помощью простых метрик с использованием дискриминантного анализа». Труды 15-й конференции по компьютерной лингвистике - . Том 2. стр. 1071. arXiv : cmp-lg/9410008 . Bibcode :1994cmp.lg...10008K. doi :10.3115/991250.991324. S2CID  1297432.
  93. ^ Ван Дроогенбрук Ф.Дж., «Необходимая перефразировка закона Ципфа-Мандельброта для решения задач атрибуции авторства с помощью гауссовой статистики» (2019).
  94. ^ Мэтьюз, Роберт А. Дж.; Мерриам, Томас В. Н. (1993). «Нейронные вычисления в стилометрии I: применение к работам Шекспира и Флетчера». Литературные и лингвистические вычисления . 8 (4): 203–209. doi :10.1093/llc/8.4.203.
  95. ^ Merriam, Thomas V. N; Matthews, Robert AJ (1994). «Нейронные вычисления в стилометрии II: применение к произведениям Шекспира и Марло». Литературные и лингвистические вычисления . 9 (1): 1–6. doi :10.1093/llc/9.1.1.
  96. ^ ab JF Hoorn; SL Frank; W Kowalczyk; F van der Ham (2012-09-03). "Нейросетевая идентификация поэтов с использованием последовательностей букв". Литературные и лингвистические вычисления . 14 (3): 311–338. doi :10.1093/llc/14.3.311.
  97. ^ Брокардо, М. Л.; Траоре, И.; Вунганг, И.; Обайдат, М. С. (2017). «Проверка авторства с использованием систем глубоких убеждений». Int J Commun Syst . 30 (12): e3259. doi :10.1002/dac.3259. S2CID  40745740.
  98. ^ de Vel, O.; Anderson, A.; Corney, M.; Mohay, G. (2001-12-01). «Изучение содержимого электронной почты для криминалистики идентификации автора». SIGMOD Rec . 30 (4): 55–64. CiteSeerX 10.1.1.408.4231 . doi :10.1145/604264.604272. ISSN  0163-5808. S2CID  1623521. 
  99. ^ Аргамон, Шломо; Коппель, Моше; Пеннебейкер, Джеймс У.; Шлер, Джонатан (01.02.2009). «Автоматическое профилирование автора анонимного текста». Commun. ACM . 52 (2): 119–123. CiteSeerX 10.1.1.136.9952 . doi :10.1145/1461928.1461959. ISSN  0001-0782. S2CID  5413411. 
  100. ^ «Классификация мгновенных сообщений для судебно-медицинского анализа – TechRepublic». TechRepublic . Получено 26.01.2016 .
  101. ^ Чжоу, Л.; Чжан, Донгсонг (2004-01-01). «Может ли поведение в сети раскрыть обманщиков? — исследовательское исследование обмана в мгновенных сообщениях». 37-я ежегодная Гавайская международная конференция по системным наукам, 2004. Труды . стр. 9 стр.–. doi :10.1109/HICSS.2004.1265079. ISBN 978-0-7695-2056-8. S2CID  7154702.

Ссылки

Дальнейшее чтение

См. также академический журнал Literary and Linguistic Computing , теперь Digital Scholarship in the Humanities (издается Оксфордским университетом ) и журнал Language Resources and Evaluation (ранее Computers and the Humanities ).

Внешние ссылки