Изучение стиля письма
Стилометрия — это приложение изучения лингвистического стиля , обычно к письменному языку. [1] Она также успешно применялась к музыке, [2] живописи, [3] и шахматам. [4]
Стилометрия часто используется для установления авторства анонимных или спорных документов. [5] Она имеет как юридическое , так и академическое и литературное применение, начиная от вопроса об авторстве произведений Шекспира и заканчивая судебной лингвистикой , и имеет методологическое сходство с анализом читаемости текста .
Стилометрия может использоваться для разоблачения псевдонимных или анонимных авторов или для раскрытия некоторой информации об авторе, не являющейся полной идентификацией. Авторы могут использовать состязательную стилометрию, чтобы противостоять этой идентификации, устраняя свои собственные стилистические характеристики, не меняя содержательного содержания своих сообщений. Она может победить анализы, которые не учитывают ее возможность, но окончательная эффективность стилометрии в состязательной среде неопределенна: стилометрическая идентификация может быть ненадежной, но и неидентификация не может быть гарантирована; сама практика состязательной стилометрии может быть обнаружена.
История
Стилометрия возникла из более ранних методов анализа текстов для подтверждения подлинности, идентификации автора и решения других вопросов.
Современная практика этой дисциплины получила известность благодаря изучению проблем авторства в английской драме эпохи Возрождения. Исследователи и читатели заметили, что некоторые драматурги той эпохи имели отличительные образцы языковых предпочтений, и попытались использовать эти образцы для идентификации авторов неопределенных или совместных работ. Ранние попытки не всегда были успешными: в 1901 году один исследователь попытался использовать предпочтение Джона Флетчера к « 'em», сокращенной форме «them», в качестве маркера для различения Флетчера и Филиппа Массинджера в их совместных работах, но он по ошибке использовал издание работ Массинджера, в котором редактор расширил все случаи « 'em» до «them». [6]
Основы стилометрии были установлены польским философом Винцентием Лютославским в «Принципах стилометрии» (1890). Лютославский использовал этот метод для разработки хронологии « Диалогов» Платона . [7]
Развитие компьютеров и их возможностей для анализа больших объемов данных увеличило этот тип усилий на порядки. Однако большие возможности компьютеров для анализа данных не гарантировали хорошего качества результата. В начале 1960-х годов преподобный А. К. Мортон провел компьютерный анализ четырнадцати Посланий Нового Завета, приписываемых Святому Павлу, который показал, что шесть разных авторов написали этот корпус работ. Проверка его метода, примененного к произведениям Джеймса Джойса , дала результат, что «Улисс », многоперспективный, многостилевой роман Джойса, был написан пятью отдельными людьми, ни один из которых, по-видимому, не принимал участия в создании первого романа Джойса, « Портрет художника в юности» . [8]
Однако со временем и с практикой исследователи и ученые усовершенствовали свои методы, чтобы получить лучшие результаты. Одним из заметных ранних успехов стало разрешение спорного авторства двенадцати « Федералиста» Фредерика Мостеллера и Дэвида Уоллеса. [9]
Хотя все еще существуют вопросы относительно первоначальных предположений и методов (и, возможно, всегда будут), мало кто сейчас оспаривает основную предпосылку, что лингвистический анализ письменных текстов может дать ценную информацию и понимание. (Действительно, это было очевидно еще до появления компьютеров: успешное применение текстового/лингвистического анализа к канону Флетчера Сайрусом Хоем и другими дало четкие результаты в конце 1950-х и начале 1960-х годов.)
Приложения
Применение стилометрии включает литературные исследования, исторические исследования, социальные исследования, поиск информации и множество судебных дел и исследований. [10] [11] В последнее время давние дебаты об анонимных средневековых исландских сагах получили дальнейшее развитие благодаря ее использованию. [12] [13] [14] Ее также можно применять к компьютерному коду [15] и внутреннему обнаружению плагиата , которое заключается в обнаружении плагиата на основе изменений стиля письма в документе. [16] Стилометрию также можно использовать для определения того, является ли человек носителем английского языка или нет, по его скорости печати . [17]
Стилометрия как метод уязвима к искажению текста во время редактирования. [18] Также есть случай, когда автор принимает разные стили в ходе своей карьеры, как это было продемонстрировано в случае Платона , который выбирал разные стилистические политики, такие как те, которые были приняты для ранних и средних диалогов, затрагивающих проблему Сократа. [19]
Функции
Текстовые признаки, представляющие интерес для атрибуции авторства, с одной стороны, вычисляют вхождения идиосинкразических выражений или конструкций (например, проверка того, как автор использует интерпунктуру или как часто автор использует пассивные конструкции без агента), а с другой стороны, аналогичны признакам, используемым для анализа читабельности, таким как меры лексической вариативности и синтаксической вариативности. [20]
Поскольку авторы часто имеют предпочтения в отношении определенных тем, исследовательские эксперименты по атрибуции авторства в основном удаляют содержательные слова, такие как существительные, прилагательные и глаголы, из набора признаков, сохраняя только структурные элементы текста, чтобы избежать чрезмерного соответствия своих моделей теме, а не характеристикам автора. [21] [22]
Стилистические признаки часто вычисляются как средние значения по тексту или по всему собранию работ автора, что дает такие меры, как средняя длина слова или средняя длина предложения. Это позволяет модели идентифицировать авторов, которые явно отдают предпочтение многословным или кратким предложениям, но скрывают вариации: автор с сочетанием длинных и коротких предложений будет иметь тот же средний показатель, что и автор с постоянными предложениями средней длины. Чтобы зафиксировать такую вариацию, некоторые эксперименты используют последовательности или шаблоны вместо наблюдений, а не средние наблюдаемые частоты, отмечая, например, что автор проявляет предпочтение определенному ударению или шаблону акцента, [23] [24]
или что автор имеет тенденцию следовать за последовательностью длинных предложений коротким. [25] [26]
Можно сказать, что один из первых подходов к идентификации авторства, предложенный Менденхоллом, заключается в объединении наблюдений без их усреднения. [27]
Более поздние модели атрибуции авторства используют модели векторного пространства для автоматического захвата особенностей стиля автора, но они также полагаются на разумную разработку признаков по тем же причинам, что и более традиционные модели. [28] [29]
Состязательная стилометрия
Состязательная стилометрия — это практика изменения стиля письма для снижения вероятности раскрытия стилометрией личности автора или его характеристик. Эта задача также известна как запутывание авторства или анонимизация авторства. Стилометрия представляет собой значительную проблему конфиденциальности в своей способности разоблачать анонимных авторов или связывать псевдонимы с другими личностями автора, что, например, создает трудности для осведомителей , активистов, а также мистификаторов и мошенников . Ожидается, что риск конфиденциальности будет расти по мере развития методов машинного обучения и текстовых корпусов .
Вся состязательная стилометрия разделяет основную идею точного перефразирования исходного текста таким образом, чтобы значение оставалось неизменным, но стилистические сигналы были скрыты. Такой точный перефраз является состязательным примером для стилометрического классификатора. Существует несколько широких подходов к этому, с некоторым совпадением: имитация , замена собственного стиля автора на чужой; перевод , применение машинного перевода в надежде, что это устранит характерный стиль в исходном тексте; и обфускация , намеренное изменение стиля текста, чтобы он не походил на собственный стиль автора.
Ручное сокрытие стиля возможно, но трудоемко; в некоторых обстоятельствах это предпочтительно или необходимо. Автоматизированные инструменты, как полуавтоматические, так и полностью автоматические, могут помочь автору. Как лучше всего выполнить задачу и разработать такие инструменты, является открытым исследовательским вопросом. Хотя было показано, что некоторые подходы способны победить определенные стилометрические анализы, особенно те, которые не учитывают потенциальную состязательность, установление безопасности перед лицом неизвестных анализов является проблемой. Обеспечение верности парафраза является критической проблемой для автоматизированных инструментов.
Неясно, можно ли обнаружить практику состязательной стилометрии как таковую. Некоторые исследования показали, что определенные методы производили сигналы в выходном тексте, но стилометрист, который не уверен в том, какие методы могли быть использованы, может не иметь возможности надежно обнаружить их.
Текущие исследования
Современная стилометрия использует компьютеры для статистического анализа , а также искусственный интеллект и доступ к растущему корпусу текстов, доступных через Интернет . [45] Такие программные системы, как Signature [46] (бесплатное программное обеспечение, разработанное Питером Милликаном из Оксфордского университета), JGAAP [47] (программа атрибуции графического авторства Java — бесплатное программное обеспечение, разработанное доктором Патриком Юолой из Университета Дюкесна), stylo [48] [49] (открытый пакет R для различных стилометрических анализов, включая атрибуцию авторства, разработанный Мацеем Эдером, Яном Рыбицки и Майком Кестемонтом) и Stylene [50] для голландского языка (бесплатное онлайн-программное обеспечение, разработанное профессором Вальтером Далемансом из Университета Антверпена и доктором Вероник Хосте из Университета Гента) делают его использование все более практичным даже для неспециалистов.
Академические площадки и мероприятия
Стилометрические методы используются для нескольких академических тем, как приложение лингвистики, лексикографии или литературоведения [1] в сочетании с обработкой естественного языка и машинным обучением, а также применяются для обнаружения плагиата, анализа авторства или поиска информации. [45]
Судебная лингвистика
Международная ассоциация судебных лингвистов (IAFL) организует двухгодичную конференцию Международной ассоциации судебных лингвистов (13-е издание в 2016 году в Порту ) и издает Международный журнал речи, языка и права, одной из центральных тем которого является судебная стилистика .
АААИ
Ассоциация по развитию искусственного интеллекта (AAAI) провела несколько мероприятий по субъективному и стилистическому анализу текста. [51] [52] [53]
КАСТРЮЛЯ
Семинары PAN (первоначально анализ плагиата, определение авторства и обнаружение почти дубликатов, позднее более общий семинар по выявлению плагиата, авторства и неправомерного использования социального программного обеспечения) организуются с 2007 года в основном совместно с конференциями по доступу к информации, такими как ACM SIGIR , FIRE и CLEF . PAN формулирует общие сложные задачи для обнаружения плагиата, [54] определения авторства, [55] определения пола автора, [56] профилирования автора , [57] обнаружения вандализма, [58] и других связанных задач анализа текста, многие из которых основаны на стилометрии.
Примеры интереса
- В 1439 году Лоренцо Валла доказал, что « Дар Константина» является подделкой , отчасти основываясь на сравнении латыни с текстом подлинных документов IV века.
- В 1952 году шведский священник Дик Хеландер был избран епископом Стренгнеса . Кампания была конкурентной, и Хеландер был обвинен в написании серии из сотни анонимных клеветнических писем о других кандидатах в избирательный округ епископства Стренгнеса. Хеландер был сначала осужден за написание писем и потерял свою должность епископа, но позже частично оправдан. Письма были изучены с использованием ряда стилометрических мер (а также характеристик пишущей машинки), а различные судебные дела и дальнейшие экспертизы, многие из которых были проведены самим Хеландером в течение многих лет до его смерти в 1978 году, обсуждали стилометрический метод и его ценность как доказательства в некоторых деталях. [59] [60]
- В 1975 году, после того как Рональд Рейган был губернатором Калифорнии, он начал давать еженедельные радиокомментарии, транслируемые сотнями станций. После того, как его личные заметки были обнародованы в день его 90-летия в 2001 году, исследование использовало стилостатистические методы, чтобы определить, какие из этих речей были написаны им, а какие — его помощниками. [61]
- В 1996 году стилометрический анализ противоречивой книги «Основные цвета» , написанной под псевдонимом, проведенный профессором колледжа Вассар Дональдом Фостером [62], привлек внимание широкой аудитории к этой теме после того, как автор был правильно идентифицирован как Джо Кляйн . (Этот случай был разрешен только после того, как анализ почерка подтвердил авторство.)
- В 1996 году стилометрические методы были использованы для сравнения манифеста Унабомбера с письмами, написанными одним из подозреваемых, Теодором Качиньским , что привело к задержанию Качиньского и его последующему осуждению. [63]
- В апреле 2015 года исследователи, использовавшие методы стилометрии, идентифицировали пьесу «Двойная ложь» как произведение Уильяма Шекспира . [64] [65] Исследователи проанализировали 54 пьесы Шекспира и Джона Флетчера , сравнили среднюю длину предложений, изучили использование необычных слов и количественно оценили сложность и психологическую валентность их языка.
- В 2016 году Макдональд П. Джексон , почетный профессор английского языка в Университете Окленда , Новая Зеландия, и член Королевского общества Новой Зеландии , который всю свою академическую карьеру посвятил анализу атрибуции авторства, написал книгу под названием « Кто написал «Ночь перед Рождеством»?: Анализ вопроса Клемента Кларка Мура против Генри Ливингстона» [66] , в которой он оценивает противоположные аргументы и впервые использует методы атрибуции автора современной вычислительной стилистики для изучения давнего спора. Джексон использует ряд тестов и вводит новый — статистический анализ фонем; он приходит к выводу, что Ливингстон является истинным автором классического произведения.
- В 2017 году Саймон Фуллер и Джеймс О'Салливан опубликовали исследование, в котором утверждалось, что автор бестселлеров Джеймс Паттерсон не пишет ничего в своих, по-видимому, соавторских романах. [67] [68] [69] По словам О'Салливана, его сотрудничество с бывшим президентом США Биллом Клинтоном , «Президент пропал» , является исключением из этого правила. [70]
- В 2017 году группа лингвистов, компьютерных специалистов и ученых проанализировала авторство Елены Ферранте . На основе корпуса, созданного в Университете Падуи, содержащего 150 романов, написанных 40 авторами, они проанализировали стиль Ферранте на основе семи из ее романов. Они смогли сравнить ее стиль письма с 39 другими романистами, используя, например, стило. [48] Вывод был одинаковым для всех: Доменико Старноне является тайным автором Елены Ферранте. [71]
- В 2018 году Марк Гликман , старший преподаватель статистики Гарвардского университета, работал с Райаном Сонгом, бывшим студентом статистики Гарварда, и Джейсоном Брауном, профессором Университета Далхаузи в Новой Шотландии, применяя стилометрию, чтобы обнаружить, что, скорее всего, песня The Beatles « In My Life » была написана Джоном Ленноном, но с вероятностью 50% Пол Маккартни написал среднюю восьмую . [72] [73]
- В 2019 году проект ETSO: Stylometry applied to the Spanish Golden Age Theater [74] под руководством Альваро Куэльяра Гонсалеса [исп] и Германа Веги Гарсии-Луэнгоса (Университет Вальядолида) сумел собрать 3000 пьес испанского Золотого века. После применения стилометрического анализа была подтверждена атрибуция Mujeres y criados Лопе де Веге [75] [76] , а также была обнаружена проблема авторства в La monja alférez , пьесе, приписываемой Пересу де Монтальбану, которая благодаря этим анализам и историко-филологическим исследованиям в конечном итоге была приписана Хуану Руису де Аларкону . [77] [78] [79] [80] В 2023 году тот же проект обнаружил Лопе де Вегу как автора La francesa Laura (Француженка Лаура), несмотря на то, что рукопись была написана спустя годы после его смерти. [81] Комедия была классифицирована как позднее произведение Лопе де Веги и датирована периодом с 1628 по 1630 год, поскольку ее лестное отношение к Франции можно было отнести к кратковременным хорошим отношениям между Испанией и Францией во время Тридцатилетней войны , когда Англия была общим врагом. [82] В этом анализе 500 наиболее часто встречающихся слов исследуемого текста сравниваются с 500 словами остальных произведений. В случае с La francesa Laura обнаружение обнаружило, что 100 произведений, с которыми он был наиболее близок, почти все были написаны Лопе де Вегой. Методы машинного обучения, такие как анализ опорных векторов , также проводились с большим диапазоном параметров. Традиционный филологический анализ авторства произведений подтвердил исследования стилометрии и искусственного интеллекта. [83]
- В 2020 году Рэйчел Маккарти и Джеймс О'Салливан утверждали, что Эмили Бронте является истинным автором «Грозового перевала» , положив конец предположениям некоторых критиков о том, что роман мог быть написан одним из ее братьев и сестер, а именно Бранвеллом или Шарлоттой . [84]
- В 2020 году Хартмут Ильземанн использовал Rolling Delta и Rolling Classify из пакета программ R Stylo, чтобы показать, что корпус Марло стилистически неоднороден и что автор двух «Тамерланов» едва ли присутствовал в оставшемся официальном корпусе Марло. [85] [86] [87]
- В 2022 году итальянские ученые Симоне Ребора и Массимо Сальгаро показали, используя метод «дельта-расстояния» Джона Ф. Берроуза, что Феликс Сальтен является наиболее вероятным автором анонимного романа «Жозефина Муценбахер» 1906 года, за исключением последних страниц. [88]
- В 2023 году шведский журналист Лапо Лаппин заявил, что два криминальных романа шведской писательницы Камиллы Лэкберг могут быть работой писателя-призрака, предположительно ее редактора Паскаля Энгмана . Это утверждение сначала опровергалось автором и ее представителем, [89] но позже Лэкберг признала, что она и Паскаль Энгман очень тесно сотрудничают, и он редактирует ее тексты. [90]
Данные и методы
Поскольку стилометрия имеет как описательные варианты использования, используемые для характеристики содержимого коллекции, так и идентификационные варианты использования, например, для идентификации авторов или категорий текстов, методы, используемые для анализа данных и признаков, указанных выше, варьируются от методов, созданных для классификации элементов в наборы или для распределения элементов в пространстве вариации признаков. Большинство методов являются статистическими по своей природе, например, кластерный анализ и дискриминантный анализ , обычно основаны на филологических данных и признаках и являются плодотворными областями применения для современных методов машинного обучения .
В то время как в прошлом стилометрия подчеркивала самые редкие или самые яркие элементы текста, современные методы могут изолировать идентифицирующие закономерности даже в распространенных частях речи. Большинство систем основаны на лексической статистике, т.е. используют частоты слов и терминов в тексте для характеристики текста (или его автора). В этом контексте, в отличие от поиска информации , наблюдаемые закономерности появления наиболее распространенных слов более интересны, чем тематические термины, которые встречаются реже. [91] [92]
Первичный стилометрический метод — инвариант писателя : свойство, общее для всех текстов или, по крайней мере, для всех текстов, достаточно длинных, чтобы допустить анализ, дающий статистически значимые результаты, написанных данным автором. Примером инварианта писателя является частота функциональных слов , используемых писателем.
В одном из таких методов текст анализируется для нахождения 50 наиболее распространенных слов. Затем текст делится на блоки по 5000 слов, и каждый из блоков анализируется для нахождения частоты этих 50 слов в этом блоке. Это генерирует уникальный идентификатор из 50 чисел для каждого блока. Эти числа помещают каждый блок текста в точку в 50-мерном пространстве. Это 50-мерное пространство сглаживается в плоскость с помощью анализа главных компонент (PCA). Это приводит к отображению точек, которые соответствуют стилю автора. Если два литературных произведения помещаются на одну плоскость, полученный шаблон может показать, были ли оба произведения написаны одним и тем же автором или разными авторами.
Гауссовская статистика
Стилометрические данные распределены в соответствии с законом Ципфа-Мандельброта . Распределение чрезвычайно остроконечное и лептокуртичное , поэтому исследователи не могли использовать статистику для решения, например, проблем атрибуции авторства. Тем не менее, использование гауссовой статистики вполне возможно путем применения преобразования данных . [93]
Нейронные сети
Нейронные сети , особый случай методов статистического машинного обучения, использовались для анализа авторства текстов. Тексты с бесспорным авторством используются для обучения нейронной сети с помощью таких процессов, как обратное распространение , так что ошибка обучения вычисляется и используется для обновления процесса с целью повышения точности. Благодаря процессу, похожему на нелинейную регрессию, сеть получает возможность обобщать свою способность распознавания на новые тексты, с которыми она еще не сталкивалась, классифицируя их с указанной степенью уверенности. Такие методы были применены к давним утверждениям о сотрудничестве Шекспира с его современниками Джоном Флетчером и Кристофером Марло , [94] [95] и подтвердили мнение, основанное на более традиционной науке, что такое сотрудничество действительно имело место.
Исследование 1999 года показало, что программа нейронной сети достигла 70% точности в определении авторства стихотворений, которые она еще не анализировала. Это исследование от Vrije Universiteit изучало идентификацию стихотворений трех голландских авторов, используя только последовательности букв, такие как «den». [96]
В исследовании использовались сети глубоких убеждений (DBN) для модели проверки авторства, применимой для непрерывной аутентификации (CA). [97]
Одной из проблем этого метода анализа является то, что сеть может стать предвзятой в зависимости от своего обучающего набора, возможно, выбирая авторов, которых сеть анализировала чаще. [96]
Генетические алгоритмы
Генетический алгоритм — это еще один метод машинного обучения, используемый для стилометрии. Он включает метод, который начинается с набора правил. Примером правила может быть: «Если but встречается более 1,7 раз в каждой тысяче слов, то текст принадлежит автору X». Программе предоставляется текст, и она использует правила для определения авторства. Правила проверяются на наборе известных текстов, и каждому правилу присваивается оценка пригодности. 50 правил с наименьшими оценками не используются. Оставшимся 50 правилам вносятся небольшие изменения, и вводятся 50 новых правил. Это повторяется до тех пор, пока развитые правила не будут правильно атрибутировать тексты.
Редкие пары
Один из методов определения стиля называется «редкие пары» и опирается на индивидуальные привычки словосочетания . Использование определенных слов может быть, для конкретного автора, идиосинкразически связано с использованием других, предсказуемых слов. [ необходима цитата ]
Атрибуция авторства в мгновенных сообщениях
Распространение Интернета сместило внимание к авторству в сторону онлайн-текстов (веб-страниц, блогов и т. д.), электронных сообщений (электронных писем, твитов, постов и т. д.) и других типов письменной информации, которые намного короче, чем средняя книга, гораздо менее формальны и более разнообразны с точки зрения выразительных элементов, таких как цвета , макет , шрифты , графика , смайлики и т. д. Попытки учесть такие аспекты на уровне как структуры, так и синтаксиса были описаны в [98] . Кроме того, были введены специфические для контента и идиосинкразические подсказки (например, тематические модели и инструменты проверки грамматики), чтобы раскрыть преднамеренный стилистический выбор. [99]
Стандартные стилометрические признаки использовались для категоризации содержимого чата по мгновенному обмену сообщениями [ 100] или поведению участников [101] , но попытки идентифицировать участников чата все еще немногочисленны и ранние. Более того, сходство между устными разговорами и взаимодействиями в чате игнорировалось, хотя это было основным различием между данными чата и любым другим типом письменной информации.
Смотрите также
Примечания
- ^ ab Argamon, Shlomo , Kevin Burns, and Shlomo Dubnov , eds. Структура стиля: алгоритмические подходы к пониманию манеры и смысла. Springer Science & Business Media, 2010.
- ↑ Уэсткотт, Ричард (15 июня 2006 г.). «Превращение хитовой музыки в науку». BBC News .
- ^ Sethi, Ricky (2016-06-07). «Использование компьютеров для лучшего понимания искусства». The Conversation . Получено 2021-12-01 .
- ^ Макилрой-Янг, Рид; Ван, Ю; Сен, Сиддхартха; Клейнберг, Джон; Андерсон, Эштон (2021). Определение индивидуального стиля принятия решений: исследование поведенческой стилометрии в шахматах. 35-я конференция по системам обработки нейронной информации.
- ^ Чен, Хсинчунь; Янг, Кристофер К.; Чау, Майкл; Ли, Шу-Хсин (2009). Разведывательная и информатическая безопасность: Азиатско-Тихоокеанский семинар, PAISI 2009, Бангкок, Таиланд, 27 апреля 2009 г. Труды . Берлин: Springer Science & Business Media. стр. 15. ISBN 9783642013928.
- ↑ Сэмюэл Шенбаум , Внутренние свидетельства и елизаветинское драматургическое авторство; эссе по истории литературы и методу, стр. 171.
- ^ Лютославский, В. (1898). «Принципы аппликационной стилиометрии в хронологии произведений Платона». Ревю греческих этюдов . 11 (41): 61–81. дои : 10.3406/reg.1898.5847. ISSN 0035-2039.
- ↑ Сэмюэл Шенбаум , Внутренние свидетельства и елизаветинское драматургическое авторство; эссе по истории литературы и методу, стр. 196.
- ^ Ф. Мостеллер и Д. Уоллес (1964). Вывод и спорное авторство: Федералист . Рединг, Массачусетс : Addison-Wesley .
- ^ Часки, Кэрол (2012). Солан, Лоуренс М.; Тирсма, Питер М. (ред.). Идентификация автора в судебной экспертизе. Oxford University Press. doi : 10.1093/oxfordhb/9780199572120.001.0001. ISBN 9780199572120.
- ^ Часки, Кэрол (22 декабря 2005 г.). Вехт, Сирил Х.; Раго, Джон Т. (ред.). Судебная экспертиза и право: следственное применение в уголовном, гражданском и семейном правосудии. CRC Press. ISBN 978-1-4200-5811-6.
- ^ Майкл Макферсон и Йоав Тирош (2020). «Стилометрический анализ саги о Светлове». Gripla . 31 : 7–41.
- ^
- ^ Сигурдур Ингибергур Бьёрнссон, Стейнгримур Палл Карасон и Йон Карл Хельгасон (2021). «Стилометрия и выцветшие отпечатки пальцев авторов саг»». В поисках виновника: аспекты средневекового авторства, под редакцией Лукаса Рёсли и Стефани Гроппер : 97–122. дои : 10.1515/9783110725339-005 . ISBN 9783110725339.
{{cite journal}}
: CS1 maint: несколько имен: список авторов ( ссылка ) - ^ Claburn, Thomas (16 марта 2018 г.). "FYI: Инструменты ИИ могут разоблачать анонимных кодеров из их исполняемых двоичных файлов". The Register . Получено 2 августа 2018 г.
- ^ Бенсалем, Имене; Россо, Паоло; Чихи, Салим (2019). «Об использовании n-грамм символов как единственного внутреннего доказательства плагиата». Языковые ресурсы и оценка . 53 (3): 363–396. doi :10.1007/s10579-019-09444-w. hdl : 10251/159151 . S2CID 86630897.
- ^ Бризан, Дэвид (октябрь 2015 г.). «Использование лингвистически улучшенной динамики нажатия клавиш для прогнозирования познавательных способностей и демографии машинистки». Международный журнал исследований взаимодействия человека и компьютера . 82 : 57–68. doi : 10.1016/j.ijhcs.2015.04.005.
- ^ Аликан, Неджип Фикри (2012). Переосмысление Платона: картезианский поиск настоящего Платона . Амстердам: Rodopi. стр. 183. ISBN 9789042035379.
- ^ Роу, Кристофер (2000). Кембриджская история греческой и римской политической мысли. Кембридж, Великобритания: Cambridge University Press. стр. 160. ISBN 0521481368.
- ^ Стамататос, Эфстатиос (2009). «Обзор современных методов атрибуции авторства». JASIST . 60 (3): 538–556. doi :10.1002/asi.21001. S2CID 6231242.
- ^ Стамататос, Эфстатиос (2018). «Маскировка тематической информации для улучшения атрибуции авторства». JASIS . 69 (3).
- ^ Карлгрен, Юсси; Эспозито, Льюис; Граттон, Шанталь; Канерва, Пентти (2018). «Профилирование авторства без использования тематической информации». Рабочие заметки CLEF . CEUR-WS.
- ^ Корбара, Сильвия; Морео, Алехандро; Себастьяни, Фабрицио (2022). «Силлабические количественные модели как ритмические особенности для атрибуции латинского авторства». JASIST . 74 : 128–141. arXiv : 2110.14203 . doi :10.1002/asi.24660. S2CID 239998537.
- ^ Корбара, Сильвия; Чульви, Берта; Россо, Паоло; Морео, Алехандро (2022). «Ритмические и психолингвистические особенности задач авторства в испанском парламенте: оценка и анализ». Экспериментальный IR встречает многоязычие, мультимодальность и взаимодействие . CLEF. Springer. стр. 79–92. doi :10.1007/978-3-031-13643-6_6.
- ^ Карлгрен, Юсси; Эрикссон, Гуннар (2007). «Авторы, жанр и лингвистическая конвенция». Семинар SIGIR по анализу плагиата, идентификации авторства и обнаружению почти дубликатов . SIGIR. PAN.
- ^ Эрикссон, Линда (2014). Последовательное агрегирование текстовых признаков для доменно-независимой идентификации автора (магистр наук). Королевский технологический институт KTH.
- ^ Менденхолл, TC (1887). «Характерные кривые состава». Science . 9 (214S): 237–246. doi :10.1126/science.ns-9.214S.237. PMID 17736020.
- ^ Чен, Бэйчен (2021). Вложения для книжных сходств (PDF) (магистр наук). Королевский технологический институт KTH.
- ^ Стамататос, Эфстатиос; Кестемонт, Майк; Креденс, Кшиштоф; Пезик, Петр; Хайни, Аннина (2022). «Обзор задачи проверки авторства на PAN 2022». В Faggioli; Ferro; Hanbury; Potthast (ред.). Лаборатории и семинары CLEF 2022, записные книжки. CEUR-WS . Получено 6 сентября 2022 г.
- ^ ab Argamon, Shlomo , Jussi Karlgren и James G. Shanahan. Стилистический анализ текста для доступа к информации. Доклады с семинара, проведенного совместно с 28-й ежегодной международной конференцией ACM по исследованиям и разработкам в области информационного поиска, 13–19 августа 2005 г., Сальвадор, Баия, Бразилия. Шведский институт компьютерных наук, 2005 г.
- ^ "The Signature Stylometric System". PhiloComp . Получено 2014-01-03 .
- ^ "JGAAP". JGAAP. 2012-09-04 . Получено 2012-10-15 .
- ^ ab "The stylo for R package". Computational Stylistics Group. 2014-10-24. Архивировано из оригинала 2014-12-21 . Получено 2014-10-24 .
- ^ Эдер, Мачей; Рыбицкий, Ян; Кестемонт, Майк (2016). «Стилометрия с R: пакет для вычислительного анализа текста» (PDF) . R Journal . 8 (1): 107–121. doi : 10.32614/RJ-2016-007 .
- ^ Daelemans, Walter & Hoste, Véronique (2013). STYLENE: среда для исследования стилометрии и читабельности для голландского языка (технический отчет). Серия технических отчетов CLiPS. ISSN 2033-3544.
- ^ Ян Ку, Джеймс Г. Шанахан и Джанис Вибе . «Изучение отношения и аффекта в тексте: теории и приложения». Технический отчет весеннего симпозиума AAAI SS-04-07. AAAI Press, Менло-Парк, Калифорния. 2004.
- ^ Юсси Карлгрен , Бьорн Гамбек и Пентти Канерва . «Приобретение (и использование) лингвистических (и мировых) знаний для доступа к информации». (2002). Весенний симпозиум AAAI. Технический отчет SS-02-09. AAAI Press, Менло-Парк, Калифорния. 2002.
- ^ Шломо Аргамон , Шломо Дубнов и Джули Юпп. «Стиль и значение в языке, искусстве, музыке и дизайне» (2004). Осенний симпозиум AAAI. Технический отчет FS-04-07.
- ^ Поттхаст, Мартин, Бенно Штайн, Альберто Баррон-Седеньо и Паоло Россо. «Система оценки для обнаружения плагиата». В Трудах 23-й международной конференции по компьютерной лингвистике: Постеры, стр. 997–1005. Ассоциация компьютерной лингвистики, 2010.
- ^ Стамататос, Эфстатиос, Уолтер Далеманс, Бен Верховен, Патрик Хуола, Аурелио Лопес-Лопес, Мартин Поттаст и Бенно Штайн. «Обзор задачи по идентификации автора на PAN 2014». В CLEF (Рабочие заметки), стр. 877–897. 2014.
- ^ Ранхел, Франциско, Паоло Россо, Мартин Поттхаст и Бенно Штайн. «Обзор 5-й задачи по профилированию авторов на конференции 2017: идентификация пола и языкового разнообразия в Twitter». Рабочие заметки CLEF (2017).
- ^ Ранхель Пардо, Франциско Мануэль, Фабио Челли, Паоло Россо, Мартин Поттхаст, Бенно Штайн и Уолтер Даэлеманс. «Обзор 3-й задачи по профилированию авторов на PAN 2015». В CLEF 2015 Evaluation Labs and Workshop Working Notes Papers, стр. 1–8. 2015.
- ^ Поттхаст, Мартин, Бенно Штайн и Тереза Холфельд. «Обзор 1-го международного конкурса по обнаружению вандализма в Википедии». В CLEF (Notebook Papers/LABs/Workshops). 2010.
- ^ Обработка текста, анализ и генерация текста – типология текста и атрибуция. Материалы Нобелевского симпозиума 51. Под редакцией Стуре Аллена . Стокгольм: Almqvist & Wiksell International, 1982. Data лингвистика, 16. Нобелевский симпозиум, 51. ISBN 91-22-00594-3 .
- ^ Карлгрен, Юсси (2003). "Helander: An Authorship Attribution Case" . Получено 4 октября 2017 г.
- ^ Airoldi, Edoardo M .; Fienberg, Stephen E.; Skinner, Kiron K. (июль 2007 г.). «Чьи идеи? Чьи слова? Авторство радиообращений Рональда Рейгана» (PDF) . PS: Политология и политика . 40 (3): 501–506. CiteSeerX 10.1.1.190.5798 . doi :10.1017/S1049096507070874. S2CID 18730541.
- ↑ Автор неизвестен. Салон Гэвина Макнетта, 2 ноября 2000 г.
- ↑ Беллак, Пэм (10 апреля 1996 г.). «В деле Унабома — боль для семьи подозреваемого». The New York Times . Архивировано из оригинала 10 августа 2017 г. Получено 5 июля 2008 г.
- ^ «Исследование показало, что спорная пьеса Шекспира носит клеймо мастера». Los Angeles Times . 2015-04-10 . Получено 2015-04-13 .
- ^ Boyd, Ryan L.; Pennebaker, James W. (2015). «Писал ли Шекспир двойную ложь? Идентификация личностей путем создания психологических подписей с помощью анализа текста». Psychological Science . 26 (5): 570–582. doi :10.1177/0956797614566658. PMID 25854277. S2CID 13022405.
- ^ Джексон, Макдональд П. (27 апреля 2016 г.). Кто написал «Ночь перед Рождеством»? Анализ вопроса Клемента Кларка Мура против Генри Ливингстона . McFarland & Co. ISBN 978-1476664439.
- ^ Фуллер, Саймон; О'Салливан, Джеймс (2017). «Структура превыше стиля: совместное авторство и возрождение литературного капитализма». Digital Humanities Quarterly . 11 (1) . Получено 20 апреля 2017 г. .
- ^ Лейн, Энтони (18 июня 2018 г.). «Поразительное сотрудничество Билла Клинтона и Джеймса Паттерсона». The New Yorker . Получено 07.06.2018 .
- ^ «Почему вам не нужно много писать, чтобы стать автором бестселлеров в мире». The Conversation . 3 апреля 2017 г. Получено 20 апреля 2017 г.
- ^ О'Салливан, Джеймс (2018-06-07). «Билл Клинтон и Джеймс Паттерсон являются соавторами — но кто написал?». The Guardian . Получено 2018-06-07 .
- ^ Савой, Жак (2018). «Действительно ли Старноне является автором Ферранте?». Цифровая наука в области гуманитарных наук . 33 (4): 902–918. doi :10.1093/llc/fqy016.
- ^ Рюэлл, Питер: «Вы говорите Джон, я говорю Пол. Но что говорит стилометрия?»
- ^ Гликман, Марк; Браун, Джейсон; Сонг, Райан (2019). «(A) Данные в жизни: атрибуция авторства в песнях Леннона-Маккартни». Harvard Data Science Review . 1 (1). arXiv : 1906.05427 . doi : 10.1162/99608f92.130f856e . S2CID 189762434.
- ^ Проект ETSO.
- ^ "Un monstruo de la naturaleza llamado Lope" [Чудовище природы по имени Лопе]. abc (на испанском языке). 28.11.2018 . Проверено 11 августа 2019 г.
- ^ "Rastreadores digitales en el Siglo de Oro" [Цифровые трекеры в Золотой век]. Эль-Норте-де-Кастилия (на испанском языке). 23 декабря 2018 г. Проверено 11 августа 2019 г.
- ^ Реал, Ла Трибуна де Сьюдад (09 июля 2019 г.). «Хуан Руис де Аларкон aumenta su obra cinco siglos después» [Хуан Руис де Аларкон увеличивает свою работу пять столетий спустя]. La Tribuna de Ciudad Real (на испанском языке) . Проверено 11 августа 2019 г.
- ↑ Мигеланьес, Даниэль (28 июля 2019 г.). «Эль Холмс де ла филология». PSOE Чамбери . № 6. с. 8. Архивировано из оригинала 18 июля 2020 г. Проверено 11 августа 2019 г.
- ^ "Сор Хуана Инес в центре 42 Хорнадас де Театро Класико" . Lanza Digital (на европейском испанском языке). 14 июля 2019 г. Проверено 11 августа 2019 г.
- ^ «'La monja alférez' ya no es de Pérez de Montalbán, sino de Ruiz de Alarcón» ['La monja alférez' больше не принадлежит Пересу де Монтальбану, а принадлежит Руису де Аларкону]. Эль-Норте-де-Кастилия (на испанском языке). 10 июля 2019 г. Проверено 11 августа 2019 г.
- ^ «Искусственный интеллект помог найти выдающегося испанского драматурга Лопе де Вегу как автора пьесы по рукописи, написанной спустя годы после его смерти». newsendip.com . 31 января 2023 г. . Получено 8 февраля 2023 г. .
- ^ Джонс, Сэм (5 февраля 2023 г.). «Искусственный интеллект раскрывает утерянную работу титана испанского «золотого века»». The Guardian . Получено 8 февраля 2023 г.
- ^ Моралес, Мануэль (31 января 2023 г.). «La inteligencia Artificial atribuye a Lope de Vega una obra anónima del Fondo de Manuscritos de la Biblioteca Nacional» [Искусственный интеллект приписывает Лопе де Веге анонимное произведение из коллекции рукописей Национальной библиотеки]. Эль Паис (на испанском языке) . Проверено 8 февраля 2023 г.
- ^ Маккарти, Рэйчел; О'Салливан, Джеймс (2020). «Кто написал «Грозовой перевал»?». Цифровая наука в области гуманитарных наук . 36 (2): 383–391. doi :10.1093/llc/fqaa031. hdl : 10468/10194 .
- ^ Ильсеманн, Хармут (2020) «Призрак Марлоу: Paradigmenwechsel в Autorschaftsbestimmungen des English Renaissancedramas». Дюрен: Шейкер, ISBN 978-3-8440-7412-3
- ^ Ильземанн, Хармут (2020). «Возвращение к корпусу Марло». Цифровая наука в области гуманитарных наук . 36 (2): 333–360. doi :10.1093/llc/fqaa010.
- ^ Ильземанн, Хармут (2021). «Краткое дополнение к «The Marlowe Corpus Revisited» и «Phantom Marlowe». Цифровая наука в области гуманитарных наук . 37 (2): 462–468. doi :10.1093/llc/fqab078.
- ^ Ребора, Симоне и Сальгаро, Массимо (2022). «Является ли Феликс Зальтен автором романа Муценбахера (1906)? Да и нет» . Язык и литература: Международный журнал стилистики . 31 (2): 243–264. doi :10.1177/09639470221090384. S2CID 248135373.
{{cite journal}}
: CS1 maint: несколько имен: список авторов ( ссылка ) - ^ AI avslöjar: Läckberg har antagligen spökskrivare – skjuter ned anklagelserna. Hufvudstadsbladet , 27 сентября 2023 г. (на шведском языке).
- ^ "Läckberg om rykterna: 'Han petade i meningarna'" . Hufvudstadsbladet (на шведском языке). Гельсингфорс. 21 декабря 2023 г. с. 23.
- ^ Бибер, Дуглас. Различия в устной и письменной речи. Cambridge University Press, 1991.
- ^ Карлгрен, Юсси ; Каттинг, Дугласс (1994). «Распознавание жанров текста с помощью простых метрик с использованием дискриминантного анализа». Труды 15-й конференции по компьютерной лингвистике - . Том 2. стр. 1071. arXiv : cmp-lg/9410008 . Bibcode :1994cmp.lg...10008K. doi :10.3115/991250.991324. S2CID 1297432.
- ^ Ван Дроогенбрук Ф.Дж., «Необходимая перефразировка закона Ципфа-Мандельброта для решения задач атрибуции авторства с помощью гауссовой статистики» (2019).
- ^ Мэтьюз, Роберт А. Дж.; Мерриам, Томас В. Н. (1993). «Нейронные вычисления в стилометрии I: применение к работам Шекспира и Флетчера». Литературные и лингвистические вычисления . 8 (4): 203–209. doi :10.1093/llc/8.4.203.
- ^ Merriam, Thomas V. N; Matthews, Robert AJ (1994). «Нейронные вычисления в стилометрии II: применение к произведениям Шекспира и Марло». Литературные и лингвистические вычисления . 9 (1): 1–6. doi :10.1093/llc/9.1.1.
- ^ ab JF Hoorn; SL Frank; W Kowalczyk; F van der Ham (2012-09-03). "Нейросетевая идентификация поэтов с использованием последовательностей букв". Литературные и лингвистические вычисления . 14 (3): 311–338. doi :10.1093/llc/14.3.311.
- ^ Брокардо, М. Л.; Траоре, И.; Вунганг, И.; Обайдат, М. С. (2017). «Проверка авторства с использованием систем глубоких убеждений». Int J Commun Syst . 30 (12): e3259. doi :10.1002/dac.3259. S2CID 40745740.
- ^ de Vel, O.; Anderson, A.; Corney, M.; Mohay, G. (2001-12-01). «Изучение содержимого электронной почты для криминалистики идентификации автора». SIGMOD Rec . 30 (4): 55–64. CiteSeerX 10.1.1.408.4231 . doi :10.1145/604264.604272. ISSN 0163-5808. S2CID 1623521.
- ^ Аргамон, Шломо; Коппель, Моше; Пеннебейкер, Джеймс У.; Шлер, Джонатан (01.02.2009). «Автоматическое профилирование автора анонимного текста». Commun. ACM . 52 (2): 119–123. CiteSeerX 10.1.1.136.9952 . doi :10.1145/1461928.1461959. ISSN 0001-0782. S2CID 5413411.
- ^ «Классификация мгновенных сообщений для судебно-медицинского анализа – TechRepublic». TechRepublic . Получено 26.01.2016 .
- ^ Чжоу, Л.; Чжан, Донгсонг (2004-01-01). «Может ли поведение в сети раскрыть обманщиков? — исследовательское исследование обмана в мгновенных сообщениях». 37-я ежегодная Гавайская международная конференция по системным наукам, 2004. Труды . стр. 9 стр.–. doi :10.1109/HICSS.2004.1265079. ISBN 978-0-7695-2056-8. S2CID 7154702.
Ссылки
- Афроз, Садия; Бреннан, Майкл; Гринштадт, Рэйчел (2012). «Обнаружение мистификаций, мошенничества и обмана в стиле написания в Интернете». Симпозиум IEEE 2012 года по безопасности и конфиденциальности . С. 461–475. doi : 10.1109/SP.2012.34 . ISBN 978-1-4673-1244-8.
- Бреннан, Майкл; Афроз, Садия; Гринштадт, Рэйчел (2012). «Состязательная стилометрия: обход распознавания авторства для сохранения конфиденциальности и анонимности» (PDF) . ACM Transactions on Information and System Security . 15 (3): 1–22. doi :10.1145/2382448.2382450. S2CID 16176436.
- Бреннан, Майкл Роберт; Гринстадт, Рэйчел. «Практические атаки против методов распознавания авторства». Инновационные приложения искусственного интеллекта .
- Брокардо, Марсело Луис; Исса Траоре; Шериф Саад; Исаак Вунганг (2013). Проверка авторства коротких сообщений с использованием стилометрии . IEEE Intl. Conference on Computer, Information and Telecommunication Systems (CITS). doi :10.1109/CITS.2013.6705711.
- Кан, Фазли; Паттон, Джон М. (2004). «Изменение стиля письма со временем». Компьютеры и гуманитарные науки . 38 (1): 61–82. CiteSeerX 10.1.1.1.8850 . doi :10.1023/b:chum.0000009225.28847.77. S2CID 38242388.
- Эммери, Крис; Кадар, Акош; Хрупала, Гжегож (2021). «Состязательная стилометрия в дикой природе: атаки с переносимой лексической заменой на профилирование авторов». Труды 16-й конференции Европейского отделения Ассоциации компьютерной лингвистики: Основной том . С. 2388–2402. arXiv : 2101.11310 . doi : 10.18653/v1/2021.eacl-main.203 . S2CID 231719026.
- Грёндаль, Томми; Асокан, Н. (2020a). «Анализ текста в состязательных условиях: оставляет ли обман стилистический след?». ACM Computing Surveys . 52 (3): 1–36. arXiv : 1902.08939 . doi : 10.1145/3310331. S2CID 67856540.
- Хоуп, Джонатан (1994). Авторство пьес Шекспира . Кембридж: Cambridge University Press. ISBN 9780521417372.
- Хой, Сайрус (1956–1962). «Доли Флетчера и его соратников в каноне Бомонта и Флетчера (I–VII)». Исследования по библиографии . 7–15 .
- Юола, Патрик (2006). "Authorship Attribution" (PDF) . Foundations and Trends in Information Retrieval . 1 (3): 3. CiteSeerX 10.1.1.219.1605 . doi :10.1561/1500000005. Архивировано из оригинала (PDF) 24.10.2020 . Получено 13.11.2008 .
- Кацмарчик, Гэри; Гамон, Майкл (17 июля 2006 г.). «Запутывание стилометрии документа для сохранения анонимности автора». Труды постерных сессий основной конференции COLING/ACL 2006 г. стр. 444–451.
- Кенни, Энтони (1982). Вычисление стиля: Введение в статистику для студентов, изучающих литературу и гуманитарные науки . Оксфорд: Pergamon Press.
- Махмуд, Асад; Ахмад, Файзан; Шафик, Зубайр; Шринивасан, Падмини; Заффар, Фарид (2019). «У девушки нет имени: автоматическое сокрытие авторства с помощью Mutant-X». Труды по технологиям повышения конфиденциальности . 2019 (4): 54–71. doi : 10.2478/popets-2019-0058 . S2CID 197621394.
- Нил, Темпест; Сундарараджан, Калайвани; Фатима, Аниз; Ян, Имин; Сян, Инфэй; Вудард, Дэймон (2018). «Технологии и приложения геодезической стилометрии». ACM Computing Surveys . 50 (6): 1–36. doi :10.1145/3132039. S2CID 21360798.
- Поттхаст, Мартин; Хаген, Маттиас; Стайн, Бенно (2016). Запутывание авторов: нападение на современное состояние проверки авторства (PDF) . Конференция и лаборатории Форума по оценке.
- Ромэн, Сюзанна (1982). Социально-историческая лингвистика . Кембридж: Издательство Кембриджского университета.
- Саеди, Чакавех; Драс, Марк (декабрь 2020 г.). «Масштабное запутывание авторов с использованием сиамского вариационного автокодировщика: система SiamAO». Труды Девятой совместной конференции по лексической и вычислительной семантике . стр. 179–189.
- Сэмюэлс, М. Л. (1972). Лингвистическая эволюция: со специальными ссылками на английский язык . Кембридж: Издательство Кембриджского университета.
- Шенбаум, Сэмюэл (1966). Внутренние доказательства и елизаветинское драматическое авторство: эссе по истории литературы и методу . Эванстон, Иллинойс, США: Northwestern University Press.
- Ван Дроогенбрук, Франс Дж. (2016) «Обработка распределения Ципфа при компьютерной атрибуции авторства»
- Ван Дроогенбрук, Франс Дж. (2019) «Необходимая перефразировка закона Ципфа-Мандельброта для решения задач атрибуции авторства с помощью гауссовой статистики»
- Ван, Хайнинг; Юола, Патрик ; Ридделл, Аллен (2022). «Воспроизведение и репликация состязательного стилометрического эксперимента». arXiv : 2208.07395 .
- Зенков, Андрей В. (2018). «Метод атрибуции текста на основе статистики числительных». Журнал количественной лингвистики . 25 (3): 256–270. doi :10.1080/09296174.2017.1371915. S2CID 49692378.
- Zhai, Wanyue; Rusert, Jonathan; Shafiq, Zubair; Srinivasan, Padmini (2022). «У девушки есть имя, и это... состязательное авторство для деобфускации». Труды 60-го ежегодного собрания Ассоциации компьютерной лингвистики (том 1: длинные статьи) . стр. 7372–7384. arXiv : 2203.11849 . doi : 10.18653/v1/2022.acl-long.509 . S2CID 248780012.
Дальнейшее чтение
См. также академический журнал Literary and Linguistic Computing , теперь Digital Scholarship in the Humanities (издается Оксфордским университетом ) и журнал Language Resources and Evaluation (ранее Computers and the Humanities ).
Внешние ссылки
- Ассоциация компьютеров и гуманитарных наук
- Литературные и лингвистические вычисления
- Группа вычислительной стилистики
- Фирменная стилометрическая система
- Программа атрибуции авторства JGAAP
- Раскрывая тайну последнего романа Дж. К. Роулинг