Читабельность — это легкость, с которой читатель может понять написанный текст . Эта концепция существует как в естественном языке , так и в языках программирования, хотя и в разных формах. В естественном языке читабельность текста зависит от его содержания (сложности его словарного запаса и синтаксиса ) и его представления (например, типографских аспектов, которые влияют на разборчивость , таких как размер шрифта , высота строки , интервал между символами и длина строки ). [1] В программировании такие вещи, как комментарии программиста , выбор структуры цикла и выбор имен, могут определять легкость, с которой люди могут читать код компьютерной программы .
Более высокая читабельность текста облегчает усилия и скорость чтения для общей массы читателей. Для тех, у кого нет высокого понимания прочитанного , читабельность необходима для понимания и применения данного текста. Методы упрощения читабельности необходимы для передачи набора информации целевой аудитории. [2] Будь то код, новостная информация или повествование, у каждого писателя есть целевая аудитория, к которой он должен подстраивать свои уровни читабельности.
Термин «читаемость» по своей сути является широким и может стать запутанным при рассмотрении всех возможных определений. [3] Читаемость — это концепция, которая включает в себя аудиторию, содержание, качество, разборчивость и может даже включать форматирование и структуру дизайна любого данного текста. [4] Различные определения читаемости существуют из разных источников. Определение колеблется в зависимости от типа аудитории, которой представляется определенный тип контента. Например, технический писатель может сосредоточиться на ясном и кратком языке и форматировании, которое обеспечивает легкое чтение. Напротив, научный журнал будет использовать сложное письмо, которое будет привлекательным и иметь смысл для типа аудитории, которой они направляют информацию.
Читабельность имеет важное значение для ясности и доступности текстов, используемых в классах, рабочей среде и повседневной жизни. Правительство также уделяет первостепенное внимание читабельности с помощью законов о простом языке, которые обязывают писать важные документы на уровне 8-го класса. [5]
Многие исследования были сосредоточены на сопоставлении прозы с навыками чтения, что привело к появлению формул для использования в исследованиях, государственном управлении, обучении, издательском деле, армии, медицине и бизнесе. [6] [7]
Два издания с наибольшим тиражом, TV Guide (13 миллионов) и Reader's Digest (12 миллионов), написаны на уровне 9-го класса. [8] Самые популярные романы написаны на уровне 7-го класса. Это подтверждает тот факт, что среднестатистический взрослый читает на уровне 9-го класса. Это также показывает, что для отдыха люди читают тексты, которые на два класса ниже их фактического уровня чтения. [9]
На протяжении столетий учителя и педагоги видели важность организации, связности и акцента в хорошем письме. В 1880-х годах профессор английского языка Л. А. Шерман обнаружил, что английское предложение становится короче. Во времена Елизаветы среднее предложение состояло из 50 слов, тогда как в наше время Шермана оно составляло 23 слова.
Работа Шермана установила, что:
Шерман писал: «Ни один человек не должен говорить хуже, чем он пишет, ни один человек не должен писать лучше, чем он должен говорить...» Он написал это, желая подчеркнуть, что чем ближе письмо к речи, тем яснее и эффективнее становится содержание. [10]
В 1889 году в России писатель Николай А. Рубакин опубликовал исследование более 10 000 текстов, написанных обычными людьми. [11] Из этих текстов он взял 1500 слов, которые, как он думал, понимало большинство людей. Он обнаружил, что основными препятствиями для понимания являются незнакомые слова и длинные предложения . [12] Начав с собственного журнала в возрасте 13 лет, Рубакин опубликовал много статей и книг по науке и многим предметам для большого количества новых читателей по всей России. По мнению Рубакина, люди не были дураками. Они были просто бедны и нуждались в дешевых книгах, написанных на уровне, который они могли бы понять. [11]
Самая ранняя оценка легкости чтения — это субъективное суждение, называемое выравниванием текста . Формулы не в полной мере учитывают различное содержание, цель, дизайн, визуальный ввод и организацию текста. [13] [14] Выравнивание текста обычно используется для ранжирования легкости чтения текстов в областях, где трудности чтения легко определить, например, книги для маленьких детей. На более высоких уровнях ранжирование легкости чтения становится более сложным, поскольку отдельные трудности становится сложнее определить. Это привело к появлению лучших способов оценки легкости чтения.
В 1920-х годах научное движение в образовании искало тесты для измерения достижений учащихся, чтобы помочь в разработке учебной программы. Учителя и воспитатели давно знали, что для улучшения навыков чтения читателям, особенно начинающим читателям, нужны материалы для чтения, которые максимально соответствуют их способностям. Университетские психологи провели большую часть ранних исследований, которые позже были подхвачены издателями учебников. [15] В 1921 году Гарри Д. Китсон опубликовал «Разум покупателя» , одну из первых книг, в которой психология применялась к маркетингу. Работа Китсона показала, что каждый тип читателя покупает и читает свой собственный тип текста. Прочитав две газеты и два журнала, он обнаружил, что короткая длина предложения и короткая длина слова были лучшими факторами, способствующими легкости чтения. [16]
В 1923 году Берта А. Лайвли и Сидни Л. Пресси опубликовали первую формулу легкости чтения. Они были обеспокоены тем, что учебники по естественным наукам для младших классов средней школы содержали так много технических слов, и что учителя тратили все время урока на объяснение этих слов. Они утверждали, что их формула поможет измерить и уменьшить «словарную нагрузку» учебников. Их формула использовала пять переменных входных данных и шесть констант. Для каждой тысячи слов она подсчитывала количество уникальных слов, количество слов, не включенных в список Торндайка, и средний индексный номер слов, найденных в списке. Вручную, чтобы применить формулу к книге, требовалось три часа. [17]
После исследования Лайвли–Пресси люди искали формулы, которые были бы более точными и простыми в применении. В 1928 году Карлтон Уошберн и Мейбл Фогель создали первую современную формулу читабельности. Они проверили ее, используя внешний критерий, и сопоставили .845 с результатами тестов студентов, которые читали и которым понравились книги с критериями. [18] Это также было первым введением интересующей переменной в концепцию читабельности. [19]
В период с 1929 по 1939 год Альфред Леверенц из школьного округа Лос-Анджелеса опубликовал несколько новых формул. [20] [21] [22] [23] [24]
В 1934 году педагог-психолог Эдвард Торндайк из Колумбийского университета отметил, что в России и Германии учителя использовали подсчеты частоты слов, чтобы сопоставлять книги с учениками. Навык слова был лучшим признаком интеллектуального развития и самым сильным предиктором легкости чтения. В 1921 году Торндайк опубликовал « Словочник учителя» , в котором содержались частоты 10 000 слов. [25] Он также опубликовал свою формулу читаемости. Он писал, что навыки слова можно улучшить, если учитель вводит новые слова и часто их повторяет. [26] В 1939 году В. В. Патти и В. И. Пейнтер опубликовали формулу для измерения словарной нагрузки учебников. Это была последняя из ранних формул, которая использовала список частотности словаря Торндайка. [27] До появления компьютеров списки частотности слов были лучшими средствами для оценки легкости чтения текстов. [9]
В 1981 году в энциклопедии World Book Encyclopedia были перечислены уровни классов в 44 000 слов. [28] Популярная стратегия среди педагогов в наше время — «попутное изучение лексики», которая обеспечивает эффективность изучения лексики в краткосрочной перспективе, а не зубрежку слов и значений, которые, как надеются учителя, запомнятся. [29] Тактика попутного обучения призвана помочь учащимся развивать навыки понимания и обучения, а не заучивать слова. С помощью этой стратегии учащиеся, как мы надеемся, смогут ориентироваться на различных уровнях читаемости, используя подсказки контекста и понимание.
Во время рецессии 1930-х годов правительство США инвестировало в образование взрослых . В 1931 году Дуглас Уэйплз и Ральф Тайлер опубликовали книгу «О чем хотят читать взрослые». Это было двухлетнее исследование интересов взрослых к чтению. Их книга показала не только то, что люди читают, но и то, что они хотели бы читать. Они обнаружили, что у многих читателей не было подходящих материалов для чтения: они хотели бы учиться, но материалы для чтения были для них слишком сложными. [30]
Лайман Брайсон из педагогического колледжа Колумбийского университета обнаружил, что многие взрослые имеют плохие способности к чтению из-за плохого образования. Несмотря на то, что колледжи долго пытались научить писать в ясном и читаемом стиле, Брайсон обнаружил, что это редкость. Он писал, что такой язык является результатом «... дисциплины и артистизма, которые немногие люди, у которых есть идеи, потрудятся достичь... Если бы простой язык был легким, многие из наших проблем были бы решены давно». [9] Брайсон помог создать Лабораторию читаемости в колледже. Двое его студентов были Ирвинг Лордж и Рудольф Флеш .
В 1934 году Ральф Оджеманн исследовал навыки чтения взрослых, факторы, которые самым непосредственным образом влияют на легкость чтения, и причины каждого уровня сложности. Он не изобрел формулу, а метод оценки сложности материалов для родительского образования . Он был первым, кто оценил обоснованность этого метода, используя 16 отрывков из журналов, проверенных на реальных читателях. Он оценил 14 измеримых и три сообщаемых фактора, которые влияют на легкость чтения.
Ойеманн подчеркнул сообщаемые особенности, такие как был ли текст связным или чрезмерно абстрактным. Он использовал свои 16 отрывков для сравнения и оценки легкости чтения других текстов, метод, который теперь называется масштабированием . Он показал, что даже если эти факторы нельзя измерить, их нельзя игнорировать. [31]
Также в 1934 году Ральф Тайлер и Эдгар Дейл опубликовали первую формулу легкости чтения для взрослых, основанную на отрывках на темы здоровья из различных учебников и журналов. Из 29 факторов, которые значимы для молодых читателей, они обнаружили десять, которые значимы для взрослых. Они использовали три из них в своей формуле. [32]
В 1935 году Уильям С. Грей из Чикагского университета и Бернис Лири из колледжа Ксавье в Чикаго опубликовали книгу «Что делает книгу читаемой», одну из важнейших книг в исследовании читаемости. Как и Дейл и Тайлер, они сосредоточились на том, что делает книги читаемыми для взрослых с ограниченными способностями к чтению. Их книга включала первое научное исследование навыков чтения взрослых американцев. Выборка включала 1690 взрослых из разных мест и регионов. В тесте использовался ряд отрывков из газет , журналов и книг, а также стандартный тест по чтению. Они обнаружили средний балл 7,81 (восьмой месяц седьмого класса ). Около трети читали на уровне 2-го по 6-й класс , одна треть на уровне 7-го по 12-й класс и одна треть на уровне 13-го по 17-й класс. Авторы подчеркивали, что у половины взрослого населения в то время не было подходящих материалов для чтения. Они писали: «Для них обогащающие ценности чтения отрицаются, если материалы, отражающие интересы взрослых, не адаптированы к их потребностям». Самые бедные читатели, одна шестая взрослого населения, нуждаются в «более простых материалах для использования в целях содействия функциональной грамотности и формирования основных привычек чтения». [33]
В 1939 году Ирвинг Лордж опубликовал статью, в которой сообщалось о других комбинациях переменных, которые указывают на сложность более точно, чем те, которые использовали Грей и Лири. Его исследование также показало, что «словарная нагрузка является наиболее важным сопутствующим фактором сложности». [34] В 1944 году Лордж опубликовал свой индекс Лорджа , формулу читаемости, которая использовала три переменные и заложила основу для более простых и надежных формул, которые последовали за этим. [35]
К 1940 году следователи имели:
В 1943 году Рудольф Флеш опубликовал свою докторскую диссертацию « Признаки читаемого стиля» , которая включала формулу читаемости для прогнозирования сложности материала для чтения взрослыми. Исследователи во многих областях начали использовать ее для улучшения коммуникации. Одной из переменных, которую она использовала, были личные ссылки, такие как имена и личные местоимения. Другой переменной были аффиксы . [36]
В 1947 году Дональд Мерфи из Wallace's Farmer использовал выпуск с разделением [37] для изучения эффектов облегчения чтения текста. Он обнаружил, что снижение уровня чтения с 9-го до 6-го класса увеличило читательскую аудиторию на 43% для статьи о «нейлоне». Он также обнаружил 60%-ное увеличение читательской аудитории для статьи о кукурузе, с лучшими откликами от людей моложе 35 лет. [37] Результатом стал прирост в 42 000 читателей при тираже 275 000.
Уилбер Шрамм, который руководил программой исследований коммуникаций в Университете Иллинойса, опросил 1050 читателей газет в 1947 году. Он обнаружил, что более легкий стиль чтения помогает определить, какая часть статьи прочитана. Это называлось настойчивостью, глубиной или упорством чтения. Он также обнаружил, что люди будут читать меньше длинных статей, чем коротких, например, история длиной в девять абзацев потеряет 3 из 10 читателей к пятому абзацу. Напротив, более короткая история потеряет только 2 из 10 читателей. [38]
Исследование, проведенное в 1947 году Мелвином Лостуттером, показало, что газеты, как правило, писались на уровне, на пять лет превышающем возможности среднестатистического взрослого американского читателя. Было обнаружено, что легкость чтения газетных статей не имеет большой связи с образованием, опытом или личным интересом журналистов, пишущих статьи. Вместо этого она больше связана с условностями и культурой отрасли. Лостуттэр выступал за большее тестирование читабельности в газетных статьях. Улучшение читабельности должно быть «сознательным процессом, несколько независимым от образования и опыта штатных авторов » . [39]
В 1948 году Флеш опубликовал свою формулу Reading Ease в двух частях. Вместо использования уровней классов, он использовал шкалу от 0 до 100, где 0 эквивалентен 12-му классу, а 100 эквивалентен 4-му классу. Он отказался от использования аффиксов. Вторая часть формулы предсказывает человеческий интерес, используя личные ссылки и количество личных предложений. Новая формула коррелировала 0,70 с тестами чтения Макколла-Крэббса. [40]
В 1948 году Бернард Фелд провел исследование каждого материала и рекламы в Birmingham News от 20 ноября 1947 года. Он разделил материалы на те, что были выше уровня 8-го класса, и те, что были на уровне 8-го класса или ниже. Он выбрал точку разрыва 8-го класса, поскольку это был средний уровень чтения взрослых читателей. Текст 8-го класса «...достигнет примерно 50% всех взрослых американцев», писал он. Среди новостей телеграфных агентств нижняя группа получила на две трети больше читателей, а среди местных новостей — на 75% больше читателей. Фелд также верил в необходимость обучения писателей принципам ясного письма Флеша. [41]
И Рудольф Флеш, и Роберт Ганнинг активно работали с газетами и телеграфными агентствами, чтобы улучшить читаемость. В основном благодаря их усилиям за несколько лет читаемость газет США поднялась с уровня 16-го до 11-го класса, где она остается и по сей день. Издатели обнаружили, что формулы Флеша могут увеличить читательскую аудиторию до 60%. Работа Флеша оказала огромное влияние на журналистику. Формула легкости чтения Флеша стала одной из наиболее широко используемых, проверенных и надежных метрик читаемости. [42] [43] В 1951 году Фарр, Дженкинс и Паттерсон еще больше упростили формулу, изменив количество слогов. [44]
В 1940-х годах Роберт Ганнинг помог внедрить исследования читабельности в рабочее пространство. В 1944 году он основал первую консалтинговую фирму по читабельности, которая занималась уменьшением «тумана» в газетах и деловых текстах. В 1952 году он опубликовал «Технику ясного письма» со своим собственным Индексом туманности — формулой, которая коррелирует 0,91 с пониманием, измеренным с помощью тестов на чтение. [8]
Эдгар Дейл , профессор педагогики в Университете штата Огайо, был одним из первых критиков списков частотности лексики Торндайка. Он утверждал, что они не различают различные значения, которые имеют многие слова. Он создал два новых списка. Один, его «короткий список» из 769 легких слов, был использован Ирвингом Лоржем в его формуле. Другой был его «длинный список» из 3000 легких слов, которые были понятны 80% учеников четвертого класса. Однако нужно расширить списки слов правильными формами множественного числа существительных, правильными формами прошедшего времени глаголов, прогрессивными формами глаголов и т. д. В 1948 году он включил этот список в формулу, которую он разработал с Джин С. Чалл , которая позже основала Гарвардскую лабораторию чтения. В 1995 году Дейл и Чалл опубликовали новую версию своей формулы с обновленным списком слов, Новой формулой читаемости Дейла–Чалла. [45]
Формула читаемости языка Spache была разработана в 1952 году.
В 1963 году, обучая учителей английского языка в Уганде, Эдвард Фрай разработал свой График читаемости . Он стал одной из самых популярных формул и наиболее прост в применении. [46] [47]
Автоматизированный индекс читаемости был разработан в 1967 году.
Гарри Маклафлин определил, что длина слова и длина предложения должны быть умножены, а не сложены, как в других формулах. В 1969 году он опубликовал свою формулу SMOG (Simple Measure of Gobbledygook). Ее часто рекомендуют для использования в здравоохранении. [48]
Индекс синтаксической плотности Голуба был разработан Лестером Голубом в 1974 году. [ необходима ссылка ]
В 1973 году исследование, проведенное по заказу армии США, о навыках чтения, необходимых для различных военных должностей, выработало формулу FORCAST. В отличие от большинства других формул, она использует только элемент словаря, что делает ее полезной для текстов без полных предложений. Формула удовлетворяла требованиям, что она должна быть:
В 1975 году в проекте, спонсируемом ВМС США, формула Reading Ease была пересчитана для получения оценки уровня класса. Новая формула теперь называется формулой уровня класса Флеша-Кинкейда . [50]
Оценка читаемости Linsear Write Raygor была разработана в 1977 году.
В 1978 году Джон Бормут из Чикагского университета изучал легкость чтения, используя новый тест на удаление Клоуза, разработанный Уилсоном Тейлором. Его работа поддержала более ранние исследования, включая степень легкости чтения для каждого вида чтения. Лучший уровень для «чтения с помощью» в классе — это немного сложный текст, который вызывает «настрой на обучение», и для которого читатели могут правильно ответить на 50% вопросов теста с множественным выбором. Лучший уровень для чтения без помощи — это тот, для которого читатели могут правильно ответить на 80% вопросов. Эти пороговые баллы позже были подтверждены Выготским [51] и Чэллом и Конардом. [52] Среди прочего, Бормут подтвердил, что словарный запас и длина предложения являются лучшими индикаторами легкости чтения. Он показал, что меры легкости чтения работают так же хорошо для взрослых, как и для детей. Те же вещи, которые дети считают трудными, одинаковы для взрослых с тем же уровнем чтения. Он также разработал несколько новых мер пороговых баллов. Одной из самых известных была формула Mean Cloze , которая использовалась в 1981 году для создания системы оценки силы чтения , используемой Экзаменационной комиссией по поступлению в колледж. [53] [54] [55]
В 1988 году Джек Стеннер и его коллеги из MetaMetrics, Inc. опубликовали Lexile Framework для оценки читаемости и сопоставления учащихся с соответствующими текстами. Lexile Framework использует среднюю длину предложения и среднюю частоту слов в American Heritage Intermediate Corpus для прогнозирования баллов по шкале от 0 до 2000. AHI Corpus включает пять миллионов слов из 1045 опубликованных работ, которые часто читают учащиеся с третьего по девятый класс. [ необходима ссылка ]
В 2000 году исследователи School Renaissance Institute и Touchstone Applied Science Associates опубликовали свою формулу Advantage-TASA Open Standard (ATOS) Reading ease Formula for Books. Они работали над формулой, которая была бы проста в использовании и могла бы применяться к любым текстам.
Проект был одним из самых масштабных проектов по облегчению чтения. Разработчики формулы использовали 650 нормированных текстов для чтения, 474 миллиона слов из всех текстов в 28 000 книг, прочитанных студентами. Проект также использовал записи чтения более 30 000 человек, которые прочитали и были протестированы на 950 000 книг.
Они обнаружили, что наиболее надежную меру легкости чтения текста дают три переменные:
Они также обнаружили, что:
Начиная с 1970-х годов когнитивные теоретики начали учить, что чтение на самом деле является актом мышления и организации. Читатель конструирует смысл, смешивая новые знания с существующими. Из-за ограничений формул легкости чтения некоторые исследования рассматривали способы измерения содержания, организации и связности текста. Хотя это не повысило надежность формул, их усилия показали важность этих переменных для легкости чтения.
Исследования Уолтера Кинча и других показали центральную роль связности в легкости чтения, в основном для людей, обучающихся читать. [58] В 1983 году Сьюзан Кемпер разработала формулу, основанную на физических состояниях и психических состояниях. Однако она обнаружила, что это не лучше, чем знакомство слов и длина предложения в демонстрации легкости чтения. [59]
Бонни Мейер и другие пытались использовать организацию как меру удобства чтения. Хотя это не привело к формуле, они показали, что люди читают быстрее и запоминают больше, когда текст организован по темам. Она обнаружила, что наглядный план представления контента очень помогает читателям оценивать текст. Иерархический план показывает, как связаны части текста. Он также помогает читателю вставлять новую информацию в существующие структуры знаний. [60]
Бонни Армбрустер обнаружила, что наиболее важной характеристикой для обучения и понимания является связность текста, которая бывает двух типов:
Армбрустер подтвердил выводы Кинча о том, что связность и структура более полезны для молодых читателей. [61] RC Calfee и R. Curley, основываясь на работе Бонни Мейер, обнаружили, что незнакомая базовая структура может сделать даже простой текст трудным для чтения. Они ввели градуированную систему, чтобы помочь студентам перейти от более простых сюжетных линий к более сложным и абстрактным. [62]
Во многих других исследованиях рассматривалось влияние других переменных текста на легкость чтения, в том числе:
Coh-Metrix можно использовать многими различными способами для исследования связности явного текста и связности ментального представления текста. «Наше определение связности состоит из характеристик явного текста, которые играют некоторую роль в помощи читателю мысленно связывать идеи в тексте». [79] Определение связности является предметом многочисленных споров. Теоретически связность текста определяется взаимодействием между языковыми представлениями и представлениями знаний. В то время как связность можно определить как характеристики текста (т. е. аспекты связности), которые, вероятно, будут способствовать связности ментального представления, измерения Coh-Metrix предоставляют индексы этих характеристик связности. [79]
В отличие от традиционных формул читабельности, подходы искусственного интеллекта к оценке читабельности (также известные как автоматическая оценка читабельности) включают в себя множество лингвистических признаков и создают статистические модели прогнозирования для прогнозирования читабельности текста. [80] [81] Эти подходы обычно состоят из трех этапов: 1. обучающий корпус отдельных текстов, 2. набор лингвистических признаков, которые необходимо вычислить из каждого текста, и 3. модель машинного обучения для прогнозирования читабельности с использованием вычисленных значений лингвистических признаков. [82] [83] [81]
В 2008 году было показано, что синтаксическая сложность коррелирует с более длительным временем обработки при понимании текста. [84] Обычно используется богатый набор этих синтаксических признаков для прогнозирования читабельности текста. Более продвинутые варианты синтаксических признаков читабельности часто вычисляются из дерева разбора . Эмили Питлер ( Университет Пенсильвании ) и Ани Ненкова (Университет Пенсильвании) считаются пионерами в оценке синтаксических признаков дерева разбора и сделали его широко используемым при оценке читабельности. [85] [86] Вот некоторые примеры:
Лицзюнь Фэн впервые ввела некоторые когнитивно-мотивированные признаки (в основном лексические) в 2009 году. Это было во время ее докторской диссертации в Городском университете Нью-Йорка (CUNY). [87] Когнитивно-мотивированные признаки изначально были разработаны для взрослых с ограниченными интеллектуальными возможностями , но было доказано, что они повышают точность оценки читаемости в целом. Когнитивно-мотивированные признаки в сочетании с моделью логистической регрессии могут исправить среднюю ошибку уровня оценки Флеша-Кинкейда более чем на 70%. Недавно обнаруженные Фэн признаки включают:
В 2012 году Соумья Ваджала из Тюбингенского университета создал корпус WeeBit, объединив образовательные статьи с веб-сайта Weekly Reader и веб-сайта BBC Bitesize , которые предоставляют тексты для разных возрастных групп. [83] Всего имеется 3125 статей, которые разделены на пять уровней читаемости (от 7 до 16 лет). Корпус Weebit использовался в нескольких исследованиях оценки читаемости на основе ИИ. [86]
Вэй Сюй ( Университет Пенсильвании ), Крис Каллисон-Берч ( Университет Пенсильвании ) и Кортни Наполес ( Университет Джонса Хопкинса ) представили корпус Newsela академической сфере в 2015 году. [88] Корпус представляет собой коллекцию тысяч новостных статей, профессионально выровненных по разным уровням сложности чтения профессиональными редакторами Newsela . Корпус был первоначально представлен для исследования упрощения текста , но также использовался для оценки читабельности текста. [89]
Влияние расширенных семантических или семантических признаков на читаемость текста было впервые исследовано Брюсом У. Ли во время его обучения в ( Университете Пенсильвании ) в 2021 году. Представляя свой метод гибридизации признаков, он также исследовал созданные вручную расширенные семантические признаки, целью которых является измерение объема знаний, содержащихся в данном тексте. [90]
где количество обнаруженных тем (n) и вероятность темы (p)
Грей и Лири проанализировали 228 переменных, которые влияют на удобство чтения, и разделили их на четыре типа: содержание, стиль, формат и организация. Они обнаружили, что содержание было наиболее важным, за ним следовал стиль. Третьим был формат, за которым следовала организация. Они не нашли способа измерить содержание, формат или организацию, но они могли измерить переменные стиля. Из 17 значимых измеримых переменных стиля они выбрали пять, чтобы создать формулу:
Первоначальная формула:
Модифицированная формула:
Чтобы применить формулу:
Где:
Наконец, чтобы компенсировать «кривую эквивалентности оценок», используйте следующую таблицу для окончательного балла:
[91]
Новая формула Дейла-Чалла выглядит следующим образом:
Формула тумана Ганнинга — одна из самых надежных и простых в применении:
Формула такова:
Индекс синтаксической плотности Голуба был разработан Лестером Голубом в 1974 году. Он входит в состав небольшого подмножества формул читабельности, которые концентрируются на синтаксических особенностях текста. Для расчета уровня читаемости текста из текста берется выборка из нескольких сотен слов. Подсчитывается количество слов в выборке, а также количество T-единиц. T-единица определяется как независимое предложение и любые зависимые предложения, прикрепленные к нему. Затем подсчитываются другие синтаксические единицы и вносятся в следующую таблицу:
1. Слов/единица T .95 X _________ ___ 2. Придаточные предложения/единица T .90 X _________ ___ 3. Длина слова главного предложения (средняя) .20 X _________ ___ 4. Длина придаточного предложения (средняя) .50 X _________ ___ 5. Количество модальных глаголов (will, shall, can, may, must, would...) .65 X _________ ___ 6. Количество форм Be и Have во вспомогательном глаголе .40 X _________ ___ 7. Количество предложных фраз .75 X _________ ___ 8. Количество притяжательных существительных и местоимений .70 X _________ ___ 9. Количество наречий времени (когда, тогда, однажды, пока...) .60 X _________ ___ 10. Количество герундиев, причастий и абсолютных фраз .85 X _________ ___
Пользователи складывают числа в правом столбце и делят сумму на количество Т-единиц. Наконец, частное вводится в следующую таблицу, чтобы получить окончательную оценку читаемости.
Соотношение типа и токена является одной из характеристик, которые часто используются для измерения лексического богатства, которое является мерой диапазона и разнообразия словарного запаса. Для измерения лексической сложности слова часто используется относительная частота слова в репрезентативном корпусе, таком как Корпус современного американского английского языка (COCA). Ниже приведены некоторые примеры лексико-семантических характеристик при оценке читабельности. [86]
Корреляция с пониманием, измеренным с помощью тестов по чтению, выглядит следующим образом: [33] [8]
Точность формул читаемости увеличивается при нахождении средней читаемости большого количества произведений. Тесты генерируют оценку на основе таких характеристик, как статистическая средняя длина слова (которая используется как ненадежный показатель семантической сложности; иногда учитывается частота слов ) и длина предложения (как ненадежный показатель синтаксической сложности) произведения.
Большинство экспертов сходятся во мнении, что простые формулы читаемости, такие как уровень Флеша-Кинкейда, могут быть весьма обманчивыми. [9] Несмотря на то, что традиционные характеристики, такие как средняя длина предложения, имеют высокую корреляцию с трудностью чтения, мера читаемости гораздо сложнее. Искусственный интеллект , основанный на данных подход (см. выше) был изучен для устранения этого недостатка. [64]
Эксперты по письму предупреждают, что попытка упростить текст только за счет изменения длины слов и предложений может привести к тому, что текст станет труднее читать. [93] Все переменные тесно связаны. Если изменить одну, то и другие должны быть скорректированы, включая подход, голос, человека, тон, типографику, дизайн и организацию.
Писать для класса читателей, отличного от своего собственного, очень сложно. Это требует обучения, метода и практики. [94] Среди тех, кто преуспевает в этом, есть писатели романов и детских книг. Все эксперты по письму советуют, помимо использования формулы, соблюдать все нормы хорошего письма, которые необходимы для написания читаемых текстов. Писатели должны изучать тексты, используемые их аудиторией, и их привычки чтения. [95] Это означает, что для аудитории 5-го класса писатель должен изучать и усваивать качественные материалы 5-го класса. [96] [97]
{{cite journal}}
: CS1 maint: numeric names: authors list (link)