Читабельность – это легкость, с которой читатель может понять написанный текст . Эта концепция существует как в естественном языке , так и в языках программирования , хотя и в разных формах. На естественном языке читаемость текста зависит от его содержания (сложности его словарного запаса и синтаксиса ) и его представления (например, типографских аспектов, влияющих на разборчивость , таких как размер шрифта , высота строки , межсимвольный интервал и длина строки ). [1] В программировании такие вещи, как комментарии программиста , выбор структуры цикла и выбор имен , могут определять легкость, с которой люди могут читать код компьютерной программы .
Более высокая читаемость текста облегчает чтение и скорость чтения для большинства читателей. Для тех, кто не обладает высоким уровнем понимания прочитанного , читабельность необходима для понимания и применения данного текста. Методы упрощения читаемости необходимы для передачи набора информации целевой аудитории. [2] Будь то код, новостная информация или повествование, у каждого писателя есть целевая аудитория, под которую он должен адаптировать свой уровень читабельности.
В разных источниках существуют разные определения читабельности. Термин «читабельность» по своей сути широк и может сбить с толку при рассмотрении всех возможных определений. [3] Читабельность — это концепция, которая включает аудиторию, содержание, качество, разборчивость и может даже включать форматирование и структуру дизайна любого текста. [4] Таким образом, определение может варьироваться в зависимости от типа аудитории, которой предлагается определенный тип контента. Например, технический писатель может сосредоточиться на ясном и кратком языке и форматировании, позволяющем легко читать. Напротив, научный журнал будет использовать сложные тексты, которые будут привлекать и иметь смысл для той аудитории, к которой они направляют информацию.
Читабельность важна для ясности и доступности текстов, используемых в классах, на работе и в повседневной жизни. Правительство также уделяет приоритетное внимание читабельности посредством Законов о простом языке, которые требуют, чтобы важные документы были написаны на уровне 8-го класса. [5]
Многие исследования были сосредоточены на сопоставлении прозы с навыками чтения, в результате чего были созданы формулы для использования в исследованиях, правительстве, преподавании, издательском деле, армии, медицине и бизнесе. [6] [7]
Несколько исследований 1940-х годов показали, что даже небольшое увеличение читаемости значительно увеличивает читательскую аудиторию газет с большим тиражом.
В 1947 году Дональд Мерфи из Wallace's Farmer использовал разделенное издание [8] для изучения влияния облегчения чтения текста. Он обнаружил, что снижение уровня чтения с 9-го до 6-го класса увеличило читательскую аудиторию статьи о «нейлоне» на 43%. Он также обнаружил, что читательская аудитория статьи о кукурузе увеличилась на 60%, причем лучшие отзывы получили люди моложе 35 лет. [8] Результатом стал прирост читателей на 42 000 при тираже в 275 000.
Уилбер Шрамм, руководивший программой исследований в области коммуникаций в Университете Иллинойса, в 1947 году опросил 1050 читателей газет. Он обнаружил, что более легкий стиль чтения помогает определить, какой объем статьи будет прочитан. Это называлось настойчивостью, глубиной или настойчивостью чтения . Он также обнаружил, что люди будут читать меньше длинных статей, чем коротких, например, рассказ длиной в девять абзацев потеряет 3 из 10 читателей к пятому абзацу. Напротив, более короткая история потеряет только 2 из 10 читателей. [9]
Исследование Мелвина Лостатера, проведенное в 1947 году, показало, что уровень написания газет обычно на пять лет выше, чем у среднего взрослого американского читателя. Было обнаружено, что легкость чтения газетных статей не имеет большой связи с образованием, опытом или личным интересом журналистов, пишущих статьи. Вместо этого это было больше связано с условностями и культурой отрасли. Лостаттер выступал за необходимость более тщательного тестирования читабельности газетных статей. Улучшение читабельности должно быть «сознательным процессом, в некоторой степени независимым от образования и опыта штатных авторов » . [10]
В 1948 году Бернард Фельд изучил каждую статью и рекламу в Birmingham News от 20 ноября 1947 года. Он разделил статьи на статьи выше уровня 8-го класса и на те, которые относятся к 8-му классу или ниже. Он выбрал точку отсчета для 8-го класса, поскольку она была определена как средний уровень чтения взрослых читателей. Текст для 8-го класса «...достигнет около 50% всех взрослых американцев», - написал он. Среди новостей информационных агентств нижняя группа получила на две трети больше читателей, а среди местных новостей - на 75% больше читателей. Фельд также верил в необходимость обучать писателей принципам ясного письма Флеша. [11]
И Рудольф Флеш, и Роберт Ганнинг активно работали с газетами и информационными агентствами над улучшением читабельности. Главным образом благодаря их усилиям за несколько лет читабельность газет США поднялась с уровня 16-го до 11-го класса, где и остается по сей день.
Два издания с наибольшими тиражами — «Телегид» (13 млн) и «Ридерз Дайджест» (12 млн) — написаны на уровне 9-го класса. [12] Самые популярные романы пишутся в 7-м классе. Это подтверждает тот факт, что среднестатистический взрослый человек читает на уровне девятого класса. Это также показывает, что для развлечения люди читают тексты, которые на два балла ниже их фактического уровня чтения. [13]
В 1880-х годах английский профессор Л.А. Шерман обнаружил, что английские предложения становятся короче. В елизаветинские времена средняя длина предложения составляла 50 слов, а в наше время Шермана — 23 слова.
Работа Шермана установила, что:
Шерман писал: «Ни один человек не должен говорить хуже, чем он пишет, ни один человек не должен писать лучше, чем он должен говорить...» Он написал это, желая подчеркнуть, что чем ближе письмо к речи, тем более ясным и эффективным становится содержание. [14]
В 1889 году в России писатель Николай Алексеевич Рубакин опубликовал исследование более 10 000 текстов, написанных обычными людьми. [15] Из этих текстов он взял 1500 слов, которые, по его мнению, были понятны большинству людей. Он обнаружил, что основными блоками понимания являются незнакомые слова и длинные предложения . [16] Начав вести собственный журнал в возрасте 13 лет, Рубакин опубликовал множество статей и книг по науке и многим темам для огромного числа новых читателей по всей России. По мнению Рубакина, люди были не дураками. Они были просто бедны и нуждались в дешевых книгах, написанных на доступном для них уровне. [15]
В 1921 году Гарри Д. Китсон опубликовал «Разум покупателя» — одну из первых книг, в которых психология применялась в маркетинге. Работа Китсона показала, что каждый тип читателей покупает и читает свой тип текста. Прочитав две газеты и два журнала, он обнаружил, что короткие предложения и короткие слова лучше всего способствуют легкости чтения. [17]
Самая ранняя оценка легкости чтения – это субъективное суждение, называемое выравниванием текста . Формулы не полностью отражают различное содержание, цель, дизайн, визуальный ввод и организацию текста. [18] [19] Выравнивание текста обычно используется для оценки легкости чтения текстов в тех областях, где трудности с чтением легко выявить, например, книги для маленьких детей. На более высоких уровнях ранжировать легкость чтения становится сложнее, поскольку становится труднее выявить индивидуальные трудности. Это привело к появлению более эффективных способов оценки легкости чтения.
В 1920-х годах научное движение в сфере образования искало тесты для измерения успеваемости учащихся, чтобы помочь в разработке учебных программ. Учителя и педагоги давно знали, что для улучшения навыков чтения читателям, особенно начинающим читателям, необходим материал для чтения, который точно соответствует их способностям. Психологи из университетов провели большую часть ранних исследований, которые позже были подхвачены издателями учебников. [20]
Психолог-педагог Эдвард Торндайк из Колумбийского университета отметил, что в России и Германии учителя использовали подсчет частоты слов, чтобы сопоставить книги ученикам. Навык словесности был лучшим признаком интеллектуального развития и самым сильным показателем легкости чтения. В 1921 году Торндайк опубликовал «Книгу слов учителя» , в которой содержались частоты 10 000 слов. [21] Учителям стало легче выбирать книги, соответствующие навыкам чтения в классе. Это также послужило основой для будущих исследований легкости чтения.
До появления компьютеров списки частотности слов были лучшим средством оценки легкости чтения текстов. [13] В 1981 году во Всемирной энциклопедии книги были перечислены уровни из 44 000 слов. [22] Популярной стратегией среди преподавателей в наше время является «случайное изучение словарного запаса», которое обеспечивает эффективность изучения словарного запаса в краткосрочной перспективе, а не заучивание слов и значений, которые, как надеются учителя, будут придерживаться. [23] Тактика случайного обучения призвана помочь учащимся развить навыки понимания и обучения, а не запоминания слов. Надеемся, что благодаря этой стратегии учащиеся смогут ориентироваться на различных уровнях читаемости, используя контекстные подсказки и понимание.
В 1923 году Берта А. Лайвли и Сидни Л. Пресси опубликовали первую формулу облегчения чтения. Они были обеспокоены тем, что в учебниках естественных наук для младших классов средней школы так много технических слов и что учителя будут тратить все время на объяснение этих слов. Они утверждали, что их формула поможет измерить и снизить «словарную нагрузку» учебников. В их формуле использовались пять переменных и шесть констант. Для каждой тысячи слов он подсчитывал количество уникальных слов, количество слов, не включенных в список Торндайка, и медианный индекс слов, найденных в списке. Чтобы вручную применить формулу к книге, потребовалось три часа. [24]
После исследования Лайвли-Пресси люди стали искать более точные и простые в применении формулы. В 1928 году Карлтон Уошберн и Мейбл Фогель создали первую современную формулу читабельности. Они подтвердили это, используя внешний критерий, и сопоставили 0,845 с результатами тестов студентов, которые прочитали книги по критериям и им понравились. [25] Он также был первым, кто ввел интересующую переменную в концепцию читаемости. [26]
Между 1929 и 1939 годами Альфред Леверенц из школьного округа Лос-Анджелеса опубликовал несколько новых формул. [27] [28] [29] [30] [31]
В 1934 году Эдвард Торндайк опубликовал свою формулу. Он писал, что словесные навыки можно улучшить, если учитель вводит новые слова и часто их повторяет. [32] В 1939 году У. Пэтти и У. Пейнтер опубликовали формулу для измерения словарного запаса учебников. Это была последняя из ранних формул, в которых использовался список частот словаря Торндайка. [33]
Во время рецессии 1930-х годов правительство США инвестировало в образование взрослых . В 1931 году Дуглас Уэйплс и Ральф Тайлер опубликовали книгу «О чем хотят читать взрослые». Это было двухлетнее исследование интересов взрослых к чтению. В их книге было показано не только то, что люди читают, но и то, что они хотели бы прочитать. Они обнаружили, что многим читателям не хватает подходящих материалов для чтения: им хотелось бы учиться, но материалы для чтения были для них слишком трудными. [34]
Лайман Брайсон из Педагогического колледжа Колумбийского университета обнаружил, что многие взрослые плохо умеют читать из-за плохого образования. Хотя в колледжах уже давно пытались научить писать ясным и читаемым стилем, Брайсон обнаружил, что это встречается редко. Он писал, что такой язык является результатом «... дисциплины и артистизма, которых мало кто из людей, обладающих идеями, потрудится достичь... Если бы простой язык был простым, многие из наших проблем были бы давно решены». [13] Брайсон помог создать в колледже Лабораторию читабельности. Двумя его учениками были Ирвинг Лорге и Рудольф Флеш .
В 1934 году Ральф Оджеманн исследовал навыки чтения взрослых, факторы, которые наиболее непосредственно влияют на легкость чтения, и причины каждого уровня сложности. Он изобрел не формулу, а метод оценки сложности материалов для обучения родителей . Он был первым, кто оценил обоснованность этого метода, используя 16 отрывков из журналов, проверенных на реальных читателях. Он оценил 14 измеримых и три сообщаемых фактора, влияющих на легкость чтения.
Оджеманн подчеркнул указанные особенности, например, был ли текст связным или чрезмерно абстрактным. Он использовал свои 16 отрывков, чтобы сравнить и оценить легкость чтения других текстов. Этот метод теперь называется масштабированием . Он показал, что, хотя эти факторы невозможно измерить, их нельзя игнорировать. [35]
Также в 1934 году Ральф Тайлер и Эдгар Дейл опубликовали первую формулу облегчения чтения для взрослых, основанную на отрывках на темы здоровья из различных учебников и журналов. Из 29 факторов, значимых для юных читателей, они обнаружили десять, значимых для взрослых. В своей формуле они использовали три из них. [36]
В 1935 году Уильям С. Грей из Чикагского университета и Бернис Лири из колледжа Ксавьера в Чикаго опубликовали «Что делает книгу читаемой», одну из самых важных книг по исследованию читабельности. Подобно Дейлу и Тайлеру, они сосредоточились на том, что делает книги читабельными для взрослых с ограниченными способностями к чтению. Их книга включала первое научное исследование навыков чтения взрослых американцев. В выборку вошли 1690 взрослых из разных мест и регионов. В тесте использовался ряд отрывков из газет , журналов и книг, а также стандартный тест по чтению. Они обнаружили, что средний балл составил 7,81 (восьмой месяц седьмого класса ). Около одной трети читают на уровне 2–6 классов , одна треть – на уровне 7–12 классов и одна треть – на уровне 13–17 классов.
Авторы подчеркивают, что половина взрослого населения в то время не имела подходящих материалов для чтения. Они написали: «Для них обогащающая ценность чтения отрицается, если материалы, отражающие интересы взрослых, не адаптированы к их потребностям». Беднейшие читатели, составляющие одну шестую часть взрослого населения, нуждаются в «более простых материалах для использования в целях развития функциональной грамотности и формирования фундаментальных привычек чтения». [37]
Затем Грей и Лири проанализировали 228 переменных, влияющих на легкость чтения, и разделили их на четыре типа:
Они обнаружили, что содержание является наиболее важным, за которым следует стиль. Третьим был формат, за которым следовала организация. Они не нашли способа измерить содержание, формат или организацию, но смогли измерить переменные стиля. Среди 17 значимых измеримых переменных стиля они выбрали пять для создания формулы:
Их формула имела корреляцию 0,645 с пониманием , измеренным в тестах по чтению, проведенных примерно 800 взрослыми. [37]
В 1939 году Ирвинг Лордж опубликовал статью, в которой сообщалось о других комбинациях переменных, которые более точно указывают на сложность, чем те, которые использовали Грей и Лири. Его исследование также показало, что «нагрузка на словарный запас является наиболее важным сопутствующим фактором трудностей». [38] В 1944 году Лорхе опубликовал свой «Индекс Лорге» — формулу удобочитаемости, в которой использовались три переменные и которая подготовила почву для последующих более простых и надежных формул. [39]
К 1940 году следователи имели:
В 1943 году Рудольф Флеш опубликовал свою докторскую диссертацию « Признаки читаемого стиля» , которая включала формулу читаемости, позволяющую предсказать сложность материалов для чтения для взрослых. Следователи во многих областях начали использовать его для улучшения связи. Одной из используемых переменных были личные ссылки, такие как имена и личные местоимения. Другой переменной были аффиксы . [40]
В 1948 году Флеш опубликовал свою формулу облегчения чтения, состоящую из двух частей. Вместо использования уровней классов использовалась шкала от 0 до 100, где 0 соответствует 12-му классу, а 100 соответствует 4-му классу. Было исключено использование аффиксов. Вторая часть формулы предсказывает человеческий интерес, используя личные ссылки и количество личных предложений. Новая формула коррелировала 0,70 с тестами чтения Макколла-Крабса. [41] Исходная формула:
Издатели обнаружили, что формулы Флеша могут увеличить читательскую аудиторию до 60%. Работы Флеша также оказали огромное влияние на журналистику. Формула легкости чтения Флеша стала одним из наиболее широко используемых, проверенных и надежных показателей читаемости. [42] [43] В 1951 году Фарр, Дженкинс и Паттерсон еще больше упростили формулу, изменив количество слогов. Модифицированная формула:
В 1975 году в рамках проекта, спонсируемого ВМС США, формула легкости чтения была пересчитана для получения оценки на уровне класса. Новая формула теперь называется формулой уровня Флеша-Кинкейда . [45] Формула Флеша-Кинкейда — одна из самых популярных и тщательно проверенных формул. Он коррелирует 0,91 с пониманием, измеренным с помощью тестов по чтению. [12]
Эдгар Дейл , профессор педагогики Университета штата Огайо, был одним из первых критиков списков частоты словарного запаса Торндайка. Он утверждал, что они не делают различия между разными значениями, которые имеют многие слова. Он создал два новых собственных списка. Один из них, его «краткий список» из 769 простых слов, был использован Ирвингом Лорге в своей формуле. Вторым был его «длинный список» из 3000 простых слов, которые понимали 80% четвероклассников. Однако необходимо расширить списки слов за счет регулярных существительных во множественном числе, правильных форм прошедшего времени глаголов, прогрессивных форм глаголов и т. д. В 1948 году он включил этот список в формулу, которую он разработал вместе с Жанной С. Чалл , которая позже основал Гарвардскую лабораторию чтения.
Чтобы применить формулу:
Где:
Наконец, чтобы компенсировать «кривую эквивалента оценок», примените следующую диаграмму для итогового балла:
[46]
В 1995 году Дейл и Чалл опубликовали новую версию своей формулы с обновленным списком слов — формулу читаемости Нью-Дейла-Чалла. [47] Его формула:
Общий балл = 64 – 0,95 *(PDW) – 0,69 *(ASL)
В 1940-х годах Роберт Ганнинг помог провести исследование читабельности на рабочем месте. В 1944 году он основал первую консалтинговую фирму по читабельности, занимающуюся уменьшением «тумана» в газетах и деловой литературе. В 1952 году он опубликовал «Технику ясного письма» со своим собственным индексом туманности — формулой, которая коррелирует 0,91 с пониманием, измеренным с помощью тестов по чтению. [12] Формула является одной из самых надежных и простых в применении:
В 1963 году, обучая учителей английского языка в Уганде, Эдвард Фрай разработал свой график удобочитаемости . Эта формула стала одной из самых популярных и простых в применении. [49] [50] График Фрая коррелирует 0,86 с пониманием, измеренным с помощью тестов по чтению. [12]
Гарри Маклафлин определил, что длину слова и длину предложения следует умножать, а не складывать, как в других формулах. В 1969 году он опубликовал свою формулу SMOG (Простая мера тарабарщины):
Формула SMOG коррелирует 0,88 с пониманием, измеренным с помощью тестов по чтению. [12] Его часто рекомендуют для использования в здравоохранении. [52]
В 1973 году в результате проведенного по заказу армии США исследования навыков чтения, необходимых для различных военных должностей, была разработана формула ПРОГНОЗ. В отличие от большинства других формул, она использует только словарный элемент, что делает ее полезной для текстов без полных предложений. Формула удовлетворяла требованиям:
Формула:
Формула ПРОГНОЗ коррелирует 0,66 с пониманием, измеренным с помощью тестов по чтению. [12]
Оценка синтаксической плотности Голуба была разработана Лестером Голубом в 1974 году. Это одна из небольших подгрупп формул читаемости, которые концентрируются на синтаксических особенностях текста. Для расчета уровня чтения текста из текста берется выборка в несколько сотен слов. Подсчитывается количество слов в выборке, а также количество Т-единиц. Т-единица определяется как независимое предложение и все присоединенные к нему зависимые предложения. Затем подсчитываются другие синтаксические единицы и заносятся в следующую таблицу:
1. Слова/Т-единица 0,95 X _________ ___ 2. Придаточные предложения/Т-единица .90 X _________ ___ 3. Длина слова главного предложения (средняя) 0,20 X _________ ___ 4. Длина придаточного предложения (средняя) 0,50 X _________ ___ 5. Количество модальных окончаний (будет, должно, может, может, должно, будет...) .65 X _________ ___ 6. Число форм Be и Have во вспомогательном .40 X _________ ___ 7. Количество предложных фраз 0,75 X _________ ___ 8. Количество притяжательных существительных и местоимений 0,70 X _________ ___ 9. Количество наречий времени (когда, тогда, однажды, пока...) .60 X _________ ___ 10. Количество герундий, причастий и абсолютов Фразы 0,85 X _________ ___
Пользователи складывают числа в правом столбце и делят сумму на количество Т-единиц. Наконец, частное вводится в следующую таблицу, чтобы получить окончательную оценку читабельности.
На протяжении веков учителя и педагоги осознавали важность организации, последовательности и акцента в хорошем письме. Начиная с 1970-х годов когнитивные теоретики начали учить, что чтение на самом деле является актом мышления и организации. Читатель конструирует смысл, смешивая новые знания с существующими. Из-за ограничений формул облегчения чтения в некоторых исследованиях рассматривались способы измерения содержания, организации и связности текста. Хотя это не повысило надежность формул, их усилия показали важность этих переменных для облегчения чтения.
Исследования Уолтера Кинча и других показали центральную роль связности в облегчении чтения, в основном для людей, которые учатся читать. [54] В 1983 году Сьюзан Кемпер разработала формулу, основанную на физических и психических состояниях. Однако она обнаружила, что это не лучше, чем знание слов и длина предложений для демонстрации легкости чтения. [55]
Бонни Мейер и другие пытались использовать организацию как меру легкости чтения. Хотя это не привело к формуле, они показали, что люди читают быстрее и запоминают больше, когда текст организован по темам. Она обнаружила, что наглядный план подачи контента очень помогает читателям оценить текст. Иерархический план показывает, как связаны между собой части текста. Это также помогает читателю объединить новую информацию с существующими структурами знаний. [56]
Бонни Армбрустер обнаружила, что наиболее важной особенностью обучения и понимания является связность текста, которая бывает двух типов:
Армбрустер подтвердил вывод Кинча о том, что связность и структура больше помогают юным читателям. [57] Р. К. Калфи и Р. Керли, опираясь на работу Бонни Мейер, обнаружили, что незнакомая основная структура может затруднить чтение даже простого текста. Они ввели ступенчатую систему, чтобы помочь учащимся перейти от более простых сюжетных линий к более сложным и абстрактным. [58]
Многие другие исследования изучали влияние на легкость чтения других текстовых переменных, в том числе:
Джон Бормут из Чикагского университета изучал легкость чтения с помощью нового теста на удаление Клоза, разработанного Уилсоном Тейлором. Его работа поддержала более ранние исследования, включая степень легкости чтения для каждого вида чтения. Лучший уровень для «чтения с подсказкой» в классе — это немного сложный текст, который вызывает «настройку на обучение» и на который читатели могут правильно ответить на 50% вопросов теста с несколькими вариантами ответов. Лучший уровень для чтения без посторонней помощи — тот, на котором читатели могут правильно ответить на 80% вопросов. Эти пороговые значения позже были подтверждены Выготским [74] , Чаллом и Конардом. [75] Среди прочего, Бормут подтвердил, что словарный запас и длина предложения являются лучшими показателями легкости чтения. Он показал, что показатели легкости чтения эффективны как для взрослых, так и для детей. Те же вещи, которые детям кажутся трудными, одинаковы для взрослых с таким же уровнем чтения. Он также разработал несколько новых показателей пороговых баллов. Одной из наиболее известных была формула среднего Клоза , которая использовалась в 1981 году для создания системы степени чтения , используемой комиссией по вступительным экзаменам в колледж. [76] [77] [78]
В 1988 году Джек Стеннер и его коллеги из MetaMetrics, Inc. опубликовали Lexile Framework для оценки читаемости и сопоставления учащихся с соответствующими текстами.
Структура Lexile использует среднюю длину предложения и среднюю частоту слов в промежуточном корпусе американского наследия для прогнозирования оценки по шкале от 0 до 2000. Корпус AHI включает пять миллионов слов из 1045 опубликованных работ, которые часто читают учащиеся третьего-девятого классов. [ нужна цитата ]
В 2000 году исследователи Института школьного возрождения и Touchstone Applied Science Associates опубликовали свою формулу облегчения чтения для книг по открытому стандарту Advantage-TASA (ATOS). Они работали над формулой, которую было легко использовать и которую можно было использовать с любыми текстами.
Этот проект стал одним из самых масштабных проектов по облегчению чтения. Разработчики формулы использовали 650 текстов нормированного чтения, 474 миллиона слов из всего текста 28 тысяч книг, прочитанных студентами. В рамках проекта также использовались записи о чтении более 30 000 человек, которые читали и прошли тестирование на 950 000 книг.
Они обнаружили, что три переменные дают наиболее надежную оценку легкости чтения текста:
Они также обнаружили, что:
Coh-Metrix можно использовать разными способами для исследования связности явного текста и связности мысленного представления текста. «Наше определение связности состоит из характеристик явного текста, которые играют определенную роль, помогая читателю мысленно связывать идеи в тексте». [81] Определение согласованности является предметом многочисленных дискуссий. Теоретически связность текста определяется взаимодействием между лингвистическими представлениями и представлениями знаний. Хотя связность можно определить как характеристики текста (т. е. аспекты связности), которые могут способствовать связности мысленного представления, измерения Кох-Метрикс предоставляют показатели этих характеристик связности. [81]
В отличие от традиционных формул читаемости, подходы искусственного интеллекта к оценке читаемости (также известные как автоматическая оценка читаемости ) включают в себя множество лингвистических функций и создают модели статистического прогнозирования для прогнозирования читаемости текста. [82] [83] Эти подходы обычно состоят из трех этапов: 1. обучающий корпус отдельных текстов, 2. набор лингвистических характеристик, которые необходимо вычислить на основе каждого текста, и 3. модель машинного обучения для прогнозирования читабельности с использованием вычисленные значения лингвистических признаков. [84] [85] [83]
В 2012 году Совья Вайджала из Тюбингенского университета создала корпус WeeBit, объединив образовательные статьи с веб-сайта Weekly Reader и веб-сайта BBC Bitesize , на которых представлены тексты для разных возрастных групп. [85] Всего имеется 3125 статей, которые разделены на пять уровней читабельности (от 7 до 16 лет). Корпус Weebit использовался в нескольких исследованиях по оценке читаемости на основе искусственного интеллекта. [86]
Вэй Сюй ( Пенсильванский университет ), Крис Каллисон-Бёрч ( Пенсильванский университет ) и Кортни Напоулс ( Университет Джона Хопкинса ) представили корпус Newsela академической сфере в 2015 году. [87] Корпус представляет собой сборник тысяч новостных статей. профессионально подготовлены к различным сложностям чтения профессиональными редакторами Newsela . Первоначально корпус был введен для исследования упрощения текста , но также использовался для оценки читаемости текста. [88]
Влияние расширенных семантических или семантических функций на читаемость текста было впервые предложено Брюсом У. Ли во время его обучения в Пенсильванском университете в 2021 году. Представляя свой метод гибридизации функций, он также исследовал созданные вручную расширенные семантические функции, которые направлены на измерение объем знаний, содержащихся в данном тексте. [89]
где количество обнаруженных тем (n) и вероятность темы (p)
Соотношение типов и токенов — это одна из характеристик, которая часто используется для отражения лексического богатства, которое является мерой словарного запаса и разнообразия. Чтобы измерить лексическую сложность слова, часто используется относительная частота слова в репрезентативном корпусе, таком как Корпус современного американского английского языка (COCA). Ниже приведены некоторые примеры лексико-семантических особенностей оценки читабельности. [86]
Кроме того, Лицзюнь Фэн впервые применила когнитивно-мотивированные функции (в основном лексические) в 2009 году. Это было во время учебы в докторантуре Городского университета Нью-Йорка (CUNY). [90] Когнитивно-мотивированные функции изначально были разработаны для взрослых с умственной отсталостью , но было доказано, что они повышают точность оценки читабельности в целом. Когнитивно-мотивированные функции в сочетании с моделью логистической регрессии могут исправить среднюю ошибку уровня успеваемости Флеша-Кинкейда более чем на 70%. Недавно обнаруженные Фэном функции включают в себя:
Синтаксическая сложность коррелирует с более длительным временем обработки при понимании текста. [91] Для прогнозирования читабельности текста обычно используется богатый набор этих синтаксических функций. Более продвинутые варианты функций синтаксической читаемости часто вычисляются на основе дерева синтаксического анализа . Эмили Питлер ( Пенсильванский университет ) и Ани Ненкова (Пенсильванский университет) считаются пионерами в оценке синтаксических особенностей дерева разбора и широком использовании его при оценке читаемости. [92] [86] Вот некоторые примеры:
Точность формул читабельности возрастает при нахождении средней читабельности большого количества произведений. Тесты выставляют баллы на основе таких характеристик, как статистическая средняя длина слова (которая используется как ненадежный показатель семантической сложности; иногда учитывается частота слов ) и длина предложения (как ненадежный показатель синтаксической сложности) произведения.
Большинство экспертов сходятся во мнении, что простые формулы удобочитаемости, такие как уровень успеваемости Флеша-Кинкейда, могут вводить в заблуждение. [93] Несмотря на то, что традиционные характеристики, такие как средняя длина предложения, имеют высокую корреляцию с трудностью чтения, измерение читабельности гораздо сложнее. Для устранения этого недостатка был изучен подход, основанный на использовании искусственного интеллекта и данных (см. выше ) . [94]
Эксперты по письменности предупреждают, что попытка упростить текст только за счет изменения длины слов и предложений может привести к тому, что текст станет труднее читать. [95] Все переменные тесно связаны между собой. Если что-то меняется, необходимо скорректировать и другие, включая подход, голос, личность, тон, типографику, дизайн и организацию.
Писать для другого класса читателей, кроме своего собственного, очень сложно. Это требует обучения, метода и практики. [96] Среди тех, кто хорош в этом, писатели романов и детских книг. Все специалисты по письму советуют, помимо использования формул, соблюдать все нормы хорошего письма, необходимые для написания читаемых текстов. Писателям следует изучать тексты, используемые их аудиторией, и их привычки чтения. [97] Это означает, что для пятиклассников писатель должен изучать и усваивать материалы для пятого класса хорошего качества. [98] [99]
Одно исследование показало, что большие языковые модели могут улучшить читаемость. [100] Общие исследования продолжаются.
{{cite journal}}
: CS1 maint: numeric names: authors list (link)