Оценка письма относится к области изучения, которая содержит теории и практики, которые направляют оценку производительности или потенциала писателя посредством письменного задания. Оценка письма может рассматриваться как сочетание научных знаний из исследований композиции и теории измерения в образовательной оценке . [1] Оценка письма может также относиться к технологиям и практикам, используемым для оценки письма и обучения студентов. [2] Важным следствием оценки письма является то, что тип и способ оценки могут влиять на обучение письму, что имеет последствия для характера и качества этого обучения. [3]
Оценка письма началась как практика в классе в течение первых двух десятилетий 20-го века, хотя в это время также появились высокие ставки и стандартизированные тесты . [4] В 1930-х годах College Board перешел от использования прямой оценки письма к косвенной оценке, поскольку эти тесты были более экономически эффективными и считались более надежными. [4] Начиная с 1950-х годов все больше студентов из разных слоев общества посещали колледжи и университеты, поэтому администраторы использовали стандартизированное тестирование, чтобы решить, куда следует поместить этих студентов, чему и как их учить и как измерить, что они усвоили то, что им нужно было усвоить. [5] Масштабные общегосударственные оценки письма, которые развивались в это время, объединяли прямую оценку письма с заданиями с множественным выбором , практика, которая остается доминирующей и сегодня в программах крупномасштабного тестирования в США, таких как SAT и GRE . [4] Эти оценки обычно проводятся за пределами класса, на уровне штата и на национальном уровне. Однако, поскольку все больше и больше студентов были распределены на курсы на основе их стандартизированных результатов тестирования, преподаватели письма начали замечать конфликт между тем, по чему проверялись студенты — грамматика , использование и словарный запас — и тем, чему преподаватели на самом деле учили — процессу письма и пересмотру. [5] Из-за этого разрыва преподаватели начали настаивать на оценках письма, которые были разработаны и внедрены на местном, программном и классном уровнях. [5] [6] Когда преподаватели письма начали разрабатывать местные оценки, методы оценки начали диверсифицироваться, что привело к тестам на сочинение с ограничением по времени, локально разработанным рубрикам и портфолио. В дополнение к классному и программному уровням, оценка письма также оказывает огромное влияние на центры письма для оценки центра письма и аналогичные центры академической поддержки. [7]
Поскольку оценка письма используется в различных контекстах , историю оценки письма можно проследить, изучая конкретные концепции и ситуации , которые приводят к серьезным изменениям в теориях и практиках. Ученые, занимающиеся оценкой письма , не всегда сходятся во мнении о происхождении оценки письма.
История оценки письма описывается как состоящая из трех основных сдвигов в методах, используемых при оценке письма. [5] Первая волна оценки письма (1950-1970) стремилась к объективным тестам с косвенными мерами оценки. Вторая волна (1970-1986) сосредоточилась на целостно оцениваемых тестах , где фактические письма студентов начали оцениваться. А третья волна (с 1986 года) перешла к оценке коллекции студенческих работ (т. е. оценке портфолио) и программной оценке.
Публикация в 1961 году книги « Факторы суждений о способности писать» Дидериха, Френча и Карлтона также была охарактеризована как знаменующая рождение современной оценки письма. [8] Дидерих и др. основали большую часть своей книги на исследованиях, проведенных Службой образовательного тестирования (ETS) за предыдущее десятилетие. Эта книга представляет собой попытку стандартизировать оценку письма и отвечает за создание базы исследований в области оценки письма. [9]
Концепции валидности и надежности были предложены в качестве своего рода эвристики для понимания изменений в приоритетах в оценке письменных работ [10], а также для интерпретации того, что понимается как передовой опыт в оценке письменных работ [11] .
В первой волне оценки письма акцент делается на надежности : [12] надежность сталкивается с вопросами последовательности теста. В этой волне главной заботой было оценить письмо с наилучшей предсказуемостью при наименьших затратах и работе.
Переход ко второй волне ознаменовал переход к рассмотрению принципов валидности . Валидность сталкивается с вопросами о целесообразности и эффективности теста для данной цели. Методы в этой волне были больше связаны с конструктной валидностью теста : является ли материал, предложенный в тесте, подходящей мерой того, что тест призван измерять. Учителя начали видеть несоответствие между материалом, предложенным для измерения письма, и материалом, который учителя просили написать учеников. Целостная оценка , отстаиваемая Эдвардом М. Уайтом, появилась в этой волне. Это один из методов оценки, при котором письмо учеников предлагается для измерения их способности писать. [13]
Третья волна оценки письма возникает с постоянным интересом к валидности методов оценки. Эта волна начала рассматривать расширенное определение валидности, которое включает в себя то, как оценка портфолио способствует обучению и преподаванию. В этой волне оценка портфолио возникает, чтобы подчеркнуть теории и практики в Composition and Writing Studies, такие как пересмотр , составление черновиков и процесс .
Косвенные оценки письма обычно состоят из тестов с несколькими вариантами ответов по грамматике, использованию и словарному запасу. [5] Примерами служат стандартизированные тесты с высокими ставками , такие как ACT , SAT и GRE , которые чаще всего используются колледжами и университетами для целей приема . Другие косвенные оценки, такие как Compass, используются для распределения студентов на корректирующие или основные курсы письма. Прямые оценки письма, такие как Writeplacer ESL (часть Accuplacer) или тест по эссе с ограничением по времени, требуют по крайней мере одного образца письма студента и рассматриваются многими учеными по оценке письма как более достоверные, чем косвенные тесты, поскольку они оценивают фактические образцы письма. [5] Оценка портфолио, которая обычно состоит из нескольких частей письма студента, написанных в течение семестра, начала заменять эссе с ограничением по времени в конце 1980-х и начале 1990-х годов. Оценка портфолио считается даже более достоверной, чем тесты на эссе с ограничением по времени, поскольку она фокусируется на нескольких образцах студенческих работ, которые были составлены в аутентичном контексте класса. Портфолио позволяет оценщикам изучать несколько образцов студенческих работ и несколько черновиков одного эссе. [5]
Методы оценки письма различаются в зависимости от контекста и типа оценки. Ниже приведен неполный список часто применяемых оценок письма:
Оценка портфолио обычно используется для оценки того, чему студенты научились в конце курса или за период в несколько лет. Портфолио курса состоит из нескольких образцов студенческих работ и рефлексивного письма или эссе, в которых студенты описывают свои работы и работу по курсу. [5] [14] [15] [16] «Портфолио-демонстрации» содержат окончательные черновики студенческих работ, а «портфолио-процессы» содержат несколько черновиков каждой части работы. [17] Как печатные, так и электронные портфолио могут быть либо демонстрационными, либо процессными портфолио, хотя электронные портфолио обычно содержат гиперссылки из рефлексивного эссе или письма на образцы студенческих работ и, иногда, внешние источники. [15] [17]
Тесты на эссе с ограничением по времени были разработаны как альтернатива множественному выбору, косвенным оценкам письма. Тесты на эссе с ограничением по времени часто используются для распределения студентов по курсам письма, соответствующим их уровню навыков. Эти тесты обычно проводятся под наблюдением , что означает, что тестирование проводится в определенном месте, где студентам дается подсказка, чтобы написать ответ в течение установленного срока. SAT и GRE оба содержат части эссе с ограничением по времени.
Рубрика — это инструмент, используемый при оценке письма, который может использоваться в нескольких контекстах письма. Рубрика состоит из набора критериев или описаний, которые направляют оценщика для оценки или оценки писателя. Истоки рубрик можно проследить до ранних попыток в образовании стандартизировать и масштабировать письмо в начале 20-го века. Эрнест С. Нойес в ноябре 1912 года выступает за переход к более научно обоснованным методам оценки. Одна из оригинальных шкал, используемых в образовании, была разработана Майло Б. Хиллегасом в работе « Шкала для измерения качества сочинений на английском языке, написанных молодыми людьми» . Эту шкалу обычно называют шкалой Хиллегаса. Шкала Хиллегаса и другие шкалы, используемые в образовании, использовались администраторами для сравнения прогресса школ. [18]
В 1961 году Дидерих, Френч и Карлтон из Службы образовательного тестирования (ETS) опубликовали «Факторы в суждениях о способности писать» — рубрику, составленную на основе комментариев ряда оценщиков, которые были классифицированы и сведены в пятифакторную рубрику: [19]
Когда в классе начали использовать рубрики, учителя начали выступать за то, чтобы критерии согласовывались с учениками, чтобы ученики могли заявить о своих правах на то, как их будут оценивать. Такие ученые, как Крис Галлахер и Эрик Терли [20] , Боб Брод [21] и Асао Иноуэ [22] (среди многих) утверждали, что эффективное использование рубрик исходит из местных, контекстуальных и согласованных критериев.
Критика:
Введение рубрики вызвало споры среди ученых. Некоторые педагоги утверждали, что рубрики основаны на ложных объективных утверждениях и, таким образом, основаны на субъективности. [23] Эрик Терли и Крис Галлахер утверждали, что навязанные государством рубрики являются инструментом подотчетности, а не улучшения. Во многих случаях рубрики возникают вне класса от авторов, не имеющих отношения к самим студентам, а затем интерпретируются и адаптируются другими педагогами. [24] Терли и Галлахер отмечают, что «закон дистального уменьшения гласит, что любой образовательный инструмент становится менее полезным в учебном плане — и более потенциально разрушительным для образовательной целостности — чем дальше от класса он возникает или куда попадает». [24] Они продолжают говорить, что его следует интерпретировать как инструмент для писателей, позволяющий измерять набор консенсусных ценностей, а не заменять им заинтересованный ответ.
Исследование Stellmack et al оценило восприятие и применение рубрик с согласованными критериями. Результаты показали, что когда разные оценщики оценивали один и тот же черновик, оценщик, который уже давал обратную связь ранее, с большей вероятностью отмечал улучшение. Исследователи пришли к выводу, что рубрика, которая имела более высокую надежность, приведет к лучшим результатам в их «процедуре обзора-исправления-повторной отправки». [25]
Анти-рубрика : рубрики измеряют качество письма и отражают убеждения человека в том, каковы риторические ценности кафедры или конкретного учреждения. Но в рубриках нет подробностей о том, как преподаватель может отклониться от этих ценностей. Боб Брод отмечает, что примером альтернативного предложения рубрике является [26] «динамическое отображение критериев».
Единый стандарт оценки поднимает дополнительные вопросы, поскольку Элбоу касается социальной конструкции ценности как таковой. Он предлагает коллективный процесс, лишенный требования согласия, который позволит классу «видеть потенциальные соглашения — невынужденные соглашения в их мышлении — и в то же время помогать им артикулировать, где они не согласны». [27] Он предлагает, чтобы оценивание могло принять многомерную линзу, где открывается потенциал для «хорошего письма». Он указывает, что при этом единственная размерная рубрика пытается оценить многомерную производительность. [27]
Тесты с множественным выбором содержат вопросы об использовании , грамматике и словарном запасе . Стандартизированные тесты, такие как SAT, ACT и GRE, обычно используются для поступления в колледж или аспирантуру. Другие тесты, такие как Compass и Accuplacer, обычно используются для направления студентов на корректирующие или основные курсы письма.
Автоматизированная оценка эссе (AES) — это использование не требующих участия человека, а компьютерных методов оценки для ранжирования, оценки или выставления оценок письменным заданиям.
Некоторые ученые в области оценки письма фокусируют свои исследования на влиянии расы на результаты оценки письма. Ученые в области оценки расы и письма стремятся изучить, как категории расы и восприятие расы продолжают формировать результаты оценки письма. Однако некоторые ученые в области оценки письма признают, что расизм в 21 веке больше не является явным , [28] но выступают за «молчаливый» расизм в практиках оценки письма, в которых расовое неравенство в оценке письма обычно оправдывается нерасовыми причинами. [29] Эти ученые выступают за новые разработки в оценке письма, в которых пересечение расы и оценки письма выносится на передний план практики оценки.