Стандартизированный тест

Стандартизированный тест — это тест , который проводится и оценивается последовательным или «стандартным» способом. Стандартизированные тесты разработаны таким образом, чтобы вопросы и интерпретации были единообразными, а их назначение и оценка проводились в заранее установленном стандартном порядке. ^[1]

Любой тест, в котором один и тот же тест дается всем участникам одинаково и оценивается одинаково для всех, является стандартизированным тестом. Стандартизированные тесты не обязательно должны быть тестами с высокими ставками , ограниченными по времени тестами, тестами с несколькими вариантами ответов , академическими тестами или тестами, предназначенными для большого числа тестируемых. Стандартизированным тестом может быть любой тип теста: письменный тест, устный тест или тест на практические навыки . Вопросы могут быть простыми или сложными. Предметом учащихся школьного возраста часто являются академические навыки, но стандартизированный тест можно сдать практически по любой теме, включая экзамены по вождению , творческие способности , атлетизм , личность , профессиональную этику или другие характеристики.

Противоположностью стандартизированного тестирования является нестандартизированное тестирование , при котором либо разные тесты даются разным тестируемым, либо один и тот же тест назначается в существенно разных условиях (например, одной группе дается гораздо меньше времени для завершения теста, чем другой группе). следующая группа) или оцениваются по-разному (например, один и тот же ответ засчитывается как правильный для одного учащегося, но неправильный для другого).

Большинство ежедневных тестов и тестов, сдаваемых учащимися в школе, соответствуют определению стандартизированного теста: все в классе сдают один и тот же тест, в одно и то же время, при одинаковых обстоятельствах, и все учащиеся получают одинаковые оценки от своих учителей. способ. Однако термин «стандартизированный тест» чаще всего используется для обозначения тестов, которые проводятся для более крупных групп, например, тест, который сдают все взрослые, желающие получить лицензию на выполнение определенного вида работы, или все студенты определенного вида работы. возраст. Большинство стандартизированных тестов представляют собой формы суммативного оценивания (оценки, которые измеряют уровень обучения участников в конце учебного модуля).

Поскольку все получают одинаковый тест и одну и ту же систему оценок, стандартизированные тесты часто считаются более справедливыми, чем нестандартизированные. Такие тесты часто считаются более справедливыми и объективными, чем система, в которой одни учащиеся получают более простой тест, а другие — более сложный. Стандартизированные тесты созданы для того, чтобы обеспечить надежное сравнение результатов всех участников тестирования, поскольку все сдают один и тот же тест. ^[2] Однако некоторые люди критикуют как тестирование в целом, так и стандартизированное тестирование в частности. Например, некоторые люди считают, что несправедливо задавать всем учащимся одни и те же вопросы, если в школах некоторых учащихся не действуют одинаковые стандарты обучения .

Определение

Определение стандартизированного теста со временем несколько изменилось. ^[3] В 1960 году стандартизированные тесты определялись как тесты, в которых условия и содержание были равными для всех, сдающих тест, независимо от того, когда, где и кем тест проводился или оценивался. Стандартизированные тесты имеют последовательный и единый метод оценки. ^[4] Это означает, что все учащиеся, ответившие на тестовый вопрос одинаково, получат одинаковый балл за этот вопрос. Цель этой стандартизации — убедиться, что баллы достоверно отражают измеряемые способности или навыки, а не другие вещи, такие как различные инструкции о том, что делать, если испытуемый не знает ответа на вопрос. ^[3]

К началу XXI века акцент сместился от строгого сходства условий к равной справедливости условий тестирования. ^[3] Например, тестируемый со сломанным запястьем мог бы писать медленнее из-за травмы, и это было бы более справедливо и обеспечило бы более достоверное понимание фактических знаний тестируемого, если бы этому человеку дали еще несколько минут, чтобы записать ответы на ограниченный по времени тест. Изменение условий тестирования таким образом, чтобы повысить справедливость в отношении постоянной или временной нетрудоспособности, но не подрывает основную суть оценки, называется приспособлением . Однако если бы целью теста было выяснить, насколько быстро студент может писать, то предоставление тестируемому дополнительного времени стало бы модификацией содержания , а не стандартизированным тестом.

История

Китай

Самые ранние свидетельства стандартизированного тестирования были в Китае , во времена династии Хань , ^[5] где императорские экзамены охватывали шесть искусств , включая музыку, стрельбу из лука, верховую езду, арифметику, письмо и знание ритуалов и церемоний как государственных, так и частных. части. Эти экзамены использовались для отбора сотрудников государственной бюрократии.

Позже к тестированию были добавлены разделы по военной стратегии, гражданскому праву, доходам и налогообложению, сельскому хозяйству и географии. В таком виде экзамены были институционализированы более тысячелетия.

Сегодня стандартизированное тестирование по-прежнему широко используется, особенно в системе Гаокао .

Великобритания

Стандартизированное тестирование было введено в Европу в начале 19-го века по образцу китайских экзаменов на мандарин ^[6] благодаря поддержке британских колониальных администраторов, наиболее «настойчивым» из которых был британский консул в Гуанчжоу, Китай , Томас Тейлор Медоуз . ^[6] Медоуз предупредил о крахе Британской империи, если стандартизированное тестирование не будет немедленно внедрено по всей империи. ^[6]

До их принятия стандартизированное тестирование традиционно не было частью западной педагогики. Основываясь на скептической и открытой традиции дебатов, унаследованной от Древней Греции, западные академические круги отдавали предпочтение нестандартизированным оценкам с использованием эссе , написанных студентами. Именно по этой причине первое европейское внедрение стандартизированного тестирования произошло не в самой Европе, а в Британской Индии . ^[7] Вдохновленные использованием Китаем стандартизированного тестирования, в начале 19-го века британские «менеджеры компаний нанимали и продвигали по службе сотрудников на основе конкурсных экзаменов, чтобы предотвратить коррупцию и фаворитизм». ^[7] Эта практика стандартизированного тестирования была позже принята в конце 19 века на материковой части Великобритании. В последовавших за этим парламентских дебатах было много упоминаний о «китайской мандариновой системе». ^[6]

Именно из Британии стандартизированное тестирование распространилось не только по всему Британскому Содружеству , но и в Европе, а затем и в Америке. ^[6] Его распространение было вызвано промышленной революцией . Увеличение числа школьников во время и после промышленной революции в результате принятия законов об обязательном образовании привело к уменьшению использования открытого оценивания, которое было сложнее массово производить и оценивать объективно из-за его по своей сути субъективного характера.

Стандартизированные тесты, такие как отборочные комиссии военного ведомства, были разработаны для британской армии во время Второй мировой войны для отбора кандидатов для подготовки офицеров и выполнения других задач. ^[8] В тестах оценивались умственные способности солдат, механические навыки, способность работать с другими и другие качества. Предыдущие методы страдали предвзятостью и приводили к выбору не тех солдат для подготовки офицеров. ^[8]

Соединенные Штаты

Стандартизированное тестирование является частью образования в США с 19-го века, но широкое распространение стандартизированного тестирования в школах США во многом является явлением 20-го века.

Иммиграция в середине 19 века способствовала росту стандартизированных тестов в США. ^[9] Стандартизированные тесты использовались, когда люди впервые приехали в США, чтобы проверить социальные роли и определить социальную власть и статус. ^[10]

В 1901 году Комиссия по вступительным экзаменам в колледж начала предлагать стандартизированные тесты для поступления в университеты и колледжи , охватывающие девять предметов. Этот тест был реализован с целью создания стандартизированного приема в элитные университеты северо-востока США. Изначально тест предназначался также для лучших школ-интернатов , чтобы согласовать учебную программу между школами. ^[11] Первоначально стандартизированный тест состоял из эссе и не предназначался для широкого тестирования. ^{[ нужна цитата ]}

Во время Первой мировой войны были разработаны армейские альфа- и бета -тесты, чтобы помочь новобранцам получить соответствующие задания в зависимости от их оцененного уровня интеллекта. ^[12] Первое издание современного стандартизированного теста на IQ , тест интеллекта Стэнфорда-Бине , появилось в 1916 году. Затем Совет колледжа разработал SAT (тест способностей ученого) в 1926 году. Первый тест SAT был основан на армейском тесте IQ. тесты с целью определить интеллект тестируемого, навыки решения проблем и критическое мышление . ^[13] В 1959 году Эверетт Линдквист впервые предложил ACT (Американское тестирование колледжей). ^[14] По состоянию на 2020 год ACT включает четыре основных раздела с вопросами с несколькими вариантами ответов для проверки английского языка, математики, чтения и естественных наук, а также дополнительный раздел письма. ^[15]

В отдельных штатах в 1970-х годах началось тестирование большого количества детей и подростков через системы государственных школ. К 1980-м годам американские школы оценивали результаты на национальном уровне. ^[16] В 2012 году 45 штатов заплатили в среднем 27 долларов США за каждого студента и 669 миллионов долларов США в целом за крупномасштабные ежегодные академические тесты. ^[17] Однако косвенные затраты , такие как оплата учителям подготовки учащихся к тестам и время, потраченное на проведение тестов, значительно превышают прямые затраты на сам тест. ^[17]

Необходимость федерального правительства проводить значимые сравнения в высоко децентрализованной (контролируемой на местном уровне) системе государственного образования способствовала использованию крупномасштабного стандартизированного тестирования. Закон о начальном и среднем образовании 1965 года требовал стандартизированного тестирования в государственных школах. Закон 2001 года «Ни один ребенок не останется без внимания» дополнительно привязал некоторые виды финансирования государственных школ к результатам стандартизированного тестирования. В соответствии с этими федеральными законами школьная программа по-прежнему устанавливалась каждым штатом, но федеральное правительство требовало от штатов оценивать, насколько хорошо школы и учителя преподают выбранный штатом материал с помощью стандартизированных тестов. ^[18] Результаты учащихся по крупномасштабным стандартизированным тестам использовались для выделения средств и других ресурсов школам, а также для закрытия школ с плохой успеваемостью. Закон «Каждый студент добивается успеха» заменил NCLB в конце 2015 года. ^[19] К этому моменту эти крупномасштабные стандартизированные тесты стали спорными в Соединенных Штатах, и не обязательно потому, что все студенты сдавали одни и те же тесты и получали одинаковые баллы. образом, а потому, что они стали серьезным испытанием для школьной системы и учителей. ^[20]

В последние годы многие университеты и колледжи США отказались от требования о проведении стандартизированных тестов абитуриентами. ^[21]

Австралия

Стандартизированное тестирование Австралийской национальной программы оценки грамотности и счета (NAPLAN) было начато в 2008 году Австралийским органом по учебной программе, оценке и отчетности, независимым органом, «ответственным за разработку национальной учебной программы, национальной программы оценки и национального сбора данных». и программа отчетности, которая поддерживает обучение 21 века для всех австралийских студентов». ^[22]

В тестировании участвуют все учащиеся 3, 5, 7 и 9 классов австралийских школ, которые будут оцениваться с использованием национальных тестов. В число предметов, охватываемых этим тестированием, входят чтение, письмо, правила языка (орфография, грамматика и пунктуация) и счет.

Программа представляет отчеты об уровне учащихся, предназначенные для того, чтобы родители могли видеть прогресс своего ребенка в течение школьной жизни и помочь учителям улучшить индивидуальные возможности обучения для своих учеников. Данные об учащихся и уровне школы также предоставляются соответствующей школьной системе при том понимании, что их можно использовать для направления конкретной поддержки и ресурсов школам, которые в них больше всего нуждаются. Учителя и школы используют эту информацию в сочетании с другой информацией, чтобы определить, насколько хорошо учатся их ученики, и выявить любые области, требующие помощи.

Концепция тестирования успеваемости учащихся не нова, хотя можно сказать, что нынешний австралийский подход берет свое начало в нынешних структурах образовательной политики как в США, так и в Великобритании. Существует несколько ключевых отличий между австралийской NAPLAN и стратегиями Великобритании и США. Школам, которые оказались неэффективными в австралийских условиях, будет предложена финансовая помощь в соответствии с текущей политикой федерального правительства.

Колумбия

В 1968 году был создан Колумбийский институт оценки образования (ICFES), призванный регулировать высшее образование. Была внедрена прежняя система общественной оценки для разрешения деятельности и юридического признания учреждений и университетских программ.

В Колумбии существует несколько стандартизированных тестов, оценивающих уровень образования в стране. Эти экзамены проводятся ICFES.

Учащиеся третьего, пятого и девятого классов сдают экзамен «Сабля 3°5°9°». Этот тест в настоящее время представлен на компьютере в контролируемых и переписных выборках.

По окончании школы старшеклассникам вручается «Сабля 11», позволяющая им поступать в разные вузы страны. Студенты, обучающиеся дома, могут сдать этот экзамен, чтобы окончить среднюю школу и получить аттестат и диплом.

Студенты, покидающие университет, должны сдать экзамен «Sabre Pro».

Канада

Канада оставляет образование и, как следствие, стандартизированное тестирование под юрисдикцией провинций. В каждой провинции действует свой собственный стандартизированный режим тестирования, охватывающий всю провинцию: от отсутствия обязательных стандартизированных тестов для учащихся в Саскачеване до экзаменов, составляющих 40% итоговых оценок средней школы в Ньюфаундленде и Лабрадоре. ^[23]

Дизайн и озвучивание

Дизайн

Чаще всего основной академический тест включает разделы, оцениваемые как человеком, так и компьютером.

Стандартизированный тест может состоять из вопросов с несколькими вариантами ответов, вопросов «верно-неверно», вопросов-эссе, аутентичных оценок или практически любой другой формы оценки. Задания с несколькими вариантами ответов и заданиями «верно-неверно» часто выбираются для тестов, которые сдают тысячи людей, поскольку их можно сдавать и оценивать недорого, быстро и надежно с помощью специальных листов ответов, которые можно прочитать с помощью компьютера или с помощью адаптивных к компьютеру средств. тестирование . Некоторые стандартизированные тесты включают компоненты краткого ответа или написания эссе, которым независимые оценщики присваивают баллы, которые используют рубрики (правила или рекомендации) и контрольные документы (примеры работ для каждого возможного балла) для определения оценки, которая будет присвоена ответу.

Любая тематика

Не все стандартизированные тесты предполагают ответы на вопросы. Настоящая оценка спортивных навыков может принимать форму бега в течение определенного времени или ведения мяча на определенную дистанцию. Медицинские работники должны пройти тесты, доказывающие, что они могут выполнять медицинские процедуры. Кандидаты на получение водительских прав должны пройти стандартный тест, показывающий, что они умеют водить автомобиль. Канадский стандартизированный тест физической подготовки использовался в медицинских исследованиях, чтобы определить, насколько физически подготовлены участники теста. ^[24]^[25]

Машинный и человеческий подсчет

Со второй половины 20-го века крупномасштабное стандартизированное тестирование отчасти формировалось благодаря простоте и дешевизне оценки тестов с несколькими вариантами ответов с помощью компьютера. Большинство национальных и международных оценок не в полной мере оцениваются людьми.

Люди привыкли оценивать предметы, которые сложно оценить с помощью компьютера (например, эссе). Например, выпускной экзамен представляет собой адаптивную к компьютеру оценку, которая не требует от людей выставления оценок, за исключением письменной части. ^[26]

Оценка, выполняемая человеком, является относительно дорогостоящей и часто варьируемой, поэтому, когда это возможно, предпочтительнее использовать компьютерную оценку. Например, некоторые критики говорят, что низкооплачиваемые сотрудники будут иметь плохие результаты на тестах. ^[27] Согласие между оценками может варьироваться от 60 до 85 процентов, в зависимости от теста и сеанса подсчета баллов. При проведении крупномасштабных тестов в школах некоторые тестировщики платят за то, чтобы каждый тест прочитали два или более экспертов; если их оценки не совпадают, то работа передается дополнительным оценщикам. ^[27]

Хотя этот процесс сложнее, чем электронная оценка тестов с несколькими вариантами ответов, эссе также можно оценивать с помощью компьютера. В других случаях эссе и другие открытые ответы оцениваются в соответствии с заранее установленными критериями оценки обученными оценщиками. Например, в Pearson все оценщики эссе имеют четырехлетнюю университетскую степень, и большинство из них являются нынешними или бывшими классными руководителями. ^[28]

Использование рубрик для справедливости

Использование критериев призвано повысить справедливость при оценке успеваемости учащегося. При стандартизированном тестировании ошибку измерения (постоянную картину ошибок и систематических ошибок при оценке теста) легко определить. Когда оценка зависит от индивидуальных предпочтений оценщиков, оценки учащихся зависят от того, кто оценивает тест.

Стандартизированные тесты также устраняют предвзятость оценщиков при оценке. Исследования показывают, что учителя создают своего рода самоисполняющееся пророчество в своей оценке учеников, давая тем, кто, по их ожиданиям, достигнет более высоких результатов, и давая тем, кто, по их ожиданиям, провалится, более низкие оценки. ^[29] При нестандартизированном оценивании оценщики обладают большей индивидуальной свободой действий и, следовательно, с большей вероятностью будут давать несправедливые результаты из-за неосознанной предвзятости .

Использование оценок для сравнения

Существует два типа интерпретации результатов тестов : интерпретация результатов , основанная на нормах, и интерпретация результатов , основанная на критериях . ^[4]

Интерпретация оценок, основанная на нормах, сравнивает участников тестирования с выборкой сверстников . ^[4] Цель состоит в том, чтобы оценить учеников как лучше или хуже, чем другие студенты. Интерпретация результатов тестов, основанная на нормах, связана с традиционным образованием . Учащиеся, показавшие лучшие результаты, чем другие, проходят тест, а ученики, показавшие худшие результаты, чем другие, проваливают тест.
Интерпретация оценок, основанная на критериях, сравнивает участников теста с критерием (формальным определением содержания), независимо от оценок других испытуемых. ^[4] Их также можно назвать оценками, основанными на стандартах , поскольку они соответствуют движению за реформу образования, основанному на стандартах . ^[30] Интерпретация оценок, основанная на критериях, касается исключительно того, является ли ответ данного конкретного учащегося правильным и полным. В системах, основанных на критериях, все учащиеся могут пройти тест или все учащиеся не пройти тест.

Любую из этих систем можно использовать при стандартизированном тестировании. Что важно для стандартизированного тестирования, так это то, всем ли учащимся задаются одинаковые вопросы, при достаточно равных обстоятельствах, и получают ли они оценки в соответствии с одними и теми же стандартами.

Нормативная оценка сравнивает каждого тестируемого с другими тестируемыми. Нормативно-ориентированный тест ( НЗТ ) — это тип теста, оценки или оценки , который позволяет оценить положение тестируемого человека в заранее определенной популяции. Оценка получена на основе анализа результатов тестов и других соответствующих данных выборки населения . Этот тип теста определяет, показал ли тестируемый результаты лучше или хуже, чем другие учащиеся, сдающие этот тест.

Сравнение с другими делает стандартизированные тесты, соответствующие нормам, полезными для целей поступления в высшие учебные заведения, когда школа пытается сравнить студентов со всей страны или со всего мира. Стандартизация гарантирует, что все учащиеся проходят одинаковое тестирование, а ссылки на нормы определяют, кто из них лучше, а кто хуже. Примеры таких международных эталонных тестов включают «Тенденции в международных исследованиях в области математики и естественных наук» ( TIMMS ) и «Прогресс в международном исследовании читательской грамотности» ( PIRLS ).

Тест на основе критериев (CRT) — это стиль теста, в котором результаты тестов используются для того, чтобы показать, насколько хорошо испытуемые справились с заданной задачей, а не насколько хорошо они справились с заданием по сравнению с другими участниками теста. Большинство тестов и викторин, написанных школьными учителями, представляют собой тесты, основанные на критериях. В этом случае цель состоит в том, чтобы просто увидеть, сможет ли студент правильно ответить на вопросы. Учитель обычно не пытается сравнить результаты каждого ученика с результатами других учеников.

Стандарты

Соображения валидности и надежности обычно рассматриваются как важные элементы для определения качества любого стандартизированного теста. Однако ассоциации профессионалов и практиков часто помещают эти проблемы в более широкий контекст при разработке стандартов и вынесении общих суждений о качестве любого стандартизированного теста в целом в данном контексте.

Стандарты оценки

В области оценки , и в частности оценки образования , Объединенный комитет по стандартам оценки образования ^[31] опубликовал три набора стандартов оценки. «Стандарты оценки персонала» ^[32] были опубликованы в 1988 году, «Стандарты оценки программ» (2-е издание) ^[33] были опубликованы в 1994 году, а «Стандарты оценки студентов» ^[34] были опубликованы в 2003 году.

В каждой публикации представлен и разработан набор стандартов для использования в различных образовательных учреждениях. Стандарты содержат рекомендации по разработке, внедрению, оценке и совершенствованию определенной формы оценки. Каждый из стандартов отнесен к одной из четырех основных категорий, чтобы обеспечить правильность, полезность, осуществимость и точность образовательных оценок. В этих наборах стандартов вопросы достоверности и надежности рассматриваются в рамках темы точности. Однако тесты направлены на то, чтобы оценки учащихся давали надежную, точную и достоверную информацию об обучении и успеваемости учащихся; стандартизированные тесты дают ограниченную информацию о многих формах интеллекта, и использование их вредит учащимся, поскольку неточно измеряет потенциал учащегося на успех. ^[35]

Стандарты тестирования

В области психометрии Стандарты образовательного и психологического тестирования^[36] устанавливают стандарты достоверности и надежности, а также ошибки измерения и вопросы, связанные с размещением людей с ограниченными возможностями . Третья и последняя основная тема охватывает стандарты, связанные с тестированием приложений, аттестацией , а также тестированием при оценке программ и государственной политике .

Статистическая достоверность

Одним из основных преимуществ крупномасштабного стандартизированного тестирования является то, что результаты можно документировать эмпирически; следовательно, можно показать, что результаты тестов имеют относительную степень достоверности и надежности , а также являются результатами, которые можно обобщить и воспроизвести. ^[37] Это часто контрастируют с оценками в школьных ведомостях, которые выставляются отдельными учителями. При рассмотрении индивидуально выставленных оценок может быть сложно учесть различия в образовательной культуре в разных школах, сложность заданий конкретного учителя, различия в стиле преподавания, давление на завышение оценок , а также другие методы и предубеждения, влияющие на выставление оценок.

Еще одним преимуществом является агрегирование. Хорошо разработанный стандартизированный тест обеспечивает оценку владения человеком областью знаний или навыков, которая на определенном уровне агрегирования предоставит полезную информацию. То есть, хотя индивидуальные оценки могут быть недостаточно точными для практических целей, средние баллы классов, школ, филиалов компании или других групп вполне могут предоставить полезную информацию из-за уменьшения ошибки, достигаемой за счет увеличения размера выборки.

Ежегодные стандартизированные тесты в школе

Стандартизированное тестирование является очень распространенным способом определения прошлых академических достижений учащегося и его будущего потенциала.

Валидность, качество или использование тестов, особенно ежегодных стандартизированных тестов, распространенных в образовании, по-прежнему широко поддерживаются или критикуются. Как и сами тесты, поддержка и критика тестов часто различаются и могут исходить из разных источников, таких как родители, тестируемые, преподаватели, бизнес-группы, университеты или государственные контролирующие органы.

Сторонники широкомасштабных стандартизированных тестов в образовании часто приводят следующие причины для продвижения тестирования в образовании:

Обратная связь или диагностика успеваемости тестируемых: ^[38] Стандартизированные тесты позволяют учителям видеть, как учатся их ученики по сравнению с другими учениками в стране. Это поможет им при необходимости пересмотреть свои методы преподавания, чтобы помочь своим ученикам соответствовать стандартам. ^[39] Студентам предоставляется возможность поразмышлять над своими оценками и увидеть, в чем их сильные и слабые стороны. ^[39] Результаты позволяют родителям получить представление об успеваемости их ребенка. ^[40]
Честный и эффективный ^[41]
Способствует подотчетности: ^[38]^[41] Стандартизированное тестирование используется в качестве стратегии государственной политики для установления более строгих мер подотчетности в сфере государственного образования . Идея движения за политику стандартизированного тестирования заключается в том, что тестирование является первым шагом к улучшению школ, практики преподавания и методов обучения посредством сбора данных. Сторонники утверждают, что данные, полученные с помощью стандартизированных тестов, действуют как табель успеваемости для сообщества, демонстрируя, насколько хорошо работают местные школы. Критики движения, однако, указывают на различные несоответствия, возникающие в результате нынешних государственных стандартизированных методов тестирования, включая проблемы с валидностью и надежностью тестов, а также ложные корреляции (см. Парадокс Симпсона ).
Прогнозирование и отбор ^[38]
Улучшает производительность ^[38]

Критики стандартизированных тестов в образовании часто приводят следующие причины для пересмотра или удаления стандартизированных тестов в образовании:

Плохое качество прогнозирования. ^[42]^[43]
Увеличение оценок за тесты или оценок. ^[44]^[45]^[46]
Культурные или социально-экономические предвзятости. ^[47]^[48]
Психологически вредно. ^[49]
Плохой показатель интеллекта или способностей. ^[50]^[51]^[52]^[53]

Кроме того, успехи учащихся отслеживаются по относительной успеваемости учителя, в результате чего продвижение учителя зависит от успехов учителя в успеваемости ученика. Этические и экономические вопросы возникают у учителей, когда они сталкиваются с явно отстающими или недостаточно квалифицированными учениками и стандартизированным тестом.

В своей книге « Теперь вы это видите » Кэти Дэвидсон критикует стандартизированные тесты. Она описывает молодежь как «детей сборочного конвейера на модели конвейера», имея в виду использование стандартизированного теста как часть единой образовательной модели. Она также критикует узость проверяемых навыков и называет детей, не имеющих этих навыков, неудачниками или учениками с ограниченными возможностями. ^[54] Широко распространенное и организованное мошенничество стало растущей культурой. ^[55]

Есть три показателя, по которым оцениваются страны с лучшими показателями в TIMMS («страны А+»): целенаправленность, последовательность и строгость. Фокус определяется как количество тем, рассматриваемых в каждом классе; Идея состоит в том, что чем меньше тем рассматривается в каждом классе, тем больше внимания можно уделить каждой теме. Определение связности соответствует последовательности рассматриваемых тем, которая следует естественному развитию или логической структуре математики. CCSSM сравнивался как с действующими государственными стандартами, так и со стандартами страны A+ . При том, что в среднем освещается большинство тем, действующие государственные стандарты имеют наименьшую направленность. ^[56] Целью Common Core Standards является устранение этого несоответствия, помогая преподавателям сосредоточиться на том, что учащимся необходимо выучить, а не отвлекаться на посторонние темы. Они побуждают образовательные материалы переходить от поверхностного освещения широкого спектра тем к более глубокому освещению нескольких тем. ^[57]

Время и деньги

Стандартизированные тесты — это способ измерения уровня образования учащихся и школ в широком масштабе. От детского сада до 12-го класса большинство американских учащихся ежегодно сдают стандартизированные тесты. Средний учащийся сдает около 10 таких тестов в год (например, один или два теста на понимание прочитанного, один или два теста по математике, тест по письму, тест по естественным наукам и т. д.). ^[58] Средний объем тестирования занимает около 2,3% от общего учебного времени (что соответствует примерно четырем учебным дням в году). ^[59]

Стандартизированные тесты дороги в проведении. Сообщается, что Соединенные Штаты ежегодно тратят на эти испытания около 1,7 миллиарда долларов США. ^[60] В 2001 году также сообщалось, что только три компании (Harcourt Educational Measurement, CTB McGraw-Hill и Riverside Publishing) разрабатывают 96% тестов, проводимых на уровне штата. ^[61]

Образовательные решения

Национальная академия наук рекомендует, чтобы основные образовательные решения не основывались исключительно на одном результате теста. ^[62] Использование минимальных проходных баллов для поступления или окончания обучения не предполагает единого стандарта, поскольку результаты тестов почти всегда сочетаются с другими минимальными критериями, такими как количество кредитов, обязательные курсы, посещаемость и т. д. Результаты тестов часто воспринимаются в качестве «единственных критериев» просто потому, что они наиболее трудны, или автоматически предполагается выполнение других критериев. Единственным исключением из этого правила является GED , который позволил многим людям признать свои навыки, даже если они не соответствовали традиционным критериям. ^{[ нужна цитата ]}

Некоторые учителя утверждают, что один стандартизированный тест измеряет только текущие знания учащегося и не отражает прогресс учащегося с начала года. ^[63] Результат, созданный людьми, которые не участвуют в обычном обучении учащихся, а профессионалами, которые определяют, что учащиеся должны знать в разном возрасте. Кроме того, учителя сходятся во мнении, что лучшим создателем и координатором тестов являются они сами. Они утверждают, что лучше всех осведомлены о способностях, способностях и потребностях учащихся, что позволило бы им уделять больше времени изучению предметов или продолжить обучение по обычной учебной программе.

Влияние на учащихся из неблагополучных семей

Монти Нил, директор Национального центра справедливого и открытого тестирования, утверждает, что студентам, которые говорят на английском как на втором языке, имеют инвалидность или происходят из семей с низким доходом, непропорционально часто отказывают в дипломе из-за результатов теста. что несправедливо и вредно. Например, в конце 1970-х годов, когда в Соединенных Штатах начались выпускные испытания, в иске утверждалось, что многие чернокожие студенты не имели справедливых возможностей по материалу, который они тестировали на выпускном тесте, поскольку они посещали школы, разделенные по закону. «Взаимодействие школ с ограниченными ресурсами и тестированием сильнее всего бьет по цветным учащимся», как утверждает Нил, «им непропорционально часто отказывают в дипломах или повышении в классе, а школы, которые они посещают, скорее всего, будут плохо сдавать тесты и столкнутся с трудностями. санкции, такие как реструктуризация». ^[64]

В журнале The Progressive Барбара Майнер объясняет недостатки стандартизированного тестирования, анализируя три разные книги. Содиректор Центра образования Университета Райса и профессор педагогики Линда М. Макнил в своей книге « Противоречия школьной реформы: образовательные затраты на стандартизированное тестирование» пишет: «Образовательная стандартизация вредит преподаванию и обучению и в долгосрочной перспективе , отдых подтверждает образование по расе и классу». Макнил считает, что реформа образования, основанная на тестировании, устанавливает более высокие стандарты для цветных учащихся. По словам Майнера, МакНил «показывает, как реформа, основанная на тестировании, централизует власть в руках корпоративной и политической элиты - особенно пугающее событие в это время растущего корпоративного и консервативного влияния на реформу образования». Такая реформа, основанная на тестировании, затруднила обучение, особенно для цветных учащихся. ^[65]

FairTest заявляет, что негативные последствия неправильного использования тестов включают в себя вытеснение учащихся из школы, вытеснение учителей из профессии, а также подрыв вовлеченности учащихся и школьного климата. ^[66]

Использование стандартизированных тестов при поступлении в университеты

Стандартизированные тесты рассматриваются университетами как часть заявления вместе с другими подтверждающими доказательствами, такими как личные заявления , оценки в средней школе , предыдущие курсовые работы и рекомендательные письма . ^[67] В разных странах проводятся разные тесты, например , SAT в США, Gaokao в Китае и совместный вступительный экзамен в Индии.

Натан Кансел, ученый в области высшего образования, говорит, что вступительные экзамены в колледж и другие стандартизированные тесты «помогают перегруженным сотрудникам приемной комиссии разделить огромное количество абитуриентов на группы для дальнейшей оценки. Высокие баллы не гарантируют поступления куда-либо, а низкие баллы не являются определяющими. это, но школы серьезно относятся к тестам». ^[68]

Исследования показывают, что тесты предсказывают не только оценки первого года обучения и уровень курсов, которые студент, скорее всего, пройдёт. Лонгитюдное исследование, проведенное учеными, показывает, что студенты с высокими результатами тестов с большей вероятностью выберут сложный путь поступления в колледж. ^[69] Тесты также могут показать результаты студентов после окончания колледжа, включая оценки преподавателей, научные достижения, получение ученой степени, результаты на комплексных экзаменах и профессиональную лицензию. ^[70]

Поскольку оценки различаются в разных школах и даже для двух учащихся в одной школе, общий показатель, обеспечиваемый результатами теста, более полезен для сравнения учащихся.

Однако в «метаанализе», опубликованном в апреле 1995 года в « Журнале образовательных и психологических измерений» , Тодд Моррисон и Мелани Моррисон изучили две дюжины исследований валидности теста, необходимого для поступления практически в любую программу магистратуры или докторантуры в Америке: «Выпускник» Запись экзаменов (GRE). В этом исследовании за последние 30 лет приняли участие более 5000 тестируемых. Авторы обнаружили, что результаты GRE составляют лишь 6 процентов разницы в оценках в аспирантуре. GRE кажется «практически бесполезным с точки зрения прогнозирования», пишут авторы. Повторные исследования вступительного теста на юридический факультет (LSAT) показали то же самое.

Ведутся споры о том, укажет ли тест на долгосрочный успех в работе и жизни, поскольку существует множество других факторов, но фундаментальные навыки, такие как чтение, письмо и математика, связаны с производительностью труда.

Лонгитюдное исследование 2007 года показало, что важные жизненные достижения, такие как публикация романа или патентование технологии, также связаны с результатами тестов, даже если принять во внимание возможности получения образования. Существует даже значительное количество доказательств того, что эти навыки связаны с эффективным лидерством и творческими достижениями на работе. Умение читать тексты и понимать их смысл, а также иметь сильные количественные рассуждения имеют решающее значение в современной информационной экономике . ^[70]

Многие аргументы свидетельствуют о том, что навыки, полученные в результате тестов, полезны, но только до определенного момента.

Тем не менее, в замечательном продольном исследовании, опубликованном в 2008 году в журнале Psychoological Science, были изучены студенты, которые в возрасте 13 лет входили в 1% лучших. Двадцать лет спустя они в среднем добились очень высоких результатов, имели высокие доходы, крупные награды и карьерные достижения, которыми мог бы гордиться любой родитель. ^[71]

Существует корреляция между результатами тестов и социальным классом, но успех на стандартизированных тестах и в колледже зависит не только от класса. Исследования показывают, что «тесты были действительны даже с учетом социально-экономического класса. Независимо от их семейного происхождения, учащиеся с хорошими результатами тестов и школьными оценками лучше учатся в колледже, чем учащиеся с более низкими баллами и более слабыми успеваемостью». ^[72]

Еще одна критика, касающаяся социального класса и стандартизированного тестирования, заключается в том, что только богатые люди получают подготовку к экзаменам и обучение. Тем не менее, «исследователи провели сочетание экспериментальных исследований и контролируемых полевых исследований, чтобы проверить этот вопрос. некоторые компании по подготовке к испытаниям». ^[73]

Что еще более важно, многие люди придерживаются мнения, что тесты предотвращают разнообразие при поступлении, поскольку меньшинства имеют более низкие баллы на тестах по сравнению с другими представленными группами. ^[74] Исследование 2012 года изучило школы, в которых вступительные тесты не являются обязательными для абитуриентов, и сравнило их со школами, в которых такие тесты используются, и результат показывает, что «недавнее исследование показывает, что школы, в которых вступительные испытания не являются обязательными для абитуриентов, набирают все более разнообразные группы учащихся. то же самое относится и к школам, требующим тестирования». ^[75]

Противники утверждают, что стандартизированные тесты используются неправильно и являются некритическими суждениями об интеллекте и производительности, но сторонники утверждают, что это не отрицательные стороны стандартизированных тестов, а критика плохо разработанных режимов тестирования. Они утверждают, что тестирование должно и действительно фокусирует образовательные ресурсы на наиболее важных аспектах образования – передаче заранее определенного набора знаний и навыков – и что другие аспекты либо менее важны, либо должны быть добавлены в схему тестирования.

Факты показывают, что чернокожие и латиноамериканские студенты в среднем получают более низкие баллы, чем белые и азиаты. Таким образом, стандартные тесты по математике и чтению, такие как SAT, подвергаются растущим нападкам со стороны прогрессистов. Однако в исчерпывающем отчете сената факультетов Калифорнийского университета, подготовленном по заказу Джанет Наполитано и опубликованном в 2020 году, тесты не являются дискриминационными и играют важную роль в защите качества образования. ^[76]

В докладе говорится, что ухудшение инфляции оценок , особенно в богатых средних школах, делает стандартную оценку особенно важной. ^[76]

Что касается намерения школ Калифорнийского университета отказаться от стандартных тестов, таких как SAT и ACT, при поступлении в колледж, то субъективные и индивидуальные тесты, такие как эссе и внеклассные занятия, могут быть легко адаптированы и наносить ущерб учащимся, которые не знакомы с этим процессом. Прием без тестирования может быть еще более склонен в пользу людей с хорошими связями. ^[77]

В январе 2020 года сенат факультета Калифорнийского университета рекомендовал системе Калифорнийского университета сохранить стандартизированные тесты в качестве требований к поступающим. ^[76] В докладе говорится, что стандартизированные тесты по математике и чтению полезны для прогнозирования успеваемости в колледже. Основываясь на данных учащихся системы Калифорнийского университета, в отчете делается вывод, что «результаты тестов в настоящее время являются лучшим предиктором среднего балла первого года обучения, чем средний балл средней школы». ^[76] В докладе продолжается: баллы также позволяют спрогнозировать общий средний балл колледжа и вероятность того, что студент окончит его. В то время как «прогностическая сила результатов тестов возросла», добавляется в докладе, «прогностическая сила оценок в средней школе снизилась». ^[76]

Результаты тестов позволяют школам Калифорнийского университета «отбирать тех учащихся из недостаточно представленных групп , которые с большей вероятностью получат более высокие оценки и закончат обучение вовремя». ^[76] «Первоначальной целью SAT было выявить студентов, пришедших из не относительно привилегированных кругов, которые могли бы иметь потенциал для достижения успеха в университете», — говорится в отчете. ^[76] Создатель SAT, Служба образовательного тестирования (ETS), теперь утверждает, что SAT — это не тест на «способности», а скорее оценка «развитых способностей». ^[78]

Проблемы тестирования, не относящиеся к стандартизации

Большинство тестов можно разделить на несколько категорий. Например, тест может быть как стандартизированным, так и тестом с высокими ставками, или стандартизированным и одновременно тестом с несколькими вариантами ответов. Жалобы на «стандартизированные тесты» (все тестируемые сдают один и тот же тест в достаточно схожих условиях и получают одинаковые оценки) часто сосредоточены на проблемах, не связанных со стандартизацией, и в равной степени применимы к нестандартизированным тестам. Например, критик может жаловаться, что «все стандартизированные тесты являются ограниченными по времени тестами», но критика сосредоточена на ограничении по времени, а не на том, что все проходят один и тот же тест и получают одинаковые оценки за ответы.

Тесты с высокими ставками

Тест с высокими ставками — это тест с желаемой наградой за хорошую работу. ^[4] Некоторые стандартизированные тесты, в том числе многие тесты, используемые при поступлении в университеты по всему миру, представляют собой тесты с высокими ставками. Большинство стандартизированных тестов, таких как обычные тесты в классе, представляют собой тесты с низкими ставками. ^[4]

Сильная зависимость от важных стандартизированных тестов при принятии решений часто вызывает споры. Общая проблема, связанная с тестами с высокими ставками, заключается в том, что они измеряют производительность в течение одного события, тогда как критики считают, что более целостная оценка была бы уместна. Критики часто предлагают делать акцент на кумулятивных или даже нечисловых показателях, таких как оценки в классе или краткие индивидуальные оценки (написанные в прозе) учителей. Сторонники утверждают, что результаты тестов представляют собой четкий и объективный стандарт, который служит ценным средством проверки завышения оценок . ^[79]

Нормативные тесты

Тест, основанный на нормах, — это тест, который разработан и оценивается таким образом, чтобы некоторые участники теста оценивались лучше или хуже, чем другие. ^[4] Рейтинг предоставляет информацию об относительном рейтинге, что полезно, когда цель состоит в том, чтобы определить, кто является лучшим (например, при поступлении в элитные университеты). ^[4]

Несогласие с образовательными стандартами

Тест на основе критериев является более распространенным и более практичным, когда цель состоит в том, чтобы узнать, усвоили ли тестируемые необходимый материал. ^[4]

Однако некоторые критики возражают против «стандартизированных тестов» не потому, что они возражают против предоставления учащимся одного и того же теста в достаточно схожих условиях и одинаковой оценки ответов, а потому, что они возражают против типа материала, который обычно проверяется в школах. Хотя существуют стандартизированные тесты на неакадемические качества, такие как тесты творческого мышления Торренса , школы редко проводят стандартизированные тесты для измерения «инициативы, креативности, воображения... любознательности... доброй воли, этического размышления или множества других ценных качеств». диспозиции и атрибуты». ^[80]^[81] Вместо этого тесты, проводимые в школах, как правило, меньше сосредотачиваются на развитии нравственности или характера, а больше на индивидуальных идентифицируемых академических навыках, таких как понимание прочитанного и арифметика .

В своей книге « Позор нации» Джонатан Козол утверждает, что студенты, прошедшие стандартизированное тестирование, являются жертвами «когнитивного обезглавливания». Козол приходит к этому осознанию после разговора со многими детьми в городских школах, у которых нет пространственной памяти о времени, периодах времени и исторических событиях. Это особенно актуально в школах, где из-за нехватки финансирования и строгой политики подотчетности школы отказались от таких предметов, как искусство, история и география; чтобы сосредоточиться на содержании обязательных тестов. ^[82]

Тест на тревожность

Некоторые люди начинают волноваться во время прохождения теста. Это явление чаще встречается для тестов с высокими ставками, чем для тестов с низкими ставками. Тесты с высокими ставками (стандартизованные или нестандартизированные) могут вызывать беспокойство.

Сами учащиеся критикуют, что тесты, хотя и стандартизированы, несправедливы по отношению к отдельному учащемуся. Некоторые студенты утверждают, что они «плохо сдают тесты», то есть они нервничают и теряют концентрацию на тестах. Таким образом, хотя тест является стандартным и должен давать справедливые результаты, тестируемые утверждают, что они находятся в невыгодном положении и не имеют возможности доказать свои знания иным образом, поскольку не существует другой альтернативы тестированию, которая позволила бы учащимся доказать свои знания и решить проблемы. навыки решения.

Некоторые студенты испытывают тревогу перед экзаменами . От десяти до сорока процентов студентов испытывают этот тип тревоги. ^[83] Больше всего тревогой перед тестированием страдают дети, живущие в бедности. ^[84] Тревога перед тестированием применима как к стандартизированным, так и к нестандартизированным тестам.

Тесты с множественным выбором и форматы тестов

Тест с несколькими вариантами ответов предоставляет испытуемому вопросы в сочетании с заранее определенным списком возможных ответов. Это тип закрытого вопроса . Экзаменуемый выбирает правильный ответ из списка.

Многие критики стандартизированного тестирования возражают против формата с несколькими вариантами ответов, который обычно используется для недорогого крупномасштабного тестирования и который не подходит для некоторых целей, например, для проверки того, может ли тестируемый написать абзац. Однако в стандартизированном тестировании может использоваться любой формат теста, включая открытые вопросы , при условии, что все участники теста сдают один и тот же тест в достаточно схожих условиях и получают одинаковые оценки.

Обучение на тесте

Преподавание теста – это процесс сознательного сужения инструкций, чтобы сосредоточиться только на материале, который будет измеряться в тесте. Например, если учитель знает, что предстоящий тест по истории не будет включать никаких вопросов по истории музыки или искусства, тогда учитель может «учить на тесте», пропуская материал в учебнике по музыке и искусству. Критики также утверждают, что стандартизированные тесты поощряют « обучение тесту » в ущерб творческому подходу и углубленному освещению предметов, не включенных в тест. Критики говорят, что обучение с помощью теста не способствует обучению более высокого порядка; это меняет то, что учителям разрешено преподавать, и сильно ограничивает объем другой информации, которую учащиеся изучают на протяжении многих лет. ^[85] Хотя можно использовать стандартизированный тест, не позволяя его содержанию определять учебную программу и обучение, часто то, что не проверяется, не преподается, и то, как проверяется предмет, часто становится моделью преподавания предмета.

Навязанные извне тесты, например, тесты, созданные отделом образования для учащихся в их районе, побуждают учителей сужать формат учебной программы и преподавать в соответствии с тестом. ^[86]

Оплата по результатам – это идея, согласно которой учителям следует платить больше, если учащиеся хорошо сдают тесты, и меньше, если они показывают плохие результаты. ^[85] Когда учителей или школы вознаграждают за лучшую работу на тестах, тогда эти награды побуждают учителей « учить по тесту », а не предоставлять насыщенную и обширную учебную программу. В 2007 году качественное исследование, проведенное О Уэйном, продемонстрировало, что стандартизированное тестирование сужает учебную программу и поощряет обучение, ориентированное на учителя, а не обучение, ориентированное на учащихся . ^[87] Губернатор Нью-Джерси Крис Кристи предложил реформу образования в Нью-Джерси, которая заставляет учителей не только «учить по тесту», но и заставлять своих учеников работать за счет потенциальной стоимости их зарплаты и гарантий занятости. Реформа предусматривала оплату по результатам, которая зависит от успеваемости учащихся на стандартизированных тестах и их образовательных успехов. ^[88]

Критики утверждают, что чрезмерное и неправильное использование этих тестов вредит преподаванию и обучению, поскольку сужает учебную программу. По данным группы FairTest , когда стандартизированные тесты являются основным фактором подотчетности, школы используют тесты, чтобы узко определить учебную программу и сфокусировать обучение. Подотчетность создает огромное давление на результаты, и это может привести к неправильному использованию и неправильной интерпретации стандартизированных тестов. ^[66]

Критика тестирования

Некоторые люди критикуют тестирование в целом, независимо от того, стандартизирован тест или нет.

Смотрите также

Основные темы

Тест достижений
Инвентаризация концепций – инструмент оценки знаний
Оценка образования - Метод оценки образования.
Оценка - систематическое определение достоинств, ценности и значимости предмета.
Список стандартизированных тестов в США
Психометрия - Теория и техника психологических измерений
- Теория ответа на задание - парадигма разработки, анализа и оценки тестов.
Оценка на основе стандартов . Оценка на основе установленных стандартов.
Тест (оценка) – Образовательная оценка

Другие темы

Альтернативная оценка
Закон Кэмпбелла – поговорка об извращенных стимулах
Выпускной экзамен средней школы – Выпускной экзамен средней школы
IBM 805 Test Scoring Machine - электромеханическая машина для подсчета результатов тестов, представленная IBM в 1937 году.
Реформа образования, основанная на стандартах – образовательная система, основанная на желаемых целях
Эффект Вольво - термин, обозначающий критику стандартизированного тестирования.

дальнейшее чтение

FairTest, «Что не так со стандартизированными тестами», архивировано 18 октября 2019 г. в информационном бюллетене Wayback Machine . (Нью-Йорк: Basic Books, 1985), стр. 172–181.
Харрис, Смит и Харрис Мифы о стандартизированных тестах: почему они не говорят вам, что, по вашему мнению, они делают, Роуман и Литтлфилд, 2011* Хаддлстон, Марк В. Бойер, Уильям В. Высшая государственная служба в Соединенных Штатах: поиски реформа . (Университет Питтсбурга, 1996 г.)
Фелпс, Ричард П. Влияние тестирования на успеваемость учащихся, 1910–2010 гг., Международный журнал тестирования, 10 (1), 2012 г.
Фелпс, Ричард П., изд. Исправление заблуждений относительно образовательных и психологических тестов. (Вашингтон, округ Колумбия: Американская психологическая ассоциация, 2008 г.)
Фелпс, Ричард П., Учебник по стандартизированному тестированию. (Нью-Йорк, Нью-Йорк: Питер Лэнг, 2007 г.)
Фелпс, Ричард П. Роль и важность стандартизированного тестирования в мире преподавания и обучения
Равич, Дайан , «Использование и неправильное использование тестов». Архивировано 18 октября 2017 г. в Wayback Machine , в книге « Школы, которых мы заслуживаем» * Штраус, Валери. Подтверждено: стандартизированное тестирование охватило наши школы. Но кто виноват?

Внешние ссылки

Объединенный комитет по стандартам оценки образования
Стандартизированное тестирование в школе
Стандарты образовательного и психологического тестирования
Определение стандартизированного теста от Национального совета по измерениям в образовании