АВХ-тест

Тест ABX — это метод сравнения двух вариантов сенсорных стимулов для выявления заметных различий между ними. Субъекту предъявляются два известных образца (образец A , первый эталонный образец, и образец B , второй эталонный образец), за которым следует один неизвестный образец X , случайно выбранный из A или B. Затем субъекту необходимо идентифицировать X как либо A или B. Если X не может быть надежно идентифицирован с низким значением p в заранее определенном количестве испытаний, то нулевую гипотезу нельзя отвергнуть и нельзя доказать, что существует ощутимая разница между A и B.

Тесты ABX можно легко проводить в виде двойных слепых исследований , исключая любое возможное неосознанное влияние со стороны исследователя или руководителя тестирования. Поскольку образцы A и B предоставляются непосредственно перед образцом X, разницу не нужно распознавать с помощью долговременной памяти или прошлого опыта. Таким образом, тест ABX отвечает на вопрос, можно ли в данных условиях теста обнаружить разницу в восприятии.

Тесты ABX обычно используются при оценке методов сжатия цифровых аудиоданных ; Образец A обычно представляет собой несжатый образец, а образец B — сжатую версию A. Слышимые артефакты сжатия , указывающие на недостатки в алгоритме сжатия, можно выявить при последующем тестировании. Тесты ABX также можно использовать для сравнения различных степеней потери качества между двумя разными аудиоформатами при заданной скорости передачи данных .

Тесты ABX можно использовать для прослушивания компонентов ввода, обработки и вывода, а также кабелей: практически любого аудиопродукта или конструкции прототипа.

История

История тестирования и наименования ABX восходит к 1950 году в статье, опубликованной двумя исследователями Bell Labs, У. А. Мансоном и Марком Б. Гарднером, под названием «Стандартизация слуховых тестов» . ^[1]

Целью настоящей статьи является описание процедуры испытаний, которая показала себя многообещающей в этом направлении, и дать описания оборудования, которое оказалось полезным для минимизации изменчивости результатов испытаний. Процедура, которую мы назвали тестом «АВХ», представляет собой модификацию метода парных сравнений. Наблюдателю предоставляется временная последовательность из трех сигналов для каждого суждения, которое его просят сделать. В течение первого интервала времени он слышит сигнал А, во втором — сигнал В и, наконец, сигнал Х. Его задача — указать, был ли звук, услышанный в интервале Х, больше похож на звук, услышанный в интервале А, или более похож на звук в интервале В. интервал. Для порогового теста интервал A является тихим, интервал B является сигнальным, а интервал X является либо тихим, либо сигнальным.

Тест превратился в другие варианты, такие как контроль субъекта над продолжительностью и последовательностью тестирования. Одним из таких примеров был аппаратный компаратор ABX в 1977 году, созданный компанией ABX в Трое, штат Мичиган, и задокументированный одним из ее основателей Дэвидом Кларком. ^[2]

Уточнения к A/B-тесту
Первый опыт двойного слепого тестирования слышимости автор впервые испытал, будучи членом Аудиоклуба SMWTMS, в начале 1977 года. Была предусмотрена кнопка, с помощью которой можно было случайным образом выбирать компонент A или B. Идентификация одного из них, компонента X, была сильно затруднена из-за отсутствия наличие известных A и B для справки.
Это было исправлено с помощью трех взаимосвязанных кнопок: A, B и X. Как только был выбран X, он оставался этим конкретным A или B до тех пор, пока не было решено перейти к другому случайному выбору.
Однако быстро стала очевидна другая проблема. При переключении с A на B всегда была слышна задержка переключения реле. Однако при переключении с A на X задержка времени отсутствовала бы, если бы X действительно был A, и присутствовала бы, если бы X действительно был B. Этот посторонний сигнал был удален с помощью вставка времени отсева фиксированной длины при внесении каких-либо изменений. Время возврата было выбрано равным 50 мс, что обеспечивает легкий постоянный щелчок, обеспечивая при этом субъективное мгновенное сравнение.

Компания ABX в настоящее время прекратила свое существование, и компараторы аппаратного обеспечения в целом прекратили свое существование, поскольку коммерческие предложения прекратились. Существует множество программных инструментов, таких как плагин Foobar ABX для сравнения файлов. Но тестирование аппаратного оборудования требует создания индивидуальных реализаций.

Аппаратные тесты

Испытательное оборудование ABX, использующее реле для переключения между двумя разными аппаратными путями, может помочь определить, существуют ли воспринимаемые различия в кабелях и компонентах. Можно сравнить пути передачи видео, аудио и цифровой информации. Если переключение контролируется микропроцессором, возможны двойные слепые испытания.

Сравнение уровня звука громкоговорителя и линейного уровня можно было выполнить на тестовом устройстве ABX, которое компания QSC Audio Products продавала под названием ABX Comparator с 1998 по 2004 год. Другие аппаратные решения были изготовлены частными лицами или организациями для внутреннего тестирования.

Уверенность

Если бы было проведено только одно испытание ABX, случайное угадывание имело бы 50%-ную вероятность выбора правильного ответа, то же самое, что подбрасывание монеты. Чтобы сделать утверждение, обладающее некоторой степенью уверенности , необходимо провести множество испытаний. При увеличении количества испытаний вероятность статистического подтверждения способности человека различать A и B повышается для данного уровня достоверности. Уровень достоверности 95% обычно считается статистически значимым . ^[2] Компания QSC в руководстве пользователя ABX Comparator рекомендовала минимум десять пробных прослушиваний в каждом раунде тестов. ^[3]

Компания QSC рекомендовала проводить не более 25 испытаний, поскольку испытуемый может утомиться, что сделает тест менее чувствительным (с меньшей вероятностью выявит фактическую способность человека различать разницу между А и Б). ^[3] Однако более чувствительный тест можно получить, объединив результаты ряда таких тестов с участием отдельных людей или тестов с одним и тем же субъектом, проведенных между перерывами на отдых. Для большого количества испытаний N значимый результат (с достоверностью 95 %) можно заявить, если количество правильных ответов превышает . Важные решения обычно принимаются на основе более высокого уровня уверенности, поскольку ошибочный значимый результат может быть получен в одном из 20 таких тестов просто случайно. $N/2+{\sqrt {N}}$

Тесты программного обеспечения

Аудиоплееры foobar2000 и Amarok поддерживают программное тестирование ABX, причем последнее использует сторонний сценарий. Lacinato ABX — это кроссплатформенный инструмент тестирования звука для Linux, Windows и 64-битных Mac. Lacinato WebABX — это кроссбраузерный веб-инструмент для работы с аудио ABX. aveX с открытым исходным кодом был в основном разработан для Linux , который также обеспечивает мониторинг тестирования с удаленного компьютера. ABX patcher — это реализация ABX для Max/MSP . Больше программного обеспечения ABX можно найти на архивном веб-сайте PCABX.

Тесты прослушивания кодеков

Тест на прослушивание кодека — это научное исследование , предназначенное для сравнения двух или более аудиокодеков с потерями , обычно в отношении воспринимаемой точности или эффективности сжатия.

Возможные недостатки

ABX — это тип тестирования принудительного выбора . Выбор испытуемого может быть обоснованным, т. е. испытуемый действительно честно пытался определить, кажется ли X ближе к A или B. Но незаинтересованные или уставшие испытуемые могут выбирать случайным образом, даже не пытаясь. Если его не заметить, это может ослабить результаты других испытуемых, которые намеренно проходили тест, и подвергнуть результат парадоксу Симпсона , что приведет к получению ложных итоговых результатов. Простой взгляд на итоговые результаты теста ( m из n правильных ответов) не может выявить возникновение этой проблемы.

Эта проблема становится более острой, если различия невелики. Пользователь может расстроиться и просто попытаться завершить тест, проголосовав случайным образом. В этом отношении тесты принудительного выбора, такие как ABX, имеют тенденцию давать отрицательные результаты, когда различия невелики, если для предотвращения этой проблемы не используются надлежащие протоколы.

Передовая практика требует как включения контроля, так и скрининга субъектов: ^[5]

Важным соображением является включение соответствующих условий контроля. Обычно условия контроля включают в себя предъявление неповрежденных аудиоматериалов, представленных непредсказуемыми для испытуемых способами. Именно различия между оценкой этих контрольных стимулов и потенциально нарушенных стимулов позволяют сделать вывод о том, что оценки являются реальной оценкой нарушений.

3.2.2 Постскрининг субъектов
Методы пост-скрининга можно условно разделить как минимум на два класса; один основан на несоответствиях по сравнению со средним результатом, а другой полагается на способность субъекта сделать правильную идентификацию. Первый класс никогда не бывает оправдан. Всякий раз, когда проводится субъективный тест на прослушивание с использованием рекомендованного здесь метода тестирования, необходимая информация для второго класса пост-скрининга предоставляется автоматически. Предлагаемый статистический метод для этого описан в Приложении 1».
Эти методы в основном используются для исключения субъектов, которые не могут провести соответствующие различия. Применение метода пост-скрининга может прояснить тенденции в результатах испытаний. Однако, принимая во внимание вариабельность чувствительности испытуемых к различным артефактам, следует проявлять осторожность.

Другие недостатки включают отсутствие предметной подготовки и ознакомления с выбранным тестом и содержанием:

4.1 Этап ознакомления или обучения
Перед формальным выставлением оценок испытуемым необходимо предоставить возможность тщательно ознакомиться с испытательным оборудованием, средой проведения тестирования, процессом выставления оценок, оценочными шкалами и методами их использования. Субъекты также должны тщательно ознакомиться с исследуемыми артефактами. В случае наиболее деликатных тестов им следует ознакомиться со всем материалом, который они будут оценивать позже на официальных сессиях оценивания. Во время ознакомления или обучения испытуемые желательно находиться вместе в группах (скажем, состоящих из трех испытуемых), чтобы они могли свободно взаимодействовать и обсуждать обнаруженные ими артефакты друг с другом.

Другие проблемы могут возникнуть из-за самого оборудования ABX, как указано Кларком ^[2] , где оборудование обеспечивает сигнал , позволяющий субъекту идентифицировать источник. Аналогичные проблемы создает непрозрачность светильника ABX.

Поскольку слуховые тесты и многие другие сенсорные тесты основаны на кратковременной памяти , которая длится всего несколько секунд, очень важно, чтобы испытательное приспособление позволяло испытуемому идентифицировать короткие сегменты, которые можно быстро сравнить. Также необходимо устранить хлопки и сбои в переключающем аппарате, поскольку они могут доминировать или иным образом мешать тестируемым стимулам, хранящимся в кратковременной памяти испытуемого.

Альтернативы

Алгоритмическая оценка сжатия звука

Поскольку для тестирования ABX требуются люди для оценки аудиокодеков с потерями, это отнимает много времени и средств. Поэтому были разработаны более дешевые подходы, например PEAQ , который является реализацией ODG .

МУШРА

В MUSHRA субъекту предоставляется ссылка (помеченная как таковая), определенное количество тестовых образцов, скрытая версия ссылки и один или несколько якорей. Рейтинговая шкала от 0 до 100 позволяет оценивать очень небольшие различия, а скрытая версия по-прежнему обеспечивает проверку дискриминации.

Тестирование на дискриминацию

В тестировании на дискриминацию используются альтернативные общие методы , такие как парное сравнение, тест дуо-трио и тест треугольника . Из них тестирование дуо-трио и треугольник особенно близко к тестированию ABX. Схематично:

Дуэт–трио: AXY – одно известное, два неизвестных (одно равно A, другое равно B), проверка заключается в том, какое неизвестное является известным: X = A (и Y = B) или Y = A (и X = B).
Треугольник: XXY – три неизвестных (два A и один B или один A и два B), проверяйте, какое из них является лишним: Y = 1, Y = 2 или Y = 3.

В этом контексте тестирование ABX также известно как «дуо-трио» в режиме «сбалансированного эталона» - оба известных показателя представлены как эталоны, а не один по отдельности. ^[6]