В теории информации , недоумение является мерой неопределенности в значении выборки из дискретного распределения вероятностей. Чем больше недоумение, тем меньше вероятность того, что наблюдатель сможет угадать значение, которое будет извлечено из распределения. Первоначально недоумение было введено в 1977 году в контексте распознавания речи Фредериком Елинеком , Робертом Лероем Мерсером , Лалитом Р. Балом и Джеймсом К. Бейкером . [1]
Сложность PP дискретного распределения вероятностей p — это концепция, широко используемая в теории информации, машинном обучении и статистическом моделировании. Она определяется как
где H ( p ) — энтропия (в битах ) распределения, а x варьируется по событиям . Основание логарифма не обязательно должно быть 2: сомнение не зависит от основания, при условии, что энтропия и возведение в степень используют одно и то же основание. В некоторых контекстах эта мера также называется (истинным) разнообразием (order-1) .
Сложность случайной величины X можно определить как сложность распределения ее возможных значений x . Ее можно рассматривать как меру неопределенности или «неожиданности», связанной с результатами.
Для распределения вероятностей p, где ровно k исходов имеют вероятность 1/k , а все остальные исходы имеют вероятность, равную нулю, сложность этого распределения равна просто k . Это происходит потому, что распределение моделирует честную k -гранную игральную кость , где каждый из k исходов одинаково вероятен. В этом контексте сложность k указывает на то, что существует столько же неопределенности, сколько было бы при бросании честной k -гранной игральной кости. Даже если случайная величина имеет более k возможных исходов, сложность все равно будет равна k, если распределение равномерно по k исходам и равно нулю для остальных. Таким образом, случайную величину с сложностью k можно описать как « k -стороннюю сложность», что означает, что она имеет тот же уровень неопределенности, что и честная k- гранная игральная кость.
Иногда недоумение используется как мера сложности задачи прогнозирования. Однако, как правило, это не прямое представление соответствующей вероятности. Например, если у вас есть два выбора, один с вероятностью 0,9, ваши шансы на правильное предположение с использованием оптимальной стратегии составляют 90 процентов. Тем не менее, недоумение равно 2 −0,9 log 2 0,9 - 0,1 log 2 0,1 = 1,38. Обратное недоумению значение, 1/1,38 = 0,72, не соответствует вероятности 0,9.
Сложность — это возведение в степень энтропии, более простой величины. Энтропия измеряет ожидаемое или «среднее» число битов, необходимое для кодирования результата случайной величины с использованием оптимального кода переменной длины . Ее также можно рассматривать как ожидаемый прирост информации от изучения результата случайной величины, что дает представление о неопределенности и сложности базового распределения вероятностей.
Модель неизвестного распределения вероятностей p может быть предложена на основе обучающей выборки, которая была взята из p . При наличии предложенной вероятностной модели q можно оценить q , спросив, насколько хорошо она предсказывает отдельную тестовую выборку x 1 , x 2 , ..., x N , также взятую из p . Сложность модели q определяется как
где обычно 2. Лучшие модели q неизвестного распределения p будут иметь тенденцию присваивать более высокие вероятности q ( x i ) тестовым событиям. Таким образом, они имеют более низкую степень недоумения, поскольку они меньше удивлены тестовой выборкой. Это эквивалентно утверждению, что лучшие модели имеют более высокие вероятности для тестовых данных, что приводит к более низкому значению степени недоумения.
Экспонента выше может рассматриваться как среднее число бит, необходимых для представления тестового события x i , если используется оптимальный код на основе q . Модели с низкой сложностью лучше справляются с сжатием тестового образца, требуя в среднем немного бит на тестовый элемент, поскольку q ( x i ) имеет тенденцию быть высоким.
Экспонента также может быть интерпретирована как кросс-энтропия :
где обозначает эмпирическое распределение тестовой выборки (т. е. если x встречается n раз в тестовой выборке размером N ).
По определению дивергенции KL она также равна , что равно . Следовательно, недоумение минимизируется, когда .
В обработке естественного языка (NLP) корпус — это структурированная коллекция текстов или документов, а языковая модель — это распределение вероятностей по всем текстам или документам. Следовательно, в NLP более часто используемой мерой является перплексия на токен (слово или, чаще, подслово), определяемая как: где находятся документы в корпусе, а — количество токенов в корпусе. Это нормализует перплексию по длине текста, что позволяет проводить более осмысленные сравнения между различными текстами или моделями, а не документами.
Предположим, что средний текст x i в корпусе имеет вероятность согласно языковой модели. Это дало бы модельную перплексию 2 190 на предложение. Однако в NLP более распространена нормализация по длине текста. Таким образом, если тестовый образец имеет длину 1000 токенов и может быть закодирован с использованием 7,95 бит на токен, можно было бы сообщить о модельной перплексии 2 7,95 = 247 на токен. Другими словами, модель так же запутана на тестовых данных, как если бы ей пришлось выбирать равномерно и независимо среди 247 возможностей для каждого токена.
Существует две стандартные метрики оценки языковых моделей: perplexity или word error rate (WER). Более простая из этих мер, WER, представляет собой просто процент ошибочно распознанных слов E (удаления, вставки, замены) к общему количеству слов N в задаче распознавания речи, т. е. Вторая метрика, perplexity (на токен), является информационной теоретической мерой, которая оценивает сходство предлагаемой модели m с исходным распределением p . Ее можно вычислить как обратную величину (геометрической) средней вероятности тестового набора T
где N — количество токенов в тестовом наборе T. Это уравнение можно рассматривать как экспоненциальную перекрестную энтропию, где перекрестная энтропия H ( p ; m ) аппроксимируется как
С 2007 года в языковом моделировании произошли значительные успехи, особенно с появлением методов глубокого обучения . Perplexity per token, мера, которая количественно определяет предсказательную силу языковой модели, остается центральной для оценки моделей, таких как доминирующие модели- трансформеры , такие как Google's BERT , OpenAI's GPT-4 и другие большие языковые модели (LLM).
Эта мера использовалась для сравнения различных моделей на одном и том же наборе данных и руководства оптимизацией гиперпараметров , хотя было обнаружено, что она чувствительна к таким факторам, как лингвистические особенности и длина предложения. [2]
Несмотря на свою ключевую роль в разработке языковой модели, озадаченность продемонстрировала свои ограничения, в частности, как неадекватный предиктор эффективности распознавания речи , переобучения и обобщения , [3] [4] что ставит под сомнение преимущества слепой оптимизации только озадаченности.
Самая низкая перплексия, которая была опубликована в Brown Corpus (1 миллион слов американского английского языка различных тем и жанров) по состоянию на 1992 год, действительно составляет около 247 на слово/токен, что соответствует перекрестной энтропии log 2 247 = 7,95 бит на слово или 1,75 бит на букву [5] с использованием модели триграмм . Хотя эта цифра представляла собой современное состояние (SOTA) на тот момент, достижения в таких методах, как глубокое обучение, привели к значительным улучшениям в перплексии на других тестах, таких как One Billion Word Benchmark. [6]
В контексте Brown Corpus , простое предположение, что следующее слово — «the», достигнет точности в 7 процентов, в отличие от 1/247 = 0,4 процента, которые можно было бы ожидать от наивного использования озадаченности. Это различие подчеркивает важность используемой статистической модели и нюансную природу озадаченности как меры предсказательности. [7] Догадка основана на статистике униграмм, а не на статистике триграмм, которая дала озадаченность 247, и использование статистики триграмм еще больше уточнит предсказание.