Премия Хаттера — это денежная премия, финансируемая Маркусом Хаттером , которая присуждается за улучшение сжатия данных в конкретном текстовом файле на английском языке объемом 1 ГБ с целью поощрения исследований в области искусственного интеллекта (ИИ).
Премия, учрежденная в 2006 году, присуждает 5000 евро за каждый процент улучшения (при общем финансировании в 500 000 евро) [1] сжатого размера файла enwik9 , который является наибольшим из двух файлов, используемых в тесте сжатия больших текстов (LTCB); [2] enwik9 состоит из первых 10 9 байтов определенной версии английской Википедии . [3] Текущий [4] конкурс организован Хаттером, Мэттом Махони и Джимом Бауэри. [1]
Премия была объявлена 6 августа 2006 года [1] с меньшим текстовым файлом: enwik8, состоящим из 100 МБ. 21 февраля 2020 года она была расширена в 10 раз, до enwik9 размером 1 ГБ, премия выросла с 50 000 до 500 000 евро.
Целью премии Хаттера является поощрение исследований в области искусственного интеллекта (ИИ). Организаторы считают, что сжатие текста и ИИ являются эквивалентными проблемами. Хаттер доказал, что оптимальное поведение агента, ищущего цель, в неизвестной, но вычислимой среде — предполагать на каждом шаге, что среда, вероятно, контролируется одной из самых коротких программ, совместимых со всеми взаимодействиями до сих пор. [5] Однако общего решения не существует, поскольку сложность Колмогорова невычислима. Хаттер доказал, что в ограниченном случае (называемом AIXI tl ), где среда ограничена временем t и пространством l , решение может быть вычислено за время O (t2 l ), что все еще неразрешимо.
Организаторы также полагают, что сжатие текста на естественном языке является сложной проблемой ИИ , эквивалентной прохождению теста Тьюринга . Таким образом, прогресс в достижении одной цели представляет собой прогресс в достижении другой. Они утверждают, что предсказание того, какие символы с наибольшей вероятностью встретятся следующими в текстовой последовательности, требует обширных знаний реального мира. Текстовый компрессор должен решить ту же проблему, чтобы назначить самые короткие коды наиболее вероятным текстовым последовательностям. [6]
Такие модели, как ChatGPT, не подходят для премии Хаттера по ряду причин: они могут потребовать больше вычислительных ресурсов, чем разрешено конкурентами (вычислительное и дисковое пространство).
Конкурс открытый. Он открыт для всех. Для участия участник должен предоставить программу сжатия и декомпрессор, который распаковывает в файл enwik9 . [3] Также можно предоставить сжатый файл вместо программы сжатия. Общий размер сжатого файла и декомпрессора (как исполняемого файла Win32 или Linux) должен быть меньше или равен 99% от предыдущего призового файла. За каждый процент улучшения участник выигрывает 5000 евро. Программа распаковки также должна соответствовать ограничениям по времени выполнения и памяти.
Заявки должны быть опубликованы, чтобы обеспечить независимую проверку. Существует 30-дневный период ожидания для публичных комментариев перед вручением премии. В 2017 году правила были изменены, чтобы потребовать публикации исходного кода по лицензии свободного программного обеспечения , из-за опасений, что «предыдущие заявки [которые не раскрывали свой исходный код] были бесполезны для других, и идеи в них могут быть утеряны навсегда». [4]