Теория индуктивного вывода Соломоноффа доказывает, что в соответствии с ее предположениями здравого смысла (аксиомами) наилучшей возможной научной моделью является кратчайший алгоритм, который генерирует рассматриваемые эмпирические данные. В дополнение к выбору данных, другие предположения заключаются в том, что для избежания ошибки постфактум язык программирования должен быть выбран до данных [1] и что наблюдаемая среда генерируется неизвестным алгоритмом. Это также называется теорией индукции . Благодаря своей основе в динамическом ( модель пространства состояний ) характере Алгоритмической теории информации , она охватывает как статистические , так и динамические информационные критерии для выбора модели . Она была введена Рэем Соломоноффом на основе теории вероятностей и теоретической информатики . [2] [3] [4] По сути, индукция Соломоноффа выводит апостериорную вероятность любой вычислимой теории, учитывая последовательность наблюдаемых данных. Эта апостериорная вероятность выводится из правила Байеса и некоторой универсальной априорной вероятности, то есть априорной вероятности, которая присваивает положительную вероятность любой вычислимой теории.
Соломонофф доказал, что эта индукция невычислима (или, точнее, полувычислима снизу), но отметил, что «эта невычислимость очень мягкого рода», и что она «никоим образом не препятствует ее использованию для практического предсказания» (поскольку ее можно аппроксимировать снизу более точно с большими вычислительными ресурсами). [3] Она «невычислима» только в мягком смысле, что никакой научный консенсус не способен доказать, что лучшая текущая научная теория является лучшей из всех возможных теорий. Однако теория Соломоноффа дает объективный критерий для принятия решения среди текущих научных теорий, объясняющих данный набор наблюдений.
Индукция Соломонова естественным образом формализует бритву Оккама [5] [6] [7] [8] [9], присваивая большую априорную достоверность теориям, требующим более короткого алгоритмического описания.
Теория основана на философских основах и была основана Рэем Соломоновым около 1960 года. [10] Это математически формализованное сочетание бритвы Оккама [5] [6] [7] [8] [9] и принципа множественных объяснений . [11] Все вычислимые теории, которые идеально описывают предыдущие наблюдения, используются для вычисления вероятности следующего наблюдения, при этом больший вес придается более коротким вычислимым теориям. Универсальный искусственный интеллект Маркуса Хаттера строится на этом для вычисления ожидаемой ценности действия.
Индукция Соломонова, как утверждается, является вычислительной формализацией чистого байесианства . [4] Чтобы понять, вспомним, что байесианство выводит апостериорную вероятность теории на основе данных, применяя правило Байеса, которое дает
где теории являются альтернативами теории . Чтобы это уравнение имело смысл, величины и должны быть четко определены для всех теорий и . Другими словами, любая теория должна определять распределение вероятностей по наблюдаемым данным . Индукция Соломонова по сути сводится к требованию, чтобы все такие распределения вероятностей были вычислимыми .
Интересно, что множество вычислимых распределений вероятностей является подмножеством множества всех программ, которое является счетным . Аналогично, множества наблюдаемых данных, рассмотренные Соломоновым, были конечными. Без потери общности мы можем, таким образом, считать, что любые наблюдаемые данные являются конечной битовой строкой . В результате индукция Соломонового может быть определена только путем привлечения дискретных распределений вероятностей.
Индукция Соломонова позволяет делать вероятностные предсказания будущих данных , просто подчиняясь законам вероятности. А именно, мы имеем . Эту величину можно интерпретировать как средние предсказания всех теорий, учитывая прошлые данные , взвешенные по их апостериорным достоверностям .
Доказательство «бритвы» основано на известных математических свойствах распределения вероятностей на счетном множестве . Эти свойства важны, поскольку бесконечное множество всех программ является счетным множеством. Сумма S вероятностей всех программ должна быть точно равна единице (согласно определению вероятности ), таким образом, вероятности должны примерно уменьшаться по мере того, как мы перечисляем бесконечное множество всех программ, в противном случае S будет строго больше единицы. Точнее говоря, для каждого > 0 существует некоторая длина l такая, что вероятность всех программ длиннее l не превышает . Однако это не исключает того, что очень длинные программы имеют очень высокую вероятность.
Фундаментальными составляющими теории являются концепции алгоритмической вероятности и сложности Колмогорова . Универсальная априорная вероятность любого префикса p вычислимой последовательности x является суммой вероятностей всех программ (для универсального компьютера ), которые вычисляют что-то, начиная с p . При наличии некоторого p и любого вычислимого, но неизвестного распределения вероятностей, из которого выбирается x , универсальная априорная вероятность и теорема Байеса могут быть использованы для предсказания еще невидимых частей x оптимальным образом.
Замечательным свойством индукции Соломонова является ее полнота. По сути, теорема о полноте гарантирует, что ожидаемые кумулятивные ошибки, сделанные предсказаниями, основанными на индукции Соломонова, ограничены сверху сложностью Колмогорова (стохастического) процесса генерации данных. Ошибки можно измерить с помощью расхождения Кульбака–Лейблера или квадрата разности между предсказанием индукции и вероятностью, назначенной (стохастическим) процессом генерации данных.
К сожалению, Соломонофф также доказал, что индукция Соломоноффа невычислима. Фактически, он показал, что вычислимость и полнота являются взаимоисключающими: любая полная теория должна быть невычислима. Доказательство этого выводится из игры между индукцией и средой. По сути, любая вычислимая индукция может быть обманута вычислимой средой, если выбрать вычислимую среду, которая отрицает предсказание вычислимой индукции. Этот факт можно рассматривать как пример теоремы об отсутствии бесплатных обедов .
Хотя индуктивный вывод Соломоноффа невычислим , несколько алгоритмов, полученных из AIXI, приближают его, чтобы заставить его работать на современном компьютере. Чем больше вычислительной мощности им дано, тем ближе их предсказания к предсказаниям индуктивного вывода (их математическим пределом является индуктивный вывод Соломоноффа). [12] [13] [14]
Другое направление индуктивного вывода основано на модели обучения в пределе Э. Марка Голда с 1967 года и с тех пор разрабатывает все больше и больше моделей обучения. [15] Общий сценарий таков: задан класс S вычислимых функций, существует ли обучающийся (то есть рекурсивный функционал), который для любого входа формы ( f (0), f (1),..., f ( n )) выводит гипотезу (индекс e относительно ранее согласованной приемлемой нумерации всех вычислимых функций; может потребоваться, чтобы индексированная функция соответствовала заданным значениям f ). Обучающийся M изучает функцию f , если почти все его гипотезы имеют один и тот же индекс e , который порождает функцию f ; M изучает S , если M изучает каждую f из S . Основные результаты заключаются в том, что все рекурсивно перечислимые классы функций являются обучаемыми, в то время как класс REC всех вычислимых функций не является обучаемым. [ необходима цитата ] Было рассмотрено множество связанных моделей, а также изучение классов рекурсивно перечислимых множеств из положительных данных является темой, изучаемой с пионерской статьи Голда в 1967 году. Далеко идущее расширение подхода Голда разработано теорией Шмидхубера обобщенных сложностей Колмогорова, [16] , которые являются видами суперрекурсивных алгоритмов .
{{cite book}}
: CS1 maint: location missing publisher (link)