Обратная задача в науке — это процесс вычисления из набора наблюдений причинных факторов, которые их породили: например, вычисление изображения в рентгеновской компьютерной томографии , реконструкция источника в акустике или вычисление плотности Земли по измерениям ее гравитационного поля . Она называется обратной задачей, потому что она начинается со следствий, а затем вычисляет причины. Она является обратной прямой задачей, которая начинается с причин, а затем вычисляет следствия.
Обратные задачи являются одними из самых важных математических задач в науке и математике , поскольку они говорят нам о параметрах, которые мы не можем наблюдать напрямую. Они имеют широкое применение в идентификации систем , оптике , радаре , акустике , теории связи , обработке сигналов , медицинской визуализации , компьютерном зрении , [1] [2] геофизике , океанографии , астрономии , дистанционном зондировании , обработке естественного языка , машинном обучении , [3] неразрушающем контроле , анализе устойчивости склонов [4] и многих других областях. [ требуется ссылка ]
Начинать со следствий, чтобы обнаружить причины, волновало физиков на протяжении столетий. Историческим примером являются вычисления Адамса и Леверье , которые привели к открытию Нептуна из возмущенной траектории Урана . Однако формальное изучение обратных задач не было начато до 20-го века.
Один из самых ранних примеров решения обратной задачи был обнаружен Германом Вейлем и опубликован в 1911 году, описывая асимптотическое поведение собственных значений оператора Лапласа–Бельтрами . [5] Сегодня известный как закон Вейля , он, возможно, проще всего понимается как ответ на вопрос, можно ли услышать форму барабана . Вейль предположил, что собственные частоты барабана будут связаны с площадью и периметром барабана определенным уравнением, результат, улучшенный более поздними математиками.
Область обратных задач была позднее затронута советско - армянским физиком Виктором Амбарцумяном . [6] [7]
Еще будучи студентом, Амбарцумян основательно изучил теорию строения атома, образование уровней энергии, уравнение Шредингера и его свойства, а когда освоил теорию собственных значений дифференциальных уравнений , указал на очевидную аналогию между дискретными уровнями энергии и собственными значениями дифференциальных уравнений. Затем он спросил: можно ли, имея семейство собственных значений, найти вид уравнений, собственными значениями которых они являются? По сути, Амбарцумян исследовал обратную задачу Штурма–Лиувилля , которая касалась определения уравнений колеблющейся струны. Эта статья была опубликована в 1929 году в немецком физическом журнале Zeitschrift für Physik и довольно долго оставалась в безвестности. Описывая эту ситуацию спустя много десятилетий, Амбарцумян сказал: «Если астроном публикует статью с математическим содержанием в физическом журнале, то наиболее вероятное, что с ней произойдет, — это забвение».
Тем не менее, ближе к концу Второй мировой войны эта статья, написанная 20-летним Амбарцумяном, была найдена шведскими математиками и послужила отправной точкой для целого направления исследований обратных задач, став основой целой дисциплины.
Затем важные усилия были направлены на «прямое решение» обратной задачи рассеяния, особенно Гельфандом и Левитаном в Советском Союзе. [8] Они предложили аналитический конструктивный метод для определения решения. Когда появились компьютеры, некоторые авторы исследовали возможность применения своего подхода к аналогичным задачам, таким как обратная задача в одномерном волновом уравнении. Но быстро выяснилось, что инверсия — это нестабильный процесс: шум и ошибки могут быть чрезвычайно усилены, делая прямое решение едва ли осуществимым. Затем, около семидесятых годов, появились подходы наименьших квадратов и вероятностные подходы, которые оказались очень полезными для определения параметров, участвующих в различных физических системах. Этот подход имел большой успех. В настоящее время обратные задачи также исследуются в областях за пределами физики, таких как химия, экономика и компьютерные науки. В конце концов, поскольку численные модели становятся распространенными во многих частях общества, мы можем ожидать обратную задачу, связанную с каждой из этих численных моделей.
Со времен Ньютона ученые активно пытались моделировать мир. В частности, когда доступна математическая модель (например, закон тяготения Ньютона или уравнение Кулона для электростатики), мы можем предвидеть, учитывая некоторые параметры, которые описывают физическую систему (такие как распределение массы или распределение электрических зарядов), поведение системы. Этот подход известен как математическое моделирование, а вышеупомянутые физические параметры называются параметрами модели или просто моделью . Чтобы быть точным, мы вводим понятие состояния физической системы : это решение уравнения математической модели. В теории оптимального управления эти уравнения называются уравнениями состояния . Во многих ситуациях мы на самом деле не заинтересованы в знании физического состояния, а только в его влиянии на некоторые объекты (например, влиянии гравитационного поля на конкретную планету). Следовательно, мы должны ввести другой оператор, называемый оператором наблюдения , который преобразует состояние физической системы (здесь предсказанное гравитационное поле) в то, что мы хотим наблюдать (здесь движения рассматриваемой планеты). Теперь мы можем представить так называемую прямую задачу , которая состоит из двух шагов:
Это приводит к введению другого оператора ( F означает «вперед»), который отображает параметры модели в данные, которые предсказывает модель, что является результатом этой двухэтапной процедуры. Оператор называется оператором вперед или прямой картой . В этом подходе мы в основном пытаемся предсказать эффекты, зная причины.
В таблице ниже показаны параметры модели, описывающие систему, физическая величина, описывающая состояние физической системы, и наблюдения, обычно проводимые над состоянием системы, для различных физических явлений.
При подходе обратной задачи мы, грубо говоря, пытаемся узнать причины, учитывая следствия.
Обратная задача — это «обратная» задача прямой задачи: вместо определения данных, полученных с помощью конкретных параметров модели, мы хотим определить параметры модели, которые производят данные, которые являются наблюдением, которое мы записали (индекс obs означает наблюдаемое). Другими словами, наша цель — определить параметры модели таким образом, что (по крайней мере приблизительно) где — прямая карта. Мы обозначаем (возможно, бесконечное) число параметров модели и число записанных данных. Мы вводим некоторые полезные концепции и связанные с ними обозначения, которые будут использоваться ниже:
Концепция остатков очень важна: в рамках поиска модели, которая соответствует данным, их анализ показывает, можно ли считать рассматриваемую модель реалистичной или нет . Систематические нереалистичные расхождения между данными и ответами модели также показывают, что прямая карта неадекватна, и могут дать представление об улучшенной прямой карте.
Когда оператор линеен, обратная задача линейна. В противном случае, что чаще всего и бывает, обратная задача нелинейна. Кроме того, модели не всегда могут быть описаны конечным числом параметров. Это тот случай, когда мы ищем распределенные параметры (например, распределение скоростей волн): в таких случаях целью обратной задачи является получение одной или нескольких функций. Такие обратные задачи являются обратными задачами с бесконечной размерностью.
В случае линейного прямого отображения и когда мы имеем дело с конечным числом параметров модели, прямое отображение можно записать в виде линейной системы , где — матрица, характеризующая прямое отображение.
Только несколько физических систем на самом деле линейны относительно параметров модели. Одной из таких систем из геофизики является система гравитационного поля Земли . Гравитационное поле Земли определяется распределением плотности Земли в недрах. Поскольку литология Земли меняется довольно значительно, мы можем наблюдать мельчайшие различия в гравитационном поле Земли на поверхности Земли. Из нашего понимания гравитации (закон тяготения Ньютона) мы знаем, что математическое выражение для гравитации следующее: здесь — мера локального гравитационного ускорения, — универсальная гравитационная постоянная , — локальная масса (которая связана с плотностью) породы в недрах, — расстояние от массы до точки наблюдения.
Дискретизируя приведенное выше выражение, мы можем связать дискретные данные наблюдений на поверхности Земли с дискретными параметрами модели (плотностью) в недрах, о которых мы хотим узнать больше. Например, рассмотрим случай, когда у нас есть измерения, проведенные в 5 точках на поверхности Земли. В этом случае наш вектор данных является вектором-столбцом размерности (5×1): его -й компонент связан с -й точкой наблюдения. Мы также знаем, что у нас есть только пять неизвестных масс в недрах (нереально, но используется для демонстрации концепции) с известным местоположением: мы обозначаем расстоянием между -й точкой наблюдения и -й массой. Таким образом, мы можем построить линейную систему, связывающую пять неизвестных масс с пятью точками данных следующим образом:
Чтобы найти параметры модели, соответствующие нашим данным, мы можем инвертировать матрицу , чтобы напрямую преобразовать измерения в параметры нашей модели. Например: Система с пятью уравнениями и пятью неизвестными — это очень специфическая ситуация: наш пример был разработан так, чтобы в итоге получить эту специфичность. В общем случае, количество данных и неизвестных отличается, поэтому матрица не является квадратной.
Однако даже квадратная матрица может не иметь обратной: матрица может иметь дефицит ранга (т. е. иметь нулевые собственные значения), и решение системы не будет единственным. Тогда решение обратной задачи будет неопределенным. Это первая трудность. Переопределенные системы (больше уравнений, чем неизвестных) имеют другие проблемы. Также шум может исказить наши наблюдения, делая возможным выход за пределы пространства возможных ответов на параметры модели, так что решение системы может не существовать. Это еще одна трудность.
Первая трудность отражает важную проблему: наши наблюдения не содержат достаточно информации, и требуются дополнительные данные. Дополнительные данные могут поступать из физической предварительной информации о значениях параметров, об их пространственном распределении или, в более общем плане, об их взаимной зависимости. Они также могут поступать из других экспериментов: например, мы можем подумать об интеграции данных, зарегистрированных гравиметрами и сейсмографами, для лучшей оценки плотностей. Интеграция этой дополнительной информации в основном является проблемой статистики . Эта дисциплина является той, которая может ответить на вопрос: как смешивать величины различной природы? Мы будем более точны в разделе «Байесовский подход» ниже.
Что касается распределенных параметров, априорная информация об их пространственном распределении часто состоит из информации о некоторых производных этих распределенных параметров. Кроме того, обычной практикой, хотя и несколько искусственной, является поиск «самой простой» модели, которая разумно соответствует данным. Обычно это достигается путем штрафования нормы градиента ( или общей вариации ) параметров (этот подход также называют максимизацией энтропии). Можно также сделать модель простой с помощью параметризации, которая вводит степени свободы только при необходимости.
Дополнительная информация может быть также интегрирована через ограничения неравенства на параметры модели или некоторые их функции. Такие ограничения важны для избежания нереалистичных значений параметров (например, отрицательных значений). В этом случае пространство, охватываемое параметрами модели, больше не будет векторным пространством, а подмножеством допустимых моделей, обозначенных в дальнейшем как .
Как упоминалось выше, шум может быть таким, что наши измерения не являются образом какой-либо модели, так что мы не можем искать модель, которая производит данные, а ищем лучшую (или оптимальную) модель : то есть ту, которая лучше всего соответствует данным. Это приводит нас к минимизации целевой функции , а именно функционала , который количественно определяет, насколько велики остатки или насколько далеки предсказанные данные от наблюдаемых данных. Конечно, когда у нас есть идеальные данные (т. е. нет шума), то восстановленная модель должна идеально соответствовать наблюдаемым данным. Стандартная целевая функция, , имеет вид: где - евклидова норма (она будет нормой, когда измерения являются функциями, а не выборками) остатков. Этот подход сводится к использованию обычных наименьших квадратов , подхода, широко используемого в статистике. Однако известно, что евклидова норма очень чувствительна к выбросам: чтобы избежать этой трудности, мы можем подумать об использовании других расстояний, например, нормы, вместо нормы .
Очень похож на подход наименьших квадратов вероятностный подход: если мы знаем статистику шума, который загрязняет данные, мы можем подумать о поиске наиболее вероятной модели m, которая является моделью, которая соответствует критерию максимального правдоподобия . Если шум является гауссовым , критерий максимального правдоподобия появляется как критерий наименьших квадратов, евклидово скалярное произведение в пространстве данных заменяется скалярным произведением, включающим ковариацию шума. Кроме того, если априорная информация о параметрах модели доступна, мы могли бы подумать об использовании байесовского вывода для формулировки решения обратной задачи. Этот подход подробно описан в книге Тарантола. [9]
Здесь мы используем евклидову норму для количественной оценки несоответствий данных. Поскольку мы имеем дело с линейной обратной задачей, целевая функция является квадратичной. Для ее минимизации классическим является вычисление ее градиента с использованием того же обоснования (как мы бы сделали для минимизации функции только одной переменной). В оптимальной модели этот градиент исчезает, что можно записать как: где F T обозначает матрицу, транспонированную к F . Это уравнение упрощается до:
Это выражение известно как нормальное уравнение и дает нам возможное решение обратной задачи. В нашем примере матрица оказывается в целом полноранговой, так что уравнение выше имеет смысл и однозначно определяет параметры модели: нам не нужно интегрировать дополнительную информацию, чтобы получить уникальное решение.
Обратные задачи обычно некорректны, в отличие от корректно поставленных задач, обычно встречающихся в математическом моделировании. Из трех условий корректно поставленной задачи, предложенных Жаком Адамаром (существование, единственность и устойчивость решения или решений), условие устойчивости чаще всего нарушается. В смысле функционального анализа обратная задача представлена отображением между метрическими пространствами . Хотя обратные задачи часто формулируются в бесконечномерных пространствах, ограничения на конечное число измерений и практическое рассмотрение восстановления только конечного числа неизвестных параметров могут привести к тому, что задачи будут переформулированы в дискретной форме. В этом случае обратная задача, как правило, будет плохо обусловленной . В этих случаях регуляризация может использоваться для введения умеренных предположений о решении и предотвращения переобучения . Многие примеры регуляризованных обратных задач можно интерпретировать как особые случаи байесовского вывода . [10]
Некоторые обратные задачи имеют очень простое решение, например, когда есть набор нерастворимых функций , то есть набор функций , оценка которых в различных точках дает набор линейно независимых векторов. Это означает, что при наличии линейной комбинации этих функций коэффициенты можно вычислить, расположив векторы как столбцы матрицы, а затем инвертировав эту матрицу. Простейшим примером нерастворимых функций являются полиномы, построенные с использованием теоремы об нерастворимости , так, чтобы они были нерастворимыми. Конкретно, это делается путем инвертирования матрицы Вандермонда . Но это очень специфическая ситуация.
В общем случае решение обратной задачи требует сложных алгоритмов оптимизации. Когда модель описывается большим числом параметров (число неизвестных, участвующих в некоторых приложениях дифракционной томографии, может достигать одного миллиарда), решение линейной системы, связанной с нормальными уравнениями, может быть громоздким. Численный метод, который будет использоваться для решения задачи оптимизации, зависит, в частности, от затрат, необходимых для вычисления решения прямой задачи. После выбора подходящего алгоритма для решения прямой задачи (простое умножение матрицы на вектор может быть недостаточным, когда матрица огромна), подходящий алгоритм для проведения минимизации можно найти в учебниках, посвященных численным методам решения линейных систем и минимизации квадратичных функций (см., например, Ciarlet [11] или Nocedal [12] ).
Также пользователь может захотеть добавить физические ограничения к моделям: в этом случае он должен быть знаком с методами ограниченной оптимизации , что само по себе является предметом. Во всех случаях вычисление градиента целевой функции часто является ключевым элементом для решения задачи оптимизации. Как упоминалось выше, информация о пространственном распределении распределенного параметра может быть введена посредством параметризации. Можно также подумать об адаптации этой параметризации во время оптимизации. [13]
Если целевая функция основана на норме, отличной от евклидовой, нам придется покинуть область квадратичной оптимизации. В результате задача оптимизации становится сложнее. В частности, когда норма используется для количественной оценки несоответствия данных, целевая функция больше не дифференцируема: ее градиент больше не имеет смысла. В дело вступают специальные методы (см., например, Lemaréchal [14] ) из недифференцируемой оптимизации.
После вычисления оптимальной модели нам нужно ответить на вопрос: «Можем ли мы доверять этой модели?» Вопрос можно сформулировать следующим образом: насколько велик набор моделей, которые соответствуют данным «почти так же хорошо», как эта модель? В случае квадратичных целевых функций этот набор содержится в гиперэллипсоиде, подмножестве ( — число неизвестных), размер которого зависит от того, что мы подразумеваем под «почти так же хорошо», то есть от уровня шума. Направление наибольшей оси этого эллипсоида ( собственный вектор, связанный с наименьшим собственным значением матрицы ) — это направление плохо определенных компонентов: если следовать этому направлению, мы можем внести сильное возмущение в модель, не меняя существенно значение целевой функции, и, таким образом, получить существенно иную квазиоптимальную модель. Мы ясно видим, что ответ на вопрос «можем ли мы доверять этой модели» определяется уровнем шума и собственными значениями гессиана целевой функции или, что эквивалентно, в случае, когда регуляризация не была интегрирована, сингулярными значениями матрицы . Конечно, использование регуляризации (или других видов априорной информации) уменьшает размер множества почти оптимальных решений и, в свою очередь, увеличивает уверенность, которую мы можем оказать вычисленному решению.
Здесь мы сосредоточимся на восстановлении распределенного параметра. При поиске распределенных параметров мы должны дискретизировать эти неизвестные функции. Поступая так, мы уменьшаем размерность задачи до чего-то конечного. Но теперь возникает вопрос: есть ли какая-либо связь между вычисляемым нами решением и решением исходной задачи? Затем еще один вопрос: что мы подразумеваем под решением исходной задачи? Поскольку конечное число данных не позволяет определить бесконечное количество неизвестных, исходный функционал несоответствия данных должен быть регуляризован, чтобы гарантировать уникальность решения. Во многих случаях уменьшение неизвестных до конечномерного пространства обеспечит адекватную регуляризацию: вычисленное решение будет выглядеть как дискретная версия решения, которое мы искали. Например, наивная дискретизация часто будет работать для решения задачи деконволюции : она будет работать до тех пор, пока мы не позволим отсутствующим частотам проявиться в численном решении. Но во многих случаях регуляризация должна быть явно интегрирована в целевую функцию.
Чтобы понять, что может произойти, мы должны помнить, что решение такой линейной обратной задачи равносильно решению интегрального уравнения Фредгольма первого рода:
где — ядро, а — векторы , а — область в . Это справедливо для 2D-приложения. Для 3D-приложения мы рассматриваем . Обратите внимание, что здесь параметры модели состоят из функции и что отклик модели также состоит из функции, обозначенной . Это уравнение является расширением до бесконечной размерности матричного уравнения, заданного в случае дискретных задач.
Для достаточно гладкого оператор, определенный выше, компактен на разумных банаховых пространствах , таких как . Теория Ф. Рисса утверждает, что множество сингулярных значений такого оператора содержит ноль (отсюда и существование нулевого пространства), является конечным или, самое большее, счетным, и в последнем случае они составляют последовательность, стремящуюся к нулю. В случае симметричного ядра мы имеем бесконечность собственных значений, а соответствующие собственные векторы составляют гильбертов базис . Таким образом, любое решение этого уравнения определяется с точностью до аддитивной функции в нулевом пространстве, а в случае бесконечности сингулярных значений решение (которое включает обратную величину произвольно малых собственных значений) неустойчиво: два ингредиента, которые делают решение этого интегрального уравнения типичной некорректной задачей! Однако мы можем определить решение через псевдообратную функцию прямого отображения (снова с точностью до произвольной аддитивной функции). Когда прямое отображение компактно, классическая регуляризация Тихонова будет работать, если мы используем ее для интегрирования априорной информации, утверждая, что норма решения должна быть как можно меньше: это сделает обратную задачу корректно поставленной. Тем не менее, как и в случае конечной размерности, мы должны усомниться в уверенности, которую мы можем оказать вычисленному решению. Опять же, в основном, информация заключается в собственных значениях оператора Гессе. Если для вычисления решения исследовать подпространства, содержащие собственные векторы, связанные с малыми собственными значениями, то решению вряд ли можно доверять: некоторые из его компонентов будут плохо определены. Наименьшее собственное значение равно весу, введенному в регуляризации Тихонова.
Нерегулярные ядра могут давать прямое отображение, которое не является компактным и даже неограниченным , если мы наивно оснастим пространство моделей нормой . В таких случаях гессиан не является ограниченным оператором, и понятие собственного значения больше не имеет смысла. Требуется математический анализ, чтобы сделать его ограниченным оператором и спроектировать корректно поставленную задачу: иллюстрацию можно найти в [15] Опять же, мы должны усомниться в уверенности, которую мы можем оказать вычисленному решению, и мы должны обобщить понятие собственного значения, чтобы получить ответ. [16]
Анализ спектра оператора Гессе, таким образом, является ключевым элементом для определения того, насколько надежно вычисленное решение. Однако такой анализ обычно является очень сложной задачей. Это побудило нескольких авторов исследовать альтернативные подходы в случае, когда нас интересуют не все компоненты неизвестной функции, а только под-неизвестные, которые являются изображениями неизвестной функции линейным оператором. Эти подходы называются «методом Бэкуса и Гилберта [17] », подходом часовых Лайонса [ 18] и методом SOLA: [19] эти подходы оказались тесно связанными друг с другом, как объяснено в Чавенте [20] Наконец, концепция ограниченного разрешения , часто используемая физиками, является не чем иным, как конкретным представлением о том, что некоторые плохо определенные компоненты могут испортить решение. Но, вообще говоря, эти плохо определенные компоненты модели не обязательно связаны с высокими частотами.
Упомянутые ниже задачи соответствуют различным версиям интеграла Фредгольма: каждая из них связана с определенным ядром .
Целью деконволюции является восстановление исходного изображения или сигнала , который выглядит зашумленным и размытым на данных . [21] С математической точки зрения ядро здесь зависит только от разницы между и .
В этих методах мы пытаемся восстановить распределенный параметр, наблюдение состоит из измерения интегралов этого параметра, выполненного вдоль семейства линий. Мы обозначаем линией в этом семействе, связанной с точкой измерения . Таким образом, наблюдение в может быть записано как: где - длина дуги вдоль и известная весовая функция. Сравнивая это уравнение с интегралом Фредгольма выше, мы замечаем, что ядро является своего рода дельта-функцией , которая достигает пика на линии . С таким ядром прямое отображение не является компактным.
В рентгеновской компьютерной томографии линии, по которым интегрируется параметр, являются прямыми линиями: томографическая реконструкция распределения параметра основана на инверсии преобразования Радона . Хотя с теоретической точки зрения многие линейные обратные задачи хорошо изучены, проблемы, связанные с преобразованием Радона и его обобщениями, по-прежнему представляют множество теоретических проблем с вопросами достаточности данных, которые все еще не решены. К таким проблемам относятся неполные данные для рентгеновского преобразования в трех измерениях и проблемы, связанные с обобщением рентгеновского преобразования на тензорные поля. Изученные решения включают алгебраическую технику реконструкции , фильтрованную обратную проекцию и, по мере увеличения вычислительной мощности, итерационные методы реконструкции, такие как итеративная разреженная асимптотическая минимальная дисперсия . [22]
Дифракционная томография — классическая линейная обратная задача в разведочной сейсмологии: амплитуда, зарегистрированная в один момент времени для данной пары источник-приемник, представляет собой сумму вкладов, возникающих из точек, таких, что сумма расстояний, измеренных во времени пробега, от источника и приемника, соответственно, равна соответствующему времени регистрации. В 3D параметр интегрируется не по линиям, а по поверхностям. Если скорость распространения постоянна, такие точки распределяются на эллипсоиде. Обратные задачи состоят в извлечении распределения дифрагирующих точек из сейсмограмм, зарегистрированных вдоль съемки, при этом распределение скоростей известно. Прямое решение было первоначально предложено Бейлкиным и Ламбаре и др.: [23] эти работы были отправными точками подходов, известных как миграция с сохранением амплитуды (см. Бейлкина [24] [25] и Блейстейна [26] ). Если для решения волнового уравнения использовать методы геометрической оптики (т. е. лучи), то эти методы оказываются тесно связанными с так называемыми методами миграции наименьших квадратов [27], полученными из подхода наименьших квадратов (см. Лайлли, [28] Тарантола [29] ).
Если мы рассмотрим вращающийся звездный объект, то спектральные линии, которые мы можем наблюдать на спектральном профиле, будут смещены из-за эффекта Доплера. Доплеровская томография направлена на преобразование информации, содержащейся в спектральном мониторинге объекта, в двумерное изображение излучения (как функции радиальной скорости и фазы в периодическом вращательном движении) звездной атмосферы. Как объяснил Том Марш [30], эта линейная обратная задача подобна томографии: мы должны восстановить распределенный параметр, который был интегрирован вдоль линий, чтобы произвести его эффекты в записях.
Ранние публикации по обратной теплопроводности возникли из определения поверхностного теплового потока во время входа в атмосферу с помощью заглубленных датчиков температуры. [31] [32] Другие приложения, где необходим поверхностный тепловой поток, но поверхностные датчики непрактичны, включают: внутри поршневых двигателей, внутри ракетных двигателей; и испытание компонентов ядерного реактора. [33] Были разработаны различные численные методы для решения проблемы некорректности и чувствительности к ошибке измерения, вызванной затуханием и запаздыванием в температурном сигнале. [34] [35] [36]
Нелинейные обратные задачи представляют собой по своей сути более сложное семейство обратных задач. Здесь прямое отображение является нелинейным оператором. Моделирование физических явлений часто опирается на решение уравнения в частных производных (см. таблицу выше, за исключением закона тяготения): хотя эти уравнения в частных производных часто являются линейными, физические параметры, которые появляются в этих уравнениях, зависят нелинейным образом от состояния системы и, следовательно, от наблюдений, которые мы делаем над ней.
В то время как линейные обратные задачи были полностью решены с теоретической точки зрения в конце девятнадцатого века [ требуется ссылка ] , только один класс нелинейных обратных задач был таковым до 1970 года, а именно обратные спектральные и (одномерные) обратные задачи рассеяния , после основополагающих работ русской математической школы ( Крейн , Гельфанд , Левитан, Марченко ). Большой обзор результатов был дан Чаданом и Сабатье в их книге "Обратные задачи квантовой теории рассеяния" (два издания на английском языке, одно на русском).
В этом типе задач данные являются свойствами спектра линейного оператора, описывающего рассеяние. Спектр состоит из собственных значений и собственных функций , образующих вместе «дискретный спектр» и обобщения, называемые непрерывным спектром. Весьма примечательным физическим моментом является то, что эксперименты по рассеянию дают информацию только о непрерывном спектре, и что знание его полного спектра необходимо и достаточно для восстановления оператора рассеяния. Следовательно, у нас есть невидимые параметры, гораздо более интересные, чем нулевое пространство, которое имеет аналогичное свойство в линейных обратных задачах. Кроме того, существуют физические движения, в которых спектр такого оператора сохраняется как следствие такого движения. Это явление регулируется специальными нелинейными уравнениями эволюции в частных производных, например, уравнением Кортевега–де Фриза . Если спектр оператора сводится к одному единственному собственному значению, его соответствующее движение представляет собой движение одного выступа, который распространяется с постоянной скоростью и без деформации, уединенной волны, называемой « солитоном ».
Идеальный сигнал и его обобщения для уравнения Кортевега–де Фриза или других интегрируемых нелинейных уравнений в частных производных представляют большой интерес, с многочисленными возможными приложениями. Эта область изучается как раздел математической физики с 1970-х годов. Нелинейные обратные задачи также в настоящее время изучаются во многих областях прикладной науки (акустика, механика, квантовая механика, электромагнитное рассеяние — в частности, радиолокационное зондирование, сейсмическое зондирование и почти все методы визуализации).
Последний пример, связанный с гипотезой Римана, был приведен Ву и Шпрунгом. Идея заключается в том, что в старой полуклассической квантовой теории обратная величина потенциала внутри гамильтониана пропорциональна полупроизводной функции подсчета собственных значений (энергий) n ( x ).
Цель состоит в том, чтобы восстановить коэффициент диффузии в параболическом частном дифференциальном уравнении , которое моделирует однофазные потоки жидкости в пористых средах. Эта проблема была объектом многих исследований с момента пионерской работы, проведенной в начале семидесятых. [37] Что касается двухфазных потоков, важной проблемой является оценка относительных проницаемостей и капиллярных давлений. [38]
Цель состоит в том, чтобы восстановить скорости волн (волны P и S) и распределения плотности из сейсмограмм . Такие обратные задачи представляют основной интерес для сейсмологии и разведочной геофизики . Мы можем в основном рассмотреть две математические модели:
Эти основные гиперболические уравнения можно усовершенствовать, включив затухание , анизотропию , ...
Решение обратной задачи в одномерном волновом уравнении было объектом многих исследований. Это одна из немногих нелинейных обратных задач, для которой мы можем доказать единственность решения. [8] Анализ устойчивости решения был еще одной проблемой. [39] Были разработаны практические приложения с использованием подхода наименьших квадратов. [39] [40] Расширение на двумерные или трехмерные задачи и уравнения эластодинамики было предпринято с 80-х годов, но оказалось очень сложным! Эта проблема, часто называемая полной инверсией формы волны (FWI), еще не полностью решена: среди основных трудностей - наличие негауссова шума в сейсмограммах, проблемы с пропуском циклов (также известные как фазовая неоднозначность) и хаотическое поведение функции несоответствия данных. [41] Некоторые авторы исследовали возможность переформулирования обратной задачи таким образом, чтобы сделать целевую функцию менее хаотичной, чем функция несоответствия данных. [42] [43]
Понимая, насколько сложна обратная задача в волновом уравнении, сейсмологи исследовали упрощенный подход, используя геометрическую оптику. В частности, они стремились к инвертированию для распределения скорости распространения, зная время прибытия волновых фронтов, наблюдаемых на сейсмограммах. Эти волновые фронты могут быть связаны с прямыми прибытиями или с отражениями, связанными с рефлекторами, геометрия которых должна быть определена совместно с распределением скорости.
Распределение времени прибытия ( точка в физическом пространстве) волнового фронта, выпущенного из точечного источника, удовлетворяет уравнению Эйконала : где обозначает распределение медленности (обратной скорости). Наличие делает это уравнение нелинейным. Классически оно решается путем испускания лучей (траекторий, относительно которых время прибытия стационарно) из точечного источника.
Эта проблема подобна томографии: измеренные времена прибытия являются интегралом вдоль траектории луча от медленности. Но эта подобная томографии проблема нелинейна, в основном потому, что неизвестная геометрия траектории луча зависит от распределения скорости (или медленности). Несмотря на свой нелинейный характер, томография времени прохождения оказалась очень эффективной для определения скорости распространения в Земле или в недрах, причем последний аспект является ключевым элементом для сейсмической визуализации, в частности, с использованием методов, упомянутых в разделе «Дифракционная томография».
Вопросы касаются корректности: имеет ли задача наименьших квадратов единственное решение, которое непрерывно зависит от данных (проблема устойчивости)? Это первый вопрос, но он также является сложным из-за нелинейности . Чтобы увидеть, откуда возникают трудности, Чавент [44] предложил концептуально разбить минимизацию функции несоответствия данных на два последовательных шага ( — подмножество допустимых моделей):
Трудности могут возникнуть (и обычно возникают) на обоих этапах:
Мы ссылаемся на работу Чавента [44] для математического анализа этих точек.
Поскольку прямая карта нелинейна, функция несоответствия данных, скорее всего, будет невыпуклой, что делает методы локальной минимизации неэффективными. Было исследовано несколько подходов для преодоления этой трудности:
Обратные задачи, особенно в бесконечной размерности, могут быть большого размера, что требует значительного времени вычислений. Когда прямое отображение нелинейно, вычислительные трудности возрастают, и минимизация целевой функции может быть затруднительной. В отличие от линейной ситуации, явное использование матрицы Гессе для решения нормальных уравнений здесь не имеет смысла: матрица Гессе меняется в зависимости от моделей. Гораздо более эффективной является оценка градиента целевой функции для некоторых моделей. Значительные вычислительные усилия могут быть сэкономлены, когда мы можем избежать очень тяжелого вычисления якобиана ( часто называемого « производными Фреше »): метод сопряженного состояния, предложенный Шавентом и Лионсом [47] , направлен на то, чтобы избежать этого очень тяжелого вычисления. В настоящее время он очень широко используется. [48]
Теория обратных задач широко используется в прогнозировании погоды, океанографии, гидрологии и нефтяной инженерии. [50] [51] [52] Другим применением является инверсия упругих волн для неразрушающей характеристики инженерных сооружений. [49]
Обратные задачи также встречаются в области теплопередачи, где поверхностный тепловой поток [53] оценивается исходя из данных о температуре, измеренной внутри твердого тела; и при понимании управления распадом растительного вещества. [54] Линейная обратная задача также является основой спектральной оценки и оценки направления прихода (DOA) при обработке сигналов .
Обратная литография используется при проектировании фотошаблонов для изготовления полупроводниковых приборов .
Четыре основных академических журнала освещают обратные задачи в целом:
Во многих журналах по медицинской визуализации, геофизике, неразрушающему контролю и т. д. преобладают обратные задачи в этих областях.
{{cite book}}
: CS1 maint: location (link)