stringtranslate.com

Правило цепочки

В исчислении цепное правило — это формула , которая выражает производную композиции двух дифференцируемых функций f и g через производные f и g . Точнее, если — функция такая, что для каждого x , то цепное правило в обозначениях Лагранжа имеет вид , или , что то же самое,

Правило цепочки также может быть выражено в обозначениях Лейбница . Если переменная z зависит от переменной y , которая, в свою очередь, зависит от переменной x (то есть y и z являются зависимыми переменными ), то z также зависит от x через промежуточную переменную y . В этом случае правило цепочки выражается как и для указания, в каких точках должны быть оценены производные.

В интеграции аналогом цепного правила является правило подстановки .

Интуитивное объяснение

Интуитивно цепное правило гласит, что знание мгновенной скорости изменения z относительно y и y относительно x позволяет вычислить мгновенную скорость изменения z относительно x как произведение двух скоростей изменения.

Как сказал Джордж Ф. Симмонс : «Если автомобиль едет в два раза быстрее велосипеда, а велосипед в четыре раза быстрее идущего человека, то автомобиль едет в 2 × 4 = 8 раз быстрее человека». [1]

Связь между этим примером и цепным правилом следующая. Пусть z , y и x будут (переменными) положениями автомобиля, велосипеда и идущего человека соответственно. Скорость изменения относительных положений автомобиля и велосипеда равна Аналогично, Таким образом, скорость изменения относительных положений автомобиля и идущего человека равна

Скорость изменения положений — это отношение скоростей, а скорость — это производная положения по времени; то есть, или, что то же самое, что также является применением цепного правила.

История

Цепное правило, по-видимому, впервые использовал Готфрид Вильгельм Лейбниц . Он использовал его для вычисления производной как композита функции квадратного корня и функции . Впервые он упомянул его в мемуаре 1676 года (с ошибкой знака в расчетах). [2] Общепринятое обозначение цепного правила принадлежит Лейбницу. [3] Гийом де Лопиталь неявно использовал цепное правило в своем Analyse des infiniment petits . Цепное правило не появляется ни в одной из книг по анализу Леонарда Эйлера , хотя они были написаны более чем через сто лет после открытия Лейбница. [ необходима цитата ] . Считается, что первая «современная» версия цепного правила появляется в работе Лагранжа 1797 года Théorie des fonctions analytiques ; он также появляется в «Resumé des Leçons données a L'École Royale Polytechnique sur Le Calcul Infinitesimal» Коши 1823 года . [3]

Заявление

Простейшая форма цепного правила — для вещественных функций одной вещественной переменной. Оно гласит, что если g — функция, дифференцируемая в точке c (т. е. производная g ′( c ) существует), а f — функция, дифференцируемая в g ( c ) , то составная функция дифференцируема в c , а производная равна [4] Правило иногда сокращается до

Если y = f ( u ) и u = g ( x ) , то эта сокращенная форма записывается в обозначениях Лейбница как:

Точки, в которых оцениваются производные, также могут быть указаны явно:

Продолжая те же рассуждения дальше, при заданных n функциях с составной функцией , если каждая функция дифференцируема на своем непосредственном входе, то составная функция также дифференцируема путем повторного применения цепного правила, где производная равна (в обозначениях Лейбница):

Приложения

Композиции из более чем двух функций

Правило цепочки может быть применено к композициям более чем двух функций. Чтобы взять производную композиции более чем двух функций, обратите внимание, что композиция f , g , и h (в этом порядке) является композицией f с gh . Правило цепочки гласит, что для вычисления производной fgh достаточно вычислить производную f и производную gh . Производную f можно вычислить напрямую, а производную gh можно вычислить, снова применив правило цепочки. [ необходима цитата ]

Для конкретности рассмотрим функцию Ее можно разложить на композицию трех функций: Так что .

Их производные:

Правило цепочки гласит, что производная их композиции в точке x = a равна:

В обозначениях Лейбница это выглядит так: или, для краткости, производная функция имеет вид:

Другой способ вычисления этой производной — рассматривать составную функцию fgh как составную функцию fg и h . Применение цепного правила таким образом даст:

Это то же самое, что было вычислено выше. Этого следовало ожидать, поскольку ( fg ) ∘ h = f ∘ ( gh ) .

Иногда необходимо дифференцировать произвольно длинную композицию вида . В этом случае определите, где и когда . Тогда цепное правило примет вид или, в обозначениях Лагранжа,

Правило частного

Правило цепочки можно использовать для вывода некоторых известных правил дифференциации. Например, правило частного является следствием правила цепочки и правила произведения . Чтобы увидеть это, запишите функцию f ( x )/ g ( x ) как произведение f ( x ) · 1/ g ( x ) . Сначала применим правило произведения:

Чтобы вычислить производную 1/ g ( x ) , обратите внимание, что это композит g с обратной функцией, то есть функцией, которая переводит x в 1/ x . Производная обратной функции равна . Применяя цепное правило, последнее выражение становится: что является обычной формулой для правила частного.

Производные обратных функций

Предположим, что y = g ( x ) имеет обратную функцию . Назовем ее обратную функцию f так, чтобы мы имели x = f ( y ) . Существует формула для производной f через производную g . Чтобы увидеть это, отметим, что f и g удовлетворяют формуле

И поскольку функции и x равны, их производные должны быть равны. Производная x — это постоянная функция со значением 1, а производная определяется цепным правилом. Поэтому имеем, что:

Чтобы выразить f' как функцию независимой переменной y , мы подставляем x везде , где он появляется. Затем мы можем решить для f' .

Например, рассмотрим функцию g ( x ) = e x . Она имеет обратную f ( y ) = ln y . Поскольку g ′( x ) = e x , приведенная выше формула говорит, что

Эта формула истинна, когда g дифференцируема и ее обратная f также дифференцируема. Эта формула может не работать, когда одно из этих условий не выполняется. Например, рассмотрим g ( x ) = x 3 . Ее обратная функция f ( y ) = y 1/3 , которая не дифференцируема в нуле. Если мы попытаемся использовать приведенную выше формулу для вычисления производной f в нуле, то мы должны вычислить 1/ g ′( f (0) ) . Поскольку f (0) = 0 и g ′(0) = 0 , мы должны вычислить 1/0, что не определено. Следовательно, формула не работает в этом случае. Это неудивительно, потому что f не дифференцируема в нуле.

Обратное распространение

Цепное правило лежит в основе алгоритма обратного распространения , который используется при градиентном спуске нейронных сетей в глубоком обучении ( искусственном интеллекте ). [5]

Высшие производные

Формула Фаа ди Бруно обобщает правило цепочки на высшие производные. Предполагая, что y = f ( u ) и u = g ( x ) , тогда первые несколько производных будут:

Доказательства

Первое доказательство

Одно доказательство цепного правила начинается с определения производной сложной функции fg , где мы берем предел разностного отношения для fg при приближении x к a :

Предположим на мгновение, что не равно ни для какого близкого . Тогда предыдущее выражение равно произведению двух множителей:

Если колеблется около a , то может случиться так, что независимо от того, насколько близко мы подходим к a , всегда найдется еще более близкий x такой, что g ( x ) = g ( a ) . Например, это происходит около a = 0 для непрерывной функции g , определенной как g ( x ) = 0 для x = 0 и g ( x ) = x 2 sin(1/ x ) в противном случае. Всякий раз, когда это происходит, приведенное выше выражение не определено, поскольку оно включает деление на ноль . Чтобы обойти это, введем функцию следующим образом: Мы покажем, что разностное отношение для fg всегда равно:

Всякий раз, когда g ( x ) не равно g ( a ) , это ясно, потому что множители g ( x ) − g ( a ) сокращаются. Когда g ( x ) равно g ( a ) , то разностное отношение для fg равно нулю, потому что f ( g ( x )) равно f ( g ( a )) , а указанное выше произведение равно нулю, потому что оно равно f ′( g ( a )) умноженному на ноль. Таким образом, указанное выше произведение всегда равно разностному отношению, и чтобы показать, что производная fg в точке a существует, и определить ее значение, нам нужно только показать, что предел при x стремится к a указанного выше произведения существует, и определить его значение.

Для этого вспомним, что предел произведения существует, если существуют пределы его множителей. Когда это происходит, предел произведения этих двух множителей будет равен произведению пределов множителей. Два множителя — это Q ( g ( x )) и ( g ( x ) − g ( a )) / ( xa ) . Последний является разностным отношением для g в точке a , и поскольку g дифференцируема в точке a по предположению, ее предел при стремлении x к a существует и равен g ′( a ) .

Что касается Q ( g ( x )) , обратите внимание, что Q определено везде, где есть f . Более того, f дифференцируема в g ( a ) по предположению, поэтому Q непрерывна в g ( a ) по определению производной. Функция g непрерывна в a , потому что она дифференцируема в a , и поэтому Qg непрерывна в a . Поэтому ее предел при x , стремящемся к a , существует и равен Q ( g ( a ) ) , что равно f ′( g ( a )) .

Это показывает, что пределы обоих факторов существуют и что они равны f ′( g ( a )) и g ′( a ) , соответственно. Следовательно, производная fg в точке a существует и равна f ′( g ( a )) g ′( a ) .

Второе доказательство

Другой способ доказательства цепного правила — измерить ошибку в линейном приближении, определяемом производной. Это доказательство имеет то преимущество, что оно обобщает на несколько переменных. Оно опирается на следующее эквивалентное определение дифференцируемости в точке: Функция g дифференцируема в точке a , если существует действительное число g ′( a ) и функция ε ( h ), которая стремится к нулю, когда h стремится к нулю, и, кроме того, Здесь левая часть представляет собой истинную разность между значением g в точке a и в точке a + h , тогда как правая часть представляет собой приближение, определяемое производной, плюс ошибка.

В ситуации цепного правила такая функция ε существует, поскольку g предполагается дифференцируемой в a . Опять же по предположению, аналогичная функция также существует для f в g ( a ). Называя эту функцию η , мы имеем Приведенное выше определение не накладывает никаких ограничений на η (0), хотя предполагается, что η ( k ) стремится к нулю, когда k стремится к нулю. Если мы положим η (0) = 0 , то η непрерывна в 0.

Доказательство теоремы требует изучения разности f ( g ( a + h )) − f ( g ( a )) при стремлении h к нулю. Первым шагом является замена g ( a + h ) с использованием определения дифференцируемости g в точке a : Следующим шагом является использование определения дифференцируемости f в точке g ( a ). Для этого требуется член вида f ( g ( a ) + k ) для некоторого k . В приведенном выше уравнении правильное k меняется с h . Положим k h = g ′( a ) h + ε ( h ) h , и правая часть станет f ( g ( a ) + k h ) − f ( g ( a )) . Применение определения производной дает: Чтобы изучить поведение этого выражения при стремлении h к нулю, разверните k h . После перегруппировки членов правая часть становится: Поскольку ε ( h ) и η ( k h ) стремятся к нулю, когда h стремится к нулю, первые два члена в квадратных скобках стремятся к нулю, когда h стремится к нулю. Применяя ту же теорему о произведениях пределов, что и в первом доказательстве, третий член в квадратных скобках также стремится к нулю. Поскольку приведенное выше выражение равно разности f ( g ( a + h )) − f ( g ( a )) , по определению производной fg дифференцируема в точке a и ее производная равна f ′( g ( a )) g ′( a ).

Роль Q в первом доказательстве играет η в этом доказательстве. Они связаны уравнением: Необходимость определения Q в g ( a ) аналогична необходимости определения η в нуле.

Третье доказательство

Альтернативное определение дифференцируемости функции, данное Константином Каратеодори, можно использовать для элегантного доказательства цепного правила. [6]

Согласно этому определению, функция f дифференцируема в точке a тогда и только тогда, когда существует функция q , непрерывная в точке a и такая, что f ( x ) − f ( a ) = q ( x )( xa ) . Существует не более одной такой функции, и если f дифференцируема в точке a , то f ′( a ) = q ( a ) .

Учитывая предположения правила цепочки и тот факт, что дифференцируемые функции и композиции непрерывных функций непрерывны, мы имеем, что существуют функции q , непрерывные в g ( a ) , и r , непрерывные в a , и такие, что , и Следовательно, но функция, заданная формулой h ( x ) = q ( g ( x )) r ( x ) непрерывна в a , и мы получаем, для этого a Похожий подход работает для непрерывно дифференцируемых (векторных) функций многих переменных. Этот метод факторизации также позволяет единый подход к более сильным формам дифференцируемости, когда требуется, чтобы производная была непрерывной по Липшицу , непрерывной по Гёльдеру и т. д. Сама дифференциация может рассматриваться как теорема о полиномиальных остатках (малая теорема Безу или теорема о факторах), обобщенная на соответствующий класс функций. [ необходима цитата ]

Доказательство с помощью бесконечно малых величин

Если и , то выбрав бесконечно малое, мы вычисляем соответствующее , а затем соответствующее , так что и применяя стандартную часть , мы получаем , что и является цепным правилом.

Многовариантный случай

Полное обобщение цепного правила на многомерные функции (такие как ) довольно технично. Однако проще записать в случае функций вида , где , и для каждого

Поскольку этот случай часто встречается при изучении функций одной переменной, его стоит описать отдельно.

Случай скалярных функций с несколькими входами

Пусть , и для каждого Чтобы записать цепочку правил для композиции функций, нужны частные производные функции f по ее k аргументам. Обычные обозначения для частных производных включают имена аргументов функции. Поскольку эти аргументы не названы в приведенной выше формуле, проще и понятнее использовать D -нотацию , и обозначать через частную производную функции f по ее i -му аргументу, а через значение этой производной в точке z .

С этой записью цепное правило имеет вид

Пример: арифметические операции

Если функция f является сложением, то есть, если то и . Таким образом, цепное правило дает

Для умножения частичные числа равны и . Таким образом,

Случай возведения в степень немного сложнее, так как и, так как Из этого следует, что

Общее правило: векторные функции с несколькими входами

Самый простой способ записать цепное правило в общем случае — использовать полную производную , которая является линейным преобразованием, которое охватывает все производные по направлению в одной формуле. Рассмотрим дифференцируемые функции f  : R mR k и g  : R nR m , и точку a в R n . Пусть D a g обозначает полную производную g в точке a , а D g ( a ) f обозначает полную производную f в точке g ( a ) . Эти две производные являются линейными преобразованиями R nR m и R mR k , соответственно, поэтому их можно составить. Цепное правило для полных производных заключается в том, что их композиция является полной производной fg в точке a : или, для краткости, Правило более высокой размерности цепи можно доказать с помощью техники, аналогичной второму доказательству, приведенному выше. [7]

Поскольку полная производная является линейным преобразованием, функции, появляющиеся в формуле, можно переписать в виде матриц. Матрица, соответствующая полной производной, называется матрицей Якоби , а композиция двух производных соответствует произведению их матриц Якоби. С этой точки зрения цепное правило, следовательно, гласит: или для краткости,

То есть якобиан сложной функции является произведением якобианов сложных функций (оцененных в соответствующих точках).

Правило многомерной цепи является обобщением правила одномерной цепи. Если k , m и n равны 1, так что f  : RR и g  : RR , то матрицы Якоби для f и g равны 1 × 1. В частности, они таковы: Якобиан для fg является произведением этих матриц размером 1 × 1 , поэтому он равен f ′( g ( a ))⋅ g ′( a ) , как и ожидалось из правила одномерной цепи. На языке линейных преобразований D a ( g ) — это функция, которая масштабирует вектор в g ′( a ) , а D g ( a ) ( f ) — это функция, которая масштабирует вектор в f ( g ( a )) . Правило цепочки гласит, что композиция этих двух линейных преобразований представляет собой линейное преобразование D a ( fg ) , и, следовательно, это функция, которая масштабирует вектор на величину f ′( g ( a ))⋅ g ′( a ) .

Другой способ записи цепного правила используется, когда f и g выражаются через их компоненты как y = f ( u ) = ( f 1 ( u ), …, f k ( u )) и u = g ( x ) = ( g 1 ( x ), …, g m ( x )) . В этом случае указанное выше правило для матриц Якоби обычно записывается как:

Правило цепочки для полных производных подразумевает правило цепочки для частных производных. Напомним, что когда существует полная производная, частная производная в i -ом направлении координат находится путем умножения матрицы Якоби на i -ый базисный вектор. Проделав это с формулой выше, мы находим: Поскольку элементы матрицы Якоби являются частными производными, мы можем упростить приведенную выше формулу, чтобы получить: Более концептуально, это правило выражает тот факт, что изменение направления x i может изменить все g 1 через g m , и любое из этих изменений может повлиять на f .

В особом случае, когда k = 1 , так что f является действительной функцией, эта формула упрощается еще больше: Это можно переписать как скалярное произведение . Вспоминая, что u = ( g 1 , …, g m ) , частная производная u / ∂ x i также является вектором, и цепное правило гласит, что:

Пример

Дано u ( x , y ) = x 2 + 2 y , где x ( r , t ) = r sin( t ) и y ( r , t ) = sin 2 ( t ) , определите значение u / ∂ r и u / ∂ t , используя цепное правило. [ необходима ссылка ] и

Высшие производные функций многих переменных

Формула Фаа ди Бруно для производных высшего порядка функций с одной переменной обобщается на случай многих переменных. Если y = f ( u ) является функцией u = g ( x ) , как указано выше, то вторая производная fg равна:

Дальнейшие обобщения

Все расширения исчисления имеют цепное правило. В большинстве из них формула остается той же, хотя ее значение может сильно отличаться.

Одно обобщение касается многообразий . В этой ситуации цепное правило представляет собой тот факт, что производная fg является композитом производной f и производной g . Эта теорема является непосредственным следствием приведенного выше цепного правила более высокой размерности и имеет точно такую ​​же формулу.

Правило цепочки справедливо также для производных Фреше в банаховых пространствах . Та же формула верна, что и раньше. [8] Этот случай и предыдущий допускают одновременное обобщение на банаховы многообразия .

В дифференциальной алгебре производная интерпретируется как морфизм модулей кэлеровых дифференциалов . Кольцевой гомоморфизм коммутативных колец f  : RS определяет морфизм кэлеровых дифференциалов Df  : Ω R → Ω S , который переводит элемент dr в d ( f ( r )) , внешний дифференциал f ( r ) . Формула D ( fg ) = DfDg верна и в этом контексте.

Общей чертой этих примеров является то, что они являются выражениями идеи о том, что производная является частью функтора . Функтор — это операция над пространствами и функциями между ними. Он сопоставляет каждому пространству новое пространство, а каждой функции между двумя пространствами — новую функцию между соответствующими новыми пространствами. В каждом из вышеприведенных случаев функтор отправляет каждое пространство в его касательное расслоение , а каждую функцию — в ее производную. Например, в случае многообразия производная отправляет C r -многообразие в C r −1 -многообразие (его касательное расслоение), а C r -функцию — в ее полную производную. Существует одно требование для того, чтобы это было функтором, а именно, что производная композита должна быть композитом производных. Это в точности формула D ( fg ) = DfDg .

В стохастическом исчислении также существуют цепные правила . Одно из них, лемма Ито , выражает композицию процесса Ито (или, в более общем смысле, семимартингала ) dX t с дважды дифференцируемой функцией f . В лемме Ито производная составной функции зависит не только от dX t и производной f , но также и от второй производной f . Зависимость от второй производной является следствием ненулевой квадратичной вариации стохастического процесса, что, говоря в общем, означает, что процесс может двигаться вверх и вниз очень грубым образом. Этот вариант цепного правила не является примером функтора, поскольку две составляемые функции имеют разные типы.

Смотрите также

Ссылки

  1. ^ Джордж Ф. Симмонс , Исчисление с аналитической геометрией (1985), стр. 93.
  2. ^ Child, JM (1917). «РУКОПИСИ ЛЕЙБНИЦА О ЕГО ОТКРЫТИИ ДИФФЕРЕНЦИАЛЬНОГО ИСЧИСЛЕНИЯ. ЧАСТЬ II (Продолжение)». The Monist . 27 (3): 411–454. ISSN  0026-9662. JSTOR  27900650.
  3. ^ Аб Родригес, Омар Эрнандес; Лопес Фернандес, Хорхе М. (2010). «Семиотическое размышление о дидактике правила цепочки». Любитель математики . 7 (2): 321–332. дои : 10.54870/1551-3440.1191 . S2CID  29739148 . Проверено 4 августа 2019 г.
  4. ^ Апостол, Том (1974). Математический анализ (2-е изд.). Эддисон Уэсли. Теорема 5.5.
  5. ^ Гудфеллоу, Ян ; Бенджио, Йошуа ; Курвилль, Аарон (2016), Глубокое обучение , Массачусетский технологический институт, стр=197–217.
  6. ^ Кун, Стивен (1991). «Производная по Каратеодори». The American Mathematical Monthly . 98 (1): 40–44. doi :10.2307/2324035. JSTOR  2324035.
  7. ^ Спивак, Майкл (1965). Исчисление на многообразиях . Бостон: Addison-Wesley. С. 19–20. ISBN 0-8053-9021-9.
  8. ^ Чейни, Уорд (2001). «Цепное правило и теоремы о среднем значении». Анализ для прикладной математики . Нью-Йорк: Springer. С. 121–125. ISBN 0-387-95279-9.

Внешние ссылки