Правило цепочки

В исчислении цепное правило — это формула , которая выражает производную композиции двух дифференцируемых функций $f$ и $g$ через производные $f$ и $g$ . Точнее, если — функция такая, что для каждого $x$ , то цепное правило в обозначениях Лагранжа имеет вид , или , что то же самое, $h=f\circ g$ $h(x)=f(g(x))$ $h'(x)=f'(g(x))g'(x).$ $h'=(f\circ g)'=(f'\circ g)\cdot g'.$

Правило цепочки также может быть выражено в обозначениях Лейбница . Если переменная $z$ зависит от переменной $y$ , которая, в свою очередь, зависит от переменной $x$ (то есть $y$ и $z$ являются зависимыми переменными ), то $z$ также зависит от $x$ через промежуточную переменную $y$ . В этом случае правило цепочки выражается как и для указания, в каких точках должны быть оценены производные. ${\frac {dz}{dx}}={\frac {dz}{dy}}\cdot {\frac {dy}{dx}},$ $\left.{\frac {dz}{dx}}\right|_{x}=\left.{\frac {dz}{dy}}\right|_{y(x)}\cdot \left.{\frac {dy}{dx}}\right|_{x},$

В интеграции аналогом цепного правила является правило подстановки .

Интуитивное объяснение

Интуитивно цепное правило гласит, что знание мгновенной скорости изменения $z$ относительно $y$ и $y$ относительно $x$ позволяет вычислить мгновенную скорость изменения $z$ относительно $x$ как произведение двух скоростей изменения.

Как сказал Джордж Ф. Симмонс : «Если автомобиль едет в два раза быстрее велосипеда, а велосипед в четыре раза быстрее идущего человека, то автомобиль едет в 2 × 4 = 8 раз быстрее человека». ^[1]

Связь между этим примером и цепным правилом следующая. Пусть $z$ , $y$ и $x$ будут (переменными) положениями автомобиля, велосипеда и идущего человека соответственно. Скорость изменения относительных положений автомобиля и велосипеда равна Аналогично, Таким образом, скорость изменения относительных положений автомобиля и идущего человека равна ${\textstyle {\frac {dz}{dy}}=2.}$ ${\textstyle {\frac {dy}{dx}}=4.}$ ${\frac {dz}{dx}}={\frac {dz}{dy}}\cdot {\frac {dy}{dx}}=2\cdot 4=8.$

Скорость изменения положений — это отношение скоростей, а скорость — это производная положения по времени; то есть, или, что то же самое, что также является применением цепного правила. ${\frac {dz}{dx}}={\frac {\frac {dz}{dt}}{\frac {dx}{dt}}},$ ${\frac {dz}{dt}}={\frac {dz}{dx}}\cdot {\frac {dx}{dt}},$

История

Цепное правило, по-видимому, впервые использовал Готфрид Вильгельм Лейбниц . Он использовал его для вычисления производной как композита функции квадратного корня и функции . Впервые он упомянул его в мемуаре 1676 года (с ошибкой знака в расчетах). ^[2] Общепринятое обозначение цепного правила принадлежит Лейбницу. ^[3]Гийом де Лопиталь неявно использовал цепное правило в своем Analyse des infiniment petits . Цепное правило не появляется ни в одной из книг по анализу Леонарда Эйлера , хотя они были написаны более чем через сто лет после открытия Лейбница. ^[^{необходима цитата}^] . Считается, что первая «современная» версия цепного правила появляется в работе Лагранжа 1797 года Théorie des fonctions analytiques ; он также появляется в «Resumé des Leçons données a L'École Royale Polytechnique sur Le Calcul Infinitesimal» Коши 1823 года . ^[3] ${\sqrt {a+bz+cz^{2}}}$ $a+bz+cz^{2}\!$

Заявление

Простейшая форма цепного правила — для вещественных функций одной вещественной переменной. Оно гласит, что если $g$ — функция, дифференцируемая в точке $c$ (т. е. производная $g'(c)$ существует), а $f$ — функция, дифференцируемая в $g (c)$ , то составная функция дифференцируема в $c$ , а производная равна ^[4] Правило иногда сокращается до $f\circ g$ $(f\circ g)'(c)=f'(g(c))\cdot g'(c).$ $(f\circ g)'=(f'\circ g)\cdot g'.$

Если $y = f (u)$ и $u = g (x)$ , то эта сокращенная форма записывается в обозначениях Лейбница как: ${\frac {dy}{dx}}={\frac {dy}{du}}\cdot {\frac {du}{dx}}.$

Точки, в которых оцениваются производные, также могут быть указаны явно: $\left.{\frac {dy}{dx}}\right|_{x=c}=\left.{\frac {dy}{du}}\right|_{u=g(c)}\cdot \left.{\frac {du}{dx}}\right|_{x=c}.$

Продолжая те же рассуждения дальше, при заданных $n$ функциях с составной функцией , если каждая функция дифференцируема на своем непосредственном входе, то составная функция также дифференцируема путем повторного применения цепного правила, где производная равна (в обозначениях Лейбница): $f_{1},\ldots ,f_{n}\!$ $f_{1}\circ (f_{2}\circ \cdots (f_{n-1}\circ f_{n}))\!$ $f_{i}\!$ ${\frac {df_{1}}{dx}}={\frac {df_{1}}{df_{2}}}{\frac {df_{2}}{df_{3}}}\cdots {\frac {df_{n}}{dx}}.$

Приложения

Композиции из более чем двух функций

Правило цепочки может быть применено к композициям более чем двух функций. Чтобы взять производную композиции более чем двух функций, обратите внимание, что композиция $f$ , $g$ , и $h$ (в этом порядке) является композицией $f$ с $g \circ h$ . Правило цепочки гласит, что для вычисления производной $f \circ g \circ h$ достаточно вычислить производную $f$ и производную $g \circ h$ . Производную $f$ можно вычислить напрямую, а производную $g \circ h$ можно вычислить, снова применив правило цепочки. ^{[ необходима цитата ]}

Для конкретности рассмотрим функцию Ее можно разложить на композицию трех функций: Так что . $y=e^{\sin(x^{2})}.$ ${\begin{aligned}y&=f(u)=e^{u},\\u&=g(v)=\sin v,\\v&=h(x)=x^{2}.\end{aligned}}$ $y=f(g(h(x)))$

Их производные: ${\begin{aligned}{\frac {dy}{du}}&=f'(u)=e^{u},\\{\frac {du}{dv}}&=g'(v)=\cos v,\\{\frac {dv}{dx}}&=h'(x)=2x.\end{aligned}}$

Правило цепочки гласит, что производная их композиции в точке $x = a$ равна: ${\begin{aligned}(f\circ g\circ h)'(a)&=f'((g\circ h)(a))\cdot (g\circ h)'(a)\\&=f'((g\circ h)(a))\cdot g'(h(a))\cdot h'(a)\\&=(f'\circ g\circ h)(a)\cdot (g'\circ h)(a)\cdot h'(a).\end{aligned}}$

В обозначениях Лейбница это выглядит так: или, для краткости, производная функция имеет вид: ${\frac {dy}{dx}}=\left.{\frac {dy}{du}}\right|_{u=g(h(a))}\cdot \left.{\frac {du}{dv}}\right|_{v=h(a)}\cdot \left.{\frac {dv}{dx}}\right|_{x=a},$ ${\frac {dy}{dx}}={\frac {dy}{du}}\cdot {\frac {du}{dv}}\cdot {\frac {dv}{dx}}.$ ${\frac {dy}{dx}}=e^{\sin(x^{2})}\cdot \cos(x^{2})\cdot 2x.$

Другой способ вычисления этой производной — рассматривать составную функцию $f \circ g \circ h$ как составную функцию $f \circ g$ и h . Применение цепного правила таким образом даст: $(f\circ g\circ h)'(a)=(f\circ g)'(h(a))\cdot h'(a)=f'(g(h(a)))\cdot g'(h(a))\cdot h'(a).$

Это то же самое, что было вычислено выше. Этого следовало ожидать, поскольку $(f \circ g) \circ h = f \circ (g \circ h)$ .

Иногда необходимо дифференцировать произвольно длинную композицию вида . В этом случае определите, где и когда . Тогда цепное правило примет вид или, в обозначениях Лагранжа, $f_{1}\circ f_{2}\circ \cdots \circ f_{n-1}\circ f_{n}\!$ $f_{a\,.\,.\,b}=f_{a}\circ f_{a+1}\circ \cdots \circ f_{b-1}\circ f_{b}$ $f_{a\,.\,.\,a}=f_{a}$ $f_{a\,.\,.\,b}(x)=x$ $b<a$ $Df_{1\,.\,.\,n}=(Df_{1}\circ f_{2\,.\,.\,n})(Df_{2}\circ f_{3\,.\,.\,n})\cdots (Df_{n-1}\circ f_{n\,.\,.\,n})Df_{n}=\prod _{k=1}^{n}\left[Df_{k}\circ f_{(k+1)\,.\,.\,n}\right]$ $f_{1\,.\,.\,n}'(x)=f_{1}'\left(f_{2\,.\,.\,n}(x)\right)\;f_{2}'\left(f_{3\,.\,.\,n}(x)\right)\cdots f_{n-1}'\left(f_{n\,.\,.\,n}(x)\right)\;f_{n}'(x)=\prod _{k=1}^{n}f_{k}'\left(f_{(k+1\,.\,.\,n)}(x)\right)$

Правило частного

Правило цепочки можно использовать для вывода некоторых известных правил дифференциации. Например, правило частного является следствием правила цепочки и правила произведения . Чтобы увидеть это, запишите функцию $f (x)/ g (x)$ как произведение $f (x) \cdot 1/ g (x)$ . Сначала применим правило произведения: ${\begin{aligned}{\frac {d}{dx}}\left({\frac {f(x)}{g(x)}}\right)&={\frac {d}{dx}}\left(f(x)\cdot {\frac {1}{g(x)}}\right)\\&=f'(x)\cdot {\frac {1}{g(x)}}+f(x)\cdot {\frac {d}{dx}}\left({\frac {1}{g(x)}}\right).\end{aligned}}$

Чтобы вычислить производную $1/ g (x)$ , обратите внимание, что это композит $g$ с обратной функцией, то есть функцией, которая переводит $x$ в $1/ x$ . Производная обратной функции равна . Применяя цепное правило, последнее выражение становится: что является обычной формулой для правила частного. $-1/x^{2}\!$ $f'(x)\cdot {\frac {1}{g(x)}}+f(x)\cdot \left(-{\frac {1}{g(x)^{2}}}\cdot g'(x)\right)={\frac {f'(x)g(x)-f(x)g'(x)}{g(x)^{2}}},$

Производные обратных функций

Предположим, что $y = g (x)$ имеет обратную функцию . Назовем ее обратную функцию $f$ так, чтобы мы имели $x = f (y)$ . Существует формула для производной $f$ через производную $g$ . Чтобы увидеть это, отметим, что $f$ и $g$ удовлетворяют формуле $f(g(x))=x.$

И поскольку функции и $x$ равны, их производные должны быть равны. Производная $x$ — это постоянная функция со значением 1, а производная определяется цепным правилом. Поэтому имеем, что: $f(g(x))$ $f(g(x))$ $f'(g(x))g'(x)=1.$

Чтобы выразить $f'$ как функцию независимой переменной $y$ , мы подставляем x $везде$ , где он появляется. Затем мы можем решить для $f'$ . $f(y)$ ${\begin{aligned}f'(g(f(y)))g'(f(y))&=1\\f'(y)g'(f(y))&=1\\f'(y)={\frac {1}{g'(f(y))}}.\end{aligned}}$

Например, рассмотрим функцию $g (x) = e x$ . Она имеет обратную $f (y) = ln y$ . Поскольку $g'(x) = e x$ , приведенная выше формула говорит, что ${\frac {d}{dy}}\ln y={\frac {1}{e^{\ln y}}}={\frac {1}{y}}.$

Эта формула истинна, когда $g$ дифференцируема и ее обратная $f$ также дифференцируема. Эта формула может не работать, когда одно из этих условий не выполняется. Например, рассмотрим $g (x) = x 3$ . Ее обратная функция $f (y) = y 1/3$ , которая не дифференцируема в нуле. Если мы попытаемся использовать приведенную выше формулу для вычисления производной $f$ в нуле, то мы должны вычислить $1/ g'(f (0) )$ . Поскольку $f (0) = 0$ и $g'(0) = 0$ , мы должны вычислить 1/0, что не определено. Следовательно, формула не работает в этом случае. Это неудивительно, потому что $f$ не дифференцируема в нуле.

Обратное распространение

Цепное правило лежит в основе алгоритма обратного распространения , который используется при градиентном спуске нейронных сетей в глубоком обучении ( искусственном интеллекте ). ^[5]

Высшие производные

Формула Фаа ди Бруно обобщает правило цепочки на высшие производные. Предполагая, что $y = f (u)$ и $u = g (x)$ , тогда первые несколько производных будут: ${\begin{aligned}{\frac {dy}{dx}}&={\frac {dy}{du}}{\frac {du}{dx}}\\{\frac {d^{2}y}{dx^{2}}}&={\frac {d^{2}y}{du^{2}}}\left({\frac {du}{dx}}\right)^{2}+{\frac {dy}{du}}{\frac {d^{2}u}{dx^{2}}}\\{\frac {d^{3}y}{dx^{3}}}&={\frac {d^{3}y}{du^{3}}}\left({\frac {du}{dx}}\right)^{3}+3\,{\frac {d^{2}y}{du^{2}}}{\frac {du}{dx}}{\frac {d^{2}u}{dx^{2}}}+{\frac {dy}{du}}{\frac {d^{3}u}{dx^{3}}}\\{\frac {d^{4}y}{dx^{4}}}&={\frac {d^{4}y}{du^{4}}}\left({\frac {du}{dx}}\right)^{4}+6\,{\frac {d^{3}y}{du^{3}}}\left({\frac {du}{dx}}\right)^{2}{\frac {d^{2}u}{dx^{2}}}+{\frac {d^{2}y}{du^{2}}}\left(4\,{\frac {du}{dx}}{\frac {d^{3}u}{dx^{3}}}+3\,\left({\frac {d^{2}u}{dx^{2}}}\right)^{2}\right)+{\frac {dy}{du}}{\frac {d^{4}u}{dx^{4}}}.\end{aligned}}$

Доказательства

Первое доказательство

Одно доказательство цепного правила начинается с определения производной сложной функции $f \circ g$ , где мы берем предел разностного отношения для $f \circ g$ при приближении $x$ $к a$ : $(f\circ g)'(a)=\lim _{x\to a}{\frac {f(g(x))-f(g(a))}{x-a}}.$

Предположим на мгновение, что не равно ни для какого близкого . Тогда предыдущее выражение равно произведению двух множителей: $g(x)\!$ $g(a)$ $x$ $a$ $\lim _{x\to a}{\frac {f(g(x))-f(g(a))}{g(x)-g(a)}}\cdot {\frac {g(x)-g(a)}{x-a}}.$

Если колеблется около $a$ , то может случиться так, что независимо от того, насколько близко мы подходим к $a$ , всегда найдется еще более близкий $x$ такой, что $g$ $($ $x$ $) =$ $g$ $($ $a$ $)$ . Например, это происходит около $a$ $= 0$ для непрерывной функции $g$ , определенной как $g$ $($ $x$ $) = 0$ для $x$ $= 0$ и $g$ $($ $x$ $) =$ $x$ $2$ $sin(1/$ $x$ $)$ в противном случае. Всякий раз, когда это происходит, приведенное выше выражение не определено, поскольку оно включает деление на ноль . Чтобы обойти это, введем функцию следующим образом: Мы покажем, что разностное отношение для $f$ $\circ$ $g$ всегда равно: $g$ $Q$ $Q(y)={\begin{cases}\displaystyle {\frac {f(y)-f(g(a))}{y-g(a)}},&y\neq g(a),\\f'(g(a)),&y=g(a).\end{cases}}$ $Q(g(x))\cdot {\frac {g(x)-g(a)}{x-a}}.$

Всякий раз, когда $g (x)$ не равно $g (a)$ , это ясно, потому что множители $g (x) - g (a)$ сокращаются. Когда $g (x)$ равно $g (a)$ , то разностное отношение для $f \circ g$ равно нулю, потому что $f (g (x))$ равно $f (g (a))$ , а указанное выше произведение равно нулю, потому что оно равно $f'(g (a))$ умноженному на ноль. Таким образом, указанное выше произведение всегда равно разностному отношению, и чтобы показать, что производная $f \circ g$ в точке $a$ существует, и определить ее значение, нам нужно только показать, что предел при $x$ стремится к $a$ указанного выше произведения существует, и определить его значение.

Для этого вспомним, что предел произведения существует, если существуют пределы его множителей. Когда это происходит, предел произведения этих двух множителей будет равен произведению пределов множителей. Два множителя — это $Q (g (x))$ и $(g (x) - g (a)) / (x - a)$ . Последний является разностным отношением для $g$ в точке $a$ , и поскольку $g$ дифференцируема в $точке a$ по предположению, ее предел при стремлении $x$ к $a$ существует и равен $g'(a)$ .

Что касается $Q (g (x))$ , обратите внимание, что $Q$ определено везде, где есть $f$ . Более того, $f$ дифференцируема в $g (a)$ по предположению, поэтому $Q$ непрерывна в $g (a)$ по определению производной. Функция $g$ непрерывна в $a$ , потому что она дифференцируема в $a$ , и поэтому $Q \circ g$ непрерывна в $a$ . Поэтому ее предел при $x$ , стремящемся к $a ,$ существует и равен $Q (g (a) )$ , что равно $f'(g (a))$ .

Это показывает, что пределы обоих факторов существуют и что они равны $f'(g (a))$ и $g'(a)$ , соответственно. Следовательно, производная $f \circ g$ в точке a существует и равна $f'(g (a))$ $g'(a)$ .

Второе доказательство

Другой способ доказательства цепного правила — измерить ошибку в линейном приближении, определяемом производной. Это доказательство имеет то преимущество, что оно обобщает на несколько переменных. Оно опирается на следующее эквивалентное определение дифференцируемости в точке: Функция g дифференцируема в точке a , если существует действительное число g ′( a ) и функция ε ( h ), которая стремится к нулю, когда h стремится к нулю, и, кроме того, Здесь левая часть представляет собой истинную разность между значением g в точке a и в точке $a$ $+$ $h$ , тогда как правая часть представляет собой приближение, определяемое производной, плюс ошибка. $g(a+h)-g(a)=g'(a)h+\varepsilon (h)h.$

В ситуации цепного правила такая функция ε существует, поскольку g предполагается дифференцируемой в a . Опять же по предположению, аналогичная функция также существует для f в g ( a ). Называя эту функцию η , мы имеем Приведенное выше определение не накладывает никаких ограничений на η (0), хотя предполагается, что η ( k ) стремится к нулю, когда k стремится к нулю. Если мы положим $η$ $(0) = 0$ , то η непрерывна в 0. $f(g(a)+k)-f(g(a))=f'(g(a))k+\eta (k)k.$

Доказательство теоремы требует изучения разности $f (g (a + h)) - f (g (a))$ при стремлении h к нулю. Первым шагом является замена $g (a + h)$ с использованием определения дифференцируемости g в точке a : Следующим шагом является использование определения дифференцируемости f в точке g ( a ). Для этого требуется член вида $f$ $($ $g$ $($ $a$ $) +$ $k$ $)$ для некоторого k . В приведенном выше уравнении правильное k меняется с h . Положим $k$ $h$ $=$ $g$ $'($ $a$ $)$ $h$ $+$ $ε$ $($ $h$ $)$ $h ,$ и правая часть станет $f$ $($ $g$ $($ $a$ $) +$ $k$ $h$ $) -$ $f$ $($ $g$ $($ $a$ $))$ . Применение определения производной дает: Чтобы изучить поведение этого выражения при стремлении h к нулю, разверните k _h . После перегруппировки членов правая часть становится: Поскольку ε ( h ) и η ( k _h ) стремятся к нулю, когда h стремится к нулю, первые два члена в квадратных скобках стремятся к нулю, когда h стремится к нулю. Применяя ту же теорему о произведениях пределов, что и в первом доказательстве, третий член в квадратных скобках также стремится к нулю. Поскольку приведенное выше выражение равно разности $f$ $($ $g$ $($ $a$ $+$ $h$ $)) -$ $f$ $($ $g$ $($ $a$ $))$ , по определению производной $f$ $\circ$ $g$ дифференцируема в точке a и ее производная равна $f$ $'($ $g$ $($ $a$ $))$ $g$ $'($ $a$ $).$ $f(g(a+h))-f(g(a))=f(g(a)+g'(a)h+\varepsilon (h)h)-f(g(a)).$ $f(g(a)+k_{h})-f(g(a))=f'(g(a))k_{h}+\eta (k_{h})k_{h}.$ $f'(g(a))g'(a)h+[f'(g(a))\varepsilon (h)+\eta (k_{h})g'(a)+\eta (k_{h})\varepsilon (h)]h.$

Роль Q в первом доказательстве играет η в этом доказательстве. Они связаны уравнением: Необходимость определения Q в g ( a ) аналогична необходимости определения η в нуле. $Q(y)=f'(g(a))+\eta (y-g(a)).$

Третье доказательство

Альтернативное определение дифференцируемости функции, данное Константином Каратеодори, можно использовать для элегантного доказательства цепного правила. ^[6]

Согласно этому определению, функция $f$ дифференцируема в точке $a$ тогда и только тогда, когда существует функция $q$ , непрерывная в $точке a$ и такая, что $f (x) - f (a) = q (x)(x - a)$ . Существует не более одной такой функции, и если $f$ дифференцируема в точке $a ,$ то $f'(a) = q (a)$ .

Учитывая предположения правила цепочки и тот факт, что дифференцируемые функции и композиции непрерывных функций непрерывны, мы имеем, что существуют функции $q$ , непрерывные в $g (a)$ , и $r$ , непрерывные в $a$ , и такие, что , и Следовательно, но функция, заданная формулой $h$ $($ $x$ $) =$ $q$ $($ $g$ $($ $x$ $))$ $r$ $($ $x$ $)$ непрерывна в $a$ , и мы получаем, для этого $a$ Похожий подход работает для непрерывно дифференцируемых (векторных) функций многих переменных. Этот метод факторизации также позволяет единый подход к более сильным формам дифференцируемости, когда требуется, чтобы производная была непрерывной по Липшицу , непрерывной по Гёльдеру и т. д. Сама дифференциация может рассматриваться как теорема о полиномиальных остатках (малая теорема Безу или теорема о факторах), обобщенная на соответствующий класс функций. ^[^{необходима цитата}^] $f(g(x))-f(g(a))=q(g(x))(g(x)-g(a))$ $g(x)-g(a)=r(x)(x-a).$ $f(g(x))-f(g(a))=q(g(x))r(x)(x-a),$ $(f(g(a)))'=q(g(a))r(a)=f'(g(a))g'(a).$

Доказательство с помощью бесконечно малых величин

Если и , то выбрав бесконечно малое, мы вычисляем соответствующее , а затем соответствующее , так что и применяя стандартную часть , мы получаем , что и является цепным правилом. $y=f(x)$ $x=g(t)$ $\Delta t\not =0$ $\Delta x=g(t+\Delta t)-g(t)$ $\Delta y=f(x+\Delta x)-f(x)$ ${\frac {\Delta y}{\Delta t}}={\frac {\Delta y}{\Delta x}}{\frac {\Delta x}{\Delta t}}$ ${\frac {dy}{dt}}={\frac {dy}{dx}}{\frac {dx}{dt}}$

Многовариантный случай

Полное обобщение цепного правила на многомерные функции (такие как ) довольно технично. Однако проще записать в случае функций вида , где , и для каждого $f:\mathbb {R} ^{m}\to \mathbb {R} ^{n}$ $f(g_{1}(x),\dots ,g_{k}(x)),$ $f:\mathbb {R} ^{k}\to \mathbb {R}$ $g_{i}:\mathbb {R} \to \mathbb {R}$ $i=1,2,\dots ,k.$

Поскольку этот случай часто встречается при изучении функций одной переменной, его стоит описать отдельно.

Случай скалярных функций с несколькими входами

Пусть , и для каждого Чтобы записать цепочку правил для композиции функций, нужны частные производные функции $f$ по ее $k$ аргументам. Обычные обозначения для частных производных включают имена аргументов функции. Поскольку эти аргументы не названы в приведенной выше формуле, проще и понятнее использовать D -нотацию , и обозначать через частную производную функции $f$ по ее $i$ -му аргументу, а через значение этой производной в точке $z$ . $f:\mathbb {R} ^{k}\to \mathbb {R}$ $g_{i}:\mathbb {R} \to \mathbb {R}$ $i=1,2,\dots ,k.$ $x\mapsto f(g_{1}(x),\dots ,g_{k}(x)),$ $D_{i}f$ $D_{i}f(z)$

С этой записью цепное правило имеет вид ${\frac {d}{dx}}f(g_{1}(x),\dots ,g_{k}(x))=\sum _{i=1}^{k}\left({\frac {d}{dx}}{g_{i}}(x)\right)D_{i}f(g_{1}(x),\dots ,g_{k}(x)).$

Пример: арифметические операции

Если функция $f$ является сложением, то есть, если то и . Таким образом, цепное правило дает $f(u,v)=u+v,$ ${\textstyle D_{1}f={\frac {\partial f}{\partial u}}=1}$ ${\textstyle D_{2}f={\frac {\partial f}{\partial v}}=1}$ ${\frac {d}{dx}}(g(x)+h(x))=\left({\frac {d}{dx}}g(x)\right)D_{1}f+\left({\frac {d}{dx}}h(x)\right)D_{2}f={\frac {d}{dx}}g(x)+{\frac {d}{dx}}h(x).$

Для умножения частичные числа равны и . Таким образом, $f(u,v)=uv,$ $D_{1}f=v$ $D_{2}f=u$ ${\frac {d}{dx}}(g(x)h(x))=h(x){\frac {d}{dx}}g(x)+g(x){\frac {d}{dx}}h(x).$

Случай возведения в степень немного сложнее, так как и, так как Из этого следует, что $f(u,v)=u^{v}$ $D_{1}f=vu^{v-1},$ $u^{v}=e^{v\ln u},$ $D_{2}f=u^{v}\ln u.$ ${\frac {d}{dx}}\left(g(x)^{h(x)}\right)=h(x)g(x)^{h(x)-1}{\frac {d}{dx}}g(x)+g(x)^{h(x)}\ln g(x)\,{\frac {d}{dx}}h(x).$

Общее правило: векторные функции с несколькими входами

Самый простой способ записать цепное правило в общем случае — использовать полную производную , которая является линейным преобразованием, которое охватывает все производные по направлению в одной формуле. Рассмотрим дифференцируемые функции $f : R m \to R k$ и $g : R n \to R m$ , и точку $a$ в $R n$ . Пусть $D a g$ обозначает полную производную $g$ в точке $a$ , а $D g (a) f$ обозначает полную производную $f$ в точке $g (a)$ . Эти две производные являются линейными преобразованиями $R n \to R m$ и $R m \to R k$ , соответственно, поэтому их можно составить. Цепное правило для полных производных заключается в том, что их композиция является полной производной $f \circ g$ в точке $a$ : или, для краткости, Правило более высокой размерности цепи можно доказать с помощью техники, аналогичной второму доказательству, приведенному выше. ^[7] $D_{\mathbf {a} }(f\circ g)=D_{g(\mathbf {a} )}f\circ D_{\mathbf {a} }g,$ $D(f\circ g)=Df\circ Dg.$

Поскольку полная производная является линейным преобразованием, функции, появляющиеся в формуле, можно переписать в виде матриц. Матрица, соответствующая полной производной, называется матрицей Якоби , а композиция двух производных соответствует произведению их матриц Якоби. С этой точки зрения цепное правило, следовательно, гласит: или для краткости, $J_{f\circ g}(\mathbf {a} )=J_{f}(g(\mathbf {a} ))J_{g}(\mathbf {a} ),$ $J_{f\circ g}=(J_{f}\circ g)J_{g}.$

То есть якобиан сложной функции является произведением якобианов сложных функций (оцененных в соответствующих точках).

Правило многомерной цепи является обобщением правила одномерной цепи. Если $k$ , $m$ и $n$ равны 1, так что $f : R \to R$ и $g : R \to R$ , то матрицы Якоби для $f$ и $g$ равны $1 \times 1.$ В частности, они таковы: Якобиан для $f$ $\circ$ $g$ является произведением этих матриц $размером 1 \times 1$ , поэтому он равен $f$ $'($ $g$ $($ $a$ $))\cdot$ $g$ $'($ $a$ $)$ , как и ожидалось из правила одномерной цепи. На языке линейных преобразований $D$ $a$ $($ $g$ $)$ — это функция, которая масштабирует вектор в $g$ $'($ $a$ $)$ , а $D$ $g$ $($ $a$ $)$ $($ $f$ $)$ — это функция, которая масштабирует вектор в f $'$ $($ $g$ $($ $a$ $))$ . Правило цепочки гласит, что композиция этих двух линейных преобразований представляет собой линейное преобразование $D$ $a$ $($ $f$ $\circ$ $g$ $)$ , и, следовательно, это функция, которая масштабирует вектор на величину $f$ $'($ $g$ $($ $a$ $))\cdot$ $g$ $'($ $a$ $)$ . ${\begin{aligned}J_{g}(a)&={\begin{pmatrix}g'(a)\end{pmatrix}},\\J_{f}(g(a))&={\begin{pmatrix}f'(g(a))\end{pmatrix}}.\end{aligned}}$

Другой способ записи цепного правила используется, когда f и g выражаются через их компоненты как $y = f (u) = (f 1 (u), \dots, f k (u))$ и $u = g (x) = (g 1 (x), \dots, g m (x))$ . В этом случае указанное выше правило для матриц Якоби обычно записывается как: ${\frac {\partial (y_{1},\ldots ,y_{k})}{\partial (x_{1},\ldots ,x_{n})}}={\frac {\partial (y_{1},\ldots ,y_{k})}{\partial (u_{1},\ldots ,u_{m})}}{\frac {\partial (u_{1},\ldots ,u_{m})}{\partial (x_{1},\ldots ,x_{n})}}.$

Правило цепочки для полных производных подразумевает правило цепочки для частных производных. Напомним, что когда существует полная производная, частная производная в $i$ -ом направлении координат находится путем умножения матрицы Якоби на $i$ -ый базисный вектор. Проделав это с формулой выше, мы находим: Поскольку элементы матрицы Якоби являются частными производными, мы можем упростить приведенную выше формулу, чтобы получить: Более концептуально, это правило выражает тот факт, что изменение направления $x$ $i$ может изменить все $g$ $1$ через $g$ $m$ , и любое из этих изменений может повлиять на $f$ . ${\frac {\partial (y_{1},\ldots ,y_{k})}{\partial x_{i}}}={\frac {\partial (y_{1},\ldots ,y_{k})}{\partial (u_{1},\ldots ,u_{m})}}{\frac {\partial (u_{1},\ldots ,u_{m})}{\partial x_{i}}}.$ ${\frac {\partial (y_{1},\ldots ,y_{k})}{\partial x_{i}}}=\sum _{\ell =1}^{m}{\frac {\partial (y_{1},\ldots ,y_{k})}{\partial u_{\ell }}}{\frac {\partial u_{\ell }}{\partial x_{i}}}.$

В особом случае, когда $k = 1$ , так что $f$ является действительной функцией, эта формула упрощается еще больше: Это можно переписать как скалярное произведение . Вспоминая, что $u$ $= ($ $g$ $1$ $, \dots,$ $g$ $m$ $)$ , частная производная $\partial$ $u$ $/ \partial$ $x$ $i$ также является вектором, и цепное правило гласит, что: ${\frac {\partial y}{\partial x_{i}}}=\sum _{\ell =1}^{m}{\frac {\partial y}{\partial u_{\ell }}}{\frac {\partial u_{\ell }}{\partial x_{i}}}.$ ${\frac {\partial y}{\partial x_{i}}}=\nabla y\cdot {\frac {\partial \mathbf {u} }{\partial x_{i}}}.$

Пример

Дано $u (x, y) = x 2 + 2 y ,$ где $x (r, t) = r sin(t)$ и $y (r, t) = sin 2 (t)$ , определите значение $\partial u / \partial r$ и $\partial u / \partial t ,$ используя цепное правило. ^{[ необходима ссылка ]} и ${\frac {\partial u}{\partial r}}={\frac {\partial u}{\partial x}}{\frac {\partial x}{\partial r}}+{\frac {\partial u}{\partial y}}{\frac {\partial y}{\partial r}}=(2x)(\sin(t))+(2)(0)=2r\sin ^{2}(t),$ ${\begin{aligned}{\frac {\partial u}{\partial t}}&={\frac {\partial u}{\partial x}}{\frac {\partial x}{\partial t}}+{\frac {\partial u}{\partial y}}{\frac {\partial y}{\partial t}}\\&=(2x)(r\cos(t))+(2)(2\sin(t)\cos(t))\\&=(2r\sin(t))(r\cos(t))+4\sin(t)\cos(t)\\&=2(r^{2}+2)\sin(t)\cos(t)\\&=(r^{2}+2)\sin(2t).\end{aligned}}$

Высшие производные функций многих переменных

Формула Фаа ди Бруно для производных высшего порядка функций с одной переменной обобщается на случай многих переменных. Если $y = f (u)$ является функцией $u = g (x)$ , как указано выше, то вторая производная $f \circ g$ равна: ${\frac {\partial ^{2}y}{\partial x_{i}\partial x_{j}}}=\sum _{k}\left({\frac {\partial y}{\partial u_{k}}}{\frac {\partial ^{2}u_{k}}{\partial x_{i}\partial x_{j}}}\right)+\sum _{k,\ell }\left({\frac {\partial ^{2}y}{\partial u_{k}\partial u_{\ell }}}{\frac {\partial u_{k}}{\partial x_{i}}}{\frac {\partial u_{\ell }}{\partial x_{j}}}\right).$

Дальнейшие обобщения

Все расширения исчисления имеют цепное правило. В большинстве из них формула остается той же, хотя ее значение может сильно отличаться.

Одно обобщение касается многообразий . В этой ситуации цепное правило представляет собой тот факт, что производная $f \circ g$ является композитом производной $f$ и производной $g$ . Эта теорема является непосредственным следствием приведенного выше цепного правила более высокой размерности и имеет точно такую же формулу.

Правило цепочки справедливо также для производных Фреше в банаховых пространствах . Та же формула верна, что и раньше. ^[8] Этот случай и предыдущий допускают одновременное обобщение на банаховы многообразия .

В дифференциальной алгебре производная интерпретируется как морфизм модулей кэлеровых дифференциалов . Кольцевой гомоморфизм коммутативных колец $f : R \to S$ определяет морфизм кэлеровых дифференциалов $Df : Ω R \to Ω S$ , который переводит элемент $dr$ в $d (f (r))$ , внешний дифференциал $f (r)$ . Формула $D (f \circ g) = Df \circ Dg$ верна и в этом контексте.

Общей чертой этих примеров является то, что они являются выражениями идеи о том, что производная является частью функтора . Функтор — это операция над пространствами и функциями между ними. Он сопоставляет каждому пространству новое пространство, а каждой функции между двумя пространствами — новую функцию между соответствующими новыми пространствами. В каждом из вышеприведенных случаев функтор отправляет каждое пространство в его касательное расслоение , а каждую функцию — в ее производную. Например, в случае многообразия производная отправляет $C r$ -многообразие в $C r -1$ -многообразие (его касательное расслоение), а $C r$ -функцию — в ее полную производную. Существует одно требование для того, чтобы это было функтором, а именно, что производная композита должна быть композитом производных. Это в точности формула $D (f \circ g) = Df \circ Dg$ .

В стохастическом исчислении также существуют цепные правила . Одно из них, лемма Ито , выражает композицию процесса Ито (или, в более общем смысле, семимартингала ) dX _t с дважды дифференцируемой функцией f . В лемме Ито производная составной функции зависит не только от dX _t и производной f , но также и от второй производной f . Зависимость от второй производной является следствием ненулевой квадратичной вариации стохастического процесса, что, говоря в общем, означает, что процесс может двигаться вверх и вниз очень грубым образом. Этот вариант цепного правила не является примером функтора, поскольку две составляемые функции имеют разные типы.

Смотрите также

Автоматическое дифференцирование – численные вычисления с использованием производных – вычислительный метод, который широко использует цепное правило для вычисления точных числовых производных.
Правила дифференцирования – Правила вычисления производных функций
Интеграция путем подстановки – Методика интегральной оценки
Интегральное правило Лейбница – Формула дифференцирования под знаком интеграла
Правило произведения – Формула производной произведения
Правило частного – Формула производной отношения функций
Правило тройного произведения – соотношение между относительными производными трех переменных

Ссылки

^ Джордж Ф. Симмонс , Исчисление с аналитической геометрией (1985), стр. 93.
^ Child, JM (1917). «РУКОПИСИ ЛЕЙБНИЦА О ЕГО ОТКРЫТИИ ДИФФЕРЕНЦИАЛЬНОГО ИСЧИСЛЕНИЯ. ЧАСТЬ II (Продолжение)». The Monist . 27 (3): 411–454. ISSN 0026-9662. JSTOR 27900650.
^ Аб Родригес, Омар Эрнандес; Лопес Фернандес, Хорхе М. (2010). «Семиотическое размышление о дидактике правила цепочки». Любитель математики . 7 (2): 321–332. дои : 10.54870/1551-3440.1191 . S2CID 29739148 . Проверено 4 августа 2019 г.
^ Апостол, Том (1974). Математический анализ (2-е изд.). Эддисон Уэсли. Теорема 5.5.
^ Гудфеллоу, Ян ; Бенджио, Йошуа ; Курвилль, Аарон (2016), Глубокое обучение , Массачусетский технологический институт, стр=197–217.
^ Кун, Стивен (1991). «Производная по Каратеодори». The American Mathematical Monthly . 98 (1): 40–44. doi :10.2307/2324035. JSTOR 2324035.
^ Спивак, Майкл (1965). Исчисление на многообразиях . Бостон: Addison-Wesley. С. 19–20. ISBN 0-8053-9021-9.
^ Чейни, Уорд (2001). «Цепное правило и теоремы о среднем значении». Анализ для прикладной математики . Нью-Йорк: Springer. С. 121–125. ISBN 0-387-95279-9.

Внешние ссылки

«Правило Лейбница», Энциклопедия математики , EMS Press , 2001 [1994]
Вайсштейн, Эрик В. «Цепное правило». MathWorld .