Теорема Кэли–Гамильтона

В линейной алгебре теорема Кэли–Гамильтона (названная в честь математиков Артура Кэли и Уильяма Роуэна Гамильтона ) утверждает, что каждая квадратная матрица над коммутативным кольцом (например, действительных или комплексных чисел или целых чисел ) удовлетворяет своему собственному характеристическому уравнению .

Характеристический многочлен матрицы $A$ $размера n \times n$ определяется как ^[5] , где $det$ — детерминантная операция, $λ$ — переменный скалярный элемент базового кольца , а $I$ $n$ — единичная матрица размера $n$ $\times$ $n$ . Поскольку каждый элемент матрицы либо константа, либо линейна по $λ$ , определитель — это монический многочлен степени - $n$ по $λ$ , поэтому его можно записать как Заменив скалярную переменную $λ$ матрицей $A$ , можно определить аналогичное матричное полиномиальное выражение, (Здесь — заданная матрица, а не переменная, в отличие от — поэтому — константа, а не функция.) Теорема Кэли–Гамильтона утверждает, что это полиномиальное выражение равно нулевой матрице , то есть характеристический многочлен является аннулирующим многочленом для $p_{A}(\lambda)=\det(\lambda I_{n}-A)$ $(\lambda I_{n}-A)$ $(\lambda I_{n}-A)$ $p_{A}(\lambda )=\lambda ^{n}+c_{n-1}\lambda ^{n-1}+\cdots +c_{1}\lambda +c_{0}.$ $p_{A}(A)=A^{n}+c_{n-1}A^{n-1}+\cdots +c_{1}A+c_{0}I_{n}.$ $А$ $\лямбда$ $p_{A}(A)$ $p_{A}(A)=\mathbf {0} ;$ $p_{A}$ $А.$

Одно из применений теоремы Кэли–Гамильтона состоит в том, что она позволяет выразить $A$ ^$n$ как линейную комбинацию нижних матричных степеней $A$ : Когда кольцо является полем , теорема Кэли–Гамильтона эквивалентна утверждению, что минимальный многочлен квадратной матрицы делит ее характеристический многочлен. $A^{n}=-c_{n-1}A^{n-1}-\cdots -c_{1}A-c_{0}I_{n}.$

Частный случай теоремы был впервые доказан Гамильтоном в 1853 году ^[6] в терминах обратных линейных функций кватернионов . ^[2]^[3]^[4] Это соответствует частному случаю некоторых действительных матриц $4 \times 4$ или комплексных матриц $2 \times 2.$ Кэли в 1858 году сформулировал результат для матриц $3 \times 3$ и меньше, но опубликовал доказательство только для случая $2 \times 2.$ ^[7]^[8] Что касается матриц $n \times n$ , Кэли заявил: «... я не считал необходимым предпринимать труд формального доказательства теоремы в общем случае матрицы любой степени». Общий случай был впервые доказан Фердинандом Фробениусом в 1878 году. ^[9]

Примеры

1 × 1матрицы

Для матрицы $A$ $= ($ $a$ $)$ $размером 1 \times 1$ характеристический многочлен задается формулой $p$ $($ $λ$ $) =$ $λ$ $-$ $a$ , и поэтому $p$ $($ $A$ $) = ($ $a$ $) -$ $a$ $(1) = 0$ тривиально.

2 × 2матрицы

В качестве конкретного примера пусть Его характеристический многочлен задается выражением $A={\begin{pmatrix}1&2\\3&4\end{pmatrix}}.$ ${\begin{aligned}p(\lambda )&=\det(\lambda I_{2}-A)=\det \!{\begin{pmatrix}\lambda -1&-2\\-3&\lambda -4\end{pmatrix}}\\&=(\lambda -1)(\lambda -4)-(-2)(-3)=\lambda ^{2}-5\lambda -2.\end{aligned}}$

Теорема Кэли-Гамильтона утверждает, что если мы определим то Мы можем проверить с помощью вычислений, что действительно, $p(X)=X^{2}-5X-2I_{2},$ $p(A)=A^{2}-5A-2I_{2}={\begin{pmatrix}0&0\\0&0\\\end{pmatrix}}.$ $A^{2}-5A-2I_{2}={\begin{pmatrix}7&10\\15&22\\\end{pmatrix}}-{\begin{pmatrix}5&10\\15&20\\\end{pmatrix}}-{\begin{pmatrix}2&0\\0&2\\\end{pmatrix}}={\begin{pmatrix}0&0\\0&0\\\end{pmatrix}}.$

Для общей матрицы $2 \times 2$ , $A={\begin{pmatrix}a&b\\c&d\\\end{pmatrix}},$

характеристический многочлен задается формулой $p (λ) = λ 2 - (a + d) λ + (ad - bc)$ , поэтому теорема Кэли–Гамильтона утверждает то, что действительно всегда имеет место, что очевидно из рассмотрения элементов $A$ $2$ . $p(A)=A^{2}-(a+d)A+(ad-bc)I_{2}={\begin{pmatrix}0&0\\0&0\end{pmatrix}};$

Доказательство

${\begin{aligned}&{}A^{2}-(a+d)A+(ad-bc)I_{2}\\[1ex]&={\begin{pmatrix}a^{2}+bc&ab+bd\\ac+cd&bc+d^{2}\\\end{pmatrix}}-{\begin{pmatrix}a(a+d)&b(a+d)\\c(a+d)&d(a+d)\end{pmatrix}}+(ad-bc)I_{2}\\[1ex]&={\begin{pmatrix}bc-ad&0\\0&bc-ad\\\end{pmatrix}}+(ad-bc)I_{2}\\[1ex]&={\begin{pmatrix}0&0\\0&0\end{pmatrix}}\end{aligned}}$

Приложения

Определитель и обратная матрица

Для общей обратимой матрицы $A размера$ $n \times n$ , т. е. матрицы с ненулевым определителем, $A$ ⁻¹ можно записать в виде полиномиального выражения $($ $n$ $- 1)$ -го порядка от $A$ : Как указано, теорема Кэли–Гамильтона сводится к тождеству

$p(A)=A^{n}+c_{n-1}A^{n-1}+\cdots +c_{1}A+(-1)^{n}\det(A)I_{n}=0.$

Коэффициенты $c i$ задаются элементарными симметрическими многочленами собственных значений матрицы $A.$ Используя тождества Ньютона , элементарные симметрические многочлены в свою очередь могут быть выражены через степенные суммы симметрических многочленов собственных значений: где $tr($ $A$ $k$ $)$ — след матрицы $A$ $k$ . Таким образом, мы можем выразить $c$ $i$ через след степеней матрицы $A$ . $s_{k}=\sum _{i=1}^{n}\lambda _{i}^{k}=\operatorname {tr} (A^{k}),$

В общем случае формула для коэффициентов $c i$ задается в терминах полных экспоненциальных полиномов Белла как ^{[nb 1]} $c_{n-k}={\frac {(-1)^{k}}{k!}}B_{k}(s_{1},-1!s_{2},2!s_{3},\ldots ,(-1)^{k-1}(k-1)!s_{k}).$

В частности, определитель $A$ равен $(-1) n c 0.$ Таким образом, определитель можно записать в виде следового тождества : $\det(A)={\frac {1}{n!}}B_{n}(s_{1},-1!s_{2},2!s_{3},\ldots ,(-1)^{n-1}(n-1)!s_{n}).$

Аналогично, характеристический многочлен можно записать как и, умножив обе части на $A$ $-1$ (обратите внимание $, -(-1)$ $n$ $= (-1)$ $n$ $-1$ ), приходим к выражению для обратной величины A $как$ следовому тождеству, $-(-1)^{n}\det(A)I_{n}=A(A^{n-1}+c_{n-1}A^{n-2}+\cdots +c_{1}I_{n}),$ ${\begin{aligned}A^{-1}&={\frac {(-1)^{n-1}}{\det A}}(A^{n-1}+c_{n-1}A^{n-2}+\cdots +c_{1}I_{n}),\\[5pt]&={\frac {1}{\det A}}\sum _{k=0}^{n-1}(-1)^{n+k-1}{\frac {A^{n-k-1}}{k!}}B_{k}(s_{1},-1!s_{2},2!s_{3},\ldots ,(-1)^{k-1}(k-1)!s_{k}).\end{aligned}}$

Другой метод получения этих коэффициентов $c k$ для общей матрицы $n \times n$ , при условии, что ни один корень не равен нулю, основан на следующем альтернативном выражении для определителя , Следовательно, в силу ряда Меркатора , где экспоненту нужно только разложить до порядка $λ$ $-$ $n$ , поскольку $p$ $($ $λ$ $)$ имеет порядок $n$ , чистые отрицательные степени $λ$ автоматически обращаются в нуль по теореме C–H. (Опять же, для этого требуется кольцо, содержащее рациональные числа .) Дифференцирование этого выражения по $λ$ позволяет выразить коэффициенты характеристического многочлена для общей матрицы $n$ как определители матриц $m$ $\times$ $m$ , ^{[nb 2]} $p(\lambda )=\det(\lambda I_{n}-A)=\lambda ^{n}\exp(\operatorname {tr} (\log(I_{n}-A/\lambda ))).$ $p(\lambda )=\lambda ^{n}\exp \left(-\operatorname {tr} \sum _{m=1}^{\infty }{({A \over \lambda })^{m} \over m}\right),$ $c_{n-m}={\frac {(-1)^{m}}{m!}}{\begin{vmatrix}\operatorname {tr} A&m-1&0&\cdots \\\operatorname {tr} A^{2}&\operatorname {tr} A&m-2&\cdots \\\vdots &\vdots &&&\vdots \\\operatorname {tr} A^{m-1}&\operatorname {tr} A^{m-2}&\cdots &\cdots &1\\\operatorname {tr} A^{m}&\operatorname {tr} A^{m-1}&\cdots &\cdots &\operatorname {tr} A\end{vmatrix}}~.$

Примеры

Например, первые несколько полиномов Белла имеют вид $B 0$ = 1, $B 1 (x 1) = x 1$ , $B 2 (x 1, x 2) = x 21 + x 2$ , и $B 3 (x 1, x 2, x 3) = x 31 + 3 х 1 х 2 + х 3$ .

Используя их для указания коэффициентов $c i$ характеристического полинома матрицы $2 \times 2$ , получаем

${\begin{aligned}c_{2}=B_{0}=1,\\[4pt]c_{1}={\frac {-1}{1!}}B_{1}(s_{1})=-s_{1}=-\operatorname {tr} (A),\\[4pt]c_{0}={\frac {1}{2!}}B_{2}(s_{1},-1!s_{2})={\frac {1}{2}}(s_{1}^{2}-s_{2})={\frac {1}{2}}((\operatorname {tr} (A))^{2}-\operatorname {tr} (A^{2})).\end{aligned}}$

Коэффициент $c 0$ дает определитель матрицы $2 \times 2$ , $c 1$ минус ее след, в то время как ее обратная величина определяется выражением $A^{-1}={\frac {-1}{\det A}}(A+c_{1}I_{2})={\frac {-2(A-\operatorname {tr} (A)I_{2})}{(\operatorname {tr} (A))^{2}-\operatorname {tr} (A^{2})}}.$

Из общей формулы для c _{n − k} , выраженной через полиномы Белла, очевидно , что выражения $-\operatorname {tr} (A)\quad {\text{and}}\quad {\tfrac {1}{2}}(\operatorname {tr} (A)^{2}-\operatorname {tr} (A^{2}))$

всегда дают коэффициенты $c n -1$ от $λ n -1$ и $c n -2$ от $λ n -2$ в характеристическом многочлене любой матрицы $n \times n$ соответственно. Таким образом, для матрицы $A$ $размером 3 \times 3$ утверждение теоремы Кэли–Гамильтона можно также записать как где правая часть обозначает матрицу $размером 3 \times 3$ со всеми элементами, сведенными к нулю. Аналогично, этот определитель в случае $n$ $= 3$ теперь равен Это выражение дает отрицательный коэффициент $c$ $n$ $-3$ от $λ$ $n$ $-3$ в общем случае, как показано ниже. $A^{3}-(\operatorname {tr} A)A^{2}+{\frac {1}{2}}\left((\operatorname {tr} A)^{2}-\operatorname {tr} (A^{2})\right)A-\det(A)I_{3}=O,$ ${\begin{aligned}\det(A)&={\frac {1}{3!}}B_{3}(s_{1},-1!s_{2},2!s_{3})={\frac {1}{6}}(s_{1}^{3}+3s_{1}(-s_{2})+2s_{3})\\[5pt]&={\frac {1}{6}}\left[(\operatorname {tr} A)^{3}-3\operatorname {tr} (A^{2})(\operatorname {tr} A)+2\operatorname {tr} (A^{3})\right].\end{aligned}}$

Аналогично можно записать для матрицы $A$ $размером 4 \times 4$ : $A^{4}-(\operatorname {tr} A)A^{3}+{\tfrac {1}{2}}\left[(\operatorname {tr} A)^{2}-\operatorname {tr} (A^{2})\right]A^{2}-{\tfrac {1}{6}}\left[(\operatorname {tr} A)^{3}-3\operatorname {tr} (A^{2})(\operatorname {tr} A)+2\operatorname {tr} (A^{3})\right]A+\det(A)I_{4}=O,$

где теперь определитель равен $c n -4$ ,

${\tfrac {1}{24}}\!\left[(\operatorname {tr} A)^{4}-6\operatorname {tr} (A^{2})(\operatorname {tr} A)^{2}+3\left(\operatorname {tr} (A^{2})\right)^{2}+8\operatorname {tr} (A^{3})\operatorname {tr} (A)-6\operatorname {tr} (A^{4})\right],$

и так далее для больших матриц. Все более сложные выражения для коэффициентов $c k$ выводятся из тождеств Ньютона или алгоритма Фаддеева–Леверье .

н-я степень матрицы

Теорема Кэли–Гамильтона всегда устанавливает соотношение между степенями числа $A$ (хотя и не всегда самое простое), что позволяет упрощать выражения, включающие такие степени, и оценивать их без необходимости вычисления степени $A$ ⁿ или любых более высоких степеней числа $A$ .

В качестве примера, для теоремы дается $A={\begin{pmatrix}1&2\\3&4\end{pmatrix}}$ $A^{2}=5A+2I_{2}\,.$

Затем, чтобы вычислить $A 4$ , проследите аналогично, ${\begin{aligned}A^{3}&=(5A+2I_{2})A=5A^{2}+2A=5(5A+2I_{2})+2A=27A+10I_{2},\\[1ex]A^{4}&=A^{3}A=(27A+10I_{2})A=27A^{2}+10A=27(5A+2I_{2})+10A=145A+54I_{2}\,.\end{aligned}}$ ${\begin{aligned}A^{-1}&={\frac {1}{2}}\left(A-5I_{2}\right)~.\\[1ex]A^{-2}&=A^{-1}A^{-1}={\frac {1}{4}}\left(A^{2}-10A+25I_{2}\right)={\frac {1}{4}}\left((5A+2I_{2})-10A+25I_{2}\right)={\frac {1}{4}}\left(-5A+27I_{2}\right)~.\end{aligned}}$

Обратите внимание, что мы смогли записать мощность матрицы как сумму двух членов. Фактически, мощность матрицы любого порядка $k$ можно записать как матричный полином степени не выше $n - 1$ , где $n$ — размер квадратной матрицы. Это пример того, как теорему Кэли–Гамильтона можно использовать для выражения матричной функции, что мы обсудим ниже систематически.

Матричные функции

Если задана аналитическая функция и характеристический многочлен $p$ $($ $x$ $)$ степени $n$ матрицы $A$ размера $n$ $\times$ $n$ , то функцию можно выразить с помощью деления в столбик следующим образом: где $q$ $($ $x$ $)$ — некоторый частный многочлен, а $r$ $($ $x$ $)$ — остаточный многочлен такой, что $0 \leq deg$ $r$ $($ $x$ $) <$ $n$ . $f(x)=\sum _{k=0}^{\infty }a_{k}x^{k}$ $f(x)=q(x)p(x)+r(x),$

По теореме Кэли–Гамильтона замена $x$ на матрицу $A$ дает $p (A) = 0$ , поэтому имеем $f(A)=r(A).$

Таким образом, аналитическая функция матрицы $A$ может быть выражена в виде матричного полинома степени меньше $n$ .

Пусть остаточный полином будет Поскольку $p$ $($ $λ$ $) = 0$ , оценка функции $f$ $($ $x$ $)$ при $n$ собственных значениях $A$ дает Это равносильно системе из $n$ линейных уравнений , которую можно решить, чтобы определить коэффициенты $c$ $i$ . Таким образом, имеем $r(x)=c_{0}+c_{1}x+\cdots +c_{n-1}x^{n-1}.$ $f(\lambda _{i})=r(\lambda _{i})=c_{0}+c_{1}\lambda _{i}+\cdots +c_{n-1}\lambda _{i}^{n-1},\qquad {\text{for }}i=1,2,...,n.$ $f(A)=\sum _{k=0}^{n-1}c_{k}A^{k}.$

Когда собственные значения повторяются, то есть $λ i = λ j$ для некоторого $i \neq j$ , два или более уравнений идентичны; и, следовательно, линейные уравнения не могут быть решены однозначно. В таких случаях для собственного значения $λ$ с кратностью $m$ первые $m - 1$ производных $p (x)$ обращаются в нуль в собственном значении. Это приводит к дополнительным $m - 1$ линейно независимым решениям , которые в сочетании с другими дают требуемые $n$ уравнений для решения относительно $c$ $i$ . $\left.{\frac {\mathrm {d} ^{k}f(x)}{\mathrm {d} x^{k}}}\right|_{x=\lambda }=\left.{\frac {\mathrm {d} ^{k}r(x)}{\mathrm {d} x^{k}}}\right|_{x=\lambda }\qquad {\text{for }}k=1,2,\ldots ,m-1,$

Нахождение многочлена, проходящего через точки $(λ i, f (λ i)),$ по сути, является задачей интерполяции и может быть решено с использованием методов интерполяции Лагранжа или Ньютона, что приводит к формуле Сильвестра .

Например, предположим, что задача состоит в том, чтобы найти полиномиальное представление $f(A)=e^{At}\qquad \mathrm {where} \qquad A={\begin{pmatrix}1&2\\0&3\end{pmatrix}}.$

Характеристический многочлен равен $p (x) = (x - 1)(x - 3) = x 2 - 4 x + 3$ , а собственные значения равны $λ = 1, 3$ . Пусть $r (x) = c 0 + c 1 x$ . Оценивая $f (λ) = r (λ)$ в собственных значениях, получаем два линейных уравнения, $e t = c 0 + c 1$ и $e 3 t = c 0 + 3 c 1$ .

Решение уравнений дает $c 0 = (3 e t - e 3 t)/2$ и $c 1 = (e 3 t - e t)/2$ . Таким образом, следует, что $e^{At}=c_{0}I_{2}+c_{1}A={\begin{pmatrix}c_{0}+c_{1}&2c_{1}\\0&c_{0}+3c_{1}\end{pmatrix}}={\begin{pmatrix}e^{t}&e^{3t}-e^{t}\\0&e^{3t}\end{pmatrix}}.$

Если бы вместо этого функция была $f (A) = sin At$ , то коэффициенты были бы $c 0 = (3 sin t - sin 3 t)/2$ и $c 1 = (sin 3 t - sin t)/2$ ; следовательно $\sin(At)=c_{0}I_{2}+c_{1}A={\begin{pmatrix}\sin t&\sin 3t-\sin t\\0&\sin 3t\end{pmatrix}}.$

В качестве еще одного примера, если рассмотреть характеристический многочлен $p$ $($ $x$ $) =$ $x$ $2$ $+ 1$ , а собственные значения $λ$ $= \pm$ $i$ . $f(A)=e^{At}\qquad \mathrm {where} \qquad A={\begin{pmatrix}0&1\\-1&0\end{pmatrix}},$

Как и прежде, оценка функции в собственных значениях дает нам линейные уравнения $e it = c 0 + ic 1$ и $e - it = c 0 - ic 1$ ; решение которых дает $c 0 = (e it + e - it)/2 = cos t$ и $c 1 = (e it - e - it)/2 i = sin t$ . Таким образом, для этого случая, которая является матрицей вращения . $e^{At}=(\cos t)I_{2}+(\sin t)A={\begin{pmatrix}\cos t&\sin t\\-\sin t&\cos t\end{pmatrix}},$

Стандартными примерами такого использования являются экспоненциальное отображение из алгебры Ли матричной группы Ли в группу. Оно задается матричной экспонентой , Такие выражения давно известны для $SU(2)$ , где $σ$ — матрицы Паули и для $SO(3)$ , которая является формулой вращения Родригеса . Для обозначения см. 3D rotation group#A note on Lie algebras . $\exp :{\mathfrak {g}}\rightarrow G;\qquad tX\mapsto e^{tX}=\sum _{n=0}^{\infty }{\frac {t^{n}X^{n}}{n!}}=I+tX+{\frac {t^{2}X^{2}}{2}}+\cdots ,t\in \mathbb {R} ,X\in {\mathfrak {g}}.$ $e^{i(\theta /2)({\hat {\mathbf {n} }}\cdot \sigma )}=I_{2}\cos {\frac {\theta }{2}}+i({\hat {\mathbf {n} }}\cdot \sigma )\sin {\frac {\theta }{2}},$ $e^{i\theta ({\hat {\mathbf {n} }}\cdot \mathbf {J} )}=I_{3}+i({\hat {\mathbf {n} }}\cdot \mathbf {J} )\sin \theta +({\hat {\mathbf {n} }}\cdot \mathbf {J} )^{2}(\cos \theta -1),$

Совсем недавно появились выражения для других групп, таких как группа Лоренца $SO(3, 1)$ , ^[10] $O(4, 2)$ ^[11] и $SU(2, 2)$ , ^[12] а также $GL(n, R)$ . ^[13] Группа $O(4, 2)$ является конформной группой пространства -времени , $SU(2, 2)$ ее односвязным покрытием (точнее, односвязным покрытием связной компоненты $SO + (4, 2)$ группы $O(4, 2)$ ). Полученные выражения применяются к стандартному представлению этих групп. Они требуют знания (некоторых) собственных значений матрицы для возведения в степень. Для $SU(2)$ (и, следовательно, для $SO(3)$ ) были получены замкнутые выражения для всех неприводимых представлений, т. е. любого спина. ^[14]

Фердинанд Георг Фробениус (1849–1917), немецкий математик. Его основными интересами были эллиптические функции , дифференциальные уравнения и позднее теория групп .
В 1878 году он дал первое полное доказательство теоремы Кэли–Гамильтона. ^[9]

Алгебраическая теория чисел

Теорема Кэли–Гамильтона является эффективным инструментом для вычисления минимального многочлена алгебраических целых чисел . Например, если задано конечное расширение и алгебраическое целое число , которое является ненулевой линейной комбинацией , мы можем вычислить минимальный многочлен , найдя матрицу, представляющую - линейное преобразование Если мы назовем эту матрицу преобразования , то мы можем найти минимальный многочлен , применив теорему Кэли–Гамильтона к . ^[15] $\mathbb {Q} [\alpha _{1},\ldots ,\alpha _{k}]$ $\mathbb {Q}$ $\alpha \in \mathbb {Q} [\alpha _{1},\ldots ,\alpha _{k}]$ $\alpha _{1}^{n_{1}}\cdots \alpha _{k}^{n_{k}}$ $\alpha$ $\mathbb {Q}$ $\cdot \alpha :\mathbb {Q} [\alpha _{1},\ldots ,\alpha _{k}]\to \mathbb {Q} [\alpha _{1},\ldots ,\alpha _{k}]$ $A$ $A$

Доказательства

Теорема Кэли–Гамильтона является непосредственным следствием существования жордановой нормальной формы для матриц над алгебраически замкнутыми полями , см. Жорданова нормальная форма § Теорема Кэли–Гамильтона . В этом разделе представлены прямые доказательства.

Как показывают приведенные выше примеры, получение утверждения теоремы Кэли–Гамильтона для матрицы $n \times n$

$A=\left(a_{ij}\right)_{i,j=1}^{n}$ требуется два шага: сначала коэффициенты $c i$ характеристического полинома определяются путем разложения в полином по $t$ определителя

${\begin{aligned}p(t)&=\det(tI_{n}-A)={\begin{vmatrix}t-a_{1,1}&-a_{1,2}&\cdots &-a_{1,n}\\-a_{2,1}&t-a_{2,2}&\cdots &-a_{2,n}\\\vdots &\vdots &\ddots &\vdots \\-a_{n,1}&-a_{n,2}&\cdots &t-a_{n,n}\end{vmatrix}}\\[5pt]&=t^{n}+c_{n-1}t^{n-1}+\cdots +c_{1}t+c_{0},\end{aligned}}$

и затем эти коэффициенты используются в линейной комбинации степеней $A$ , которая приравнивается к нулевой матрице $n \times n$ : $A^{n}+c_{n-1}A^{n-1}+\cdots +c_{1}A+c_{0}I_{n}={\begin{pmatrix}0&\cdots &0\\\vdots &\ddots &\vdots \\0&\cdots &0\end{pmatrix}}.$

Левая часть может быть преобразована в матрицу $n \times n,$ элементы которой являются (огромными) полиномиальными выражениями в наборе элементов $a i, j$ матрицы $A$ , поэтому теорема Кэли–Гамильтона утверждает, что каждое из этих $n 2$ выражений равно $0$ . Для любого фиксированного значения $n$ эти тождества могут быть получены путем утомительных, но простых алгебраических манипуляций. Однако ни одно из этих вычислений не может показать, почему теорема Кэли–Гамильтона должна быть справедливой для матриц всех возможных размеров $n$ , поэтому необходимо единообразное доказательство для всех $n$ .

Предварительные

Если вектор $v$ размера $n$ является собственным вектором $A$ с собственным значением $λ$ , другими словами, если $A \cdot v = λv$ , то какой вектор является нулевым, поскольку $p$ $($ $λ$ $) = 0$ (собственные значения $A$ являются в точности корнями p $($ $t$ $)$ $)$ . Это справедливо для всех возможных собственных значений $λ$ , поэтому две матрицы, приравненные теоремой, безусловно, дают одинаковый (нулевой) результат при применении к любому собственному вектору. Теперь, если $A$ допускает базис собственных векторов, другими словами, если A диагонализуема $,$ то теорема Кэли–Гамильтона должна выполняться для $A$ , поскольку две матрицы, дающие одинаковые значения при применении к каждому элементу базиса, должны быть равны. ${\begin{aligned}p(A)\cdot v&=A^{n}\cdot v+c_{n-1}A^{n-1}\cdot v+\cdots +c_{1}A\cdot v+c_{0}I_{n}\cdot v\\[6pt]&=\lambda ^{n}v+c_{n-1}\lambda ^{n-1}v+\cdots +c_{1}\lambda v+c_{0}v=p(\lambda )v,\end{aligned}}$ $A=XDX^{-1},\quad D=\operatorname {diag} (\lambda _{i}),\quad i=1,2,...,n$ $p_{A}(\lambda )=|\lambda I-A|=\prod _{i=1}^{n}(\lambda -\lambda _{i})\equiv \sum _{k=0}^{n}c_{k}\lambda ^{k}$ $p_{A}(A)=\sum c_{k}A^{k}=Xp_{A}(D)X^{-1}=XCX^{-1}$ $C_{ii}=\sum _{k=0}^{n}c_{k}\lambda _{i}^{k}=\prod _{j=1}^{n}(\lambda _{i}-\lambda _{j})=0,\qquad C_{i,j\neq i}=0$ $\therefore p_{A}(A)=XCX^{-1}=O.$

Рассмотрим теперь функцию , которая отображает матрицы $n$ $\times$ $n$ в матрицы $n$ $\times$ $n$ , заданные формулой , то есть которая берет матрицу и подставляет ее в свой собственный характеристический многочлен. Не все матрицы диагонализируемы, но для матриц с комплексными коэффициентами многие из них являются таковыми: множество диагонализируемых комплексных квадратных матриц заданного размера плотно во множестве всех таких квадратных матриц ^[16] (для того, чтобы матрица была диагонализируемой, достаточно, например, чтобы ее характеристический многочлен не имел кратных корней ). Теперь, рассматриваемая как функция (поскольку матрицы имеют элементы), мы видим, что эта функция непрерывна . Это верно, потому что элементы образа матрицы задаются полиномами в элементах матрицы. Так как $e\colon M_{n}\to M_{n}$ $e(A)=p_{A}(A)$ $A$ $D$ $e\colon \mathbb {C} ^{n^{2}}\to \mathbb {C} ^{n^{2}}$ $n^{2}$ $e(D)=\left\{{\begin{pmatrix}0&\cdots &0\\\vdots &\ddots &\vdots \\0&\cdots &0\end{pmatrix}}\right\}$

и поскольку множество плотное, по непрерывности эта функция должна отображать весь набор матриц $n$ $\times$ $n$ в нулевую матрицу. Следовательно, теорема Кэли–Гамильтона верна для комплексных чисел и, следовательно, должна также выполняться для - или -значных матриц. $D$ $\mathbb {Q}$ $\mathbb {R}$

Хотя это и обеспечивает действительное доказательство, аргумент не очень удовлетворительный, поскольку тождества, представленные теоремой, никоим образом не зависят от природы матрицы (диагонализуемой или нет), ни от вида разрешенных записей (для матриц с действительными записями диагонализуемые не образуют плотного множества, и кажется странным, что пришлось бы рассматривать комплексные матрицы, чтобы увидеть, что теорема Кэли–Гамильтона верна для них). Поэтому теперь мы рассмотрим только аргументы, которые доказывают теорему напрямую для любой матрицы, используя только алгебраические манипуляции; они также имеют то преимущество, что работают для матриц с записями в любом коммутативном кольце .

Существует большое разнообразие таких доказательств теоремы Кэли–Гамильтона, некоторые из которых будут приведены здесь. Они различаются по количеству абстрактных алгебраических понятий, необходимых для понимания доказательства. Простейшие доказательства используют только те понятия, которые необходимы для формулировки теоремы (матрицы, многочлены с числовыми элементами, определители), но включают технические вычисления, которые делают несколько загадочным тот факт, что они приводят именно к правильному выводу. Можно избежать таких подробностей, но ценой привлечения более тонких алгебраических понятий: многочленов с коэффициентами в некоммутативном кольце или матриц с необычными типами элементов.

Сопрягаемые матрицы

Все доказательства ниже используют понятие сопряженной матрицы $adj(M)$ матрицы $M$ размера $n \times n$ , транспонированной ее кофакторной матрицы . Это матрица, коэффициенты которой задаются полиномиальными выражениями от коэффициентов $M$ (фактически, некоторыми определителями размера $($ $n$ $- 1) \times ($ $n$ $- 1)$ ), таким образом, что выполняются следующие фундаментальные соотношения, Эти соотношения являются прямым следствием основных свойств определителей: оценка записи $($ $i$ $,$ $j$ $)$ матричного произведения слева дает расширение по столбцу $j$ определителя матрицы, полученной из $M$ путем замены столбца $i$ копией столбца $j$ , которая равна $det($ $M$ $)$ , если $i$ $=$ $j,$ и нулю в противном случае; матричное произведение справа аналогично, но для расширений по строкам. $\operatorname {adj} (M)\cdot M=\det(M)I_{n}=M\cdot \operatorname {adj} (M)~.$

Будучи следствием простого манипулирования алгебраическими выражениями, эти соотношения справедливы для матриц с записями в любом коммутативном кольце (коммутативность должна предполагаться для определения определителей в первую очередь). Это важно отметить здесь, поскольку эти соотношения будут применяться ниже для матриц с нечисловыми записями, такими как многочлены.

Прямое алгебраическое доказательство

Это доказательство использует как раз тот тип объектов, который необходим для формулировки теоремы Кэли–Гамильтона: матрицы с многочленами в качестве элементов. Матрица $t I n - A$ , определитель которой является характеристическим многочленом $A$ , является такой матрицей, и поскольку многочлены образуют коммутативное кольцо, она имеет сопряженное Тогда, согласно правому фундаментальному соотношению сопряженного, имеем $B=\operatorname {adj} (tI_{n}-A).$ $(tI_{n}-A)B=\det(tI_{n}-A)I_{n}=p(t)I_{n}.$

Поскольку $B$ также является матрицей с многочленами по $t$ в качестве элементов, можно для каждого $i$ собрать коэффициенты $t i$ в каждом элементе, чтобы сформировать матрицу $B i$ чисел, такую, что (Способ определения элементов $B$ ясно показывает, что не встречается степеней выше $t$ $n$ $-1$ ). Хотя это выглядит как многочлен с матрицами в качестве коэффициентов, мы не будем рассматривать такое понятие; это просто способ записать матрицу с многочленами в виде линейной комбинации $n$ постоянных матриц, а коэффициент $t$ $i$ был записан слева от матрицы, чтобы подчеркнуть эту точку зрения. $B=\sum _{i=0}^{n-1}t^{i}B_{i}.$

Теперь можно разложить матричное произведение в нашем уравнении по билинейности: ${\begin{aligned}p(t)I_{n}&=(tI_{n}-A)B\\&=(tI_{n}-A)\sum _{i=0}^{n-1}t^{i}B_{i}\\&=\sum _{i=0}^{n-1}tI_{n}\cdot t^{i}B_{i}-\sum _{i=0}^{n-1}A\cdot t^{i}B_{i}\\&=\sum _{i=0}^{n-1}t^{i+1}B_{i}-\sum _{i=0}^{n-1}t^{i}AB_{i}\\&=t^{n}B_{n-1}+\sum _{i=1}^{n-1}t^{i}(B_{i-1}-AB_{i})-AB_{0}.\end{aligned}}$

Записав, получаем равенство двух матриц с полиномиальными элементами, записанными в виде линейных комбинаций постоянных матриц со степенями $t$ в качестве коэффициентов. $p(t)I_{n}=t^{n}I_{n}+t^{n-1}c_{n-1}I_{n}+\cdots +tc_{1}I_{n}+c_{0}I_{n},$

Такое равенство может иметь место только в том случае, если в любой позиции матрицы элемент, умножаемый на заданную степень $t i ,$ одинаков с обеих сторон; отсюда следует, что постоянные матрицы с коэффициентом $t i$ в обоих выражениях должны быть равны. Записывая эти уравнения затем для $i$ от $n$ до 0, находим $B_{n-1}=I_{n},\qquad B_{i-1}-AB_{i}=c_{i}I_{n}\quad {\text{for }}1\leq i\leq n-1,\qquad -AB_{0}=c_{0}I_{n}.$

Наконец, умножим уравнение коэффициентов $t i$ слева на $A i$ и суммируем:

$A^{n}B_{n-1}+\sum \limits _{i=1}^{n-1}\left(A^{i}B_{i-1}-A^{i+1}B_{i}\right)-AB_{0}=A^{n}+c_{n-1}A^{n-1}+\cdots +c_{1}A+c_{0}I_{n}.$

Левые части образуют телескопическую сумму и полностью сокращаются; правые части в сумме дают : Это завершает доказательство. $p(A)$ $0=p(A).$

Доказательство с использованием полиномов с матричными коэффициентами

Это доказательство похоже на первое, но пытается придать смысл понятию многочлена с матричными коэффициентами, которое было предложено выражениями, встречающимися в этом доказательстве. Это требует значительной осторожности, поскольку довольно необычно рассматривать многочлены с коэффициентами в некоммутативном кольце, и не все рассуждения, которые справедливы для коммутативных многочленов, могут быть применены в этой ситуации.

Примечательно, что в то время как арифметика многочленов над коммутативным кольцом моделирует арифметику многочленных функций , это не так над некоммутативным кольцом (фактически, в этом случае нет очевидного понятия многочленной функции, которая была бы замкнута относительно умножения). Поэтому при рассмотрении многочленов от $t$ с матричными коэффициентами переменную $t$ следует рассматривать не как «неизвестную», а как формальный символ, которым следует манипулировать в соответствии с заданными правилами; в частности, нельзя просто установить $t$ в определенное значение. $(f+g)(x)=\sum _{i}\left(f_{i}+g_{i}\right)x^{i}=\sum _{i}{f_{i}x^{i}}+\sum _{i}{g_{i}x^{i}}=f(x)+g(x).$

Пусть будет кольцом матриц $n$ $\times$ $n$ с элементами в некотором кольце R (например, действительных или комплексных чисел), которое имеет $A$ в качестве элемента. Матрицы с коэффициентами, являющимися полиномами от $t$ , такими как или ее сопряженная B в первом доказательстве, являются элементами . $M(n,R)$ $tI_{n}-A$ $M(n,R[t])$

Собирая подобные степени $t$ , такие матрицы можно записать как "многочлены" от $t$ с постоянными матрицами в качестве коэффициентов; запишем для множества таких многочленов. Поскольку это множество находится во взаимно однозначном соответствии с , то арифметические операции на нем определяются соответствующим образом, в частности, умножение задается путем соблюдения порядка матриц коэффициентов из двух операндов; очевидно, это дает некоммутативное умножение. $M(n,R)[t]$ $M(n,R[t])$ $\left(\sum _{i}M_{i}t^{i}\right)\!\!\left(\sum _{j}N_{j}t^{j}\right)=\sum _{i,j}(M_{i}N_{j})t^{i+j},$

Таким образом, тождество из первого доказательства можно рассматривать как тождество, включающее умножение элементов в . $(tI_{n}-A)B=p(t)I_{n}.$ $M(n,R)[t]$

На этом этапе возникает соблазн просто приравнять $t$ к матрице $A$ , что делает первый множитель слева равным нулевой матрице, а правую часть — $p (A)$ ; однако это недопустимая операция, когда коэффициенты не коммутируют. Можно определить «отображение правой оценки» $ev A : M [t] \to M$ , которое заменяет каждое $t i$ на матричную степень $A i$ матрицы $A$ , где оговаривается, что степень всегда должна умножаться справа на соответствующий коэффициент. Но это отображение не является кольцевым гомоморфизмом : правая оценка произведения в общем случае отличается от произведения правых оценок. Это так, потому что умножение многочленов с матричными коэффициентами не моделирует умножение выражений, содержащих неизвестные: произведение определяется в предположении, что $t$ коммутирует с $N$ , но это может не сработать, если $t$ заменить матрицей $A$ . $Mt^{i}Nt^{j}=(M\cdot N)t^{i+j}$

Эту трудность можно обойти в конкретной рассматриваемой ситуации, поскольку указанное выше отображение правой оценки становится кольцевым гомоморфизмом, если матрица $A$ находится в центре кольца коэффициентов, так что она коммутирует со всеми коэффициентами многочленов (аргумент, доказывающий это, прост, именно потому, что коммутация $t$ с коэффициентами теперь оправдана после оценки).

Теперь $A$ не всегда находится в центре $M$ , но мы можем заменить $M$ меньшим кольцом, при условии, что оно содержит все коэффициенты рассматриваемых многочленов: , $A$ и коэффициенты многочлена $B.$ Очевидным выбором для такого подкольца является централизатор $Z$ кольца $A$ , подкольцо всех матриц, которые коммутируют с $A$ ; по определению $A$ находится в центре $Z.$ $I_{n}$ $B_{i}$

Этот централизатор, очевидно, содержит , и $A$ , но нужно показать, что он содержит матрицы . Для этого объединяют два фундаментальных соотношения для адъюгатов, записывая адъюгат $B$ как многочлен: $I_{n}$ $B_{i}$ ${\begin{aligned}\left(\sum _{i=0}^{m}B_{i}t^{i}\right)\!(tI_{n}-A)&=(tI_{n}-A)\sum _{i=0}^{m}B_{i}t^{i}\\\sum _{i=0}^{m}B_{i}t^{i+1}-\sum _{i=0}^{m}B_{i}At^{i}&=\sum _{i=0}^{m}B_{i}t^{i+1}-\sum _{i=0}^{m}AB_{i}t^{i}\\\sum _{i=0}^{m}B_{i}At^{i}&=\sum _{i=0}^{m}AB_{i}t^{i}.\end{aligned}}$

Приравнивая коэффициенты, мы получаем, что для каждого $i$ имеем $AB i = B i A$ , как и требовалось. Найдя правильную настройку, в которой $ev A$ действительно является гомоморфизмом колец, можно завершить доказательство, как предложено выше: Это завершает доказательство. ${\begin{aligned}\operatorname {ev} _{A}\left(p(t)I_{n}\right)&=\operatorname {ev} _{A}((tI_{n}-A)B)\\[5pt]p(A)&=\operatorname {ev} _{A}(tI_{n}-A)\cdot \operatorname {ev} _{A}(B)\\[5pt]p(A)&=(AI_{n}-A)\cdot \operatorname {ev} _{A}(B)=O\cdot \operatorname {ev} _{A}(B)=O.\end{aligned}}$

Синтез первых двух доказательств

В первом доказательстве удалось определить коэффициенты $B i$ для $B$ на основе правого фундаментального соотношения только для сопряженного элемента. Фактически, первые $n$ полученных уравнений можно интерпретировать как определение частного $B$ евклидова деления многочлена $p (t) I n$ слева на монический многочлен $I n t - A$ , в то время как окончательное уравнение выражает тот факт, что остаток равен нулю. Это деление выполняется в кольце многочленов с матричными коэффициентами. Действительно, даже над некоммутативным кольцом евклидово деление на монический многочлен $P$ определено и всегда дает уникальное частное и остаток с тем же условием степени , что и в коммутативном случае, при условии, что указано, с какой стороны мы хотим, чтобы $P$ был множителем (в данном случае слева).

Чтобы увидеть, что частное и остаток уникальны (что является важной частью утверждения), достаточно записать как и заметить, что поскольку $P$ является моническим, $P$ $($ $Q$ $-$ $Q$ $')$ не может иметь степень, меньшую, чем у $P$ , если только $Q$ $=$ $Q$ $'$ . $PQ+r=PQ'+r'$ $P(Q-Q')=r'-r$

Но делимое $p (t) I n$ и делитель $I n t - A$ , используемые здесь, оба лежат в подкольце $(R [A])[t]$ , где $R [A]$ — подкольцо матричного кольца $M (n, R),$ порожденное $A$ : $R$ -линейная оболочка всех степеней $A$ . Следовательно, евклидово деление на самом деле может быть выполнено внутри этого коммутативного многочленного кольца, и, конечно, тогда оно дает то же самое частное $B$ и остаток 0, что и в большем кольце; в частности, это показывает, что $B$ на самом деле лежит в $(R [A])[t]$ .

Но в этой коммутативной настройке допустимо установить $t$ равным $A$ в уравнении

$p(t)I_{n}=(tI_{n}-A)B;$

другими словами, применить карту оценки

$\operatorname {ev} _{A}:(R[A])[t]\to R[A]$

который является кольцевым гомоморфизмом, дающим

$p(A)=0\cdot \operatorname {ev} _{A}(B)=0$

как и во втором доказательстве, как и хотелось.

В дополнение к доказательству теоремы, приведенный выше аргумент говорит нам, что коэффициенты $B$ $i$ матрицы $B$ являются полиномами от $A$ , в то время как из второго доказательства мы знали только, что они лежат в централизаторе $Z$ матрицы $A$ ; в общем случае $Z$ является большим подкольцом, чем $R$ $[$ $A$ $]$ , и не обязательно коммутативным. В частности, постоянный член $B$ $0$ $= adj(-$ $A$ $)$ лежит в $R$ $[$ $A$ $]$ . Поскольку $A$ — произвольная квадратная матрица, это доказывает, что $adj($ $A$ $)$ всегда можно выразить как полином от $A$ (с коэффициентами, зависящими от $A$ $)$ .

На самом деле, уравнения, найденные в первом доказательстве, позволяют последовательно выразить в виде полиномов от $A$ , что приводит к тождеству $B_{n-1},\ldots ,B_{1},B_{0}$

$\operatorname {adj} (-A)=\sum _{i=1}^{n}c_{i}A^{i-1},$

справедливо для всех матриц $n \times n$ , где — характеристический многочлен матрицы $A.$ $p(t)=t^{n}+c_{n-1}t^{n-1}+\cdots +c_{1}t+c_{0}$

Обратите внимание, что это тождество также подразумевает утверждение теоремы Кэли–Гамильтона: можно перенести $adj(- A)$ в правую часть, умножить полученное уравнение (слева или справа) на $A$ и использовать тот факт, что $-A\cdot \operatorname {adj} (-A)=\operatorname {adj} (-A)\cdot (-A)=\det(-A)I_{n}=c_{0}I_{n}.$

Доказательство с использованием матриц эндоморфизмов

Как было упомянуто выше, матрица p ( A ) в формулировке теоремы получается путем первого вычисления определителя и последующей подстановки матрицы A вместо t ; выполнение этой подстановки в матрицу до вычисления определителя не имеет смысла. Тем не менее, можно дать интерпретацию, где $p$ $($ $A$ $)$ получается непосредственно как значение определенного определителя, но это требует более сложной настройки, одной из матриц над кольцом, в котором можно интерпретировать как элементы A $,$ так и все $A$ само по себе. Для этого можно взять кольцо $M$ $($ $n$ $,$ $R$ $)$ матриц $n$ $\times$ $n$ над $R$ , где элемент реализуется как , а $A$ как само по себе. Но рассмотрение матриц с матрицами в качестве записей может вызвать путаницу с блочными матрицами , что не предполагается, поскольку это дает неправильное понятие определителя (напомним, что определитель матрицы определяется как сумма произведений ее записей, и в случае блочной матрицы это, как правило, не то же самое, что соответствующая сумма произведений ее блоков!). Более ясно различать $A$ от эндоморфизма $φ$ n $-мерного$ векторного пространства V (или свободного R -модуля , если $R$ не является полем), определяемого им в базисе , и брать матрицы над кольцом End( V ) всех таких эндоморфизмов. Тогда $φ$ $\in End($ $V$ $)$ $является$ возможной записью матрицы, в то время как $A$ обозначает элемент $M$ $($ $n$ $, End($ $V$ $)), элемент$ $i$ $,$ $j$ которого является эндоморфизмом скалярного умножения на ; аналогично будет интерпретироваться как элемент $M$ $($ $n$ $, End($ $V$ $))$ . Однако, поскольку $End($ $V$ $)$ не является коммутативным кольцом, на $M$ $($ $n$ $, End($ $V$ $) )$ не определен определитель ; это можно сделать только для матриц над коммутативным подкольцом $End($ $V$ $)$ . Теперь все элементы матрицы лежат в подкольце $tI_{n}-A$ $A_{i,j}$ $A_{i,j}$ $A_{i,j}I_{n}$ $e_{1},\ldots ,e_{n}$ $A_{i,j}$ $I_{n}$ $\varphi I_{n}-A$ $R [φ]$ генерируется тождеством и $φ$ , которое коммутативно. Затемопределяется $детерминантное отображение M (n, R [φ]) \to R [φ]$ и вычисляется как значение $p$ $($ $φ$ $)$ характеристического полинома $A$ в $φ$ (это выполняется независимо от связи между $A$ и $φ$ ); теорема Кэли–Гамильтона утверждает, что $p$ $($ $φ$ $)$ является нулевым эндоморфизмом. $\det(\varphi I_{n}-A)$

В этой форме следующее доказательство может быть получено из доказательства Атьи и Макдональда (1969, Prop. 2.4) (которое на самом деле является более общим утверждением, связанным с леммой Накаямы ; в этом предложении за идеал берется все кольцо $R$ ). Тот факт, что $A$ является матрицей $φ$ в базисе $e 1, ..., e n ,$ означает, что Их можно интерпретировать как $n$ компонентов одного уравнения в $V$ $n$ , члены которого могут быть записаны с использованием матрично-векторного произведения $M$ $($ $n$ $, End($ $V$ $)) \times$ $V$ $n$ $\to$ $V$ $n$ , которое определяется как обычно, но с отдельными элементами $ψ$ $\in End($ $V$ $)$ и $v$ в $V$ , «умноженными» путем формирования ; это дает: где — элемент, компонентом $i$ которого является $e$ $i$ (другими словами, это базис $e$ $1$ $, ...,$ $e$ $n$ V $,$ записанный в виде столбца векторов). Записывая это уравнение, мы распознаем транспонирование матрицы, рассмотренной выше, и ее определитель (как элемент $M$ $($ $n$ $,$ $R$ $[$ $φ$ $]))$ также равен p ( φ ). Чтобы вывести из этого уравнения, что $p$ $($ $φ$ $) = 0 \in End($ $V$ $)$ , нужно умножить слева на сопряженную матрицу , которая определена в кольце матриц $M$ $($ $n$ $,$ $R$ $[$ $φ$ $])$ , что дает ассоциативность умножения матрицы на матрицу и матрицы на вектор, используемую на первом шаге, что является чисто формальным свойством этих операций, независимо от природы записей. Теперь компонент $i$ этого уравнения говорит, что $p$ $($ $φ$ $)($ $e$ $i$ $) = 0 \in$ $V$ ; таким образом, $p$ $($ $φ$ $)$ обращается в нуль на всех $e$ $i$ , и поскольку эти элементы порождают $V ,$ следует, что $p$ $($ $φ$ $) = 0 \in End($ $V$ $)$ $\varphi (e_{i})=\sum _{j=1}^{n}A_{j,i}e_{j}\quad {\text{for }}i=1,\ldots ,n.$ $\psi (v)$ $\varphi I_{n}\cdot E=A^{\operatorname {tr} }\cdot E,$ $E\in V^{n}$ $(\varphi I_{n}-A^{\operatorname {tr} })\cdot E=0\in V^{n}$ $\varphi I_{n}-A$ $\varphi I_{n}-A^{\operatorname {tr} }$ ${\begin{aligned}0&=\operatorname {adj} (\varphi I_{n}-A^{\operatorname {tr} })\cdot \left((\varphi I_{n}-A^{\operatorname {tr} })\cdot E\right)\\[1ex]&=\left(\operatorname {adj} (\varphi I_{n}-A^{\operatorname {tr} })\cdot (\varphi I_{n}-A^{\operatorname {tr} })\right)\cdot E\\[1ex]&=\left(\det(\varphi I_{n}-A^{\operatorname {tr} })I_{n}\right)\cdot E\\[1ex]&=(p(\varphi )I_{n})\cdot E;\end{aligned}}$ , завершая доказательство.

Дополнительным фактом, вытекающим из этого доказательства, является то, что матрица $A$ , характеристический многочлен которой взят, не обязательно должна быть идентична значению $φ,$ подставленному в этот многочлен; достаточно, чтобы $φ$ было эндоморфизмом $V$ , удовлетворяющим исходным уравнениям

$\varphi (e_{i})=\sum _{j}A_{j,i}e_{j}$ для некоторой последовательности элементов $e 1, ..., e n ,$ которые порождают $V$ (пространство может иметь меньшую размерность, чем $n$ , или, в случае, если кольцо $R$ не является полем, оно может вообще не быть свободным модулем ).

Фальшивое «доказательство»:п ( А ) знак равно det( AI п - А ) знак равно det( А - А ) знак равно 0

Один из устойчивых элементарных, но неверных аргументов ^[17] в пользу теоремы состоит в том, чтобы «просто» взять определение и заменить $A$ на $λ$ , получив $p(\lambda )=\det(\lambda I_{n}-A)$ $p(A)=\det(AI_{n}-A)=\det(A-A)=\det(\mathbf {0} )=0.$

Есть много способов увидеть, почему этот аргумент неверен. Во-первых, в теореме Кэли–Гамильтона $p (A)$ является матрицей $n \times n$ . Однако правая часть приведенного выше уравнения является значением определителя, который является скаляром . Поэтому их нельзя приравнять, если только $n = 1$ (т.е. $A$ — просто скаляр). Во-вторых, в выражении переменная λ фактически встречается в диагональных элементах матрицы . Чтобы проиллюстрировать это, снова рассмотрим характеристический многочлен в предыдущем примере: $\det(\lambda I_{n}-A)$ $\lambda I_{n}-A$

$\det \!{\begin{pmatrix}\lambda -1&-2\\-3&\lambda -4\end{pmatrix}}.$

Если подставить всю матрицу $A$ вместо $λ$ в эти позиции, то получим

$\det \!{\begin{pmatrix}{\begin{pmatrix}1&2\\3&4\end{pmatrix}}-1&-2\\-3&{\begin{pmatrix}1&2\\3&4\end{pmatrix}}-4\end{pmatrix}},$

в котором выражение "матрица" просто не является допустимым. Обратите внимание, однако, что если скалярные множители единичных матриц вместо скаляров вычитаются в приведенном выше примере, т.е. если подстановка выполняется как

$\det \!{\begin{pmatrix}{\begin{pmatrix}1&2\\3&4\end{pmatrix}}-I_{2}&-2I_{2}\\-3I_{2}&{\begin{pmatrix}1&2\\3&4\end{pmatrix}}-4I_{2}\end{pmatrix}},$

тогда определитель действительно равен нулю, но рассматриваемая расширенная матрица не оценивается как ; и ее определитель (скаляр) не может быть сравнен с p ( A ) (матрицей). Так что аргумент, который все еще не применим. $AI_{n}-A$ $p(A)=\det(AI_{n}-A)=0$

На самом деле, если такой аргумент справедлив, он должен быть справедлив и при использовании других полилинейных форм вместо определителя. Например, если мы рассмотрим перманентную функцию и определим , то с помощью того же аргумента мы должны быть в состоянии «доказать», что $q$ $($ $A$ $) = 0$ . Но это утверждение явно неверно: в двумерном случае, например, перманент матрицы задается как $q(\lambda )=\operatorname {perm} (\lambda I_{n}-A)$

$\operatorname {perm} \!{\begin{pmatrix}a&b\\c&d\end{pmatrix}}=ad+bc.$

Итак, для матрицы $A$ в предыдущем примере:

${\begin{aligned}q(\lambda )&=\operatorname {perm} (\lambda I_{2}-A)=\operatorname {perm} \!{\begin{pmatrix}\lambda -1&-2\\-3&\lambda -4\end{pmatrix}}\\[6pt]&=(\lambda -1)(\lambda -4)+(-2)(-3)=\lambda ^{2}-5\lambda +10.\end{aligned}}$

Но можно убедиться, что

$q(A)=A^{2}-5A+10I_{2}=12I_{2}\neq 0.$

Одно из доказательств теоремы Кэли–Гамильтона выше имеет некоторое сходство с аргументом о том, что . Вводя матрицу с нечисловыми коэффициентами, можно фактически позволить $A$ жить внутри элемента матрицы, но тогда он не будет равен $A$ , и вывод будет получен по-другому. $p(A)=\det(AI_{n}-A)=0$ $AI_{n}$

Доказательства с использованием методов абстрактной алгебры

Базовые свойства выводов Хассе–Шмидта на внешней алгебре некоторого $B$ - модуля $M$ (предполагаемого свободным и конечного ранга) были использованы Гатто и Салехьяном (2016, §4) для доказательства теоремы Кэли–Гамильтона. См. также Гатто и Щербак (2015). ${\textstyle A=\bigwedge M}$

Комбинаторное доказательство

Доказательство, основанное на разработке формулы Лейбница для характеристического многочлена, было дано Штраубингом ^[18] , а обобщение было дано с использованием теории моноидов следов Фоаты и Картье.

Абстракции и обобщения

Приведенные выше доказательства показывают, что теорема Кэли–Гамильтона верна для матриц с элементами в любом коммутативном кольце $R$ и что $p (φ) = 0$ будет верна всякий раз, когда $φ$ является эндоморфизмом $R$ -модуля, порожденного элементами $e 1,..., en , который$ удовлетворяет условию

$\varphi (e_{j})=\sum a_{ij}e_{i},\qquad j=1,\ldots ,n.$

Эта более общая версия теоремы является источником знаменитой леммы Накаямы в коммутативной алгебре и алгебраической геометрии .

Теорема Кэли-Гамильтона справедлива также для матриц над кватернионами , некоммутативным кольцом . ^[19]^{[nb 3]}

Смотрите также

Матрица-компаньон

Замечания

^ См. раздел 2 Криворученко (2016). Явное выражение для коэффициентов $c i$ предоставлено Кондратюком и Криворученко (1992): где сумма берется по наборам всех целочисленных разбиений $k$ $l$ $\geq 0$ , удовлетворяющих уравнению $c_{i}=\sum _{k_{1},k_{2},\ldots ,k_{n}}\prod _{l=1}^{n}{\frac {(-1)^{k_{l}+1}}{l^{k_{l}}k_{l}!}}\operatorname {tr} (A^{l})^{k_{l}},$ $\sum _{l=1}^{n}lk_{l}=n-i.$
^ См., например, стр. 54 Brown 1994, которая решает формулу Якоби , где $B$ — сопряженная матрица следующего раздела. Существует также эквивалентный, связанный рекурсивный алгоритм, введенный Урбеном Ле Верье и Дмитрием Константиновичем Фаддеевым — алгоритм Фаддеева–Ле Верье , который гласит (см., например, Gantmacher 1960, стр. 88.) Наблюдаем $A$ $-1$ $= -$ $M$ $n$ $/$ $c$ $0$ , когда рекурсия заканчивается. См. алгебраическое доказательство в следующем разделе, которое опирается на моды сопряженной матрицы, $B$ $k$ $\equiv$ $M$ $n$ $-$ $k$ . В частности, и указанная выше производная $p$ , когда ее прослеживают, дает (Hou 1998), и указанные выше рекурсии, в свою очередь. ${\frac {\partial p(\lambda )}{\partial \lambda }}=p(\lambda )\sum _{m=0}^{\infty }\lambda ^{-(m+1)}\operatorname {tr} A^{m}=p(\lambda )~\operatorname {tr} {\frac {I}{\lambda I-A}}\equiv \operatorname {tr} B~,$ ${\begin{aligned}M_{0}&\equiv O&c_{n}&=1\qquad &(k=0)\\[5pt]M_{k}&\equiv AM_{k-1}-{\frac {1}{k-1}}(\operatorname {tr} (AM_{k-1}))I\qquad \qquad &c_{n-k}&=-{\frac {1}{k}}\operatorname {tr} (AM_{k})\qquad &k=1,\ldots ,n~.\end{aligned}}$ $(\lambda I-A)B=Ip(\lambda )$ $\lambda p'-np=\operatorname {tr} (AB)~,$
^ Из-за некоммутативной природы операции умножения для кватернионов и связанных с ними конструкций необходимо проявлять осторожность с определениями, особенно в этом контексте, для детерминанта. Теорема верна также для немного менее хорошо себя ведущих расщепленных кватернионов , см. Alagös, Oral & Yüce (2012). Кольца кватернионов и расщепленных кватернионов могут быть представлены определенными комплексными матрицами $2 \times 2.$ (При ограничении единичной нормой это группы $SU(2)$ и $SU(1,1)$ соответственно.) Поэтому неудивительно, что теорема верна. Для октонионов
такого матричного представления нет , поскольку операция умножения в этом случае не ассоциативна . Однако модифицированная теорема Кэли–Гамильтона все еще верна для октонионов, см. Tian (2000).

Примечания

^ ab Crilly 1998
^ ab Гамильтон 1864a
^ ab Гамильтон 1864b
^ ab Гамильтон 1862
^ Атья и Макдональд 1969
↑ Гамильтон 1853, стр. 562
↑ Кейли 1858, стр. 17–37.
↑ Кейли 1889, стр. 475–496.
^ Фробениус 1878
^ Зени и Родригес 1992
^ Барут, Зени и Лауфер 1994a
^ Барут, Зени и Лауфер 1994b
^ Лауфер 1997
^ Кертрайт, Фэрли и Захос 2014
^ Стайн, Уильям. Алгебраическая теория чисел, вычислительный подход (PDF) . стр. 29.
^ Бхатия 1997, стр. 7
^ Гарретт 2007, стр. 381
^ Штраубинг, Ховард (1 января 1983 г.). «Комбинаторное доказательство теоремы Кэли-Гамильтона». Дискретная математика . 43 (2): 273–279. doi :10.1016/0012-365X(83)90164-4. ISSN 0012-365X.
^ Чжан 1997

Ссылки

Alagös, Y.; Oral, K.; Yüce, S. (2012). «Разделенные кватернионные матрицы». Miskolc Mathematical Notes . 13 (2): 223–232. doi : 10.18514/MMN.2012.364 . ISSN 1787-2405(открытый доступ)
Атья, М. Ф.; Макдональд , И. Г. (1969), Введение в коммутативную алгебру , Westview Press, ISBN 978-0-201-40751-8
Barut, AO ; Zeni, JR; Laufer, A. (1994a). "Экспоненциальное отображение для конформной группы O(2,4)". J. Phys. A: Math. Gen . 27 (15): 5239–5250. arXiv : hep-th/9408105 . Bibcode :1994JPhA...27.5239B. doi :10.1088/0305-4470/27/15/022.
Barut, AO ; Zeni, JR; Laufer, A. (1994b). "Экспоненциальное отображение для унитарной группы SU(2,2)". J. Phys. A: Math. Gen . 27 (20): 6799–6806. arXiv : hep-th/9408145 . Bibcode :1994JPhA...27.6799B. doi :10.1088/0305-4470/27/20/017. S2CID 16495633.
Бхатия, Р. (1997). Матричный анализ . Выпускные тексты по математике. Том 169. Springer. ISBN 978-0387948461.
Браун, Лоуэлл С. (1994). Квантовая теория поля . Cambridge University Press . ISBN 978-0-521-46946-3.
Кейли, А. (1858). «Воспоминания о теории матриц». Philos. Trans . 148 .
Кейли, А. (1889). Собрание математических работ Артура Кейли . (Классическое переиздание). Том 2. Забытые книги. ASIN B008HUED9O.
Крилли, Т. (1998). «Молодой Артур Кейли». Примечания Rec. R. Soc. Lond . 52 (2): 267–282. doi :10.1098/rsnr.1998.0050. S2CID 146669911.
Curtright, TL ; Fairlie, DB ; Zachos, CK (2014). "Компактная формула для вращений как полиномов спиновой матрицы". SIGMA . 10 (2014): 084. arXiv : 1402.3541 . Bibcode :2014SIGMA..10..084C. doi :10.3842/SIGMA.2014.084. S2CID 18776942.
Фробениус, Г. (1878). «Очень линейные замены и билинейные формы». Дж. Рейн Анжью. Математика . 1878 (84): 1–63. дои : 10.1515/crll.1878.84.1.
Гантмахер, Ф. Р. (1960). Теория матриц . Нью-Йорк: Chelsea Publishing. ISBN 978-0-8218-1376-8.
Гатто, Леттерио; Салехян, Пархэм (2016), Выводы Хассе – Шмидта на алгебрах Грассмана , Springer, doi : 10.1007/978-3-319-31842-4, ISBN 978-3-319-31842-4, МР 3524604
Гатто, Леттерио; Щербак, Инна (2015), Замечания о теореме Кэли-Гамильтона , arXiv : 1510.03022
Гарретт, Пол Б. (2007). Абстрактная алгебра . Нью-Йорк: Chapman and Hall/CRC. ISBN 978-1584886891.
Гамильтон, У. Р. (1853). Лекции о кватернионах. Дублин.{{cite book}}: CS1 maint: location missing publisher (link)
Гамильтон, У. Р. (1864a). «О новом и общем методе обращения линейной и кватернионной функции кватерниона». Труды Королевской Ирландской Академии . viii : 182–183.(сообщено 9 июня 1862 г.)
Гамильтон, У. Р. (1864b). «О существовании символического и биквадратного уравнения, которому удовлетворяет символ линейной операции в кватернионах». Труды Королевской Ирландской Академии . viii : 190–101.(сообщено 23 июня 1862 г.)
Hou, SH (1998). "Заметка для класса: простое доказательство алгоритма характеристического полинома Леверье--Фаддеева". Обзор SIAM . 40 (3): 706–709. Bibcode : 1998SIAMR..40..706H. doi : 10.1137/S003614459732076X.«Классная заметка: простое доказательство алгоритма характеристического полинома Леверье--Фаддеева»
Гамильтон, У. Р. (1862). «О существовании символического и биквадратного уравнения, которому удовлетворяет символ линейной или распределительной операции над кватернионом». Лондонский, Эдинбургский и Дублинский философский журнал и научный журнал . серия iv . 24 : 127–128. ISSN 1478-6435 . Получено 14.02.2015 .
Хаусхолдер, Олстон С. (2006). Теория матриц в численном анализе . Dover Books on Mathematics. ISBN 978-0486449722.
Криворученко, М.И. (2016). "Тождества следов для кососимметричных матриц". arXiv : 1605.00447 .
Кондратюк Л.А.; Криворученко, М.И. (1992). «Сверхпроводящая кварковая материя цветовой группы SU (2)». Zeitschrift für Physik A. 344 (1): 99–115. Бибкод : 1992ZPhyA.344...99K. дои : 10.1007/BF01291027. S2CID 120467300.
Laufer, A. (1997). "Экспоненциальное отображение GL(N)". J. Phys. A: Math. Gen . 30 (15): 5455–5470. arXiv : hep-th/9604049 . Bibcode :1997JPhA...30.5455L. doi :10.1088/0305-4470/30/15/029. S2CID 10699434.
Tian, Y. (2000). «Матричные представления октонионов и их применение». Advances in Applied Clifford Algebras . 10 (1): 61–90. arXiv : math/0003166 . Bibcode :2000math......3166T. CiteSeerX 10.1.1.237.2217 . doi :10.1007/BF03042010. ISSN 0188-7009. S2CID 14465054.
Zeni, JR; Rodrigues, WA (1992). "Вдумчивое исследование преобразований Лоренца с помощью алгебр Клиффорда". Int. J. Mod. Phys. A. 7 ( 8): 1793 стр. Bibcode : 1992IJMPA...7.1793Z. doi : 10.1142/S0217751X92000776.
Чжан, Ф. (1997). «Кватернионы и матрицы кватернионов». Линейная алгебра и ее приложения . 251 : 21–57. doi : 10.1016/0024-3795(95)00543-9 . ISSN 0024-3795(открыть архив).

Внешние ссылки

«Теорема Кэли–Гамильтона», Энциклопедия математики , EMS Press , 2001 [1994]
Доказательство от PlanetMath.
Теорема Кэли–Гамильтона на MathPages