В математике матрица ( мн. ч .: матрицы ) — это прямоугольный массив или таблица чисел , символов или выражений , элементы или записи которых расположены в строках и столбцах, которая используется для представления математического объекта или свойства такого объекта.
Например, это матрица с двумя строками и тремя столбцами. Ее часто называют «матрицей два на три», « матрицей» или матрицей размерности .
Матрицы обычно связаны с линейной алгеброй . Известные исключения включают матрицы инцидентности и матрицы смежности в теории графов . [1] В этой статье основное внимание уделяется матрицам, связанным с линейной алгеброй, и, если не указано иное, все матрицы представляют собой линейные отображения или могут рассматриваться как таковые.
Квадратные матрицы , матрицы с одинаковым числом строк и столбцов, играют важную роль в теории матриц. Квадратные матрицы заданной размерности образуют некоммутативное кольцо , которое является одним из наиболее распространенных примеров некоммутативного кольца. Определитель квадратной матрицы — это число, связанное с матрицей, что является фундаментальным для изучения квадратной матрицы; например, квадратная матрица обратима тогда и только тогда, когда ее определитель не равен нулю, а собственные значения квадратной матрицы являются корнями полиномиального определителя .
В геометрии матрицы широко используются для задания и представления геометрических преобразований (например, вращений ) и изменений координат . В численном анализе многие вычислительные задачи решаются путем сведения их к матричному вычислению, и это часто включает вычисления с матрицами огромных размеров. Матрицы используются в большинстве областей математики и научных дисциплин, либо напрямую, либо посредством их использования в геометрии и численном анализе.
Теория матриц — это раздел математики , который фокусируется на изучении матриц. Первоначально это был подраздел линейной алгебры , но вскоре он разросся и включил в себя предметы, связанные с теорией графов , алгеброй , комбинаторикой и статистикой .
Матрица — это прямоугольный массив чисел (или других математических объектов), называемых записями матрицы. Матрицы подлежат стандартным операциям, таким как сложение и умножение. [2] Чаще всего матрица над полем F представляет собой прямоугольный массив элементов F . [3] [4] Действительная матрица и комплексная матрица — это матрицы, записи которых являются соответственно действительными числами или комплексными числами . Более общие типы записей обсуждаются ниже. Например, это действительная матрица :
Числа, символы или выражения в матрице называются ее записями или ее элементами . Горизонтальные и вертикальные линии записей в матрице называются строками и столбцами соответственно.
Размер матрицы определяется числом строк и столбцов, которые она содержит. Нет ограничений на число строк и столбцов, которые может иметь матрица (в обычном смысле), если они являются положительными целыми числами. Матрица со строками и столбцами называется матрицей , или -by- матрицей, где и называются ее размерами . Например, матрица выше является матрицей.
Матрицы с одной строкой называются векторами-строками , а с одним столбцом — векторами-столбцами . Матрица с одинаковым количеством строк и столбцов называется квадратной матрицей . [5] Матрица с бесконечным количеством строк или столбцов (или и того, и другого) называется бесконечной матрицей. В некоторых контекстах, таких как программы компьютерной алгебры , полезно рассматривать матрицу без строк или столбцов, называемую пустой матрицей.
Специфика символической записи матриц сильно различается, с некоторыми преобладающими тенденциями. Матрицы обычно записываются в квадратных скобках или круглых скобках , так что матрица представляется как Это может быть сокращено путем записи только одного родового термина, возможно, вместе с индексами, как в или в случае, когда .
Матрицы обычно обозначаются заглавными буквами (как в приведенных выше примерах), в то время как соответствующие строчные буквы с двумя нижними индексами (например, , или ) представляют записи. Помимо использования заглавных букв для обозначения матриц, многие авторы используют специальный типографский стиль , обычно полужирный римский (не курсив), чтобы еще больше отличать матрицы от других математических объектов. Альтернативная нотация предполагает использование двойного подчеркивания с именем переменной, с полужирным начертанием или без него, как в .
Запись в i -й строке и j -м столбце матрицы A иногда называют записью или матрицы и обычно обозначают как или . Альтернативные обозначения для этой записи — и . Например, запись следующей матрицы — 5 (также обозначается , , или ):
Иногда элементы матрицы можно определить с помощью формулы, например . Например, каждый из элементов следующей матрицы определяется с помощью формулы .
В этом случае сама матрица иногда определяется этой формулой, в квадратных скобках или двойных круглых скобках. Например, матрица выше определяется как или . Если размер матрицы равен , вышеупомянутая формула действительна для любого и любого . Это можно указать отдельно или указать с помощью нижнего индекса. Например, матрица выше равна , и может быть определена как или .
Некоторые языки программирования используют дважды индексированные массивы (или массивы массивов) для представления матрицы размером m на n . Некоторые языки программирования начинают нумерацию индексов массива с нуля, в этом случае элементы матрицы размером m на n индексируются с помощью и . [6] В этой статье мы придерживаемся более распространенного соглашения в математической литературе, где нумерация начинается с 1 .
Множество всех действительных матриц размером m на n часто обозначается или Множество всех матриц размером m на n над другим полем или над кольцом R обозначается аналогично или Если m = n , как в случае квадратных матриц , размерность не повторяется: или [7] Часто вместо , или , используется
Несколько основных операций могут быть применены к матрицам. Некоторые, такие как транспонирование и подматрица, не зависят от природы записей. Другие, такие как сложение матриц , скалярное умножение , матричное умножение и операции со строками, включают операции над записями матрицы и, следовательно, требуют, чтобы записи матрицы были числами или принадлежали полю или кольцу . [ 8]
В этом разделе предполагается, что элементы матрицы принадлежат фиксированному кольцу, которое обычно представляет собой поле чисел.
Сумма A + B двух матриц A и B размером m × n вычисляется поэлементно: Например,
Произведение c A числа c (также называемого скаляром в этом контексте) и матрицы A вычисляется путем умножения каждого элемента A на c : Эта операция называется скалярным умножением , но ее результат не называется «скалярным произведением» во избежание путаницы, поскольку «скалярное произведение» часто используется как синоним « внутреннего произведения ». Например:
Вычитание двух матриц m × n определяется путем сложения матриц со скалярным умножением на –1 :
Транспонированная матрица A размером m × n представляет собой матрицу A T размером n × m (также обозначаемую как A tr или t A ), образованную путем преобразования строк в столбцы и наоборот. Например:
Знакомые свойства чисел распространяются на эти операции над матрицами: например, сложение коммутативно , то есть сумма матриц не зависит от порядка слагаемых: A + B = B + A. [9] Транспонирование совместимо со сложением и скалярным умножением, как выражается формулами ( c A ) T = c ( A T ) и ( A + B ) T = A T + B T . Наконец, ( A T ) T = A .
Умножение двух матриц определено тогда и только тогда, когда число столбцов левой матрицы совпадает с числом строк правой матрицы. Если A — матрица m × n , а B — матрица n × p , то их матричное произведение AB — это матрица m × p, элементы которой задаются скалярным произведением соответствующей строки A и соответствующего столбца B : [10]
где 1 ≤ i ≤ m и 1 ≤ j ≤ p . [11] Например, подчеркнутая запись 2340 в произведении вычисляется как (2 × 1000) + (3 × 100) + (4 × 10) = 2340:
Умножение матриц удовлетворяет правилам ( AB ) C = A ( BC ) ( ассоциативность ), и ( A + B ) C = AC + BC , а также C ( A + B ) = CA + CB ( левая и правая дистрибутивность ), всякий раз, когда размер матриц таков, что определяются различные произведения. [12] Произведение AB может быть определено без определения BA , а именно, если A и B являются матрицами m × n и n × k соответственно, и m ≠ k . Даже если оба произведения определены, они, как правило, не обязаны быть равными, то есть:
Другими словами, умножение матриц не является коммутативным , в отличие от (рациональных, действительных или комплексных) чисел, произведение которых не зависит от порядка множителей. [10] Пример двух матриц, не коммутирующих друг с другом:
тогда как
Помимо обычного умножения матриц, описанного выше, существуют и другие, менее часто используемые операции над матрицами, которые можно считать формами умножения, например, произведение Адамара и произведение Кронекера . [13] Они возникают при решении матричных уравнений, таких как уравнение Сильвестра .
Существует три типа операций со строками:
Эти операции используются несколькими способами, включая решение линейных уравнений и нахождение обратных матриц .
Подматрица матрицы — это матрица, полученная путем удаления любого набора строк и/или столбцов. [ 14] [15] [16] Например, из следующей матрицы размером 3 на 4 мы можем построить подматрицу размером 2 на 3, удалив строку 3 и столбец 2:
Миноры и кофакторы матрицы находятся путем вычисления определителя определенных подматриц. [16] [17 ]
Основная подматрица — это квадратная подматрица, полученная путем удаления определенных строк и столбцов. Определение варьируется от автора к автору. По мнению некоторых авторов, основная подматрица — это подматрица, в которой набор индексов строк, которые остаются, совпадает с набором индексов столбцов, которые остаются. [18] [19] Другие авторы определяют основную подматрицу как такую, в которой первые k строк и столбцов, для некоторого числа k , являются теми, которые остаются; [20] этот тип подматрицы также называется ведущей основной подматрицей . [21]
Матрицы можно использовать для компактной записи и работы с несколькими линейными уравнениями, то есть системами линейных уравнений. Например, если A — матрица размером m × n , x обозначает вектор-столбец (то есть матрицу размером n × 1 ) из n переменных x 1 , x 2 , ..., x n , а b — вектор-столбец размером m × 1 , то матричное уравнение
эквивалентно системе линейных уравнений [22]
Используя матрицы, это можно решить более компактно, чем это было бы возможно, выписав все уравнения по отдельности. Если n = m и уравнения независимы , то это можно сделать, записав
где A −1 — обратная матрица для A. Если A не имеет обратной матрицы, решения — если таковые имеются — можно найти с помощью ее обобщенной обратной матрицы .
Матрицы и матричное умножение раскрывают свои существенные особенности, когда они связаны с линейными преобразованиями , также известными как линейные отображения . Действительная матрица A размером m на n порождает линейное преобразование , отображающее каждый вектор x в в (матричное) произведение Ax , которое является вектором в Наоборот, каждое линейное преобразование возникает из уникальной матрицы A размером m на n : явно, ( i , j ) -элемент матрицы A является i- й координатой f ( e j ) , где e j = (0, ..., 0, 1, 0, ..., 0) является единичным вектором с 1 в j -й позиции и 0 в других местах. Говорят, что матрица A представляет линейное отображение f , а A называется матрицей преобразования f .
Например, матрица 2×2
можно рассматривать как преобразование единичного квадрата в параллелограмм с вершинами в (0, 0) , ( a , b ) , ( a + c , b + d ) и ( c , d ) . Параллелограмм, изображенный справа, получен путем умножения A на каждый из векторов-столбцов , и по очереди. Эти векторы определяют вершины единичного квадрата.
В следующей таблице показано несколько действительных матриц 2×2 с соответствующими линейными картами Синий оригинал отображается на зеленую сетку и формы. Начало координат (0, 0) отмечено черной точкой.
При соответствии один к одному между матрицами и линейными отображениями умножение матриц соответствует композиции отображений: [23] если матрица B размером k на m представляет другое линейное отображение , то композиция g ∘ f представляется как BA, поскольку
Последнее равенство следует из отмеченной выше ассоциативности умножения матриц.
Ранг матрицы A — это максимальное число линейно независимых векторов-строк матрицы, которое равно максимальному числу линейно независимых векторов-столбцов. [24] Эквивалентно это размерность образа линейной карты, представленной A. [ 25 ] Теорема о ранге–нуле утверждает, что размерность ядра матрицы плюс ранг равна числу столбцов матрицы. [26]
Квадратная матрица — это матрица с одинаковым числом строк и столбцов. [5] Матрица n на n известна как квадратная матрица порядка n . Любые две квадратные матрицы одного порядка можно складывать и умножать. Элементы a ii образуют главную диагональ квадратной матрицы. Они лежат на воображаемой прямой, которая проходит из верхнего левого угла в нижний правый угол матрицы.
Если все элементы A ниже главной диагонали равны нулю, A называется верхней треугольной матрицей . Аналогично, если все элементы A выше главной диагонали равны нулю, A называется нижней треугольной матрицей . Если все элементы вне главной диагонали равны нулю, A называется диагональной матрицей .
Единичная матрица I n размера n — это матрица n на n , в которой все элементы на главной диагонали равны 1, а все остальные элементы равны 0, например, Это квадратная матрица порядка n , а также особый вид диагональной матрицы . Она называется единичной матрицей, потому что умножение на нее оставляет матрицу неизменной: для любой матрицы A размером m на n .
Ненулевое скалярное кратное единичной матрицы называется скалярной матрицей. Если элементы матрицы поступают из поля, скалярные матрицы образуют группу при умножении матриц, которая изоморфна мультипликативной группе ненулевых элементов поля.
Квадратная матрица A , равная своей транспонированной матрице, то есть A = A T , является симметричной матрицей . Если же A равна отрицательной своей транспонированной матрице, то есть A = − A T , то A является кососимметричной матрицей . В комплексных матрицах симметрия часто заменяется понятием эрмитовых матриц , которая удовлетворяет A ∗ = A , где звездочка или астериск обозначает сопряженную транспонированную матрицу, то есть транспонирование комплексно сопряженной матрицы A .
По спектральной теореме действительные симметричные матрицы и комплексные эрмитовы матрицы имеют собственный базис ; то есть каждый вектор выражается как линейная комбинация собственных векторов. В обоих случаях все собственные значения действительны. [27] Эту теорему можно обобщить на бесконечномерные ситуации, связанные с матрицами с бесконечным числом строк и столбцов, см. ниже.
Квадратная матрица A называется обратимой или невырожденной , если существует матрица B такая, что [28] [29] где I n — единичная матрица n × n с единицами на главной диагонали и нулями в остальных местах. Если B существует , она уникальна и называется обратной матрицей A , обозначаемой A −1 .
Симметричная действительная матрица A называется положительно-определенной , если соответствующая квадратичная форма имеет положительное значение для каждого ненулевого вектора x в Если f ( x ) дает только отрицательные значения, то A является отрицательно-определенной ; если f дает как отрицательные, так и положительные значения, то A является неопределенной . [30] Если квадратичная форма f дает только неотрицательные значения (положительные или ноль), симметричная матрица называется положительно-полуопределенной (или если только неположительные значения, то отрицательно-полуопределенной); следовательно, матрица является неопределенной в точности тогда, когда она не является ни положительно-полуопределенной, ни отрицательно-полуопределенной.
Симметричная матрица положительно определена тогда и только тогда, когда все ее собственные значения положительны, то есть матрица положительно полуопределена и обратима. [31] Таблица справа показывает две возможности для матриц 2 на 2.
Разрешение вместо этого использовать два разных вектора в качестве входных данных приводит к билинейной форме, связанной с A : [32]
В случае комплексных матриц применяются та же терминология и результат, при этом симметричная матрица , квадратичная форма , билинейная форма и транспонированная x T заменяются соответственно эрмитовой матрицей , эрмитовой формой , полуторалинейной формой и сопряженной транспонированной x H .
Ортогональная матрица — это квадратная матрица с действительными элементами, столбцы и строки которой являются ортогональными единичными векторами (то есть ортонормальными векторами). Эквивалентно, матрица A является ортогональной, если ее транспонирование равно ее инверсии :
что влечет за собой
где I n — единичная матрица размера n .
Ортогональная матрица A обязательно обратима (с обратным A −1 = A T ), унитарна ( A −1 = A * ) и нормальна ( A * A = AA * ). Определитель любой ортогональной матрицы равен либо +1 , либо −1 . Специальная ортогональная матрица — это ортогональная матрица с определителем +1. Как линейное преобразование , каждая ортогональная матрица с определителем +1 является чистым поворотом без отражения, т. е. преобразование сохраняет ориентацию преобразованной структуры, в то время как каждая ортогональная матрица с определителем -1 меняет ориентацию на обратную, т. е. является композицией чистого отражения и (возможно, нулевого) поворота. Единичные матрицы имеют определитель 1 и являются чистыми поворотами на нулевой угол.
Комплексным аналогом ортогональной матрицы является унитарная матрица .
След , tr( A ) квадратной матрицы A — это сумма ее диагональных элементов. Хотя умножение матриц не является коммутативным, как упоминалось выше, след произведения двух матриц не зависит от порядка множителей:
Это следует непосредственно из определения умножения матриц:
Из этого следует, что след произведения более чем двух матриц не зависит от циклических перестановок матриц, однако это, как правило, не применяется к произвольным перестановкам (например, tr( ABC ) ≠ tr( BAC ) , в общем случае). Кроме того, след матрицы равен следу ее транспонирования, то есть,
Определитель квадратной матрицы A (обозначается det( A ) или | A | ) — это число, кодирующее некоторые свойства матрицы. Матрица обратима тогда и только тогда, когда ее определитель отличен от нуля. Его абсолютное значение равно площади (в ) или объему (в ) изображения единичного квадрата (или куба), а его знак соответствует ориентации соответствующего линейного отображения: определитель положителен тогда и только тогда, когда ориентация сохраняется.
Определитель матриц 2 на 2 определяется выражением
Определитель матриц 3 на 3 включает 6 членов ( правило Сарруса ). Более длинная формула Лейбница обобщает эти две формулы на все измерения. [34]
Определитель произведения квадратных матриц равен произведению их определителей: или, используя альтернативную запись: [35] Добавление кратного любой строки к другой строке или кратного любого столбца к другому столбцу не меняет определитель. Перестановка двух строк или двух столбцов влияет на определитель, умножая его на −1. [36] Используя эти операции, любую матрицу можно преобразовать в нижнюю (или верхнюю) треугольную матрицу, и для таких матриц определитель равен произведению элементов на главной диагонали; это дает метод вычисления определителя любой матрицы. Наконец, разложение Лапласа выражает определитель в терминах миноров , то есть определителей меньших матриц. [37] Это расширение можно использовать для рекурсивного определения определителей (взяв в качестве начального случая определитель матрицы 1 на 1, который является ее единственным элементом, или даже определитель матрицы 0 на 0, который равен 1), что можно считать эквивалентным формуле Лейбница. Определители можно использовать для решения линейных систем с использованием правила Крамера , где деление определителей двух связанных квадратных матриц равно значению каждой из переменных системы. [38]
Число и ненулевой вектор v, удовлетворяющие
называются собственным значением и собственным вектором матрицы A соответственно. [39] [40] Число λ является собственным значением матрицы A размера n × n тогда и только тогда, когда ( A − λ I n ) необратимо, что эквивалентно
Многочлен p A в неопределенном X , заданном вычислением определителя det( X I n − A ), называется характеристическим многочленом матрицы A . Это монический многочлен степени n . Поэтому полиномиальное уравнение p A (λ) = 0 имеет не более n различных решений, то есть собственных значений матрицы. [42] Они могут быть комплексными, даже если элементы матрицы A действительны. Согласно теореме Кэли–Гамильтона , p A ( A ) = 0 , то есть результат подстановки самой матрицы в ее характеристический многочлен дает нулевую матрицу .
Матричные вычисления часто можно выполнять с помощью различных методов. Многие проблемы можно решить как прямыми алгоритмами, так и итеративными подходами. Например, собственные векторы квадратной матрицы можно получить, найдя последовательность векторов x n , сходящуюся к собственному вектору, когда n стремится к бесконечности . [43]
Чтобы выбрать наиболее подходящий алгоритм для каждой конкретной задачи, важно определить как эффективность, так и точность всех доступных алгоритмов. Область, изучающая эти вопросы, называется числовой линейной алгеброй . [44] Как и в других числовых ситуациях, два основных аспекта — это сложность алгоритмов и их численная устойчивость .
Определение сложности алгоритма означает нахождение верхних границ или оценок того, сколько элементарных операций, таких как сложения и умножения скаляров, необходимо для выполнения некоторого алгоритма, например, умножения матриц . Вычисление матричного произведения двух матриц размером n на n с использованием приведенного выше определения требует n 3 умножений, поскольку для любого из n 2 элементов произведения необходимо n умножений. Алгоритм Штрассена превосходит этот «наивный» алгоритм; ему требуется всего n 2,807 умножений. [45] Усовершенствованный подход также включает в себя специфические особенности вычислительных устройств.
Во многих практических ситуациях известна дополнительная информация о задействованных матрицах. Важным случаем являются разреженные матрицы , то есть матрицы, большинство элементов которых равны нулю. Существуют специально адаптированные алгоритмы, например, для решения линейных систем Ax = b для разреженных матриц A , такие как метод сопряженных градиентов . [46]
Алгоритм, грубо говоря, численно устойчив, если небольшие отклонения во входных значениях не приводят к большим отклонениям в результате. Например, вычисление обратной матрицы с помощью разложения Лапласа ( adj( A ) обозначает присоединенную матрицу A ) может привести к значительным ошибкам округления, если определитель матрицы очень мал. Норма матрицы может использоваться для фиксации обусловленности линейных алгебраических задач, таких как вычисление обратной матрицы. [47]
Большинство языков программирования поддерживают массивы, но не разработаны со встроенными командами для матриц. Вместо этого доступные внешние библиотеки предоставляют матричные операции над массивами почти во всех используемых в настоящее время языках программирования. Обработка матриц была одним из самых ранних числовых приложений компьютеров. [48] Оригинальный Dartmouth BASIC имел встроенные команды для матричной арифметики над массивами со времени его реализации во втором издании в 1964 году. Еще в 1970-х годах некоторые инженерные настольные компьютеры, такие как HP 9830, имели картриджи ROM для добавления команд BASIC для матриц . Некоторые компьютерные языки, такие как APL, были разработаны для манипулирования матрицами, и различные математические программы могут использоваться для помощи в вычислениях с матрицами. [49] По состоянию на 2023 год большинство компьютеров имеют некоторую форму встроенных матричных операций на низком уровне, реализующих стандартную спецификацию BLAS , на которую опираются большинство библиотек матриц и линейной алгебры более высокого уровня (например, EISPACK , LINPACK , LAPACK ). Хотя большинство этих библиотек требуют профессионального уровня кодирования, доступ к LAPACK можно получить с помощью более высокоуровневых (и удобных для пользователя) привязок, таких как NumPy / SciPy , R , GNU Octave , MATLAB .
Существует несколько методов преобразования матриц в более доступную форму. Обычно их называют методами разложения матриц или факторизации матриц . Интерес всех этих методов заключается в том, что они сохраняют определенные свойства рассматриваемых матриц, такие как определитель, ранг или обратная матрица, так что эти величины могут быть вычислены после применения преобразования, или в том, что определенные матричные операции алгоритмически проще выполнять для некоторых типов матриц.
Матрицы разложения LU разлагаются на множители как произведение нижней ( L ) и верхней треугольной матриц ( U ). [50] После вычисления этого разложения линейные системы могут быть решены более эффективно с помощью простого метода, называемого прямой и обратной подстановкой . Аналогично, обратные треугольным матрицам алгоритмически вычисляются проще. Гауссово исключение — похожий алгоритм; оно преобразует любую матрицу в ступенчатую форму строк . [51] Оба метода выполняются путем умножения матрицы на подходящие элементарные матрицы , которые соответствуют перестановке строк или столбцов и добавлению кратных одной строки к другой строке. Разложение по сингулярному значению выражает любую матрицу A как произведение UDV ∗ , где U и V — унитарные матрицы , а D — диагональная матрица.
Собственное разложение или диагонализация выражает A как произведение VDV −1 , где D — диагональная матрица, а V — подходящая обратимая матрица. [52] Если A можно записать в такой форме, она называется диагонализуемой . В более общем смысле и применимо ко всем матрицам, разложение Жордана преобразует матрицу в нормальную форму Жордана , то есть матрицы, единственными ненулевыми элементами которых являются собственные значения от λ 1 до λ n матрицы A , размещенные на главной диагонали и, возможно, элементы, равные единице непосредственно над главной диагональю, как показано справа. [53] Учитывая собственное разложение, n- ю степень A (то есть n -кратное итеративное умножение матриц) можно вычислить с помощью , а степень диагональной матрицы можно вычислить, взяв соответствующие степени диагональных элементов, что намного проще, чем выполнять возведение в степень для A вместо этого. Это можно использовать для вычисления матричной экспоненты e A , необходимость в которой часто возникает при решении линейных дифференциальных уравнений , матричных логарифмов и квадратных корней матриц . [54] Чтобы избежать численно плохо обусловленных ситуаций, можно использовать дополнительные алгоритмы, такие как разложение Шура . [55]
Матрицы могут быть обобщены разными способами. Абстрактная алгебра использует матрицы с записями в более общих полях или даже кольцах , в то время как линейная алгебра кодифицирует свойства матриц в понятии линейных отображений. Можно рассматривать матрицы с бесконечным числом столбцов и строк. Другое расширение — тензоры , которые можно рассматривать как многомерные массивы чисел, в отличие от векторов, которые часто можно реализовать как последовательности чисел, в то время как матрицы представляют собой прямоугольные или двумерные массивы чисел. [56] Матрицы, при соблюдении определенных требований, имеют тенденцию образовывать группы, известные как матричные группы. Аналогично при определенных условиях матрицы образуют кольца, известные как матричные кольца . Хотя произведение матриц в общем случае не является коммутативным, некоторые матрицы образуют поля, известные как матричные поля . В общем случае матрицы и их умножение также образуют категорию , категорию матриц .
В этой статье основное внимание уделяется матрицам, элементы которых являются действительными или комплексными числами. Однако матрицы можно рассматривать с гораздо более общими типами элементов, чем действительные или комплексные числа. В качестве первого шага обобщения любое поле , то есть множество , где определены и хорошо ведут себя операции сложения , вычитания , умножения и деления , может использоваться вместо или например, рациональных чисел или конечных полей . Например, теория кодирования использует матрицы над конечными полями. Везде, где рассматриваются собственные значения , поскольку они являются корнями многочлена, они могут существовать только в большем поле, чем поле элементов матрицы; например, они могут быть комплексными в случае матрицы с действительными элементами. Возможность переосмыслить элементы матрицы как элементы большего поля (например, рассматривать действительную матрицу как комплексную матрицу, элементы которой все действительные), затем позволяет считать, что каждая квадратная матрица обладает полным набором собственных значений. В качестве альтернативы можно рассматривать только матрицы с элементами в алгебраически замкнутом поле , например, с самого начала.
В более общем смысле, матрицы с элементами в кольце R широко используются в математике. [57] Кольца являются более общим понятием, чем поля, в том смысле, что операция деления не обязательно должна существовать. Те же самые операции сложения и умножения матриц распространяются и на эту настройку. Множество M( n , R ) (также обозначаемое M n (R) [7] ) всех квадратных матриц n на n над R является кольцом , называемым матричным кольцом , изоморфным кольцу эндоморфизмов левого R - модуля R n . [58] Если кольцо R коммутативно , то есть его умножение коммутативно, то кольцо M( n , R ) также является ассоциативной алгеброй над R . Определитель квадратных матриц над коммутативным кольцом R по-прежнему можно определить с помощью формулы Лейбница ; Такая матрица обратима тогда и только тогда, когда ее определитель обратим в R , обобщая ситуацию над полем F , где каждый ненулевой элемент обратим. [59] Матрицы над суперкольцами называются суперматрицами . [60]
Матрицы не всегда имеют все свои записи в одном и том же кольце – или даже в каком-либо кольце вообще. Один особый, но распространенный случай – это блочные матрицы , которые можно рассматривать как матрицы, записи которых сами являются матрицами. Записи не обязательно должны быть квадратными матрицами, и, таким образом, не обязательно должны быть членами какого-либо кольца ; но их размеры должны удовлетворять определенным условиям совместимости.
Линейные отображения эквивалентны матрицам m на n , как описано выше. В более общем смысле, любое линейное отображение f : V → W между конечномерными векторными пространствами может быть описано матрицей A = ( a ij ) , после выбора базисов v 1 , ..., v n для V , и w 1 , ..., w m для W (так что n — размерность V , а m — размерность W ), которая такова, что
Другими словами, столбец j матрицы A выражает образ v j в терминах базисных векторов w I матрицы W ; таким образом, это отношение однозначно определяет элементы матрицы A . Матрица зависит от выбора базисов: различный выбор базисов приводит к разным, но эквивалентным матрицам . [61] Многие из приведенных выше конкретных понятий могут быть переосмыслены в этом свете, например, транспонированная матрица A T описывает транспонирование линейного отображения , заданного A , относительно двойственных базисов . [62]
Эти свойства можно переформулировать более естественно: категория матриц с записями в поле с умножением в качестве композиции эквивалентна категории конечномерных векторных пространств и линейных отображений над этим полем. [63]
В более общем случае набор матриц размера m × n можно использовать для представления R -линейных отображений между свободными модулями R m и R n для произвольного кольца R с единицей. При n = m возможна композиция этих отображений, и это приводит к кольцу матриц размера n × n , представляющему кольцо эндоморфизмов R n .
Группа — это математическая структура, состоящая из набора объектов вместе с бинарной операцией , то есть операцией, объединяющей любые два объекта в третий, при соблюдении определенных требований. [64] Группа , в которой объекты являются матрицами, а групповая операция — умножение матриц, называется матричной группой . [65] [66] Поскольку группа из каждого элемента должна быть обратимой, наиболее общими матричными группами являются группы всех обратимых матриц заданного размера, называемые общими линейными группами .
Любое свойство матриц, которое сохраняется при матричном произведении и обратных матрицах, может быть использовано для определения дополнительных матричных групп. Например, матрицы с заданным размером и с определителем 1 образуют подгруппу ( то есть меньшую группу, содержащуюся в) их общей линейной группы, называемую специальной линейной группой . [67] Ортогональные матрицы , определяемые условием, образуют ортогональную группу . [68] Каждая ортогональная матрица имеет определитель 1 или −1. Ортогональные матрицы с определителем 1 образуют подгруппу, называемую специальной ортогональной группой .
Каждая конечная группа изоморфна матричной группе, как можно увидеть, рассмотрев регулярное представление симметрической группы . [69] Общие группы можно изучать с помощью матричных групп, которые сравнительно хорошо изучены, используя теорию представлений . [70]
Также возможно рассматривать матрицы с бесконечным числом строк и/или столбцов [71], хотя, будучи бесконечными объектами, нельзя явно записать такие матрицы. Важно лишь то, что для каждого элемента в наборе индексных строк и каждого элемента в наборе индексных столбцов существует четко определенная запись (эти наборы индексов даже не обязательно должны быть подмножествами натуральных чисел). Базовые операции сложения, вычитания, скалярного умножения и транспонирования по-прежнему можно определить без проблем; однако умножение матриц может включать бесконечные суммирования для определения результирующих записей, и они не определены в общем случае.
Если R — любое кольцо с единицей, то кольцо эндоморфизмов как правого R- модуля изоморфно кольцу столбцово-конечных матриц , элементы которых индексируются как , и каждый столбец которых содержит только конечное число ненулевых элементов. Эндоморфизмы M , рассматриваемые как левый R- модуль, приводят к аналогичному объекту — строко-конечным матрицам, каждая строка которых содержит только конечное число ненулевых элементов.
Если для описания линейных отображений используются бесконечные матрицы, то можно использовать только те матрицы, все столбцы которых имеют конечное число ненулевых элементов, по следующей причине. Для того чтобы матрица A описывала линейное отображение f : V → W , должны быть выбраны базисы для обоих пространств; напомним, что по определению это означает, что каждый вектор в пространстве может быть записан однозначно как (конечная) линейная комбинация базисных векторов, так что, записанный как вектор (столбец) ve коэффициентов , только конечное число элементов v I ненулевые . Теперь столбцы A описывают образы с помощью f отдельных базисных векторов V в базисе W , что имеет смысл только в том случае, если эти столбцы имеют только конечное число ненулевых элементов. Однако на строки A нет ограничений : в произведении A · v задействовано только конечное число ненулевых коэффициентов v , поэтому каждый из его элементов, даже если он задан как бесконечная сумма произведений, включает только конечное число ненулевых членов и, следовательно, хорошо определен. Более того, это равносильно формированию линейной комбинации столбцов матрицы A , которая фактически включает только конечное число из них, откуда результат имеет только конечное число ненулевых элементов, поскольку каждый из этих столбцов имеет. Произведения двух матриц данного типа хорошо определены (при условии, что наборы индексов столбцов и строк совпадают), имеют один и тот же тип и соответствуют композиции линейных отображений.
Если R — нормированное кольцо, то условие конечности строк или столбцов можно ослабить. При наличии нормы вместо конечных сумм можно использовать абсолютно сходящиеся ряды . Например, матрицы, суммы столбцов которых являются сходящимися последовательностями, образуют кольцо. Аналогично, матрицы, суммы строк которых являются сходящимися рядами, также образуют кольцо.
Бесконечные матрицы также могут использоваться для описания операторов в гильбертовых пространствах , где возникают вопросы сходимости и непрерывности , что снова приводит к определенным ограничениям, которые должны быть наложены. Однако явная точка зрения матриц имеет тенденцию запутывать вопрос, [72] и вместо этого можно использовать абстрактные и более мощные инструменты функционального анализа .
Пустая матрица — это матрица, в которой число строк или столбцов (или и того, и другого) равно нулю. [73] [74] Пустые матрицы помогают работать с картами, включающими нулевое векторное пространство . Например, если A — матрица размером 3 на 0, а B — матрица размером 0 на 3, то AB — это нулевая матрица размером 3 на 3, соответствующая нулевому отображению из трехмерного пространства V в себя, в то время как BA — матрица размером 0 на 0. Общего обозначения для пустых матриц не существует, но большинство систем компьютерной алгебры позволяют создавать и вычислять их. Определитель матрицы размером 0 на 0 равен 1, как следует из пустого произведения, встречающегося в формуле Лейбница для определителя как 1. Это значение также согласуется с тем фактом, что тождественное отображение из любого конечномерного пространства в себя имеет определитель, равный 1, — факт, который часто используется как часть характеристики определителей.
Существует множество приложений матриц, как в математике, так и в других науках. Некоторые из них просто используют преимущество компактного представления набора чисел в матрице. Например, в теории игр и экономике матрица выигрыша кодирует выигрыш для двух игроков в зависимости от того, какую из заданного (конечного) набора стратегий выбирают игроки. [75] Текстовый анализ и автоматизированное составление тезауруса используют матрицы терминов документов, такие как tf-idf, для отслеживания частот определенных слов в нескольких документах. [76]
Комплексные числа могут быть представлены конкретными действительными матрицами 2 на 2 с помощью
при котором сложение и умножение комплексных чисел и матриц соответствуют друг другу. Например, матрицы вращения 2x2 представляют собой умножение на некоторое комплексное число с абсолютным значением 1, как указано выше. Подобная интерпретация возможна для кватернионов [77] и алгебр Клиффорда в целом.
Ранние методы шифрования , такие как шифр Хилла, также использовали матрицы. Однако из-за линейной природы матриц эти коды сравнительно легко взломать. [78] Компьютерная графика использует матрицы для представления объектов; для вычисления преобразований объектов с использованием матриц аффинного вращения для выполнения таких задач, как проецирование трехмерного объекта на двумерный экран, соответствующий теоретическому наблюдению камеры; и для применения сверток изображений, таких как повышение резкости, размытие, обнаружение краев и многое другое. [79] Матрицы над полиномиальным кольцом важны при изучении теории управления .
Химия использует матрицы различными способами, особенно с момента использования квантовой теории для обсуждения молекулярной связи и спектроскопии . Примерами являются матрица перекрытия и матрица Фока, используемые при решении уравнений Рутана для получения молекулярных орбиталей метода Хартри-Фока .
Матрица смежности конечного графа является базовым понятием теории графов . [80] Она записывает, какие вершины графа соединены ребром. Матрицы, содержащие только два различных значения (например, 1 и 0 означают «да» и «нет» соответственно), называются логическими матрицами . Матрица расстояний (или стоимости) содержит информацию о расстояниях до ребер. [81] Эти концепции могут быть применены к веб-сайтам, связанным гиперссылками , или городам, связанным дорогами и т. д., в этом случае (если только сеть соединений не является чрезвычайно плотной) матрицы, как правило, будут разреженными , то есть содержать мало ненулевых записей. Поэтому в теории сетей могут использоваться специально разработанные матричные алгоритмы .
Матрица Гессе дифференцируемой функции состоит из вторых производных функции ƒ относительно нескольких направлений координат, то есть [82]
Он кодирует информацию о локальном поведении роста функции: задана критическая точка x = ( x 1 , ..., x n ) , то есть точка, в которой первые частные производные ƒ обращаются в нуль, функция имеет локальный минимум , если матрица Гессе положительно определена . Квадратичное программирование можно использовать для поиска глобальных минимумов или максимумов квадратичных функций, тесно связанных с теми, которые прикреплены к матрицам (см. выше). [83]
Другой матрицей, часто используемой в геометрических ситуациях, является матрица Якоби дифференцируемого отображения. Если f 1 , ..., f m обозначают компоненты f , то матрица Якоби определяется как [84]
Если n > m и если ранг матрицы Якоби достигает своего максимального значения m , то f локально обратима в этой точке по теореме о неявной функции . [85]
Уравнения с частными производными можно классифицировать, рассматривая матрицу коэффициентов дифференциальных операторов высшего порядка уравнения. Для эллиптических уравнений с частными производными эта матрица является положительно определенной, что оказывает решающее влияние на множество возможных решений рассматриваемого уравнения. [86]
Метод конечных элементов является важным численным методом решения уравнений с частными производными, широко применяемым при моделировании сложных физических систем. Он пытается аппроксимировать решение некоторого уравнения кусочно-линейными функциями, где части выбираются относительно достаточно мелкой сетки, которая в свою очередь может быть преобразована в матричное уравнение. [87]
Стохастические матрицы — это квадратные матрицы, строки которых являются векторами вероятностей , то есть элементы которых неотрицательны и в сумме дают единицу. Стохастические матрицы используются для определения цепей Маркова с конечным числом состояний. [88] Строка стохастической матрицы дает распределение вероятностей для следующей позиции некоторой частицы, которая в данный момент находится в состоянии, соответствующем строке. Свойства поглощающих состояний , подобных цепи Маркова , то есть состояний, которых в конечном итоге достигает любая частица, можно прочитать из собственных векторов матриц перехода. [89]
Статистика также использует матрицы во многих различных формах. [90] Описательная статистика занимается описанием наборов данных, которые часто могут быть представлены как матрицы данных , которые затем могут быть подвергнуты методам снижения размерности . Ковариационная матрица кодирует взаимную дисперсию нескольких случайных величин . [91] Другой метод, использующий матрицы, — это линейный метод наименьших квадратов , метод, который аппроксимирует конечный набор пар ( x 1 , y 1 ), ( x 2 , y 2 ), ..., ( x N , y N ) линейной функцией
которые можно сформулировать в терминах матриц, связанных с сингулярным разложением матриц. [92]
Случайные матрицы — это матрицы, элементы которых являются случайными числами, подчиняющимися подходящим распределениям вероятностей , таким как нормальное распределение матриц . Помимо теории вероятностей, они применяются в областях от теории чисел до физики . [93] [94]
Линейные преобразования и связанные с ними симметрии играют ключевую роль в современной физике. Например, элементарные частицы в квантовой теории поля классифицируются как представления группы Лоренца специальной теории относительности и, более конкретно, по их поведению под спиновой группой . Конкретные представления, включающие матрицы Паули и более общие гамма-матрицы, являются неотъемлемой частью физического описания фермионов , которые ведут себя как спиноры . [95] Для трех легчайших кварков существует групповое теоретико-представление, включающее специальную унитарную группу SU(3); для своих вычислений физики используют удобное матричное представление, известное как матрицы Гелл-Манна , которые также используются для калибровочной группы SU(3) , которая составляет основу современного описания сильных ядерных взаимодействий, квантовой хромодинамики . Матрица Кабиббо–Кобаяши–Маскавы , в свою очередь, выражает тот факт, что основные состояния кварков, которые важны для слабых взаимодействий, не совпадают, а линейно связаны с основными состояниями кварков, которые определяют частицы с определенными и различными массами . [96]
Первая модель квантовой механики ( Гейзенберг , 1925) представляла операторы теории бесконечномерными матрицами, действующими на квантовые состояния. [97] Это также называется матричной механикой . Одним из конкретных примеров является матрица плотности , которая характеризует «смешанное» состояние квантовой системы как линейную комбинацию элементарных, «чистых» собственных состояний . [98]
Другая матрица служит ключевым инструментом для описания экспериментов по рассеянию, которые являются краеугольным камнем экспериментальной физики частиц: реакции столкновений, такие как те, которые происходят в ускорителях частиц , где невзаимодействующие частицы направляются друг к другу и сталкиваются в небольшой зоне взаимодействия, с новым набором невзаимодействующих частиц в качестве результата, могут быть описаны как скалярное произведение исходящих состояний частиц и линейной комбинации входящих состояний частиц. Линейная комбинация задается матрицей, известной как S-матрица , которая кодирует всю информацию о возможных взаимодействиях между частицами. [99]
Общим применением матриц в физике является описание линейно связанных гармонических систем. Уравнения движения таких систем могут быть описаны в матричной форме, с матрицей масс, умножающей обобщенную скорость, чтобы дать кинетический член, и матрицей сил , умножающей вектор смещения, чтобы охарактеризовать взаимодействия. Лучший способ получить решения — определить собственные векторы системы , ее нормальные моды , путем диагонализации матричного уравнения. Подобные методы имеют решающее значение, когда речь идет о внутренней динамике молекул : внутренних колебаниях систем, состоящих из взаимно связанных атомов-компонентов. [100] Они также необходимы для описания механических колебаний и колебаний в электрических цепях. [101]
Геометрическая оптика обеспечивает дальнейшие матричные приложения. В этой аппроксимационной теории волновая природа света игнорируется. Результатом является модель, в которой световые лучи действительно являются геометрическими лучами . Если отклонение световых лучей оптическими элементами мало, действие линзы или отражающего элемента на данный световой луч можно выразить как умножение двухкомпонентного вектора на матрицу два на два, называемую анализом матрицы переноса лучей : компоненты вектора - это наклон светового луча и его расстояние от оптической оси, в то время как матрица кодирует свойства оптического элемента. Существует два вида матриц, а именно матрица рефракции, описывающая рефракцию на поверхности линзы, и матрица трансляции , описывающая трансляцию плоскости отсчета на следующую преломляющую поверхность, где применяется другая матрица рефракции. Оптическая система, состоящая из комбинации линз и/или отражающих элементов, просто описывается матрицей, полученной в результате произведения матриц компонентов. [102]
Традиционный сеточный анализ и узловой анализ в электронике приводят к системе линейных уравнений, которую можно описать с помощью матрицы.
Поведение многих электронных компонентов можно описать с помощью матриц. Пусть A — двумерный вектор с входным напряжением компонента v 1 и входным током I 1 в качестве его элементов, а B — двумерный вектор с выходным напряжением компонента v 2 и выходным током I 2 в качестве его элементов. Тогда поведение электронного компонента можно описать как B = H · A , где H — матрица 2 x 2, содержащая один элемент импеданса ( h 12 ), один элемент проводимости ( h 21 ) и два безразмерных элемента ( h 11 и h 22 ). Теперь расчет схемы сводится к умножению матриц.
Матрицы имеют долгую историю применения при решении линейных уравнений , но до 1800-х годов они были известны как массивы. Китайский текст «Девять глав математического искусства», написанный в 10–2 веках до н. э., является первым примером использования методов массивов для решения одновременных уравнений , [103] включая концепцию определителей . В 1545 году итальянский математик Джероламо Кардано представил этот метод в Европе, опубликовав Ars Magna . [104] Японский математик Секи использовал те же методы массивов для решения одновременных уравнений в 1683 году. [105] Голландский математик Ян де Витт представил преобразования с использованием массивов в своей книге 1659 года «Элементы кривых» (1659). [106] Между 1700 и 1710 годами Готфрид Вильгельм Лейбниц опубликовал использование массивов для записи информации или решений и экспериментировал с более чем 50 различными системами массивов. [104] Крамер представил свое правило в 1750 году.
Термин «матрица» (лат. «матка», «плотина» (нечеловеческое самка животного, содержащееся для разведения), «источник», «происхождение», «список» и «регистр» происходят от mater — мать [107] ) был придуман Джеймсом Джозефом Сильвестром в 1850 году, [108] который понимал матрицу как объект, дающий начало нескольким детерминантам, которые сегодня называются минорами , то есть детерминантам меньших матриц, которые выводятся из исходной путем удаления столбцов и строк. В статье 1851 года Сильвестр объясняет: [109]
В предыдущих работах я определил «Матрицу» как прямоугольный массив терминов, из которых из недр общего родителя могут быть порождены различные системы детерминант.
Артур Кэли опубликовал трактат о геометрических преобразованиях с использованием матриц, которые не были повернутыми версиями исследуемых коэффициентов, как это делалось ранее. Вместо этого он определил такие операции, как сложение, вычитание, умножение и деление, как преобразования этих матриц и показал сохраняющиеся ассоциативные и дистрибутивные свойства. Кэли исследовал и продемонстрировал некоммутативное свойство умножения матриц, а также коммутативное свойство сложения матриц. [104] Ранняя теория матриц ограничивала использование массивов почти исключительно определителями, и абстрактные матричные операции Артура Кэли были революционными. Он сыграл важную роль в предложении концепции матрицы, независимой от систем уравнений. В 1858 году Кэли опубликовал свои «Мемуары по теории матриц» [110] [111] , в которых он предложил и продемонстрировал теорему Кэли–Гамильтона . [104]
Английский математик Катберт Эдмунд Куллис был первым, кто использовал современную скобочную запись для матриц в 1913 году, и одновременно он продемонстрировал первое значимое использование записи A = [ a i,j ] для представления матрицы, где a i,j относится к i -й строке и j -му столбцу. [104]
Современное изучение определителей возникло из нескольких источников. [112] Проблемы теории чисел привели Гаусса к установлению связи коэффициентов квадратичных форм , то есть выражений, таких как x 2 + xy − 2 y 2 , и линейных отображений в трех измерениях с матрицами. Эйзенштейн далее развил эти понятия, включая замечание о том, что, выражаясь современным языком, матричные произведения некоммутативны . Коши был первым , кто доказал общие утверждения об определителях , используя в качестве определения определителя матрицы A = [ a i, j ] следующее: замените степени aк
джна jk в многочлене
где обозначает произведение указанных членов. Он также показал в 1829 году, что собственные значения симметричных матриц являются действительными. [113] Якоби изучал «функциональные определители» — позже названные Сильвестром определителями Якоби — которые могут быть использованы для описания геометрических преобразований на локальном (или бесконечно малом ) уровне, см. выше. Vorlesungen über die Theorie der Determinanten Кронекера [ 114] и Zur Determinantentheorie Вейерштрасса [115] , обе опубликованные в 1903 году, впервые трактовали определители аксиоматически , в отличие от предыдущих более конкретных подходов, таких как упомянутая формула Коши. В этот момент определители были твердо установлены.
Многие теоремы были впервые установлены только для небольших матриц, например, теорема Кэли–Гамильтона была доказана для матриц 2×2 Кэли в вышеупомянутом мемуаре, а Гамильтон — для матриц 4×4. Фробениус , работая над билинейными формами , обобщил теорему на все измерения (1898). Также в конце 19-го века исключение Гаусса–Жордана (обобщающее особый случай, теперь известный как исключение Гаусса ) было установлено Вильгельмом Йорданом . В начале 20-го века матрицы приобрели центральную роль в линейной алгебре, [116] частично из-за их использования в классификации гиперкомплексных числовых систем предыдущего столетия.
Создание матричной механики Гейзенбергом , Борном и Йорданом привело к изучению матриц с бесконечным числом строк и столбцов. [117] Позднее фон Нейман осуществил математическую формулировку квантовой механики , разработав далее функционально-аналитические понятия , такие как линейные операторы в гильбертовых пространствах , которые, грубо говоря, соответствуют евклидову пространству , но с бесконечным числом независимых направлений .
Это слово использовалось в необычных значениях по крайней мере двумя авторами, имеющими историческое значение.
Бертран Рассел и Альфред Норт Уайтхед в своих Principia Mathematica (1910–1913) используют слово «матрица» в контексте своей аксиомы сводимости . Они предложили эту аксиому как средство последовательного сведения любой функции к функции более низкого типа, так что в «низшей точке» (0-го порядка) функция идентична своему расширению : [118]
Давайте дадим название матрице любой функции, от любого числа переменных, которая не включает в себя никаких кажущихся переменных . Тогда любая возможная функция, отличная от матрицы, выводится из матрицы с помощью обобщения, то есть путем рассмотрения предложения о том, что рассматриваемая функция истинна со всеми возможными значениями или с некоторым значением одного из аргументов, а другой аргумент или аргументы остаются неопределенными.
Например, функцию Φ( x, y ) двух переменных x и y можно свести к набору функций одной переменной, например, y , «рассмотрев» функцию для всех возможных значений «индивидуумов» a i , подставленных вместо переменной x . И затем полученный набор функций одной переменной y , то есть ∀ a i : Φ( a i , y ) , можно свести к «матрице» значений, «рассмотрев» функцию для всех возможных значений «индивидуумов» b i , подставленных вместо переменной y :
Альфред Тарский в своем «Введении в логику» 1946 года использовал слово «матрица» как синоним понятия таблицы истинности , используемой в математической логике. [119]
{{citation}}
: CS1 maint: unfit URL (link)