Autovalori e Autovettori
Prerequisiti di algebra lineare
Definizioni
Sia \boldsymbol{A}\in \Bbb{K}^{n \times n} una matrice quadrata con elementi nel campo \Bbb{K}. Consideriamo la matrice \boldsymbol{M}(\lambda), che dipende dallo scalare \lambda \in \Bbb{K}, definita dalla relazione
\boldsymbol{M}(\lambda) = \boldsymbol{A}- \lambda \boldsymbol{I},
dove \boldsymbol{I} rappresenta la matrice identità di dimensione n.
Ci poniamo la seguente domanda: per quali valori dello scalare \lambda la matrice \boldsymbol{M}(\lambda) e la sua trasposta \boldsymbol{M}^T(\lambda) sono singolari?
Una matrice è singolare se il suo determinante è nullo, cioè se non è di rango massimo. Quindi, la condizione di singolarità per \boldsymbol{M}(\lambda) e \boldsymbol{M}^T(\lambda) si traduce nella richiesta che il loro determinante sia nullo:
\det(\boldsymbol{M}(\lambda)) = 0 \quad \text{e} \quad \det(\boldsymbol{M}^T(\lambda)) = 0.
Poiché vale la proprietà
\det(\boldsymbol{M}(\lambda)) = \det(\boldsymbol{M}^T(\lambda)),
ne segue che i valori di \lambda che rendono singolare \boldsymbol{M}(\lambda) coincidono con quelli che rendono singolare \boldsymbol{M}^T(\lambda). In altre parole, gli scalari \lambda per cui \det(\boldsymbol{M}(\lambda)) = 0 sono gli stessi per entrambe le matrici.
Definizione 1 (Definizione di Autovalore) I valori di \lambda che rendono singolare la matrice \boldsymbol{M}(\lambda) – e quindi anche \boldsymbol{M}^T(\lambda) – sono detti autovalori di \boldsymbol{A}.
Polinomio Caratteristico
Il determinante della matrice \boldsymbol{M}(\lambda) è un polinomio in \lambda di grado n. Questo polinomio si chiama polinomio caratteristico di \boldsymbol{A}.
Lemma 1 (struttura del polinomio Caratteristico) Il determinante della matrice \boldsymbol{M}(\lambda) = \boldsymbol{A}- \lambda \boldsymbol{I} è un polinomio in \lambda di grado n.
La struttura ricorsiva del determinante può essere descritta come segue. Per una matrice \boldsymbol{A}- \lambda \boldsymbol{I} di ordine n, possiamo sviluppare il determinante lungo una riga o una colonna. Sviluppando lungo la prima riga, si ottiene:
\det(\boldsymbol{M}(\lambda)) = \sum_{j=1}^{n} (-1)^{1+j} (\boldsymbol{A}_{1,j} - \lambda \delta_{1,j}) \det(\boldsymbol{A}_{-1,-j} - \lambda \boldsymbol{I}_{-1,-j}),
dove:
\boldsymbol{A}_{-1,-j} è la matrice ottenuta eliminando la prima riga e la j-esima colonna da \boldsymbol{A},
\boldsymbol{I}_{-1,-j} è la matrice identità corrispondente di ordine ridotto.
Il determinante di ciascuna sottomatrice \boldsymbol{A}_{-1,-j} - \lambda \boldsymbol{I}_{-1,-j} può essere sviluppato ulteriormente allo stesso modo. Questo processo ricorsivo termina quando il determinante si riduce a una matrice 1 \times 1, il cui determinante è semplicemente l’elemento \boldsymbol{A}_{i,i} - \lambda.
Dato che ogni passo dello sviluppo del determinante introduce termini lineari in \lambda, il risultato finale è un polinomio in \lambda di grado al massimo n.
Poiché una matrice è singolare quando il suo determinante è nullo, la condizione di singolarità per \boldsymbol{M}(\lambda) ci porta alla seguente definizione.
Definizione 2 (Definizione: Polinomio Caratteristico) Il polinomio
p_{\boldsymbol{A}}(\lambda) = \det(\boldsymbol{A}- \lambda \boldsymbol{I}),
è detto polinomio caratteristico della matrice \boldsymbol{A}.
Per il teorema fondamentale dell’algebra il polinomio caratteristico si fattorizza come prodotto di binomi elevati ad opportuni esponenti m_{a,i}
p_{\boldsymbol{A}}(\lambda) = (-1)^{n} (\lambda-\lambda_1)^{m_{a,1}} (\lambda-\lambda_2)^{m_{a,2}}\cdots (\lambda-\lambda_s)^{m_{a,s}}, \tag{1}
dove m_{a,1}+m_{a,2}+\cdots+m_{a,s}=n e \lambda_i\neq\lambda_j se i\neq j.
Definizione 3 (Molteplicità algebrica) Se il polinomio caratteristico di \boldsymbol{A} ammette s\leq n zeri distinti che sono gli s autovalori, e si fattorizza come sopra, ad ogni autovalore \lambda_i compete una molteplicità algebrica m_{a,i}.
Se la matrice \boldsymbol{M}(\lambda) è singolare per un dato valore dello scalare \lambda, allora deve esistere almeno un vettore \boldsymbol{x}\neq\boldsymbol{0} tale che
\boldsymbol{M}(\lambda)\boldsymbol{x}= (\boldsymbol{A}-\lambda\boldsymbol{I})\boldsymbol{x}= \boldsymbol{0}.
Analogamente se la matrice \boldsymbol{M}(\lambda)^T è singolare per un dato valore dello scalare \lambda, allora deve esistere almeno un vettore \boldsymbol{y}\neq\boldsymbol{0} tale che
\boldsymbol{M}(\lambda)^T\boldsymbol{y}= (\boldsymbol{A}^T-\lambda\boldsymbol{I})\boldsymbol{y}= \boldsymbol{0},
cioè, trasponendo,
\boldsymbol{y}^T\boldsymbol{M}(\lambda) = \boldsymbol{y}(\boldsymbol{A}-\lambda\boldsymbol{I}) = \boldsymbol{0}^T.
In generale si ha che \boldsymbol{x}\neq\boldsymbol{y}, anche se si riferiscono allo stesso scalare \lambda che rende singolari \boldsymbol{M}(\lambda) e \boldsymbol{M}^T(\lambda).
Autovettori
Definizione 4 (Autovettore destro) Un vettore colonna \boldsymbol{u}\neq\boldsymbol{0} è un autovettore destro della matrice \boldsymbol{A} rispetto ad uno scalare \lambda se vale la relazione
\boldsymbol{A}\boldsymbol{u}= \lambda\boldsymbol{u}.
Definizione 5 (Autovettore sinistro) Un vettore riga \boldsymbol{w}^T\neq\boldsymbol{0} è un autovettore sinistro della matrice \boldsymbol{A} rispetto ad uno scalare \lambda se vale la relazione
\boldsymbol{w}^T\boldsymbol{A}= \lambda\boldsymbol{w}^T.
cioè \boldsymbol{w} è autovettore di \boldsymbol{A}^T.
Autovalori multipli
Lemma 2 (Autovalori Multipli) Se \boldsymbol{x}_1, \boldsymbol{x}_2, \ldots, \boldsymbol{x}_k sono k autovettori associati allo stesso autovalore \lambda_i, allora ogni loro combinazione lineare è anch’essa un autovettore corrispondente allo stesso autovalore.
Dimostrazione. Siano \beta_1, \beta_2, \ldots, \beta_k dei scalari arbitrari. Allora, per ogni combinazione lineare degli autovettori \boldsymbol{x}_1, \boldsymbol{x}_2, \ldots, \boldsymbol{x}_k, si ha:
\boldsymbol{A}\left(\sum_{j=1}^{k} \beta_j\boldsymbol{x}_j\right) = \sum_{j=1}^{k} \beta_j \boldsymbol{A}\boldsymbol{x}_j = \sum_{j=1}^{k} \beta_j \lambda_i \boldsymbol{x}_j = \lambda_i \left(\sum_{j=1}^{k} \beta_j \boldsymbol{x}_j\right).
Quindi, la combinazione lineare \sum_{j=1}^{k} \beta_j \boldsymbol{x}_j è un autovettore rispetto allo stesso autovalore \lambda_i.
Molteplicità Geometrica
Definizione 6 (Definizione: Molteplicità Geometrica) La molteplicità geometrica di un autovalore \lambda_i, indicata con m_{g,i}, è il massimo numero di autovettori linearmente indipendenti che possono essere scelti nello spazio \ker(\boldsymbol{A}- \lambda_i \boldsymbol{I}) associato all’autovalore \lambda_i.
Molteplicità Algebrica
Definizione 7 (Definizione: Molteplicità Algebrica) La molteplicità algebrica di un autovalore \lambda_i di una matrice \boldsymbol{A} è definita come la molteplicità dell’autovalore \lambda_i come radice del polinomio caratteristico di \boldsymbol{A}. In altre parole, è il numero di volte che \lambda_i compare come radice del polinomio caratteristico
p_{\boldsymbol{A}}(\lambda) = \det(\boldsymbol{A}- \lambda \boldsymbol{I}),
dove \boldsymbol{I} è la matrice identità della stessa dimensione di \boldsymbol{A}. La molteplicità algebrica di \lambda_i è quindi il grado di \lambda_i come radice del polinomio caratteristico.
Teorema 1 (Molteplicità confronto) La molteplicità algebrica m_{a,i} di un autovalore \lambda_i è sempre maggiore o uguale alla corrispondente molteplicità geometrica m_{g,i}, cioè:
m_{a,i} \geq m_{g,i}.
Dimostrazione. Siano \boldsymbol{u}_1, \boldsymbol{u}_2, , \boldsymbol{u}_{m_{g,i}} gli autovettori corrispondenti a \lambda_i, che possiamo sempre considerare ortonormali (se necessario, possiamo ortonormalizzarli usando il processo di Gram-Schmidt).
Se m_{g,i} < n, completiamo con altri n - m_{g,i} vettori per ottenere una base ortonormale. Definiamo \boldsymbol{T} come la matrice le cui colonne sono questi vettori:
\boldsymbol{T}= \begin{pmatrix} \boldsymbol{u}_1 & \boldsymbol{u}_2 & \cdots & \boldsymbol{u}_{m_{g,i}} & \boldsymbol{u}_{m_{g,i}+1} & \cdots & \boldsymbol{u}_n \end{pmatrix},
dove \boldsymbol{T}^{T} \boldsymbol{T}= \boldsymbol{I} implica che \boldsymbol{T}^{T} = \boldsymbol{T}^{-1}.
Consideriamo la matrice \boldsymbol{A} trasformata dalla base ortonormale:
\boldsymbol{A}\boldsymbol{T}= \begin{pmatrix} \lambda_i \boldsymbol{u}_1 & \lambda_i \boldsymbol{u}_2 & \cdots & \lambda_i \boldsymbol{u}_{m_{g,i}} & \boldsymbol{w}& \cdots & \boldsymbol{z} \end{pmatrix}.
Pertanto, possiamo scrivere:
\boldsymbol{T}^{-1} \boldsymbol{A}\boldsymbol{T}= \boldsymbol{T}^T \boldsymbol{A}\boldsymbol{T}= \begin{pmatrix} \begin{matrix} \lambda_i & & \\ & \ddots & \\ & & \lambda_i \end{matrix} & \boldsymbol{B}\\ \hline \boldsymbol{0}& \boldsymbol{C} \end{pmatrix}.
Dove \boldsymbol{B} e \boldsymbol{C} rappresentano blocchi della matrice. Pertanto, il determinante del polinomio caratteristico è:
\begin{aligned} \det(\boldsymbol{A}- \lambda \boldsymbol{I}) &= \det(\boldsymbol{T}^{-1} (\boldsymbol{A}- \lambda \boldsymbol{I}) \boldsymbol{T}) \\ &= \det(\boldsymbol{T}^{-1} \boldsymbol{A}\boldsymbol{T}- \lambda \boldsymbol{I}) \\ &= \left| \begin{array}{cc} \begin{matrix} \lambda_i - \lambda & \\ & \ddots \\ & & \lambda_i - \lambda \end{matrix} & \boldsymbol{B}\\ \hline \boldsymbol{0}& \boldsymbol{C}- \lambda \boldsymbol{I} \end{array} \right| \\ &= (\lambda_i - \lambda)^{m_{g,i}} \det(\boldsymbol{C}- \lambda \boldsymbol{I}). \end{aligned}
Pertanto, \lambda_i è una radice del polinomio caratteristico con molteplicità almeno m_{g,i}, ma può essere superiore se \det(\boldsymbol{C}- \lambda_i \boldsymbol{I}) = 0. Concludiamo che m_{a,i} \geq m_{g,i}.
Matrici reali simmetriche e hermitiane
Ricordiamo le definizioni già introdotte nel capitolo riguardante vettori e matrici. Una matrice quadrata \boldsymbol{A} si dice simmetrica se soddisfa la condizione \boldsymbol{A}= \boldsymbol{A}^T, dove \boldsymbol{A}^T è la trasposta di \boldsymbol{A}. Allo stesso modo, una matrice quadrata è ermitiana se \boldsymbol{A}= \boldsymbol{A}^H, dove \boldsymbol{A}^H denota la trasposizione coniugata (o matrice di Hermite).
Definizione 8 (Matrice normale) Una matrice quadrata \boldsymbol{A} si dice normale se \boldsymbol{A}\boldsymbol{A}^H=\boldsymbol{A}^H\boldsymbol{A}.
Le proprietà di simmetria per matrici reali o di ermiticità per matrici complesse impongono condizioni molto forti sugli autovalori e sugli autovettori. In particolare, il seguente teorema è valido:
Teorema 2 Una matrice reale simmetrica o ermitiana ha solo autovalori reali.
Dimostrazione. Consideriamo una matrice reale \boldsymbol{A} simmetrica. Poiché ogni matrice reale simmetrica è anche ermitiana, il caso della matrice ermitiana è sufficientemente generico. Supponiamo quindi che \boldsymbol{A} sia ermitiana e che \lambda sia un autovalore con il corrispondente autovettore \boldsymbol{u}\neq \boldsymbol{0}. Moltiplicando a sinistra per \boldsymbol{u}^H, otteniamo:
\boldsymbol{A}\boldsymbol{u}= \lambda \boldsymbol{u}
da cui segue:
\boldsymbol{u}^H \boldsymbol{A}\boldsymbol{u}= \lambda \boldsymbol{u}^H \boldsymbol{u}= \lambda \|\boldsymbol{u}\|_2^2.
Isoliamo l’autovalore \lambda:
\boldsymbol{u}^H \boldsymbol{A}\boldsymbol{u}= \lambda \|\boldsymbol{u}\|_2^2 \quad \Rightarrow \quad \lambda = \frac{\boldsymbol{u}^H \boldsymbol{A}\boldsymbol{u}}{\|\boldsymbol{u}\|_2^2}.
Dalla definizione di norma e autovettore, il denominatore \|\boldsymbol{u}\|_2^2 è sicuramente un numero reale strettamente positivo. Inoltre, il numeratore \boldsymbol{u}^H \boldsymbol{A}\boldsymbol{u} è reale, come dimostrato dalla seguente sequenza di uguaglianze:
\begin{aligned} \boldsymbol{u}^H \boldsymbol{A}\boldsymbol{u}&= (\boldsymbol{u}^H \boldsymbol{A}\boldsymbol{u})^T, \\ &= \overline{(\boldsymbol{u}^H \boldsymbol{A}\boldsymbol{u})^T}, \\ &= \overline{(\boldsymbol{u}^H \boldsymbol{A}\boldsymbol{u})^H}, \\ &= \overline{\boldsymbol{u}^H \boldsymbol{A}^H \boldsymbol{u}}, \\ &= \overline{\boldsymbol{u}^H \boldsymbol{A}\boldsymbol{u}}. \end{aligned}
Poiché \boldsymbol{A}= \boldsymbol{A}^H, risulta che \boldsymbol{u}^H \boldsymbol{A}\boldsymbol{u}\in \Bbb{R}. Essendo \lambda un rapporto tra numeri reali, anche \lambda è reale.
Teorema 3 (Esistenza degli Autovettori Reali) Per ogni autovalore di una matrice reale simmetrica esiste almeno un autovettore che ha solo componenti reali.
Dimostrazione. Sia \boldsymbol{A} una matrice reale simmetrica e \lambda un autovalore di \boldsymbol{A}. Supponiamo che \boldsymbol{u}= \boldsymbol{a}+ {\color{blue}\imath}\boldsymbol{b} sia un autovettore associato a \lambda, dove \boldsymbol{a} e \boldsymbol{b} sono rispettivamente le componenti reali e complesse di \boldsymbol{u}. Allora abbiamo:
\boldsymbol{A}(\boldsymbol{a}+ {\color{blue}\imath}\boldsymbol{b}) = \lambda (\boldsymbol{a}+ {\color{blue}\imath}\boldsymbol{b}).
Separando le parti reale e immaginaria, otteniamo:
\boldsymbol{A}\boldsymbol{a}+ {\color{blue}\imath}\boldsymbol{A}\boldsymbol{b}= \lambda \boldsymbol{a}+ {\color{blue}\imath}\lambda \boldsymbol{b}.
Eguagliando le parti reali e immaginarie, otteniamo:
\boldsymbol{A}\boldsymbol{a}= \lambda \boldsymbol{a}\quad \text{e} \quad \boldsymbol{A}\boldsymbol{b}= \lambda \boldsymbol{b}.
Poiché \boldsymbol{u}\neq \boldsymbol{0}, almeno uno dei vettori \boldsymbol{a} o \boldsymbol{b} deve essere non nullo. Pertanto, almeno uno dei vettori reali \boldsymbol{a} o \boldsymbol{b} è un autovettore di \boldsymbol{A} rispetto all’autovalore \lambda.
Teorema 4 (Ortogonalità degli Autovettori) Sia \boldsymbol{A} una matrice reale simmetrica o ermitiana, e siano \lambda e \mu due autovalori distinti di \boldsymbol{A} con i corrispondenti autovettori \boldsymbol{u} e \boldsymbol{v}. Allora, gli autovettori \boldsymbol{u} e \boldsymbol{v} sono ortogonali, cioè:
\boldsymbol{u}\cdot \boldsymbol{v}= 0.
Dimostrazione. Consideriamo le seguenti equazioni:
\begin{aligned} \boldsymbol{A}\boldsymbol{u}&= \lambda \boldsymbol{u}, \\ \boldsymbol{A}\boldsymbol{v}&= \mu \boldsymbol{v}. \end{aligned}
Moltiplichiamo la prima equazione a sinistra per \boldsymbol{v}^H e la seconda per \boldsymbol{u}^H:
\begin{aligned} \boldsymbol{v}^H \boldsymbol{A}\boldsymbol{u}&= \lambda \boldsymbol{v}^H \boldsymbol{u}, \\ \boldsymbol{u}^H \boldsymbol{A}\boldsymbol{v}&= \mu \boldsymbol{u}^H \boldsymbol{v}. \end{aligned}
Poiché \boldsymbol{A} è simmetrica o ermitiana, abbiamo \boldsymbol{v}^H \boldsymbol{A}\boldsymbol{u}= \boldsymbol{u}^H \boldsymbol{A}\boldsymbol{v}. Quindi:
\lambda \boldsymbol{v}^H \boldsymbol{u}= \mu \boldsymbol{u}^H \boldsymbol{v}.
Da cui segue:
\lambda \boldsymbol{v}^H \boldsymbol{u}= \mu \boldsymbol{v}^H \boldsymbol{u}\quad \Rightarrow \quad (\lambda - \mu) \boldsymbol{v}^H \boldsymbol{u}= 0.
Poiché \lambda \neq \mu, abbiamo:
\boldsymbol{v}^H \boldsymbol{u}= 0,
cioè \boldsymbol{u} e \boldsymbol{v} sono ortogonali.
Infine vale la seguente osservazione.
Infine, una proprietà fondamentale delle matrici reali simmetriche o ermitiane è che possono essere diagonalizzate mediante opportune trasformazioni chiamate trasformazioni di similitudine. In questo caso particolare, tali trasformazioni coinvolgono matrici ortogonali o unitarie. Di seguito forniamo la definizione di queste matrici.
Definizione 9 (Matrice ortogonale) Una matrice \boldsymbol{A} è ortogonale se la sua trasposta coincide con la sua inversa. Formalmente,
\boldsymbol{A}^T = \boldsymbol{A}^{-1}.
Definizione 10 (Matrice unitaria) Una matrice \boldsymbol{A} è unitaria se la sua trasposta coniugata coincide con la sua inversa. Formalmente,
\boldsymbol{A}^H = \boldsymbol{A}^{-1}.
Diagonalizzazione
Teorema 5 (Teorema di Diagonalizzazione) Sia \boldsymbol{A} una matrice reale simmetrica. Allora esiste una matrice \boldsymbol{U} ortogonale tale che:
\boldsymbol{U}^T \boldsymbol{A}\boldsymbol{U}= \begin{pmatrix} \lambda_1 & & & \\ & \lambda_2 & & \\ & & \ddots & \\ & & & \lambda_n \end{pmatrix},
dove \lambda_1, \lambda_2, , \lambda_n sono gli autovalori della matrice \boldsymbol{A}.
Dimostrazione. La dimostrazione si basa su un argomento per induzione.
Base dell’induzione: Il teorema è vero per le matrici 1 \times 1.
Passo induttivo: Sia \lambda_1 un autovalore di \boldsymbol{A} (reale per il Teorema Teorema 2) e \boldsymbol{w}_1 un autovettore corrispondente di norma 1 (che possiamo assumere a valori reali per lil teorema Teorema 3.
Possiamo completare \boldsymbol{w}_1 a una base ortonormale \boldsymbol{w}_1, \boldsymbol{w}_2, , \boldsymbol{w}_n (vedi note su norme e prodotti scalari). Sia \boldsymbol{U} la matrice le cui colonne sono i vettori \boldsymbol{w}_1, \boldsymbol{w}_2, , \boldsymbol{w}_n.
Allora \boldsymbol{U}^T \boldsymbol{U}= \boldsymbol{I}, infatti:
(\boldsymbol{U}^T \boldsymbol{U})_{i,j} = \sum_{k=1}^{n} U_{k,i} U_{k,j} = \boldsymbol{U}_{\bullet,i} \cdot \boldsymbol{U}_{\bullet,j} = \delta_{i,j}.
Inoltre, dato che \boldsymbol{A}\boldsymbol{U}_{\bullet,1} = \lambda_1 \boldsymbol{U}_{\bullet,1}, otteniamo:
\boldsymbol{A}\boldsymbol{U}= \boldsymbol{U}\begin{pmatrix} \lambda_1 & \boldsymbol{\eta} \\ \boldsymbol{0}& \boldsymbol{B} \end{pmatrix},
dove \boldsymbol{\eta} è un vettore riga e \boldsymbol{B} è una matrice quadrata non ancora specificata. Moltiplicando a sinistra per \boldsymbol{U}^T, otteniamo:
\boldsymbol{U}^T \boldsymbol{A}\boldsymbol{U}= \begin{pmatrix} \lambda_1 & \boldsymbol{\eta}^T \\ \boldsymbol{0}& \boldsymbol{B} \end{pmatrix}.
Dato che \boldsymbol{A} è simmetrica, segue che \boldsymbol{U}^T \boldsymbol{A}\boldsymbol{U} è simmetrica. Pertanto, la matrice a blocchi a destra è simmetrica, quindi \boldsymbol{\eta} = \boldsymbol{0} e \boldsymbol{B} è simmetrica.
Applicando l’induzione, esiste una matrice \boldsymbol{S} ortogonale tale che:
\boldsymbol{S}^T \boldsymbol{B}\boldsymbol{S}= \begin{pmatrix} \lambda_2 & & & \\ & \lambda_3 & & \\ & & \ddots & \\ & & & \lambda_n \end{pmatrix}.
Pertanto, abbiamo:
\begin{aligned} \begin{pmatrix} 1 & \boldsymbol{0}^T \\ \boldsymbol{0}& \boldsymbol{S}^T \end{pmatrix} \boldsymbol{U}^T \boldsymbol{A}\boldsymbol{U} \begin{pmatrix} 1 & \boldsymbol{0}^T \\ \boldsymbol{0}& \boldsymbol{S} \end{pmatrix} &= \begin{pmatrix} 1 & \boldsymbol{0}^T \\ \boldsymbol{0}& \boldsymbol{S}^T \end{pmatrix} \begin{pmatrix} \lambda_1 & \boldsymbol{0}^T \\ \boldsymbol{0}& \boldsymbol{B} \end{pmatrix} \begin{pmatrix} 1 & \boldsymbol{0}^T \\ \boldsymbol{0}& \boldsymbol{S} \end{pmatrix} \\ &= \begin{pmatrix} \lambda_1 & \boldsymbol{0}^T \\ \boldsymbol{0}& \boldsymbol{S}^T \boldsymbol{B}\boldsymbol{S} \end{pmatrix} \\ &= \begin{pmatrix} \lambda_1 & \boldsymbol{0}^T \\ \boldsymbol{0}& \begin{pmatrix} \lambda_2 & & & \\ & \lambda_3 & & \\ & & \ddots & \\ & & & \lambda_n \end{pmatrix} \end{pmatrix}. \end{aligned}
Quindi, ponendo:
\boldsymbol{U}= \boldsymbol{U} \begin{pmatrix} 1 & \boldsymbol{0}^T \\ \boldsymbol{0}& \boldsymbol{S} \end{pmatrix},
otteniamo che \boldsymbol{U} è la matrice ortogonale cercata.
Diagonalizzazione di matrici Hermitiane
Teorema 6 (Teorema di Diagonalizzazione per matrici Hermitiane) Sia \boldsymbol{A} una matrice hermitiana. Allora esiste una matrice unitaria \boldsymbol{U} tale che:
\boldsymbol{U}^H \boldsymbol{A}\boldsymbol{U}= \begin{pmatrix} \lambda_1 & & & \\ & \lambda_2 & & \\ & & \ddots & \\ & & & \lambda_n \end{pmatrix},
dove \lambda_1, \lambda_2, , \lambda_n sono gli autovalori della matrice \boldsymbol{A}.
Dimostrazione. La dimostrazione di questo teorema segue un argomento simile a quello del teorema di diagonalizzazione per matrici simmetriche, con le seguenti modifiche:
Sostituzione dei Termini: Sostituiamo i termini “simmetrico” e “ortogonale” con “hermitiano” e “unitario”, rispettivamente.
Trasposizione e Coniugazione: Tutte le trasposizioni di matrici reali, indicate con (\cdot)^T, devono essere reinterpretate come trasposizioni con coniugazione, indicate con (\cdot)^H.
In altre parole, se \boldsymbol{A} è hermitiana, per ogni autovalore \lambda e autovettore \boldsymbol{u} della matrice \boldsymbol{A}, si ha:
\boldsymbol{A}\boldsymbol{u}= \lambda \boldsymbol{u}
Applicando la trasposizione con coniugazione, otteniamo:
\boldsymbol{u}^H \boldsymbol{A}\boldsymbol{u}= \lambda \left|\left|\boldsymbol{u}\right|\right|_2^2.
Da ciò, possiamo dedurre che l’autovalore \lambda è reale e, quindi, la matrice \boldsymbol{A} può essere diagonalizzata mediante una matrice unitaria \boldsymbol{U}, che riporta gli autovalori lungo la diagonale.
Quindi, il processo di diagonalizzazione per matrici hermitiane è simile a quello per matrici simmetriche, con l’aggiunta della coniugazione complessa.
Spettro, raggio spettrale e localizzazione degli autovalori sul piano complesso
Definizione 11 (Spettro) L’insieme degli autovalori di una matrice \boldsymbol{A} si chiama spettro della matrice e si indica usualmente col simbolo \sigma(\boldsymbol{A}).
Definizione 12 (Raggio spettrale) Data una matrice quadrata \boldsymbol{A} con autovalori \lambda_1, \lambda_2, \ldots,\lambda_n il numero
\varrho(\boldsymbol{A})=\max\{\left\lvert\lambda_i\right\rvert\,:\,i=1,2,\ldots,n\},
è detto raggio spettrale della matrice \boldsymbol{A}.
Teorema dei cerchi di Gerschgorin
Teorema 7 (Teorema dei cerchi di Gerschgorin) Sia \boldsymbol{A}\in \Bbb{K}^{n \times n}. Definiamo l’insieme dei numeri complessi:
S = \bigcup_{i=1}^n \left\{ z \in \Bbb{C} : \left| A_{i,i} - z \right| \leq \sum_{j=1, \, j \ne i}^n \left| A_{i,j} \right| \right\}.
Allora, ogni autovalore di \boldsymbol{A} appartiene all’insieme S.
Dimostrazione. Sia \lambda un autovalore di \boldsymbol{A} con il corrispondente autovettore \boldsymbol{u}. Sia k l’indice della componente di \boldsymbol{u} con il modulo massimo:
\left\lvert u_k\right\rvert = \max_{i=1,\ldots,n} \left\lvert u_i\right\rvert.
Consideriamo l’equazione caratteristica:
\boldsymbol{A}\boldsymbol{u}- \lambda \boldsymbol{u}= \boldsymbol{0}.
Analizzando la k-esima componente, otteniamo:
\sum_{j=1}^{n} A_{k,j} u_j - \lambda u_k = 0.
Isoliamo il termine \lambda u_k:
(A_{k,k} - \lambda) u_k = - \sum_{j=1, \, j \ne k}^{n} A_{k,j} u_j.
Calcoliamo il modulo di entrambi i membri dell’equazione e dividiamo per \left\lvert u_k\right\rvert > 0:
\left\lvert A_{k,k} - \lambda\right\rvert \leq \sum_{j=1, \, j \ne k}^{n} \left\lvert A_{k,j}\right\rvert \left| \frac{u_j}{u_k} \right|.
Poiché \left| \frac{u_j}{u_k} \right| \leq 1, otteniamo:
\left\lvert A_{k,k} - \lambda\right\rvert \leq \sum_{j=1, \, j \ne k}^{n} \left\lvert A_{k,j}\right\rvert.
Quindi, \lambda soddisfa l’inequazione che definisce il cerchio di Gerschgorin centrato in A_{k,k} con raggio \sum_{j=1, \, j \ne k}^{n} \left\lvert A_{k,j}\right\rvert. Pertanto, \lambda appartiene all’insieme S.
Matrici a Diagonale Dominante
Definizione 13 (Dominanza Diagonale) Una matrice quadrata \boldsymbol{A} è chiamata diagonale dominante se soddisfa la seguente condizione per ogni riga i:
\left\lvert A_{i,i}\right\rvert \geq \sum_{j=1, \, j \ne i}^{n} \left\lvert A_{i,j}\right\rvert,
e la disuguaglianza deve essere stretta per almeno un indice i. Se la disuguaglianza è stretta per ogni indice i, allora la matrice \boldsymbol{A} è detta diagonale strettamente dominante.
Teorema 8 (Teorema sulla Diagonale Dominante) Se una matrice \boldsymbol{A} è a diagonale strettamente dominante, allora è non singolare.
Dimostrazione. Per dimostrare che una matrice a diagonale strettamente dominante è non singolare, consideriamo il fatto che il cerchio di Gerschgorin centrato in A_{i,i} con raggio \sum_{j=1, \, j \ne i}^{n} \left\lvert A_{i,j}\right\rvert non può contenere l’origine se la matrice è a diagonale strettamente dominante. Questo implica che lo zero non può essere un autovalore della matrice \boldsymbol{A}. Di conseguenza, la matrice \boldsymbol{A} non è singolare.
Matrici Definite Positive
Definizione 14 (Matrice Definita Positiva) Una matrice quadrata \boldsymbol{A} è definita positiva se soddisfa le seguenti condizioni per ogni vettore \boldsymbol{u}\in \Bbb{K}^n:
\boldsymbol{u}^T \boldsymbol{A}\boldsymbol{u}> 0 per ogni vettore \boldsymbol{u}\neq \mathbf{0}
\boldsymbol{u}^T \boldsymbol{A}\boldsymbol{u}= 0 solo se \boldsymbol{u}= \mathbf{0}
Se la seconda condizione non è soddisfatta e \boldsymbol{u}^T \boldsymbol{A}\boldsymbol{u}\geq 0 per ogni \boldsymbol{u}, allora la matrice \boldsymbol{A} è definita semipositiva.
Definizione 15 (Matrice Simmetrica e Definita Positiva) Quando una matrice definita positiva è anche simmetrica, essa è detta simmetrica e definita positiva. Questa proprietà è abbreviata in SPD, dall’inglese Symmetric Positive Definite.
Autovalori di Matrici SPD
Teorema 9 (Teorema degli Autovalori di Matrici SPD) Se \boldsymbol{A} è una matrice definita positiva, allora tutti i suoi autovalori sono positivi.
Dimostrazione. Sia \lambda un autovalore di \boldsymbol{A}, e sia \boldsymbol{u} un autovettore associato, cioè:
\boldsymbol{A}\boldsymbol{u}= \lambda \boldsymbol{u}
Moltiplicando entrambi i lati dell’equazione per \boldsymbol{u}^T, otteniamo:
\boldsymbol{u}^T \boldsymbol{A}\boldsymbol{u}= \lambda \boldsymbol{u}^T \boldsymbol{u}= \lambda \| \boldsymbol{u}\|_2^2
Poiché \boldsymbol{A} è definita positiva, \boldsymbol{u}^T \boldsymbol{A}\boldsymbol{u}> 0 per ogni \boldsymbol{u}\neq 0, il che implica che:
\lambda = \frac{\boldsymbol{u}^T \boldsymbol{A}\boldsymbol{u}}{\| \boldsymbol{u}\|_2^2} > 0
Pertanto, ogni autovalore \lambda di \boldsymbol{A} è positivo.
Determinante di Matrici SPD
Teorema 10 (Determinante di una Matrice SPD) Se \boldsymbol{A} è una matrice simmetrica e definita positiva (SPD), allora il suo determinante è positivo:
\left|\begin{matrix}\boldsymbol{A}\end{matrix}\right| > 0.
Dimostrazione. Dato che \boldsymbol{A} è una matrice simmetrica e definita positiva, esiste una matrice ortogonale reale \boldsymbol{U} e una matrice diagonale \boldsymbol{\Lambda} con autovalori positivi, tali che:
\boldsymbol{A}= \boldsymbol{U}^T \boldsymbol{\Lambda} \boldsymbol{U},
dove \boldsymbol{\Lambda} = \text{diag}(\lambda_1, \lambda_2, \ldots, \lambda_n) e \lambda_i > 0 sono gli autovalori di \boldsymbol{A}. Utilizzando la proprietà del determinante per la decomposizione in fattori ortogonali:
\begin{aligned} \left|\begin{matrix}\boldsymbol{A}\end{matrix}\right| &= \left|\begin{matrix}\boldsymbol{U}^T \boldsymbol{\Lambda} \boldsymbol{U}\end{matrix}\right| \\ &= \left|\begin{matrix}\boldsymbol{U}^T\end{matrix}\right| \left|\begin{matrix}\boldsymbol{\Lambda}\end{matrix}\right| \left|\begin{matrix}\boldsymbol{U}\end{matrix}\right| \\ &= \left|\begin{matrix}\boldsymbol{U}\end{matrix}\right|^T \left|\begin{matrix}\boldsymbol{\Lambda}\end{matrix}\right| \left|\begin{matrix}\boldsymbol{U}\end{matrix}\right| \\ &= \left|\begin{matrix}\boldsymbol{\Lambda}\end{matrix}\right| \\ &= \lambda_1 \lambda_2 \cdots \lambda_n > 0, \end{aligned}
dove \left|\begin{matrix}\boldsymbol{U}\end{matrix}\right|^T \left|\begin{matrix}\boldsymbol{U}\end{matrix}\right| = \left|\begin{matrix}\boldsymbol{U}^T \boldsymbol{U}\end{matrix}\right| = \left|\begin{matrix}\boldsymbol{I}\end{matrix}\right| = 1.
Poiché \lambda_i > 0 per tutti i, il determinante \left|\begin{matrix}\boldsymbol{A}\end{matrix}\right| è positivo.
Blocchi Diagonali di Matrici SPD
Teorema 11 (Proprietà dei Blocchi Diagonali in Matrici SPD) Sia \boldsymbol{M}\in \Bbb{K}^{(n+m) \times (n+m)} una matrice SPD della forma:
\boldsymbol{M}= \begin{pmatrix} \boldsymbol{A}& \boldsymbol{B}^T \\ \boldsymbol{B}& \boldsymbol{C} \end{pmatrix},
dove \boldsymbol{A}\in \Bbb{K}^{n \times n} e \boldsymbol{C}\in \Bbb{K}^{m \times m}, allora sia \boldsymbol{A} che \boldsymbol{C} sono anch’esse SPD.
Dimostrazione. Consideriamo un vettore \boldsymbol{\omega} della forma:
\boldsymbol{\omega} = \begin{pmatrix} \boldsymbol{u}\\ \mathbf{0} \end{pmatrix},
dove \boldsymbol{u}\in \Bbb{K}^n. Calcoliamo:
\begin{aligned} 0 &\leq \boldsymbol{\omega}^T \boldsymbol{M}\boldsymbol{\omega} \\ &= \begin{pmatrix} \boldsymbol{u}^T & \mathbf{0}^T \end{pmatrix} \begin{pmatrix} \boldsymbol{A}& \boldsymbol{B}^T \\ \boldsymbol{B}& \boldsymbol{C} \end{pmatrix} \begin{pmatrix} \boldsymbol{u}\\ \mathbf{0} \end{pmatrix} \\ &= \boldsymbol{u}^T \boldsymbol{A}\boldsymbol{u}. \end{aligned}
Poiché \boldsymbol{\omega}^T \boldsymbol{M}\boldsymbol{\omega} = \boldsymbol{u}^T \boldsymbol{A}\boldsymbol{u} è sempre non negativo e uguale a zero solo se \boldsymbol{u}= \mathbf{0}, segue che \boldsymbol{A} deve essere SPD.
Analogamente, considerando un vettore della forma:
\boldsymbol{\omega} = \begin{pmatrix} \mathbf{0} \\ \boldsymbol{u} \end{pmatrix},
si mostra che \boldsymbol{C} è SPD.
Teorema di Sylvester1
Teorema 12 (Teorema di Sylvester) Sia \boldsymbol{M}\in \Bbb{R}^{n \times n} una matrice con la seguente partizione:
\boldsymbol{M}= \begin{pmatrix} \boldsymbol{A}^{(k)} & \boldsymbol{B}^T \\ \boldsymbol{B}& \boldsymbol{C} \end{pmatrix},
dove \boldsymbol{A}^{(k)} \in \Bbb{R}^{k \times k} e \boldsymbol{C}\in \Bbb{R}^{(n-k) \times (n-k)}. Allora, le seguenti affermazioni sono equivalenti:
- \boldsymbol{M} è simmetrica e definita positiva (SPD).
- \left|\begin{matrix}\boldsymbol{A}^{(k)}\end{matrix}\right| > 0 per ogni k = 1, 2, \ldots, n.
Dimostrazione.
[1 \Rightarrow 2]
Se \boldsymbol{M} è SPD, allora ogni blocco principale \boldsymbol{A}^{(k)} deve essere SPD. Questo implica che \left|\begin{matrix}\boldsymbol{A}^{(k)}\end{matrix}\right| > 0 per ogni k.
[2 \Rightarrow 1]
La dimostrazione si effettua per induzione sul numero di righe e colonne della matrice.
Caso base (n = 1): Quando n = 1, la matrice \boldsymbol{M} è uno scalare, e il teorema è triviale poiché \boldsymbol{M} è SPD se e solo se il suo valore è positivo.
Passo induttivo (n > 1): Supponiamo che il teorema sia vero per matrici di dimensione n - 1 (ipotesi induttiva). Consideriamo una matrice \boldsymbol{M} di dimensione n e partizioniamola come segue:
\boldsymbol{M}= \begin{pmatrix} \boldsymbol{A}^{(n-1)} & \boldsymbol{b}\\ \boldsymbol{b}^T & A_{n,n} \end{pmatrix},
dove \boldsymbol{A}^{(n-1)} è una matrice (n-1) \times (n-1), e \boldsymbol{b} è un vettore colonna di dimensione n-1.
Definiamo la matrice di blocco \boldsymbol{L} come:
\boldsymbol{L}= \begin{pmatrix} \boldsymbol{I}& -(\boldsymbol{A}^{(n-1)})^{-T} \boldsymbol{b}\\ \mathbf{0} & 1 \end{pmatrix},
e la sua trasposta:
\boldsymbol{L}^T = \begin{pmatrix} \boldsymbol{I}& \mathbf{0} \\ -\boldsymbol{b}^T (\boldsymbol{A}^{(n-1)})^{-1} & 1 \end{pmatrix}.
Calcoliamo:
\boldsymbol{L}^T \boldsymbol{M}\boldsymbol{L}= \begin{pmatrix} \boldsymbol{A}^{(n-1)} & \mathbf{0} \\ \mathbf{0} & A_{n,n} - \boldsymbol{b}^T \boldsymbol{A}^{(n-1)} \boldsymbol{b} \end{pmatrix}.
Dal momento che \left|\begin{matrix}\boldsymbol{L}\end{matrix}\right| = \left|\begin{matrix}\boldsymbol{L}^T\end{matrix}\right| = 1, abbiamo:
\begin{aligned} \left|\begin{matrix}\boldsymbol{M}\end{matrix}\right| &= \left|\begin{matrix}\boldsymbol{L}^{-T} \boldsymbol{L}^T \boldsymbol{M}\boldsymbol{L}\boldsymbol{L}^{-1}\end{matrix}\right| \\ &= \left|\begin{matrix}\boldsymbol{L}^{-T}\end{matrix}\right| \left|\begin{matrix}\boldsymbol{L}^T \boldsymbol{M}\boldsymbol{L}\end{matrix}\right| \left|\begin{matrix}\boldsymbol{L}^{-1}\end{matrix}\right| \\ &= \left|\begin{matrix}\begin{pmatrix} \boldsymbol{A}^{(n-1)} & \mathbf{0} \\ \mathbf{0} & A_{n,n} - \boldsymbol{b}^T \boldsymbol{A}^{(n-1)} \boldsymbol{b} \end{pmatrix}\end{matrix}\right| \\ &= \left|\begin{matrix}\boldsymbol{A}^{(n-1)}\end{matrix}\right| \cdot (A_{n,n} - \boldsymbol{b}^T \boldsymbol{A}^{(n-1)} \boldsymbol{b}). \end{aligned}
Per ipotesi induttiva, \boldsymbol{A}^{(n-1)} è SPD, quindi \left|\begin{matrix}\boldsymbol{A}^{(n-1)}\end{matrix}\right| > 0. Inoltre, \left|\begin{matrix}\boldsymbol{M}\end{matrix}\right| > 0 implica che:
A_{n,n} - \boldsymbol{b}^T \boldsymbol{A}^{(n-1)} \boldsymbol{b}> 0.
Consideriamo ora un vettore \boldsymbol{z} generico e poniamo \boldsymbol{\omega} = \boldsymbol{L}^{-1} \boldsymbol{z}, con la partizione:
\boldsymbol{\omega} = \begin{pmatrix} \boldsymbol{u}\\ \alpha \end{pmatrix},
dove \boldsymbol{u} è un vettore di dimensione n-1 e \alpha è uno scalare. Allora:
\begin{aligned} \boldsymbol{z}^T \boldsymbol{M}\boldsymbol{z}&= \boldsymbol{\omega}^T \boldsymbol{L}^T \boldsymbol{M}\boldsymbol{L}\boldsymbol{\omega} \\ &= \begin{pmatrix} \boldsymbol{u}^T & \alpha \end{pmatrix} \begin{pmatrix} \boldsymbol{A}^{(n-1)} & \mathbf{0} \\ \mathbf{0} & A_{n,n} - \boldsymbol{b}^T \boldsymbol{A}^{(n-1)} \boldsymbol{b} \end{pmatrix} \begin{pmatrix} \boldsymbol{u}\\ \alpha \end{pmatrix} \\ &= \boldsymbol{u}^T \boldsymbol{A}^{(n-1)} \boldsymbol{u}+ \alpha^2 \cdot (A_{n,n} - \boldsymbol{b}^T \boldsymbol{A}^{(n-1)} \boldsymbol{b}). \end{aligned}
Poiché \boldsymbol{A}^{(n-1)} è SPD per ipotesi induttiva, abbiamo che:
\boldsymbol{z}^T \boldsymbol{M}\boldsymbol{z}\geq 0.
Se \boldsymbol{z}^T \boldsymbol{M}\boldsymbol{z}= 0, allora \alpha = 0 e \boldsymbol{u}= \mathbf{0}, quindi \boldsymbol{z}= \boldsymbol{L}^{-1} \mathbf{0} = \mathbf{0}. Di conseguenza, \boldsymbol{M} è SPD.