La pseudo inversa di Moore-Penrose
Appunti di calcolo numerico
Pseduo-inversa definizione
Data una matrice \bm{A}\in\Bbb{R}^{n\times m} definiamo come pseudo inversa di Moore-Penrose la matrice \bm{A}^+\in\Bbb{R}^{m\times n} che soddisfa le quattro proprietà
- \bm{A}\bm{A}^+\bm{A}=\bm{A}
- \bm{A}^+\bm{A}\bm{A}^+=\bm{A}^+
- \bm{A}^+\bm{A} è simmetrica (o hermitiana nel caso complesso)
- \bm{A}\bm{A}^+ è simmetrica (o hermitiana nel caso complesso)
ovviamente per una matrice quadrata non singolare \bm{A}^+=\bm{A}^{-1}, infatti
- \bm{A}\bm{A}^{-1}\bm{A}=\bm{A}
- \bm{A}^{-1}\bm{A}\bm{A}^{-1}=\bm{A}^{-1}
- \bm{A}^{-1}\bm{A}=\bm{I} è simmetrica!
- \bm{A}\bm{A}^{-1}=\bm{I} è simmetrica!
Propietà della pseudo-inversa
La pseudo-inversa di una matrice è unica
Supponiamo che esistano due pseudo-inverse della matrice \bm{A} ovvero \bm{A}^+ e \bm{B}. Definiamo la matrice
\bm{M} = \bm{A}\bm{B}-\bm{A}\bm{A}^+ = \bm{A}(\bm{B}-\bm{A}^+)
e quindi
\begin{aligned} \bm{M}^2 &= \bm{A}(\bm{B}-\bm{A}^+)\bm{A}(\bm{B}-\bm{A}^+) \\ &= (\bm{A}\bm{B}\bm{A}-\bm{A}\bm{A}^+\bm{A})(\bm{B}-\bm{A}^+) \\ &= (\bm{A}-\bm{A})(\bm{B}-\bm{A}^+) \\ &= \bm{0}(\bm{B}-\bm{A}^+) = \bm{0} \end{aligned}
la matrice \bm{M} per la proprietà 4 è simmetrica (è la differenza di due matrici simmetrice \bm{A}\bm{B} e \bm{A}\bm{A}^+) e quindi
\bm{0}=\bm{M}^2=\bm{M}\bm{M}=\bm{M}\bm{M}^\top
questo implica che \bm{M}=\bm{0} infatti la k-esima colonna di \bm{M} è \bm{M}\bm{e}_k e vale
\|\bm{M}\bm{e}_k\|^2 = (\bm{M}\bm{e}_k)\cdot(\bm{M}\bm{e}_k) =\bm{e}_k^\top\bm{M}^\top\bm{M}\bm{e}_k = \bm{e}_k^\top\bm{0}\bm{e}_k = 0
e quindi ogni colonna di \bm{M} è nulla. Usando lo stesso argomento definendo la matrice
\bm{N} = \bm{B}\bm{A}-\bm{A}^+\bm{A} = (\bm{B}-\bm{A}^+)\bm{A}
otteniamo che \bm{N}=\bm{0}. Quindi abbiamo
\begin{aligned} \bm{0}&=\bm{M}=\bm{A}\bm{B}-\bm{A}\bm{A}^+ & \implies\quad \bm{A}\bm{B}&=\bm{A}\bm{A}^+ \\ \bm{0}&=\bm{N}=\bm{B}\bm{A}-\bm{A}^+\bm{A} & \implies\quad \bm{B}\bm{A}&=\bm{A}^+\bm{A} \end{aligned}
e usando queste ultime proprietà
\bm{A}^+ = \bm{A}^+\bm{A}\bm{A}^+ = \bm{A}^+\bm{A}\bm{B}= \bm{B}\bm{A}\bm{B}= \bm{B}
La pseudo-inversa di una matrice non singolare è l’inversa “classica”
La inversa quando esiste è anche una inversa di Moore-Penrose quindi dalla unicità ne segue che la pseudo-inversa coincide con l’inversa.
La pseudo-inversa della pseudo-inversa è la matrice originale
ovvero (\bm{A}^+)^+ = \bm{A}. Prendiamo \bm{B}=\bm{A}^+ e usiamo le proprietà della pseudo-inversa
- \bm{B}\bm{B}^+\bm{B}=\bm{B} ovvero \bm{A}^+\bm{B}^+\bm{A}^+=\bm{A}^+
- \bm{B}^+\bm{B}\bm{B}^+=\bm{B}^+ ovvero \bm{B}^+\bm{A}^+\bm{B}^+=\bm{B}^+
- \bm{B}^+\bm{B} ovvero \bm{B}^+\bm{A}^+
- \bm{B}\bm{B}^+ ovvero \bm{A}^+\bm{B}^+
la matrice \bm{B}^+ soddifa le proprietà 1-4 della pseudoinversa con le proprietà 1,2 e 3,4 scambiate. Quindi \bm{A}^+ è la pseudo-inversa della matrice \bm{B}^+ e dalla unicità della pseudo-inversa ne segue che \bm{B}^+=\bm{A}.
La pseudo-inverse di un vettore \bm{a} è \bm{a}^+=(\bm{a}\cdot\bm{a})^{-1}\bm{a}^\top
Basta verificare le 4 condizioni, (usiamo c=1/(\bm{a}\cdot\bm{a}))
- \bm{a}\bm{a}^+\bm{a}=\bm{a}c\bm{a}^\top\bm{a}=\bm{a}\cancel{c(\bm{a}\cdot\bm{a})}=\bm{a}
- \bm{a}^+\bm{a}\bm{a}^+=c\bm{a}^\top\bm{a}c\bm{a}^\top=(\bm{a}\cdot\bm{a})^{-1}\bm{a}^\top=\bm{a}^+
- \bm{a}^+\bm{a}=c\bm{a}^\top\bm{a}=1 è uno scalare chiaramente simmetrico
- \bm{a}\bm{a}^+=\bm{a}c\bm{a}^\top e anche questa è una matrice simmetrica
Pseudo-inversa di una matrice diagonale
Sia \bm{D}una matrice diagonale allora \bm{D}^+ è una matrice diagonale con
D^+_{ii} = \begin{cases} \dfrac{1}{D_{ii}} & D_{ii} \neq 0 \\ 0 & \textrm{otherwise} \end{cases}
Pseudo-inversa ed SVD
Consideriamo una matrice rettangolare \bm{A} la sua fattorizzazione SVD (che esiste sempre) è
\bm{A} = \bm{U}^\top\bm{\Sigma}\bm{V}
dove
\bm{\Sigma} = \begin{pmatrix} \sigma_1 & 0 & \cdots & 0 & & & \\ 0 & \sigma_2 & & \vdots & & & \\ \vdots & & \ddots & 0 & & & \\ 0 & \cdots & 0 & \sigma_k & & & \\ & & & & 0 & \cdots & 0 \\ & & & & \vdots & \ddots & \vdots\\ & & & & 0 & \cdots & 0 \end{pmatrix}
ed \bm{U} e \bm{V} sono matrici ortoginali. Allora
\bm{A}^+ = \bm{V}^\top\bm{\Sigma}^+\bm{U}
dove \bm{\Sigma}^+ = \begin{pmatrix} \sigma_1^{-1} & 0 & \cdots & 0 & & & \\ 0 & \sigma_2^{-1} & & \vdots & & & \\ \vdots & & \ddots & 0 & & & \\ 0 & \cdots & 0 & \sigma_k^{-1} & & & \\ & & & & 0 & \cdots & 0 \\ & & & & \vdots & \ddots & \vdots\\ & & & & 0 & \cdots & 0 \end{pmatrix}^\top
Connessioni con la fattorizzazione QR
Nel caso \bm{A}\in\Bbb{R}^{n\times m} con n\geq m e \bm{A} di rango massimo possiamo calcolare la fattorizzazione QR
\bm{A} = \bm{Q}\begin{pmatrix} \bm{R} \\ \bm{0} \end{pmatrix}
e possiamo definire la pseudo-inversa come
\bm{A}^+ = \begin{pmatrix} \bm{R}^{-1} & \bm{0} \end{pmatrix} \bm{Q}^T
infatti vale
Proprietà 1: \bm{A}\bm{A}^+\bm{A}=\bm{A}
\begin{aligned} \bm{A}\bm{A}^+\bm{A} &= \underbrace{ \bm{Q}\begin{pmatrix} \bm{R} \\ \bm{0} \end{pmatrix} }_{\bm{A}} \underbrace{ \begin{pmatrix} \bm{R}^{-1} & \bm{0} \end{pmatrix} \bm{Q}^T }_{\bm{A}^+} \underbrace{ \bm{Q}\begin{pmatrix} \bm{R} \\ \bm{0} \end{pmatrix} }_{\bm{A}} \\ &= \bm{Q}\begin{pmatrix} \bm{R} \\ \bm{0} \end{pmatrix} \begin{pmatrix} \bm{R}^{-1} & \bm{0} \end{pmatrix} \begin{pmatrix} \bm{R} \\ \bm{0} \end{pmatrix} \\ &= \bm{Q}\begin{pmatrix} \bm{R} \\ \bm{0} \end{pmatrix} \begin{pmatrix} \bm{R}^{-1}\bm{R} \end{pmatrix} \\ &= \underbrace{ \bm{Q}\begin{pmatrix} \bm{R} \\ \bm{0} \end{pmatrix} }_{\bm{A}} \begin{pmatrix} \bm{I} \end{pmatrix} = \bm{A} \end{aligned}
Proprietà 2: \bm{A}^+\bm{A}\bm{A}^+=\bm{A}^+
\begin{aligned} \bm{A}^+\bm{A}\bm{A}^+ &= \underbrace{ \begin{pmatrix} \bm{R}^{-1} & \bm{0} \end{pmatrix} \bm{Q}^T }_{\bm{A}^+} \underbrace{ \bm{Q}\begin{pmatrix} \bm{R} \\ \bm{0} \end{pmatrix} }_{\bm{A}} \underbrace{ \begin{pmatrix} \bm{R}^{-1} & \bm{0} \end{pmatrix} \bm{Q}^T }_{\bm{A}^+} \\ &= \begin{pmatrix} \bm{R}^{-1} & \bm{0} \end{pmatrix} \begin{pmatrix} \bm{R} \\ \bm{0} \end{pmatrix} \begin{pmatrix} \bm{R}^{-1} & \bm{0} \end{pmatrix} \bm{Q}^T \\ &= \bm{I} \underbrace{ \begin{pmatrix} \bm{R}^{-1} & \bm{0} \end{pmatrix} \bm{Q}^T }_{\bm{A}^+} = \bm{A}^+ \end{aligned}
Proprietà 3: \bm{A}^+\bm{A} simmetrica
\begin{aligned} \bm{A}^+\bm{A} &= \underbrace{ \begin{pmatrix} \bm{R}^{-1} & \bm{0} \end{pmatrix} \bm{Q}^T }_{\bm{A}^+} \underbrace{ \bm{Q}\begin{pmatrix} \bm{R} \\ \bm{0} \end{pmatrix} }_{\bm{A}} \\ &= \begin{pmatrix} \bm{R}^{-1} & \bm{0} \end{pmatrix} \begin{pmatrix} \bm{R} \\ \bm{0} \end{pmatrix} \\ &= \bm{I},\qquad \textrm{[ovviamente simmetrica]} \end{aligned}
Proprietà 4: \bm{A}\bm{A}^+ simmetrica
\begin{aligned} \bm{A}\bm{A}^+ &= \underbrace{ \bm{Q}\begin{pmatrix} \bm{R} \\ \bm{0} \end{pmatrix} }_{\bm{A}} \underbrace{ \begin{pmatrix} \bm{R}^{-1} & \bm{0} \end{pmatrix} \bm{Q}^T }_{\bm{A}^+} \\ &= \bm{Q} \begin{pmatrix} \bm{R} \\ \bm{0} \end{pmatrix} \begin{pmatrix} \bm{R}^{-1} & \bm{0} \end{pmatrix} \bm{Q}^T \\ &= \bm{Q} \begin{pmatrix} \bm{I} & \bm{0}\\ \bm{0} & \bm{0} \end{pmatrix} \bm{Q}^T,\qquad \textrm{[ovviamente simmetrica]} \end{aligned}
Pseudo inversa e fattorizzazione LQ
Data una matrice \bm{A}\in\Bbb{R}^{n\times m} con m>n non possiamo fare la fattorizzazione QR, ma possiamo farla della sua trasposta
\bm{A}^T = \bm{Q}\begin{pmatrix} \bm{R} \\ \bm{0} \end{pmatrix}
e quindi \bm{A} = \begin{pmatrix} \bm{R}^T & \bm{0} \end{pmatrix} \bm{Q}^T
la matrice \bm{R}^T è una matrice triangolare inferiore che potremmo chiamare \bm{L}. Quindi, in generale una matrice \bm{A}\in\Bbb{R}^{n\times m} di rango massimo si puo decomporre come
\begin{aligned} \bm{A} &= \bm{Q}\begin{pmatrix} \bm{R} \\ \bm{0} \end{pmatrix} & \qquad & \textrm{se $n \geq m$} \\[1em] \bm{A} &= \begin{pmatrix} \bm{L} & \bm{0} \end{pmatrix} \bm{Q} & \qquad & \textrm{se $n \leq m$} \end{aligned}
Il caso n\geq m lo abbiamo appena visto. Consideriamo ora il caso n \leq m. In questo caso
\bm{A}^+ = \bm{Q}^T \begin{pmatrix} \bm{L}^{-1} & \bm{0} \end{pmatrix}
infatti vale
Proprietà 1: \bm{A}\bm{A}^+\bm{A}=\bm{A}
\begin{aligned} \bm{A}\bm{A}^+\bm{A} &= \underbrace{ \begin{pmatrix} \bm{L} & \bm{0} \end{pmatrix} \bm{Q} }_{\bm{A}} \underbrace{ \bm{Q}^T \begin{pmatrix} \bm{L}^{-1} \\ \bm{0} \end{pmatrix} }_{\bm{A}^+} \underbrace{ \begin{pmatrix} \bm{L} & \bm{0} \end{pmatrix} \bm{Q} }_{\bm{A}} \\ &= \begin{pmatrix} \bm{L} & \bm{0} \end{pmatrix} \begin{pmatrix} \bm{L}^{-1} \\ \bm{0} \end{pmatrix} \underbrace{ \begin{pmatrix} \bm{L} & \bm{0} \end{pmatrix} \bm{Q} }_{\bm{A}} \\ &= \bm{I} \underbrace{ \begin{pmatrix} \bm{L} & \bm{0} \end{pmatrix} \bm{Q} }_{\bm{A}} \\ &= \bm{A} \end{aligned}
Proprietà 2: \bm{A}^+\bm{A}\bm{A}^+=\bm{A}^+
\begin{aligned} \bm{A}^+\bm{A}\bm{A}^+ &= \underbrace{ \bm{Q}^T \begin{pmatrix} \bm{L}^{-1} \\ \bm{0} \end{pmatrix} }_{\bm{A}^+} \underbrace{ \begin{pmatrix} \bm{L} & \bm{0} \end{pmatrix} \bm{Q} }_{\bm{A}} \underbrace{ \bm{Q}^T \begin{pmatrix} \bm{L}^{-1} \\ \bm{0} \end{pmatrix} }_{\bm{A}^+} \\ &= \underbrace{ \bm{Q} \begin{pmatrix} \bm{L}^{-1} \\ \bm{0} \end{pmatrix} }_{\bm{A}^+} \begin{pmatrix} \bm{L} & \bm{0} \end{pmatrix} \begin{pmatrix} \bm{L}^{-1} \\ \bm{0} \end{pmatrix} \\ &= \underbrace{ \bm{Q} \begin{pmatrix} \bm{L}^{-1} \\ \bm{0} \end{pmatrix} }_{\bm{A}^+} \bm{I} = \bm{A}^+ \end{aligned}
Proprietà 3: \bm{A}^+\bm{A} simmetrica
\begin{aligned} \bm{A}^+\bm{A} &= \underbrace{ \bm{Q} \begin{pmatrix} \bm{L}^{-1} \\ \bm{0} \end{pmatrix} }_{\bm{A}^+} \underbrace{ \begin{pmatrix} \bm{L} & \bm{0} \end{pmatrix} \bm{Q} }_{\bm{A}} \\ &= \bm{Q} \begin{pmatrix} \bm{I} & \bm{0} \\ \bm{0} & \bm{0} \end{pmatrix} \bm{Q},\qquad \textrm{[ovviamente simmetrica]} \end{aligned}
Proprietà 4: \bm{A}\bm{A}^+ simmetrica
\begin{aligned} \bm{A}\bm{A}^+ &= \underbrace{ \begin{pmatrix} \bm{L} & \bm{0} \end{pmatrix} \bm{Q} }_{\bm{A}} \underbrace{ \bm{Q}^T \begin{pmatrix} \bm{L}^{-1} \\ \bm{0} \end{pmatrix} }_{\bm{A}^+} \\ &= \begin{pmatrix} \bm{L} & \bm{0} \end{pmatrix} \begin{pmatrix} \bm{L}^{-1} \\ \bm{0} \end{pmatrix} = \bm{I},\qquad \textrm{[ovviamente simmetrica]} \end{aligned}