Queste note sono basate sugli appunti fatti con Gianmarco Manzini negli anni 1995-2005

La pseudo inversa di Moore-Penrose

Appunti di calcolo numerico

Autore/Autrice
Affiliazione

Enrico Bertolazzi

University of Trento, Department of Industrial Engineering

Pseduo-inversa definizione

Data una matrice \bm{A}\in\Bbb{R}^{n\times m} definiamo come pseudo inversa di Moore-Penrose la matrice \bm{A}^+\in\Bbb{R}^{m\times n} che soddisfa le quattro proprietà

  1. \bm{A}\bm{A}^+\bm{A}=\bm{A}
  2. \bm{A}^+\bm{A}\bm{A}^+=\bm{A}^+
  3. \bm{A}^+\bm{A} è simmetrica (o hermitiana nel caso complesso)
  4. \bm{A}\bm{A}^+ è simmetrica (o hermitiana nel caso complesso)

ovviamente per una matrice quadrata non singolare \bm{A}^+=\bm{A}^{-1}, infatti

  1. \bm{A}\bm{A}^{-1}\bm{A}=\bm{A}
  2. \bm{A}^{-1}\bm{A}\bm{A}^{-1}=\bm{A}^{-1}
  3. \bm{A}^{-1}\bm{A}=\bm{I} è simmetrica!
  4. \bm{A}\bm{A}^{-1}=\bm{I} è simmetrica!

Propietà della pseudo-inversa

La pseudo-inversa di una matrice è unica

Supponiamo che esistano due pseudo-inverse della matrice \bm{A} ovvero \bm{A}^+ e \bm{B}. Definiamo la matrice

\bm{M} = \bm{A}\bm{B}-\bm{A}\bm{A}^+ = \bm{A}(\bm{B}-\bm{A}^+)

e quindi

\begin{aligned} \bm{M}^2 &= \bm{A}(\bm{B}-\bm{A}^+)\bm{A}(\bm{B}-\bm{A}^+) \\ &= (\bm{A}\bm{B}\bm{A}-\bm{A}\bm{A}^+\bm{A})(\bm{B}-\bm{A}^+) \\ &= (\bm{A}-\bm{A})(\bm{B}-\bm{A}^+) \\ &= \bm{0}(\bm{B}-\bm{A}^+) = \bm{0} \end{aligned}

la matrice \bm{M} per la proprietà 4 è simmetrica (è la differenza di due matrici simmetrice \bm{A}\bm{B} e \bm{A}\bm{A}^+) e quindi

\bm{0}=\bm{M}^2=\bm{M}\bm{M}=\bm{M}\bm{M}^\top

questo implica che \bm{M}=\bm{0} infatti la k-esima colonna di \bm{M} è \bm{M}\bm{e}_k e vale

\|\bm{M}\bm{e}_k\|^2 = (\bm{M}\bm{e}_k)\cdot(\bm{M}\bm{e}_k) =\bm{e}_k^\top\bm{M}^\top\bm{M}\bm{e}_k = \bm{e}_k^\top\bm{0}\bm{e}_k = 0

e quindi ogni colonna di \bm{M} è nulla. Usando lo stesso argomento definendo la matrice

\bm{N} = \bm{B}\bm{A}-\bm{A}^+\bm{A} = (\bm{B}-\bm{A}^+)\bm{A}

otteniamo che \bm{N}=\bm{0}. Quindi abbiamo

\begin{aligned} \bm{0}&=\bm{M}=\bm{A}\bm{B}-\bm{A}\bm{A}^+ & \implies\quad \bm{A}\bm{B}&=\bm{A}\bm{A}^+ \\ \bm{0}&=\bm{N}=\bm{B}\bm{A}-\bm{A}^+\bm{A} & \implies\quad \bm{B}\bm{A}&=\bm{A}^+\bm{A} \end{aligned}

e usando queste ultime proprietà

\bm{A}^+ = \bm{A}^+\bm{A}\bm{A}^+ = \bm{A}^+\bm{A}\bm{B}= \bm{B}\bm{A}\bm{B}= \bm{B}

La pseudo-inversa di una matrice non singolare è l’inversa “classica”

La inversa quando esiste è anche una inversa di Moore-Penrose quindi dalla unicità ne segue che la pseudo-inversa coincide con l’inversa.

La pseudo-inversa della pseudo-inversa è la matrice originale

ovvero (\bm{A}^+)^+ = \bm{A}. Prendiamo \bm{B}=\bm{A}^+ e usiamo le proprietà della pseudo-inversa

  1. \bm{B}\bm{B}^+\bm{B}=\bm{B} ovvero \bm{A}^+\bm{B}^+\bm{A}^+=\bm{A}^+
  2. \bm{B}^+\bm{B}\bm{B}^+=\bm{B}^+ ovvero \bm{B}^+\bm{A}^+\bm{B}^+=\bm{B}^+
  3. \bm{B}^+\bm{B} ovvero \bm{B}^+\bm{A}^+
  4. \bm{B}\bm{B}^+ ovvero \bm{A}^+\bm{B}^+

la matrice \bm{B}^+ soddifa le proprietà 1-4 della pseudoinversa con le proprietà 1,2 e 3,4 scambiate. Quindi \bm{A}^+ è la pseudo-inversa della matrice \bm{B}^+ e dalla unicità della pseudo-inversa ne segue che \bm{B}^+=\bm{A}.

La pseudo-inverse di un vettore \bm{a} è \bm{a}^+=(\bm{a}\cdot\bm{a})^{-1}\bm{a}^\top

Basta verificare le 4 condizioni, (usiamo c=1/(\bm{a}\cdot\bm{a}))

  1. \bm{a}\bm{a}^+\bm{a}=\bm{a}c\bm{a}^\top\bm{a}=\bm{a}\cancel{c(\bm{a}\cdot\bm{a})}=\bm{a}
  2. \bm{a}^+\bm{a}\bm{a}^+=c\bm{a}^\top\bm{a}c\bm{a}^\top=(\bm{a}\cdot\bm{a})^{-1}\bm{a}^\top=\bm{a}^+
  3. \bm{a}^+\bm{a}=c\bm{a}^\top\bm{a}=1 è uno scalare chiaramente simmetrico
  4. \bm{a}\bm{a}^+=\bm{a}c\bm{a}^\top e anche questa è una matrice simmetrica

Pseudo-inversa di una matrice diagonale

Sia \bm{D}una matrice diagonale allora \bm{D}^+ è una matrice diagonale con

D^+_{ii} = \begin{cases} \dfrac{1}{D_{ii}} & D_{ii} \neq 0 \\ 0 & \textrm{otherwise} \end{cases}

Pseudo-inversa ed SVD

Consideriamo una matrice rettangolare \bm{A} la sua fattorizzazione SVD (che esiste sempre) è

\bm{A} = \bm{U}^\top\bm{\Sigma}\bm{V}

dove

\bm{\Sigma} = \begin{pmatrix} \sigma_1 & 0 & \cdots & 0 & & & \\ 0 & \sigma_2 & & \vdots & & & \\ \vdots & & \ddots & 0 & & & \\ 0 & \cdots & 0 & \sigma_k & & & \\ & & & & 0 & \cdots & 0 \\ & & & & \vdots & \ddots & \vdots\\ & & & & 0 & \cdots & 0 \end{pmatrix}

ed \bm{U} e \bm{V} sono matrici ortoginali. Allora

\bm{A}^+ = \bm{V}^\top\bm{\Sigma}^+\bm{U}

dove \bm{\Sigma}^+ = \begin{pmatrix} \sigma_1^{-1} & 0 & \cdots & 0 & & & \\ 0 & \sigma_2^{-1} & & \vdots & & & \\ \vdots & & \ddots & 0 & & & \\ 0 & \cdots & 0 & \sigma_k^{-1} & & & \\ & & & & 0 & \cdots & 0 \\ & & & & \vdots & \ddots & \vdots\\ & & & & 0 & \cdots & 0 \end{pmatrix}^\top

Connessioni con la fattorizzazione QR

Nel caso \bm{A}\in\Bbb{R}^{n\times m} con n\geq m e \bm{A} di rango massimo possiamo calcolare la fattorizzazione QR

\bm{A} = \bm{Q}\begin{pmatrix} \bm{R} \\ \bm{0} \end{pmatrix}

e possiamo definire la pseudo-inversa come

\bm{A}^+ = \begin{pmatrix} \bm{R}^{-1} & \bm{0} \end{pmatrix} \bm{Q}^T

infatti vale

Proprietà 1: \bm{A}\bm{A}^+\bm{A}=\bm{A}

\begin{aligned} \bm{A}\bm{A}^+\bm{A} &= \underbrace{ \bm{Q}\begin{pmatrix} \bm{R} \\ \bm{0} \end{pmatrix} }_{\bm{A}} \underbrace{ \begin{pmatrix} \bm{R}^{-1} & \bm{0} \end{pmatrix} \bm{Q}^T }_{\bm{A}^+} \underbrace{ \bm{Q}\begin{pmatrix} \bm{R} \\ \bm{0} \end{pmatrix} }_{\bm{A}} \\ &= \bm{Q}\begin{pmatrix} \bm{R} \\ \bm{0} \end{pmatrix} \begin{pmatrix} \bm{R}^{-1} & \bm{0} \end{pmatrix} \begin{pmatrix} \bm{R} \\ \bm{0} \end{pmatrix} \\ &= \bm{Q}\begin{pmatrix} \bm{R} \\ \bm{0} \end{pmatrix} \begin{pmatrix} \bm{R}^{-1}\bm{R} \end{pmatrix} \\ &= \underbrace{ \bm{Q}\begin{pmatrix} \bm{R} \\ \bm{0} \end{pmatrix} }_{\bm{A}} \begin{pmatrix} \bm{I} \end{pmatrix} = \bm{A} \end{aligned}

Proprietà 2: \bm{A}^+\bm{A}\bm{A}^+=\bm{A}^+

\begin{aligned} \bm{A}^+\bm{A}\bm{A}^+ &= \underbrace{ \begin{pmatrix} \bm{R}^{-1} & \bm{0} \end{pmatrix} \bm{Q}^T }_{\bm{A}^+} \underbrace{ \bm{Q}\begin{pmatrix} \bm{R} \\ \bm{0} \end{pmatrix} }_{\bm{A}} \underbrace{ \begin{pmatrix} \bm{R}^{-1} & \bm{0} \end{pmatrix} \bm{Q}^T }_{\bm{A}^+} \\ &= \begin{pmatrix} \bm{R}^{-1} & \bm{0} \end{pmatrix} \begin{pmatrix} \bm{R} \\ \bm{0} \end{pmatrix} \begin{pmatrix} \bm{R}^{-1} & \bm{0} \end{pmatrix} \bm{Q}^T \\ &= \bm{I} \underbrace{ \begin{pmatrix} \bm{R}^{-1} & \bm{0} \end{pmatrix} \bm{Q}^T }_{\bm{A}^+} = \bm{A}^+ \end{aligned}

Proprietà 3: \bm{A}^+\bm{A} simmetrica

\begin{aligned} \bm{A}^+\bm{A} &= \underbrace{ \begin{pmatrix} \bm{R}^{-1} & \bm{0} \end{pmatrix} \bm{Q}^T }_{\bm{A}^+} \underbrace{ \bm{Q}\begin{pmatrix} \bm{R} \\ \bm{0} \end{pmatrix} }_{\bm{A}} \\ &= \begin{pmatrix} \bm{R}^{-1} & \bm{0} \end{pmatrix} \begin{pmatrix} \bm{R} \\ \bm{0} \end{pmatrix} \\ &= \bm{I},\qquad \textrm{[ovviamente simmetrica]} \end{aligned}

Proprietà 4: \bm{A}\bm{A}^+ simmetrica

\begin{aligned} \bm{A}\bm{A}^+ &= \underbrace{ \bm{Q}\begin{pmatrix} \bm{R} \\ \bm{0} \end{pmatrix} }_{\bm{A}} \underbrace{ \begin{pmatrix} \bm{R}^{-1} & \bm{0} \end{pmatrix} \bm{Q}^T }_{\bm{A}^+} \\ &= \bm{Q} \begin{pmatrix} \bm{R} \\ \bm{0} \end{pmatrix} \begin{pmatrix} \bm{R}^{-1} & \bm{0} \end{pmatrix} \bm{Q}^T \\ &= \bm{Q} \begin{pmatrix} \bm{I} & \bm{0}\\ \bm{0} & \bm{0} \end{pmatrix} \bm{Q}^T,\qquad \textrm{[ovviamente simmetrica]} \end{aligned}

Pseudo inversa e fattorizzazione LQ

Data una matrice \bm{A}\in\Bbb{R}^{n\times m} con m>n non possiamo fare la fattorizzazione QR, ma possiamo farla della sua trasposta

\bm{A}^T = \bm{Q}\begin{pmatrix} \bm{R} \\ \bm{0} \end{pmatrix}

e quindi \bm{A} = \begin{pmatrix} \bm{R}^T & \bm{0} \end{pmatrix} \bm{Q}^T

la matrice \bm{R}^T è una matrice triangolare inferiore che potremmo chiamare \bm{L}. Quindi, in generale una matrice \bm{A}\in\Bbb{R}^{n\times m} di rango massimo si puo decomporre come

\begin{aligned} \bm{A} &= \bm{Q}\begin{pmatrix} \bm{R} \\ \bm{0} \end{pmatrix} & \qquad & \textrm{se $n \geq m$} \\[1em] \bm{A} &= \begin{pmatrix} \bm{L} & \bm{0} \end{pmatrix} \bm{Q} & \qquad & \textrm{se $n \leq m$} \end{aligned}

Il caso n\geq m lo abbiamo appena visto. Consideriamo ora il caso n \leq m. In questo caso

\bm{A}^+ = \bm{Q}^T \begin{pmatrix} \bm{L}^{-1} & \bm{0} \end{pmatrix}

infatti vale

Proprietà 1: \bm{A}\bm{A}^+\bm{A}=\bm{A}

\begin{aligned} \bm{A}\bm{A}^+\bm{A} &= \underbrace{ \begin{pmatrix} \bm{L} & \bm{0} \end{pmatrix} \bm{Q} }_{\bm{A}} \underbrace{ \bm{Q}^T \begin{pmatrix} \bm{L}^{-1} \\ \bm{0} \end{pmatrix} }_{\bm{A}^+} \underbrace{ \begin{pmatrix} \bm{L} & \bm{0} \end{pmatrix} \bm{Q} }_{\bm{A}} \\ &= \begin{pmatrix} \bm{L} & \bm{0} \end{pmatrix} \begin{pmatrix} \bm{L}^{-1} \\ \bm{0} \end{pmatrix} \underbrace{ \begin{pmatrix} \bm{L} & \bm{0} \end{pmatrix} \bm{Q} }_{\bm{A}} \\ &= \bm{I} \underbrace{ \begin{pmatrix} \bm{L} & \bm{0} \end{pmatrix} \bm{Q} }_{\bm{A}} \\ &= \bm{A} \end{aligned}

Proprietà 2: \bm{A}^+\bm{A}\bm{A}^+=\bm{A}^+

\begin{aligned} \bm{A}^+\bm{A}\bm{A}^+ &= \underbrace{ \bm{Q}^T \begin{pmatrix} \bm{L}^{-1} \\ \bm{0} \end{pmatrix} }_{\bm{A}^+} \underbrace{ \begin{pmatrix} \bm{L} & \bm{0} \end{pmatrix} \bm{Q} }_{\bm{A}} \underbrace{ \bm{Q}^T \begin{pmatrix} \bm{L}^{-1} \\ \bm{0} \end{pmatrix} }_{\bm{A}^+} \\ &= \underbrace{ \bm{Q} \begin{pmatrix} \bm{L}^{-1} \\ \bm{0} \end{pmatrix} }_{\bm{A}^+} \begin{pmatrix} \bm{L} & \bm{0} \end{pmatrix} \begin{pmatrix} \bm{L}^{-1} \\ \bm{0} \end{pmatrix} \\ &= \underbrace{ \bm{Q} \begin{pmatrix} \bm{L}^{-1} \\ \bm{0} \end{pmatrix} }_{\bm{A}^+} \bm{I} = \bm{A}^+ \end{aligned}

Proprietà 3: \bm{A}^+\bm{A} simmetrica

\begin{aligned} \bm{A}^+\bm{A} &= \underbrace{ \bm{Q} \begin{pmatrix} \bm{L}^{-1} \\ \bm{0} \end{pmatrix} }_{\bm{A}^+} \underbrace{ \begin{pmatrix} \bm{L} & \bm{0} \end{pmatrix} \bm{Q} }_{\bm{A}} \\ &= \bm{Q} \begin{pmatrix} \bm{I} & \bm{0} \\ \bm{0} & \bm{0} \end{pmatrix} \bm{Q},\qquad \textrm{[ovviamente simmetrica]} \end{aligned}

Proprietà 4: \bm{A}\bm{A}^+ simmetrica

\begin{aligned} \bm{A}\bm{A}^+ &= \underbrace{ \begin{pmatrix} \bm{L} & \bm{0} \end{pmatrix} \bm{Q} }_{\bm{A}} \underbrace{ \bm{Q}^T \begin{pmatrix} \bm{L}^{-1} \\ \bm{0} \end{pmatrix} }_{\bm{A}^+} \\ &= \begin{pmatrix} \bm{L} & \bm{0} \end{pmatrix} \begin{pmatrix} \bm{L}^{-1} \\ \bm{0} \end{pmatrix} = \bm{I},\qquad \textrm{[ovviamente simmetrica]} \end{aligned}

Referenze

Golub, Gene H., e Charles F. Van Loan. 1989. Matrix Computations. Johns Hopkins Univ. Press.
Trefethen, Lloyd N., e David Bau. 1997. Numerical Linear Algebra. SIAM.