Queste note sono basate sugli appunti fatti con Gianmarco Manzini negli anni 1995-2005

Norme, prodotti scalari ortogonalità

Prerequisiti di algebra lineare

Autore/Autrice
Affiliazione

Enrico Bertolazzi

University of Trento, Department of Industrial Engineering

Norme di vettori

Consideriamo un vettore \boldsymbol{x}\in \Bbb{R}^3 con componenti x_1, x_2, e x_3. Le componenti di questo vettore possono essere interpretate come le coordinate di un punto nello spazio tridimensionale \Bbb{R}^3. La distanza di questo punto dall’origine è la lunghezza del segmento che collega l’origine al punto \boldsymbol{x}. Questa lunghezza può essere vista come la lunghezza del vettore \boldsymbol{x}. Dal teorema di Pitagora1, la lunghezza del vettore \boldsymbol{x} è data da:

\sqrt{x_1^2 + x_2^2 + x_3^2}.

Possiamo estendere questa nozione di lunghezza a vettori in \Bbb{R}^n o \Bbb{C}^n con la seguente definizione. Per ogni vettore \boldsymbol{x}\in \Bbb{R}^n o \Bbb{C}^n, definiamo la sua norma euclidea come:

\left|\left|\boldsymbol{x}\right|\right|_2 = \sqrt{\sum_{i=1}^{n} \left\lvert x_i\right\rvert^2}.

Questa misura è chiamata la lunghezza del vettore e possiede le seguenti proprietà:

  1. Non negatività: La norma è sempre non negativa, \left|\left|\boldsymbol{x}\right|\right|_2 = \sqrt{\sum_{i=1}^{n} \left\lvert x_i\right\rvert^2} \geq 0. Inoltre, \left|\left|\boldsymbol{x}\right|\right|_2 = 0 solo se tutte le componenti sono zero, cioè \boldsymbol{x}= \boldsymbol{0}.

  2. Omogeneità: Moltiplicare il vettore per uno scalare \alpha modifica la norma come segue: \begin{aligned} \left|\left|\alpha \boldsymbol{x}\right|\right|_2 &= \sqrt{\sum_{i=1}^{n} \left\lvert\alpha x_i\right\rvert^2} \\ &= \sqrt{\sum_{i=1}^{n} \left\lvert\alpha\right\rvert^2 \left\lvert x_i\right\rvert^2} \\ &= \left\lvert\alpha\right\rvert \sqrt{\sum_{i=1}^{n} \left\lvert x_i\right\rvert^2} \\ &= \left\lvert\alpha\right\rvert \left|\left|\boldsymbol{x}\right|\right|_2. \end{aligned}

  3. Disuguaglianza triangolare: Per ogni coppia di vettori \boldsymbol{x}, \boldsymbol{y}\in \Bbb{K}^n, si ha: \left|\left|\boldsymbol{x}+ \boldsymbol{y}\right|\right|_2 \leq \left|\left|\boldsymbol{x}\right|\right|_2 + \left|\left|\boldsymbol{y}\right|\right|_2. \tag{1} Questa è nota come disuguaglianza triangolare. Il termine “triangolare” si riferisce alla proprietà geometrica dei triangoli, dove la lunghezza di un lato è sempre minore o uguale alla somma delle lunghezze degli altri due lati. Questo concetto è illustrato nella figura Figura 1.

Figura 1: Disuguaglianza triangolare

Diseguaglianze di Young2,Hölder3 e Minkowski4.

La dimostrazione della disuguaglianza triangolare (Equazione 1) è un po’ laboriosa e richiede l’uso di alcune disuguaglianze classiche, come quella di Young.

Lemma 1 (Disuguaglianza di Young) Dati due numeri reali p e q tali che

\dfrac{1}{p}+\dfrac{1}{q} = 1, \qquad 1 < p, q < \infty,

allora per ogni coppia di numeri reali non negativi a e b si ha

ab \leq \dfrac{a^p}{p} + \dfrac{b^q}{q}. \tag{2}

Inoltre, la disuguaglianza diventa uguaglianza se a^p = b^q.

Dimostrazione. Consideriamo la funzione

f(t) = \dfrac{t}{p} - t^{1/p}. \tag{3}

Allora, calcoliamo la derivata prima della funzione:

f'(t) = \dfrac{1}{p} - \dfrac{t^{1/p-1}}{p} = \dfrac{1}{p} - \dfrac{t^{-1/q}}{p} = \dfrac{1}{p} \left(1 - t^{-1/q}\right). \tag{4}

Poiché \frac{1}{q} < 1, abbiamo che f'(t) < 0 per 0 < t < 1 e f'(t) > 0 per t > 1. Quindi, t = 1 è un punto di minimo per f(t) in (0, \infty), e di conseguenza f(t) \geq f(1) per t > 0. Pertanto,

f(t) \geq f(1), \qquad \text{cioè} \qquad \dfrac{t}{p} - t^{1/p} \geq \dfrac{1}{p} - 1 = - \dfrac{1}{q}.

Da qui otteniamo:

t^{1/p} \leq \dfrac{1}{q} + \dfrac{t}{p}.

Osserviamo che se a = 0 o b = 0, la disuguaglianza è banalmente vera. Consideriamo quindi a, b > 0 e calcoliamo la disuguaglianza in t = a^p b^{-q}:

ab^{-q/p} \leq \dfrac{1}{q} + \dfrac{a^p b^{-q}}{p}.

Moltiplicando la disuguaglianza per b^q ed osservando che q - q/p = 1, otteniamo il risultato cercato:

ab \leq \dfrac{a^p}{p} + \dfrac{b^q}{q}.

Infine, osserviamo che se a^p = b^q, allora calcoliamo la disuguaglianza in t = 1, ottenendo l’uguaglianza:

ab = \dfrac{a^p}{p} + \dfrac{b^q}{q}.

Possiamo ora dimostrare la disuguaglianza di Hölder

Teorema 1 (Disuguaglianza di Hölder) Dati due numeri reali p e q tali che 1 < p, q < \infty e che soddisfano 1/p + 1/q = 1, e dati a_1, a_2, \ldots, a_n \geq 0 e b_1, b_2, \ldots, b_n \geq 0, allora

\sum_{k=1}^{n} a_k b_k \leq \left(\sum_{k=1}^{n} a_k^p\right)^{1/p} \left(\sum_{k=1}^{n} b_k^q\right)^{1/q}.

Dimostrazione. Sia

A = \left(\sum_{k=1}^{n} a_k^p\right)^{1/p}, \qquad B = \left(\sum_{k=1}^{n} b_k^q\right)^{1/q}.

Se AB = 0, allora o A = 0 oppure B = 0 5. Questo implica che tutti gli a_k sono zero, e quindi la disuguaglianza è banalmente vera. Lo stesso ragionamento si applica nel caso in cui B = 0.

Supponiamo quindi che AB > 0. Utilizzando la disuguaglianza Equazione 2 del lemma Lemma 1, otteniamo per ogni k:

Supponiamo, per esempio, che A \neq 0 e B \neq 0.

\dfrac{a_k}{A} \cdot \dfrac{b_k}{B} \leq \dfrac{a_k^p}{p A^p} + \dfrac{b_k^q}{q B^q}.

Sommando su tutti i k, abbiamo:

\dfrac{\displaystyle\sum_{k=1}^{n} a_k b_k}{AB} \leq \dfrac{\displaystyle\sum_{k=1}^{n} a_k^p}{p A^p} + \dfrac{\displaystyle\sum_{k=1}^{n} b_k^q}{q B^q}.

Osservando che

A^p = \sum_{k=1}^{n} a_k^p \quad\text{e}\quad B^q = \sum_{k=1}^{n} b_k^q

possiamo scrivere:

\dfrac{\sum_{k=1}^{n} a_k b_k}{AB} \leq \dfrac{A^p}{p A^p} + \dfrac{B^q}{q B^q} = \dfrac{1}{p} + \dfrac{1}{q} = 1.

Infine, dimostriamo la disuguaglianza di Minkowski

Teorema 2 (Disuguaglianza di Minkowski) Sia 1 \leq p < \infty; e siano a_1, a_2, \ldots, a_n \geq 0 e b_1, b_2, \ldots, b_n \geq 0. Allora si ha:

\left( \sum_{k=1}^{n} (a_k + b_k)^p \right)^{1/p} \leq \left( \sum_{k=1}^{n} a_k^p \right)^{1/p} + \left( \sum_{k=1}^{n} b_k^p \right)^{1/p}.

Dimostrazione. Il caso p = 1 è immediato e risulta banale. Consideriamo ora il caso p > 1.

Iniziamo con l’espandere:

\sum_{k=1}^{n} (a_k + b_k)^p = \sum_{k=1}^{n} a_k (a_k + b_k)^{p-1} + \sum_{k=1}^{n} b_k (a_k + b_k)^{p-1}.

Applicando la disuguaglianza di Hölder a ciascuna delle due somme, con q definito dalla relazione 1/p + 1/q = 1, otteniamo:

\begin{aligned} \sum_{k=1}^{n} (a_k + b_k)^p &\leq \left( \sum_{k=1}^{n} a_k^p \right)^{1/p} \left( \sum_{k=1}^{n} (a_k + b_k)^{q(p-1)} \right)^{1/q} \\ &\quad + \left( \sum_{k=1}^{n} b_k^p \right)^{1/p} \left( \sum_{k=1}^{n} (a_k + b_k)^{q(p-1)} \right)^{1/q}. \end{aligned}

Dividendo entrambi i lati dell’ineguaglianza per \left( \sum_{k=1}^{n} (a_k + b_k)^p \right)^{1/q} e notando che q(p-1) = p, otteniamo la disuguaglianza desiderata.

Osserviamo che la disuguaglianza di Minkowski per p=2 è proprio la Equazione 1.

Possiamo estendere la nozione di lunghezza di un vettore attraverso una generalizzazione della funzione \left|\left|,\cdot,\right|\right| che mantenga le tre proprietà precedentemente menzionate.

Alcune proprietà delle norme vettoriali

Continuità delle norme

Teorema 3 La norma vettoriale è una funzione uniformemente continua dallo spazio dei vettori \Bbb{K}^n in \Bbb{R}.

Dimostrazione. La continuità uniforme della norma segue immediatamente dalla disuguaglianza:

\Big|\,\|\boldsymbol{x}\| - \|\boldsymbol{y}\|\,\Big| \leq \|\boldsymbol{x}- \boldsymbol{y}\|,

che dimostra che la norma è uniformemente continua.

Equivalenza delle norme

Teorema 4 Siano \left|\left|\cdot\right|\right|^{'} e \left|\left|\cdot\right|\right|^{''} due norme in \Bbb{K}^n. Esistono due costanti \alpha > 0 e \beta > 0 tali che, per ogni \boldsymbol{x}\in \Bbb{K}^n, vale:

\alpha \left|\left|\boldsymbol{x}\right|\right|^{''} \leq \left|\left|\boldsymbol{x}\right|\right|^{'} \leq \beta \left|\left|\boldsymbol{x}\right|\right|^{''}.

Dimostrazione. Se \boldsymbol{x}= \boldsymbol{0}, il teorema è ovvio. Per \boldsymbol{x}\neq \boldsymbol{0}, proviamo l’affermazione considerando il caso particolare in cui \left|\left|\cdot\right|\right|^{''} è la norma \left|\left|\cdot\right|\right|_{\infty}. Il caso generale seguirà per confronto.

Definiamo l’insieme:

S = \{\boldsymbol{y}\in \Bbb{K}^n \mid \left|\left|\boldsymbol{y}\right|\right|_{\infty} = 1\}.

L’insieme S è chiuso e limitato, quindi compatto. Poiché la norma \left|\left|\cdot\right|\right|^{'} è continua, essa raggiunge un minimo strettamente positivo \alpha e un massimo \beta su S.

Per ogni \boldsymbol{x}\in \Bbb{K}^n, possiamo scrivere:

\boldsymbol{y}= \frac{\boldsymbol{x}}{\left|\left|\boldsymbol{x}\right|\right|_{\infty}} \in S.

Di conseguenza, abbiamo:

\alpha \leq \left|\left|\boldsymbol{y}\right|\right|^{'} = \left|\left|\frac{\boldsymbol{x}}{\left|\left|\boldsymbol{x}\right|\right|_{\infty}}\right|\right|^{'} \leq \beta,

che implica:

\alpha \left|\left|\boldsymbol{x}\right|\right|_{\infty} \leq \left|\left|\boldsymbol{x}\right|\right|^{'} \leq \beta \left|\left|\boldsymbol{x}\right|\right|_{\infty}.

Confronto tra norme standard

Per ogni vettore \boldsymbol{x}\in \Bbb{K}^n, valgono le seguenti disuguaglianze:

\begin{aligned} (i) \qquad & \|\boldsymbol{x}\|_{\infty} & \leq & \|\boldsymbol{x}\|_2 & \leq & \sqrt{n} \|\boldsymbol{x}\|_{\infty}, \\ (ii) \qquad & \|\boldsymbol{x}\|_2 & \leq & \|\boldsymbol{x}\|_1 & \leq & \sqrt{n} \|\boldsymbol{x}\|_{\infty}, \\ (iii)\qquad & \|\boldsymbol{x}\|_{\infty} & \leq & \|\boldsymbol{x}\|_1 & \leq & n \|\boldsymbol{x}\|_{\infty}. \end{aligned}

Dimostrazione. Le disuguaglianze si ottengono nei seguenti modi:

  • (i) Sia \|\cdot\|' = \|\cdot\|_2. Ogni vettore \boldsymbol{y}\in S = \{\boldsymbol{y}\in \Bbb{K}^n \mid \|\boldsymbol{y}\|_{\infty} = 1\} ha almeno una componente di modulo 1, diciamo la componente y_k, con 1 \leq k \leq n, mentre le altre componenti soddisfano \left\lvert y_i\right\rvert \leq 1 per i \neq k.

    Pertanto, si ha:

    \|\boldsymbol{y}\|_2^2 = 1 + \sum_{i=1 \atop i \neq k}^{n} \left\lvert y_i\right\rvert^2 \quad \forall \, \boldsymbol{y}\in S,

    da cui segue che:

    \begin{aligned} \alpha &= \min_{\boldsymbol{y}\in S} \|\boldsymbol{y}\|_2 = 1, \\ \beta &= \max_{\boldsymbol{y}\in S} \|\boldsymbol{y}\|_2 = \sqrt{n}. \end{aligned}

    Quindi, si ottiene:

    \|\boldsymbol{x}\|_{\infty} \leq \|\boldsymbol{x}\|_2 \leq \sqrt{n} \|\boldsymbol{x}\|_{\infty}.

  • (ii) La prima disuguaglianza di (ii) si ottiene notando che, per ogni \boldsymbol{x}\in \Bbb{K}^n,

    \|\boldsymbol{x}\|_2^2 = \sum_{i=1}^{n} \left\lvert x_i\right\rvert^2 \leq \left( \sum_{i=1}^{n} \left\lvert x_i\right\rvert \right)^2 = \|\boldsymbol{x}\|_1^2.

    La seconda disuguaglianza deriva dalla disuguaglianza di Cauchy-Schwarz:

    \left\lvert(\boldsymbol{x}, \boldsymbol{y})\right\rvert \leq \|\boldsymbol{x}\|_2 \|\boldsymbol{y}\|_2,

    applicata a un vettore ausiliario \boldsymbol{y} definito da:

    y_i = \begin{cases} \frac{x_i}{\left\lvert x_i\right\rvert}, & \text{se} \, x_i \neq 0, \\ 0, & \text{se} \, x_i = 0. \end{cases}

    Si osserva che:

    \left\lvert(\boldsymbol{x}, \boldsymbol{y})\right\rvert = \sum_{i=1}^{n} \left\lvert x_i\right\rvert = \|\boldsymbol{x}\|_1,

    e

    \|\boldsymbol{y}\|_2 = \left( \sum_{i=1}^{n} \left\lvert y_i\right\rvert^2 \right)^{\frac{1}{2}} = \sqrt{n}.

    Quindi, otteniamo:

    \|\boldsymbol{x}\|_2 \leq \|\boldsymbol{x}\|_1 \leq \sqrt{n} \|\boldsymbol{x}\|_{\infty}.

  • (iii) Le disuguaglianze si ottengono combinando i risultati di (i) e (ii):

    \|\boldsymbol{x}\|_{\infty} \leq \|\boldsymbol{x}\|_1 \leq n \|\boldsymbol{x}\|_{\infty}.

Definizione 1 (p-Norma) Utilizzando la disuguaglianza di Minkowski (Equazione 1), si dimostra che per 1 \leq p < \infty, la funzione definita come

\left|\left|\boldsymbol{x}\right|\right|_{p} = \left( \sum_{k=1}^{n} \left\lvert x_k\right\rvert^{p} \right)^{1/p}

è una norma. Questa norma è chiamata p-norma.

Due casi particolari di p-norma sono:

  • Norma 1: \left|\left|\boldsymbol{x}\right|\right|_1 = \displaystyle\sum_{i=1}^{n} \left\lvert x_i\right\rvert.

  • Norma 2: \left|\left|\boldsymbol{x}\right|\right|_2 = \sqrt{\displaystyle\sum_{i=1}^{n} \left\lvert x_i\right\rvert^{2}}.

Inoltre, è possibile estendere la definizione della norma al caso limite p \to \infty:

\left|\left|\boldsymbol{x}\right|\right|_{\infty} = \max_{k=1, \ldots, n} \left\lvert x_k\right\rvert,

e si può verificare facilmente che anche questa funzione è una norma.

Esempio

Dati i vettori

\boldsymbol{x}=\begin{pmatrix} 1 \\ 2 \\ -2\end{pmatrix}, \qquad \boldsymbol{y}=\begin{pmatrix}1+ {\color{blue}\imath}\\ {\color{blue}\imath}\\ 1 \\ -1\end{pmatrix},

otteniamo

\begin{aligned} \left|\left|\boldsymbol{x}\right|\right|_{\infty} & = \max\left\{\left\lvert 1\right\rvert,\left\lvert 2\right\rvert,\left\lvert-2\right\rvert\right\} = \max\left\{1,2,2\right\}=2, \\[1em] \left|\left|\boldsymbol{y}\right|\right|_{\infty} & = \max\left\{\left\lvert 1+{\color{blue}\imath}\right\rvert,\left\lvert{\color{blue}\imath}\right\rvert,\left\lvert 1\right\rvert,\left\lvert-1\right\rvert\right\} = \max\left\{\sqrt{2},1,1,1\right\}=\sqrt{2}, \\[1em] \left|\left|\boldsymbol{x}\right|\right|_1 & = \left\lvert 1\right\rvert+\left\lvert 2\right\rvert+\left\lvert-2\right\rvert = 1+2+2 = 5, \\[1em] \left|\left|\boldsymbol{y}\right|\right|_1 & = \left\lvert 1+{\color{blue}\imath}\right\rvert+\left\lvert{\color{blue}\imath}\right\rvert+\left\lvert 1\right\rvert+\left\lvert-1\right\rvert = \sqrt{2}+1+1+1=3+\sqrt{2}, \\[1em] \left|\left|\boldsymbol{x}\right|\right|_2 & = \sqrt{\left\lvert 1\right\rvert^{2}+\left\lvert 2\right\rvert^{2}+\left\lvert-2\right\rvert^{2}} = \sqrt{1+4+4} = 3, \\[1em] \left|\left|\boldsymbol{y}\right|\right|_2 & = \sqrt{\left\lvert 1+{\color{blue}\imath}\right\rvert^{2}+\left\lvert{\color{blue}\imath}\right\rvert^{2}+\left\lvert 1\right\rvert^{2}+\left\lvert-1\right\rvert^{2}} = \sqrt{2+1+1+1}=\sqrt{5}. \end{aligned}

Prodotti scalari

Il prodotto scalare tra due vettori è molto usato in fisica ed ha la seguente definizione

Definizione 2 (Prodotto Scalare (Euclideo)) Il prodotto scalare (o prodotto dot) tra due vettori \boldsymbol{a} e \boldsymbol{b} è dato dalla formula:

\boldsymbol{a}\cdot \boldsymbol{b}= \left|\left|\boldsymbol{a}\right|\right|_2 \left|\left|\boldsymbol{b}\right|\right|_2 \cos \theta_{\boldsymbol{a}\boldsymbol{b}}, \tag{5}

dove \theta_{\boldsymbol{a}\boldsymbol{b}} rappresenta l’angolo compreso tra i due vettori \boldsymbol{a} e \boldsymbol{b}.

Figura 2: prodotto scalare e parallelogrammo associato

Dalla figura 6 Figura 2 possiamo derivare una formula per il prodotto scalare che non utilizza il coseno, ma solo la norma.

Consideriamo le seguenti definizioni:

L = \left|\left|\boldsymbol{b}\right|\right|_2 \cos \theta_{\boldsymbol{a}\boldsymbol{b}}, \qquad H = \left|\left|\boldsymbol{b}\right|\right|_2 \sin \theta_{\boldsymbol{a}\boldsymbol{b}},

dove \theta_{\boldsymbol{a}\boldsymbol{b}} è l’angolo tra i vettori \boldsymbol{a} e \boldsymbol{b}. Applicando il teorema di Pitagora, otteniamo:

\left|\left|\boldsymbol{a}+ \boldsymbol{b}\right|\right|_2^2 - H^2 = (\left|\left|\boldsymbol{a}\right|\right|_2 + L)^2 = \left|\left|\boldsymbol{a}\right|\right|_2^2 + L^2 + 2 \left|\left|\boldsymbol{a}\right|\right|_2 L \tag{6}

e

\left|\left|\boldsymbol{a}- \boldsymbol{b}\right|\right|_2^2 - H^2 = (\left|\left|\boldsymbol{a}\right|\right|_2 - L)^2 = \left|\left|\boldsymbol{a}\right|\right|_2^2 + L^2 - 2 \left|\left|\boldsymbol{a}\right|\right|_2 L \tag{7}

Sottraendo l’equazione Equazione 7 da Equazione 6, otteniamo:

\left|\left|\boldsymbol{a}+ \boldsymbol{b}\right|\right|_2^2 - \left|\left|\boldsymbol{a}- \boldsymbol{b}\right|\right|_2^2 = 4 \left|\left|\boldsymbol{a}\right|\right|_2 L = 4 \left|\left|\boldsymbol{a}\right|\right|_2 \left|\left|\boldsymbol{b}\right|\right|_2 \cos \theta_{\boldsymbol{a}\boldsymbol{b}},

e quindi, utilizzando la formula Equazione 5, possiamo scrivere:

\boldsymbol{a}\cdot \boldsymbol{b}= \frac{\left|\left|\boldsymbol{a}+ \boldsymbol{b}\right|\right|_2^2 - \left|\left|\boldsymbol{a}- \boldsymbol{b}\right|\right|_2^2}{4}.

Inoltre, osserviamo che:

\left|\left|\boldsymbol{a}+ \boldsymbol{b}\right|\right|_2^2 - \left|\left|\boldsymbol{a}- \boldsymbol{b}\right|\right|_2^2 = \sum_{k=1}^{n} \left[\left\lvert a_k + b_k\right\rvert^2 - \left\lvert a_k - b_k\right\rvert^2\right] = 4 \sum_{k=1}^{n} a_k b_k,

da cui il prodotto scalare si esprime come:

\boldsymbol{a}\cdot \boldsymbol{b}= \sum_{k=1}^{n} a_k b_k. \tag{8}

Questa formula è valida per vettori reali. Per un vettore complesso \boldsymbol{a}, la formula Equazione 8 non restituisce direttamente il quadrato della lunghezza, poiché se a_k sono numeri complessi:

\boldsymbol{a}\cdot \boldsymbol{a} = \sum_{k=1}^{n} a_k^2 \neq \sum_{k=1}^{n} \left\lvert a_k\right\rvert^2.

Tuttavia, è possibile modificare la definizione di prodotto scalare per ottenere una formula che, applicata a vettori reali, sia equivalente a Equazione 5 e che, nel caso di vettori complessi, restituisca \boldsymbol{a}\cdot \boldsymbol{a}= \left|\left|\boldsymbol{a}\right|\right|_2^2.

:::

Definizione 3 (Prodotto Scalare nel Campo Complesso) Definiamo il prodotto scalare tra due vettori \boldsymbol{x} e \boldsymbol{y} di dimensione n come:

\boldsymbol{x}\cdot \boldsymbol{y}= \sum_{i=1}^{n} x_i \overline{y_i}, \tag{9}

dove \overline{\boldsymbol{z}} denota il coniugato complesso di un numero complesso \boldsymbol{z}.

Ricordiamo che:

\overline{a + {\color{blue}\imath}b} = a - {\color{blue}\imath}b

e il coniugato complesso soddisfa le seguenti proprietà:

\begin{aligned} \overline{z} \cdot z & = (a + {\color{blue}\imath}b)(a - {\color{blue}\imath}b) = a^2 + b^2 = \left\lvert z\right\rvert^2, \\ \overline{\overline{z}} & = \overline{a - {\color{blue}\imath}b} = a + {\color{blue}\imath}b = z, \\ \overline{z + w} &= \overline{z} + \overline{w}, \end{aligned}

oltre a:

\begin{aligned} \overline{zw} &= \overline{(a + {\color{blue}\imath}b)(c + {\color{blue}\imath}d)} = \overline{(ac - bd) + (bc + ad) {\color{blue}\imath}} \\ &= (ac - bd) - (bc + ad) {\color{blue}\imath}, \\ \overline{z} \cdot \overline{w} &= (a - {\color{blue}\imath}b)(c - {\color{blue}\imath}d) \\ &= ac - bd - (bc + ad) {\color{blue}\imath}, \end{aligned}

da cui segue:

\overline{zw} = \overline{z} \cdot \overline{w}.

Per un numero complesso z = a + {\color{blue}\imath}b, abbiamo:

\Re(z) = \frac{z + \overline{z}}{2} = a, \qquad \Im(z) = \frac{z - \overline{z}}{2 {\color{blue}\imath}} = b.

La formula Equazione 9 è nota come prodotto scalare euclideo.

Questa funzione soddisfa le seguenti proprietà:

  1. Non negatività e nullità: \boldsymbol{x}\cdot \boldsymbol{x}= \sum_{i=1}^{n} x_i \overline{x_i} = \sum_{i=1}^{n} \left\lvert x_i\right\rvert^2 \geq 0. Inoltre, \boldsymbol{x}\cdot \boldsymbol{x}= 0 se e solo se x_i = 0 per tutti i, il che implica \boldsymbol{x}= \boldsymbol{0}.

  2. Simmetria: \boldsymbol{x}\cdot \boldsymbol{y}= \sum_{i=1}^{n} x_i \overline{y_i} = \overline{\sum_{i=1}^{n} \overline{x_i} y_i} = \overline{\boldsymbol{y}\cdot \boldsymbol{x}}.

  3. Linearità: (\boldsymbol{x}+ \boldsymbol{y}) \cdot \boldsymbol{z}= \sum_{i=1}^{n} (x_i + y_i) \overline{z_i} = \sum_{i=1}^{n} x_i \overline{z_i} + \sum_{i=1}^{n} y_i \overline{z_i} = \boldsymbol{x}\cdot \boldsymbol{z}+ \boldsymbol{y}\cdot \boldsymbol{z}.

  4. Omogeneità: (\alpha \boldsymbol{x}) \cdot \boldsymbol{y}= \sum_{i=1}^{n} \alpha x_i \overline{y_i} = \alpha \sum_{i=1}^{n} x_i \overline{y_i} = \alpha (\boldsymbol{x}\cdot \boldsymbol{y}).

Queste proprietà (1)-(4) possono essere utilizzate per definire il prodotto scalare in modo assiomatico.

Definizione 4 (Prodotto Scalare in generale) Una funzione \left\langle\cdot,\cdot\right\rangle : \Bbb{K}^n \times \Bbb{K}^n \to \Bbb{K} è un prodotto scalare se soddisfa le seguenti proprietà per ogni \boldsymbol{x}, \boldsymbol{y}, \boldsymbol{z}\in \Bbb{K}^n e per ogni \alpha \in \Bbb{K}:

  1. Non negatività e nullità: \left\langle\boldsymbol{x},\boldsymbol{x}\right\rangle \geq 0 \quad \text{e} \quad \left\langle\boldsymbol{x},\boldsymbol{x}\right\rangle = 0 \text{ se e solo se } \boldsymbol{x}= \boldsymbol{0}.

  2. Simmetria Coniugata: \left\langle\boldsymbol{x},\boldsymbol{y}\right\rangle = \overline{\left\langle\boldsymbol{y},\boldsymbol{x}\right\rangle}, dove \overline{\cdot} denota l’operazione di coniugazione complessa.

  3. Linearità nella prima variabile: \left\langle\boldsymbol{x}+ \boldsymbol{y},\boldsymbol{z}\right\rangle = \left\langle\boldsymbol{x},\boldsymbol{z}\right\rangle + \left\langle\boldsymbol{y},\boldsymbol{z}\right\rangle.

  4. Omogeneità: \left\langle\alpha \boldsymbol{x},\boldsymbol{y}\right\rangle = \alpha \left\langle\boldsymbol{x},\boldsymbol{y}\right\rangle.

Queste proprietà definiscono il concetto di prodotto scalare in uno spazio vettoriale.

Osservazione

Nella definizione assiomatica del prodotto scalare, abbiamo utilizzato la notazione \left\langle\boldsymbol{x},\boldsymbol{y}\right\rangle per indicare il prodotto scalare tra due vettori \boldsymbol{x}, \boldsymbol{y}\in \Bbb{K}^n. Nella discussione precedente, invece, abbiamo utilizzato la notazione \boldsymbol{x}\cdot \boldsymbol{y}.

È importante sottolineare che la scelta della notazione non influisce sulla definizione del prodotto scalare né sulle sue proprietà.

Esiste anche una terza notazione di uso comune, \boldsymbol{x}^T \boldsymbol{y}. In questa notazione, si assume implicitamente che tutti i vettori siano vettori colonna, e l’apice {}^T denota l’operazione di trasposizione, che trasforma un vettore colonna in un vettore riga.

La definizione generale di trasposto di una matrice e di un vettore, di cui abbiamo già anticipato l’idea, sarà introdotta tra poco.

Esempio

E’ facile verificare che anche la seguente funzione

[\boldsymbol{x},\boldsymbol{y}] = \sum_{k=1}^{n} k x_k\overline{y_k},

definisce un prodotto scalare per ogni k reale positivo.

Osservazione

La funzione \left|\left|\,\cdot\,\right|\right|_2 può essere espressa tramite il prodotto scalare euclideo come segue:

\left|\left|\boldsymbol{x}\right|\right|_2 = \sqrt{\boldsymbol{x}\cdot \boldsymbol{x}}.

In modo analogo, dato un prodotto scalare generico (\cdot, \cdot), è possibile definire l’applicazione:

\left|\left|\boldsymbol{x}\right|\right| = \sqrt{\boldsymbol{x}\cdot \boldsymbol{x}},

che soddisfa le proprietà di una norma. Questa applicazione è conosciuta come norma indotta dal prodotto scalare.

Teorema 5 (Disuguaglianza di Cauchy7-Schwarz8) Per un prodotto scalare generico, la disuguaglianza di Cauchy-Schwarz è espressa come:

\boxed{ (\boldsymbol{x}, \boldsymbol{y}) \leq \left|\left|\boldsymbol{x}\right|\right| \left|\left|\boldsymbol{y}\right|\right| } \tag{10}

dove \left|\left|\cdot\right|\right| rappresenta la norma indotta dal prodotto scalare. La disuguaglianza è stretta solo se \boldsymbol{x} e \boldsymbol{y} sono allineati, cioè se esiste uno scalare \gamma tale che \boldsymbol{x}= \gamma \boldsymbol{y}.

Dimostrazione. La disuguaglianza è ovvia se uno dei vettori è nullo. Supponiamo quindi che entrambi i vettori siano non nulli. Consideriamo il vettore \boldsymbol{x}- \alpha \boldsymbol{y} e applicando la proprietà (1) della definizione di prodotto scalare alla sua norma, otteniamo:

(\boldsymbol{x}- \alpha \boldsymbol{y}, \boldsymbol{x}- \alpha \boldsymbol{y}) \geq 0.

Sviluppando l’espressione, abbiamo:

\begin{aligned} 0 & \leq (\boldsymbol{x}- \alpha \boldsymbol{y}, \boldsymbol{x}- \alpha \boldsymbol{y}) \\ & = (\boldsymbol{x}, \boldsymbol{x}) - \alpha (\boldsymbol{y}, \boldsymbol{x}) - \overline{\alpha} (\boldsymbol{x}, \boldsymbol{y}) + \alpha \overline{\alpha} (\boldsymbol{y}, \boldsymbol{y}) \\ & = (\boldsymbol{x}, \boldsymbol{x}) - \alpha \overline{(\boldsymbol{x}, \boldsymbol{y})} - \overline{\alpha} [(\boldsymbol{x}, \boldsymbol{y}) - \alpha (\boldsymbol{y}, \boldsymbol{y})]. \end{aligned} \tag{11}

Scegliendo \alpha in modo da annullare l’espressione tra parentesi quadre, otteniamo:

\alpha = \frac{(\boldsymbol{x}, \boldsymbol{y})}{(\boldsymbol{y}, \boldsymbol{y})}.

Sostituendo questo valore di \alpha, si ottiene:

0 \leq \left|\left|\boldsymbol{x}\right|\right|^2 - \frac{\left\lvert(\boldsymbol{x}, \boldsymbol{y})\right\rvert^2}{\left|\left|\boldsymbol{y}\right|\right|^2},

che è equivalente alla disuguaglianza di Cauchy-Schwarz espressa in Equazione 10. Se \boldsymbol{x}- \alpha \boldsymbol{y}\neq \boldsymbol{0}, allora la disuguaglianza è stretta, e quindi anche Equazione 10 è stretta.

Ortogonalità e angolo tra vettori

Il concetto di prodotto scalare permette di definire l’ortogonalità e l’angolo tra due vettori. Utilizzando il prodotto scalare euclideo espresso in Equazione 9 e la formula per il prodotto scalare in Equazione 5, possiamo calcolare l’angolo \theta_{\boldsymbol{a}\boldsymbol{b}} tra due vettori \boldsymbol{a} e \boldsymbol{b} con la seguente formula:

\theta_{\boldsymbol{a}\boldsymbol{b}} = \arccos \left( \frac{\boldsymbol{a}\cdot \boldsymbol{b}}{\left|\left|\boldsymbol{a}\right|\right|_2 \left|\left|\boldsymbol{b}\right|\right|_2} \right).

Esempio

I vettori \boldsymbol{a} e \boldsymbol{b} definiti come segue

\boldsymbol{a}= \begin{pmatrix}1 \\ 1 \\ 2\end{pmatrix},\qquad \boldsymbol{b}= \begin{pmatrix}1 \\ 0 \\ 1\end{pmatrix},

formano un angolo di circa 30^{0} o circa 0.5236 radianti, infatti

\cos\theta_{\boldsymbol{a}\boldsymbol{b}} = \dfrac{\boldsymbol{a}\cdot\boldsymbol{b}}{\left|\left|\boldsymbol{a}\right|\right|_2\left|\left|\boldsymbol{b}\right|\right|_2} = \dfrac{3}{\sqrt{12}}.

Se l’angolo tra i vettori è 90^{0} allora \cos 90^{0}=0 implica che il loro prodotto scalare è nullo. Questo suggerisce la seguente definizione.

Definizione 5 (Ortogonalità) Due vettori \boldsymbol{a} e \boldsymbol{b} si dicono ortogonali se il loro prodotto scalare è nullo. In tal caso, scriviamo \boldsymbol{a}\perp \boldsymbol{b}, indicando che:

\boldsymbol{a}\cdot \boldsymbol{b}= 0.

Osservazione

La definizione dell’angolo tra vettori è specifica per vettori reali, poiché utilizza il concetto di coseno. Tuttavia, la definizione di ortogonalità è valida anche per vettori complessi e per qualsiasi prodotto scalare. Questo perché l’ortogonalità è una proprietà puramente algebrica, che dipende solo dal prodotto scalare tra i vettori.

Esempio

I vettori

\boldsymbol{a}= \begin{pmatrix}1 \\ 2 \\ 3 \end{pmatrix}, \qquad \boldsymbol{b}= \begin{pmatrix}1 \\ -2 \\ 1\end{pmatrix},

sono ortogonali (cioè \boldsymbol{a}\bot\boldsymbol{b}) infatti

\boldsymbol{a}\cdot\boldsymbol{b}= 1\cdot 1 + 2 \cdot (-2) + 3 \cdot 1 = 0,

analogamente i vettori

\boldsymbol{x}= \begin{pmatrix}1+{\color{blue}\imath}\\ 1 \\ 1 \end{pmatrix}, \qquad \boldsymbol{y}= \begin{pmatrix}1+{\color{blue}\imath}\\ -1 \\ -1\end{pmatrix},

sono ortogonali infatti

\boldsymbol{x}\cdot\boldsymbol{y}= (1+{\color{blue}\imath})(\overline{1+{\color{blue}\imath}}) + 1 \cdot (-1) + 1 \cdot (-1) = 0.

Prodotto Vettoriale

Consideriamo due vettori \boldsymbol{a} e \boldsymbol{b} nello spazio tridimensionale \Bbb{R}^3. Vogliamo trovare un terzo vettore \boldsymbol{x} che sia ortogonale a entrambi i vettori dati. Algebricamente, il problema può essere formulato come:

\text{Trovare } \boldsymbol{x}\in \Bbb{R}^3 \text{ tale che:} \bgroup \left\{\begin{aligned} \boldsymbol{a}\cdot \boldsymbol{x}&= 0, \\ \boldsymbol{b}\cdot \boldsymbol{x}&= 0. \end{aligned}\right.\egroup

Espresso in termini delle componenti dei vettori, questo diventa:

\bgroup \left\{\begin{aligned} a_1 x_1 + a_2 x_2 + a_3 x_3 &= 0, \\ b_1 x_1 + b_2 x_2 + b_3 x_3 &= 0. \end{aligned}\right.\egroup \tag{12}

Una soluzione a questo sistema di equazioni è data dalle componenti:

\bgroup \left\{\begin{aligned} x_1 &= a_2 b_3 - a_3 b_2, \\ x_2 &= a_3 b_1 - a_1 b_3, \\ x_3 &= a_1 b_2 - a_2 b_1. \end{aligned}\right.\egroup \tag{13}

Questa soluzione è conosciuta come prodotto vettoriale e si indica con:

\boldsymbol{x}= \boldsymbol{a}\wedge \boldsymbol{b}.

Inoltre, possiamo verificare la seguente relazione:

(\left|\left|\boldsymbol{a}\wedge \boldsymbol{b}\right|\right|_2)^2 + (\boldsymbol{a}\cdot \boldsymbol{b})^2 = (\left|\left|\boldsymbol{a}\right|\right|_2)^2 (\left|\left|\boldsymbol{b}\right|\right|_2)^2, \tag{14}

da cui, utilizzando la formula sopra, otteniamo:

\left|\left|\boldsymbol{a}\wedge \boldsymbol{b}\right|\right|_2 = \left|\left|\boldsymbol{a}\right|\right|_2 \left|\left|\boldsymbol{b}\right|\right|_2 \sin \theta_{\boldsymbol{a}\boldsymbol{b}}.

Il prodotto vettoriale è molto utile in geometria nello spazio. Per esempio, per trovare l’equazione di un piano che passa per tre punti distinti \boldsymbol{a}, \boldsymbol{b}, e \boldsymbol{c}, possiamo usare il prodotto vettoriale. Definiamo i vettori:

\boldsymbol{v}= \boldsymbol{b}- \boldsymbol{a}, \quad \boldsymbol{w}= \boldsymbol{c}- \boldsymbol{a},

che sono vettori complanari al piano. Il vettore normale al piano è dato da:

\boldsymbol{N}= \boldsymbol{v}\wedge \boldsymbol{w}.

L’equazione del piano può quindi essere scritta come:

\boldsymbol{N}\cdot \boldsymbol{x}= \boldsymbol{N}\cdot \boldsymbol{a}.

Figura 3: piano per 3 punti
Esempio

Dati i punti

\boldsymbol{a}= \begin{pmatrix}1 \\ 0 \\1\end{pmatrix}, \qquad \boldsymbol{b}= \begin{pmatrix}0 \\ 2 \\1\end{pmatrix}, \qquad \boldsymbol{c}= \begin{pmatrix}1 \\ 2 \\3\end{pmatrix},

trovare il piano passante per \boldsymbol{a}, \boldsymbol{b} e \boldsymbol{c}. Calcoliamo innanzitutto

\begin{aligned} \boldsymbol{v}&= \boldsymbol{b}-\boldsymbol{a} = \begin{pmatrix}0 \\ 2 \\1\end{pmatrix} - \begin{pmatrix}1 \\ 0 \\1\end{pmatrix} = \begin{pmatrix}-1 \\ 2 \\0\end{pmatrix}, \\ \boldsymbol{w}&= \boldsymbol{c}-\boldsymbol{a} = \begin{pmatrix}1 \\ 2 \\3\end{pmatrix} - \begin{pmatrix}1 \\ 0 \\1\end{pmatrix} = \begin{pmatrix}0 \\ 2 \\2\end{pmatrix}, \end{aligned}

da cui

\boldsymbol{N}= \boldsymbol{v}\wedge\boldsymbol{w} = \begin{pmatrix}-1 \\ 2 \\0\end{pmatrix}\wedge\begin{pmatrix}0 \\ 2 \\2\end{pmatrix} = \begin{pmatrix}4 \\ 2 \\ -2\end{pmatrix},

e infine

\boldsymbol{N}\cdot\boldsymbol{x}= 4x_1 +2x_2 -2x_3 ,\qquad \boldsymbol{N}\cdot\boldsymbol{a}= 2,

ponendo \boldsymbol{x}=\begin{pmatrix}x,y,z\end{pmatrix}^{T} otteniamo l’equazione del piano

2x+y-z = 1.

Indipendenza Lineare e Basi in \Bbb{K}^n

Il concetto di dipendenza e indipendenza lineare è fondamentale in algebra lineare.

Definizione 6 (Indipendenza Lineare) Consideriamo k vettori non nulli \boldsymbol{x}_1, \boldsymbol{x}_2, \ldots, \boldsymbol{x}_k in uno spazio vettoriale. Questi vettori sono detti linearmente dipendenti se esistono degli scalari \alpha_1, \alpha_2, \ldots, \alpha_k, con almeno uno di essi non nullo, tali che:

\alpha_1 \boldsymbol{x}_1 + \alpha_2 \boldsymbol{x}_2 + \cdots + \alpha_k \boldsymbol{x}_k = 0.

Se, invece, non esistono tali scalari e l’unica soluzione all’equazione sopra è quella triviale, cioè tutti gli scalari sono zero, allora i vettori \boldsymbol{x}_1, \boldsymbol{x}_2, \ldots, \boldsymbol{x}_k sono detti linearmente indipendenti.

Consideriamo k vettori linearmente indipendenti in \Bbb{K}^n, denotati con \boldsymbol{x}_1, \boldsymbol{x}_2, \ldots, \boldsymbol{x}_k. Dato un vettore \boldsymbol{w}\in \Bbb{K}^n, è possibile che \boldsymbol{w} possa essere scritto come una combinazione lineare di questi vettori. In altre parole, esistono scalari \alpha_1, \alpha_2, \ldots, \alpha_k tali che:

\boldsymbol{w}= \alpha_1 \boldsymbol{x}_1 + \alpha_2 \boldsymbol{x}_2 + \cdots + \alpha_k \boldsymbol{x}_k.

Questi scalari \alpha_i sono scelti in modo tale che l’equazione sia soddisfatta.

Definizione 7 (Base) Se i vettori \boldsymbol{x}_1, \boldsymbol{x}_2, \ldots, \boldsymbol{x}_k sono tali che ogni vettore \boldsymbol{w}\in \Bbb{K}^n può essere espresso come una combinazione lineare di essi, allora diremo che questi vettori formano una base di \Bbb{K}^n. Affinché ciò accada, è necessario che il numero di vettori k sia uguale alla dimensione dello spazio, cioè k = n.

Inoltre, questa condizione è anche sufficiente. Infatti, se si scelgono n vettori qualsiasi in \Bbb{K}^n che siano linearmente indipendenti, allora questi vettori formano sempre una base di \Bbb{K}^n.

Esempio

Consideriamo i vettori \boldsymbol{e}_1, \boldsymbol{e}_2, \ldots, \boldsymbol{e}_n in \Bbb{K}^n, definiti come segue:

\boldsymbol{e}_1 = \begin{pmatrix} 1 \\ 0 \\ 0 \\ \vdots \\ 0 \end{pmatrix}, \qquad \boldsymbol{e}_2 = \begin{pmatrix} 0 \\ 1 \\ 0 \\ \vdots \\ 0 \end{pmatrix}, \qquad \cdots, \qquad \boldsymbol{e}_n = \begin{pmatrix} 0 \\ 0 \\ \vdots \\ 0 \\ 1 \end{pmatrix}.

Questi vettori sono chiaramente linearmente indipendenti. Infatti, se consideriamo la combinazione lineare

\alpha_{1}\boldsymbol{e}_1 + \alpha_{2}\boldsymbol{e}_2 + \cdots + \alpha_{n}\boldsymbol{e}_n = \begin{pmatrix} \alpha_{1} \\ \alpha_{2} \\ \vdots \\ \alpha_{n} \end{pmatrix},

questa sarà nulla se e solo se tutti i coefficienti \alpha_{i} sono zero, cioè \alpha_{i} = 0 per i = 1, 2, \ldots, n.

Esempio

I vettori \boldsymbol{e}_1, \boldsymbol{e}_2, \ldots, \boldsymbol{e}_n, come definiti nell’esempio (exa-canonica?), formano una base di \Bbb{K}^n. Per ogni vettore \boldsymbol{w}\in \Bbb{K}^n con componenti w_1, w_2, \ldots, w_n, possiamo esprimere \boldsymbol{w} come una combinazione lineare di questi vettori:

\boldsymbol{w}= w_1 \boldsymbol{e}_1 + w_2 \boldsymbol{e}_2 + \cdots + w_n \boldsymbol{e}_n.

Questa base è chiamata base canonica di \Bbb{K}^n.

Esempio

Consideriamo i vettori

\boldsymbol{a}= \begin{pmatrix}1 \\ 2 \\ 3\end{pmatrix}, \qquad \boldsymbol{b}= \begin{pmatrix}1 \\ -2 \\ 1\end{pmatrix}, \qquad \boldsymbol{c}= \begin{pmatrix}-1 \\ 6 \\ 1\end{pmatrix}.

Questi vettori non sono linearmente indipendenti. Infatti, è facile verificare che

\boldsymbol{a}- 2\boldsymbol{b}+ \boldsymbol{c}= \boldsymbol{0}.

Questo implica che esiste una combinazione lineare non banale (con coefficienti diversi da zero) che dà come risultato il vettore nullo.

Indipendenza lineare dei vettori ortogonali

Teorema 6 I k vettori \boldsymbol{x}_1, \boldsymbol{x}_2, , \boldsymbol{x}_k che sono ortogonali a coppie,

\boldsymbol{x}_i \bot \boldsymbol{x}_j \quad \text{per } i \neq j,

sono necessariamente linearmente indipendenti.

Dimostrazione. Supponiamo che esistano k scalari \alpha_{1}, \alpha_{2}, , \alpha_{k} tali che

\alpha_{1}\boldsymbol{x}_1 + \alpha_{2}\boldsymbol{x}_2 + \cdots + \alpha_{k}\boldsymbol{x}_k = \boldsymbol{0}.

Per dimostrare che i vettori sono linearmente indipendenti, consideriamo il prodotto scalare di entrambi i lati dell’equazione con il vettore \boldsymbol{x}_i per i = 1, 2, \ldots, k. Utilizzando l’ortogonalità dei vettori, otteniamo:

\begin{aligned} 0 &= \boldsymbol{x}_i \cdot (\alpha_{1}\boldsymbol{x}_1 + \alpha_{2}\boldsymbol{x}_2 + \cdots + \alpha_{k}\boldsymbol{x}_k), \\ &= \alpha_{1} (\boldsymbol{x}_i \cdot \boldsymbol{x}_1) + \alpha_{2} (\boldsymbol{x}_i \cdot \boldsymbol{x}_2) + \cdots + \alpha_{i} (\boldsymbol{x}_i \cdot \boldsymbol{x}_i) + \cdots + \alpha_{k} (\boldsymbol{x}_i \cdot \boldsymbol{x}_k). \end{aligned}

Poiché \boldsymbol{x}_i \cdot \boldsymbol{x}_j = 0 per i \neq j, rimane

0 = \alpha_{i} (\boldsymbol{x}_i \cdot \boldsymbol{x}_i).

Dato che \boldsymbol{x}_i \cdot \boldsymbol{x}_i > 0 (perché \boldsymbol{x}_i è un vettore non nullo), segue che \alpha_{i} = 0.

Quindi, tutti i coefficienti \alpha_{i} devono essere zero, il che dimostra che i vettori \boldsymbol{x}_1, \boldsymbol{x}_2, , \boldsymbol{x}_k sono linearmente indipendenti.

Ortonormalizzazione di Gram9-Schmidt10

Definizione 8 (Vettori ortogonali) Dati k vettori \boldsymbol{v}_1, \boldsymbol{v}_2,, \boldsymbol{v}_k, diremo che gli stessi formano un sistema ortogonale se sono a due a due ortogonali, cioè

\boldsymbol{v}_i \bot\boldsymbol{v}_j, \qquad i \neq j.

Definizione 9 (Vettori ortonormali) Dati k vettori \boldsymbol{u}_1, \boldsymbol{u}_2,, \boldsymbol{u}_k, diremo che gli stessi formano un sistema ortonormale se sono a due a due ortogonali e di norma 1, cioè

\left|\left|\boldsymbol{u}_i\right|\right|_2=1, \qquad \boldsymbol{u}_i \bot\boldsymbol{u}_j, \quad i \neq j.

Definizione 10 (Span) Dati k vettori \boldsymbol{v}_1, \boldsymbol{v}_2,, \boldsymbol{v}_k, definiremo con \textrm{span}(\boldsymbol{v}_1,\boldsymbol{v}_2,\ldots,\boldsymbol{v}_k) lo spazio vettoriale generato dalle loro combinazioni lineari

\textrm{span}(\boldsymbol{v}_1,\boldsymbol{v}_2,\ldots,\boldsymbol{v}_k)= \left\{ \alpha_1\boldsymbol{v}_1+\alpha_2\boldsymbol{v}_2+\cdots+\alpha_k\boldsymbol{v}_k \;|\; \alpha_1,\alpha_2,\ldots,\alpha_k\in \Bbb{K} \right\}

Dati k vettori \boldsymbol{v}_1, \boldsymbol{v}_2,, \boldsymbol{v}_k, linearmente indipendenti è possibile costruire k vettori \boldsymbol{u}_1, \boldsymbol{u}_2,, \boldsymbol{u}_k a due a due ortogonali e di norma unitaria tali che

\textrm{span}(\boldsymbol{v}_1,\boldsymbol{v}_2,\ldots,\boldsymbol{v}_k) =\textrm{span}(\boldsymbol{u}_1,\boldsymbol{u}_2,\ldots,\boldsymbol{u}_k).

Teorema 7 Ortonormalizzazione di Gram-Schmidt

Consideriamo k vettori \boldsymbol{v}_1, \boldsymbol{v}_2, , \boldsymbol{v}_k che sono linearmente indipendenti. Possiamo costruire una nuova sequenza di k vettori ortonormali \boldsymbol{u}_1, \boldsymbol{u}_2, , \boldsymbol{u}_k che soddisfano le seguenti proprietà:

  1. \boldsymbol{u}_1 = \dfrac{\boldsymbol{v}_1}{\left|\left|\boldsymbol{v}_1\right|\right|_2}:

    Il primo vettore \boldsymbol{u}_1 è ottenuto normalizzando \boldsymbol{v}_1.

  2. \boldsymbol{u}_i \bot \boldsymbol{u}_j per ogni i \neq j:

    I vettori \boldsymbol{u}_i sono ortogonali tra loro.

  3. \left|\left|\boldsymbol{u}_i\right|\right|_2 = 1 per ogni i = 1, 2, \ldots, k:

    Ogni vettore \boldsymbol{u}_i è normalizzato, cioè ha lunghezza unitaria.

  4. \boldsymbol{V}_j = \boldsymbol{U}_j per ogni j = 1, 2, \ldots, k:

    Lo span dei primi j vettori \boldsymbol{v}_i è lo stesso dello span dei primi j vettori ortonormali \boldsymbol{u}_i, dove

    \boldsymbol{V}_j = \text{span}(\boldsymbol{v}_1, \boldsymbol{v}_2, \ldots, \boldsymbol{v}_j)

    e

    \boldsymbol{U}_j = \text{span}(\boldsymbol{u}_1, \boldsymbol{u}_2, \ldots, \boldsymbol{u}_j) .

Dimostrazione. Dati k vettori \boldsymbol{v}_1, \boldsymbol{v}_2, , \boldsymbol{v}_k che sono linearmente indipendenti, notiamo che \left|\left|\boldsymbol{v}_i\right|\right|_2 \neq 0 per ogni i = 1, 2, \ldots, k. Quindi, possiamo sempre normalizzare il primo vettore \boldsymbol{v}_1 definendo \boldsymbol{u}_1 = \frac{\boldsymbol{v}_1}{\left|\left|\boldsymbol{v}_1\right|\right|_2}. La dimostrazione procede per induzione.

  • Passo 1:

    Per k = 1, il teorema è ovviamente vero, poiché abbiamo \boldsymbol{u}_1 = \frac{\boldsymbol{v}_1}{\left|\left|\boldsymbol{v}_1\right|\right|_2}, che soddisfa tutte le condizioni richieste.

  • Passo 2:

    Supponiamo che il teorema sia vero per k - 1 vettori. Ovvero, assumiamo di avere già trovato k - 1 vettori ortonormali \boldsymbol{u}_1, \boldsymbol{u}_2, , \boldsymbol{u}_{k-1} tali che:

    \boldsymbol{u}_1 = \frac{\boldsymbol{v}_1}{\left|\left|\boldsymbol{v}_1\right|\right|_2}, \quad \boldsymbol{V}_j = \boldsymbol{U}_j \text{ per } j = 1, 2, \ldots, k - 1

    Definiamo ora il vettore ausiliario \boldsymbol{w}_k e il vettore ortonormale \boldsymbol{u}_k come segue:

    \begin{aligned} \boldsymbol{w}_k &= \boldsymbol{v}_k - \sum_{i=1}^{k-1} \beta_i \boldsymbol{u}_i, \\ \boldsymbol{u}_k &= \alpha \boldsymbol{w}_k, \end{aligned}

    dove i coefficienti \alpha e \beta_i devono essere scelti in modo che \boldsymbol{u}_k \bot \boldsymbol{u}_i per ogni i = 1, 2, \ldots, k - 1 e \left|\left|\boldsymbol{u}_k\right|\right|_2 = 1.

    Calcoliamo il prodotto scalare di \boldsymbol{w}_k con \boldsymbol{u}_j:

    \boldsymbol{w}_k \cdot \boldsymbol{u}_j = \boldsymbol{v}_k \cdot \boldsymbol{u}_j - \sum_{i=1}^{k-1} \beta_i \boldsymbol{u}_i \cdot \boldsymbol{u}_j = \boldsymbol{v}_k \cdot \boldsymbol{u}_j - \beta_j \quad \text{per } j = 1, 2, \ldots, k - 1

    Impostando \boldsymbol{w}_k \cdot \boldsymbol{u}_j = 0, otteniamo:

    \beta_j = \boldsymbol{v}_k \cdot \boldsymbol{u}_j \quad \text{per } j = 1, 2, \ldots, k - 1

    Per determinare \alpha, imponiamo che \left|\left|\boldsymbol{u}_k\right|\right|_2 = 1:

    1 = \left|\left|\boldsymbol{u}_k\right|\right|_2^2 = \boldsymbol{u}_k \cdot \boldsymbol{u}_k = \alpha^2 (\boldsymbol{w}_k \cdot \boldsymbol{w}_k) = \alpha^2 \left|\left|\boldsymbol{w}_k\right|\right|_2^2

    Da cui si ottiene \alpha = \frac{1}{\left|\left|\boldsymbol{w}_k\right|\right|_2}. È necessario che \boldsymbol{w}_k \neq \boldsymbol{0}; altrimenti, avremmo:

    \boldsymbol{0}= \boldsymbol{v}_k - \sum_{i=1}^{k-1} \beta_i \boldsymbol{u}_i

    Poiché \boldsymbol{U}_{k-1} = \boldsymbol{V}_{k-1}, esisterebbero k-1 scalari \gamma_i per cui:

    \boldsymbol{v}_k = \sum_{i=1}^{k-1} \beta_i \boldsymbol{u}_i = \sum_{i=1}^{k-1} \gamma_i \boldsymbol{v}_i

    Questo contraddice l’indipendenza lineare dei vettori \boldsymbol{v}_i.

  • Passo 3:

    Infine, dobbiamo verificare che \boldsymbol{U}_k = \boldsymbol{V}_k. Consideriamo una combinazione lineare generica dei vettori \boldsymbol{v}_i:

    \boldsymbol{z}= \sum_{i=1}^{k} \eta_i \boldsymbol{v}_i

    Mostriamo che \boldsymbol{z}\in \boldsymbol{U}_k. Per l’ipotesi induttiva, esistono k-1 scalari \zeta_i tali che:

    \sum_{i=1}^{k-1} \eta_i \boldsymbol{v}_i = \sum_{i=1}^{k-1} \zeta_i \boldsymbol{u}_i

    Utilizzando la relazione:

    \boldsymbol{v}_k = \frac{\boldsymbol{u}_k}{\alpha} + \sum_{i=1}^{k-1} \beta_i \boldsymbol{u}_i

    Otteniamo:

    \boldsymbol{z}= \frac{\eta_k}{\alpha} \boldsymbol{u}_k + \eta_k \sum_{i=1}^{k-1} \beta_i \boldsymbol{u}_i + \sum_{i=1}^{k-1} \zeta_i \boldsymbol{u}_i = \frac{\eta_k}{\alpha} \boldsymbol{u}_k + \sum_{i=1}^{k-1} (\zeta_i + \eta_k \beta_i) \boldsymbol{u}_i

    Quindi, \boldsymbol{z}\in \boldsymbol{U}_k, e poiché \boldsymbol{z} è arbitrario, abbiamo \boldsymbol{V}_k \subset \boldsymbol{U}_k.

    Viceversa, se \boldsymbol{z}\in \boldsymbol{U}_k, possiamo scrivere:

    \boldsymbol{z}= \sum_{i=1}^{k} \zeta_i \boldsymbol{u}_i

    e utilizzando la relazione:

    \boldsymbol{z}= \zeta_k \alpha \left( \boldsymbol{v}_k - \sum_{i=1}^{k-1} \beta_i \boldsymbol{u}_i \right) + \sum_{i=1}^{k-1} \zeta_i \boldsymbol{u}_i = \zeta_k \alpha \boldsymbol{v}_k - \sum_{i=1}^{k-1} (\zeta_i - \zeta_k \alpha \beta_i) \boldsymbol{u}_i

    Per l’ipotesi induttiva, esistono k-1 scalari \omega_i tali che:

    \sum_{i=1}^{k-1} (\zeta_i - \zeta_k \alpha \beta_i) \boldsymbol{u}_i = \sum_{i=1}^{k-1} \omega_i \boldsymbol{v}_i

    Quindi, \boldsymbol{z}\in \boldsymbol{V}_k. Poiché \boldsymbol{z} è arbitrario, abbiamo \boldsymbol{U}_k \subset \boldsymbol{V}_k, e quindi \boldsymbol{U}_k = \boldsymbol{V}_k.

Questo teorema porta al seguente algoritmo per l’ortonormalizzazione di un insieme di vettori:

  • Input: n vettori linearmente indipendenti \boldsymbol{v}_1, \boldsymbol{v}_2, , \boldsymbol{v}_n
  • Passo 1: Calcola il primo vettore ortonormale:
    • \boldsymbol{u}_1 \gets \frac{\boldsymbol{v}_1}{\left|\left|\boldsymbol{v}_1\right|\right|_2}
  • Passo 2: Per ogni k da 2 a n:
    • Calcola il vettore ausiliario \boldsymbol{w}_k: \boldsymbol{w}_k \gets \boldsymbol{v}_k - \sum_{i=1}^{k-1} (\boldsymbol{v}_k \cdot \boldsymbol{u}_i) \boldsymbol{u}_i
    • Normalizza \boldsymbol{w}_k per ottenere il vettore ortonormale \boldsymbol{u}_k: \boldsymbol{u}_k \gets \frac{\boldsymbol{w}_k}{\left|\left|\boldsymbol{w}_k\right|\right|_2}
  • Output: I vettori \boldsymbol{u}_1, \boldsymbol{u}_2, , \boldsymbol{u}_n sono ortonormali.
Osservazione

Consideriamo la matrice \boldsymbol{Q}\in \Bbb{R}^{m \times k} definita come

\boldsymbol{Q}= [\boldsymbol{u}_1, \boldsymbol{u}_2, \ldots, \boldsymbol{u}_k],

dove le colonne \boldsymbol{u}_j sono i vettori ortonormali ottenuti tramite il procedimento di Gram-Schmidt. L’ortonormalità di questi vettori è espressa dalla seguente proprietà della matrice \boldsymbol{Q}:

\boldsymbol{Q}^T \boldsymbol{Q}= \boldsymbol{I}\in \Bbb{R}^{k \times k},

dove \boldsymbol{I} è la matrice identità di dimensione k \times k.

È importante notare che, se k < m, la matrice \boldsymbol{Q}\boldsymbol{Q}^T non è in generale la matrice identità di dimensione m \times m. In realtà, la matrice \boldsymbol{Q}\boldsymbol{Q}^T soddisfa le seguenti proprietà:

\boldsymbol{P}= \boldsymbol{Q}\boldsymbol{Q}^T \quad \text{con} \quad \boldsymbol{P}^2 = \boldsymbol{P}\quad \text{e} \quad \boldsymbol{P}^T = \boldsymbol{P},

dove \boldsymbol{P} è una matrice di proiezione ortogonale. Quindi, la matrice \boldsymbol{Q}\boldsymbol{Q}^T è un proiettore ortogonale.

Osservazione

Data una base di k vettori linearmente indipendenti

\{\boldsymbol{u}_1, \boldsymbol{u}_2, \ldots, \boldsymbol{u}_k\} \text{ in } \Bbb{K}^n

che sono ortonormali a coppie, è sempre possibile estendere questo insieme a una base ortonormale completa di \Bbb{K}^n.

In particolare, è possibile trovare n - k vettori aggiuntivi

\{\boldsymbol{u}_{k+1}, \boldsymbol{u}_{k+2}, \ldots, \boldsymbol{u}_n\}

in modo che l’insieme completo

\{\boldsymbol{u}_1, \boldsymbol{u}_2, \ldots, \boldsymbol{u}_n\}

sia una base ortonormale di \Bbb{K}^n. Infatti, partendo da una base qualsiasi, è sufficiente rimuovere i vettori linearmente dipendenti dai vettori \boldsymbol{u}_1, \boldsymbol{u}_2, \ldots, \boldsymbol{u}_k. I vettori rimanenti, insieme ai vettori iniziali, formeranno una base ortonormale. Utilizzando il procedimento di ortonormalizzazione, otteniamo una base ortonormale completa, senza modificare i vettori \boldsymbol{u}_1, \boldsymbol{u}_2, \ldots, \boldsymbol{u}_k originali.

Note

  1. Pitagora (580 a.C.-500 a.C.)↩︎

  2. William Henry Young (1863-1942)↩︎

  3. Ludwig Otto Hölder 1859-1937.↩︎

  4. Hermann Minkowski (1864-1909)↩︎

  5. O entrambe simultaneamente, ma basta considerare uno dei due casi per procedere!↩︎

  6. Nella figura, l’angolo tra i vettori \boldsymbol{a} e \boldsymbol{b} è indicato con il simbolo \theta per ragioni tipografiche, anziché con \theta_{\boldsymbol{a}\boldsymbol{b}}.↩︎

  7. Augustin Louis Cauchy (1789-1857)↩︎

  8. Karl Herman Amandus Schwarz (1843-1921).↩︎

  9. Jorgen Pedersen Gram (1850-1916)↩︎

  10. Erhard Schmidt (1876-1959)↩︎