Norme, prodotti scalari ortogonalità
Prerequisiti di algebra lineare
Norme di vettori
Consideriamo un vettore \boldsymbol{x}\in \Bbb{R}^3 con componenti x_1, x_2, e x_3. Le componenti di questo vettore possono essere interpretate come le coordinate di un punto nello spazio tridimensionale \Bbb{R}^3. La distanza di questo punto dall’origine è la lunghezza del segmento che collega l’origine al punto \boldsymbol{x}. Questa lunghezza può essere vista come la lunghezza del vettore \boldsymbol{x}. Dal teorema di Pitagora1, la lunghezza del vettore \boldsymbol{x} è data da:
\sqrt{x_1^2 + x_2^2 + x_3^2}.
Possiamo estendere questa nozione di lunghezza a vettori in \Bbb{R}^n o \Bbb{C}^n con la seguente definizione. Per ogni vettore \boldsymbol{x}\in \Bbb{R}^n o \Bbb{C}^n, definiamo la sua norma euclidea come:
\left|\left|\boldsymbol{x}\right|\right|_2 = \sqrt{\sum_{i=1}^{n} \left\lvert x_i\right\rvert^2}.
Questa misura è chiamata la lunghezza del vettore e possiede le seguenti proprietà:
Non negatività: La norma è sempre non negativa, \left|\left|\boldsymbol{x}\right|\right|_2 = \sqrt{\sum_{i=1}^{n} \left\lvert x_i\right\rvert^2} \geq 0. Inoltre, \left|\left|\boldsymbol{x}\right|\right|_2 = 0 solo se tutte le componenti sono zero, cioè \boldsymbol{x}= \boldsymbol{0}.
Omogeneità: Moltiplicare il vettore per uno scalare \alpha modifica la norma come segue: \begin{aligned} \left|\left|\alpha \boldsymbol{x}\right|\right|_2 &= \sqrt{\sum_{i=1}^{n} \left\lvert\alpha x_i\right\rvert^2} \\ &= \sqrt{\sum_{i=1}^{n} \left\lvert\alpha\right\rvert^2 \left\lvert x_i\right\rvert^2} \\ &= \left\lvert\alpha\right\rvert \sqrt{\sum_{i=1}^{n} \left\lvert x_i\right\rvert^2} \\ &= \left\lvert\alpha\right\rvert \left|\left|\boldsymbol{x}\right|\right|_2. \end{aligned}
Disuguaglianza triangolare: Per ogni coppia di vettori \boldsymbol{x}, \boldsymbol{y}\in \Bbb{K}^n, si ha: \left|\left|\boldsymbol{x}+ \boldsymbol{y}\right|\right|_2 \leq \left|\left|\boldsymbol{x}\right|\right|_2 + \left|\left|\boldsymbol{y}\right|\right|_2. \tag{1} Questa è nota come disuguaglianza triangolare. Il termine “triangolare” si riferisce alla proprietà geometrica dei triangoli, dove la lunghezza di un lato è sempre minore o uguale alla somma delle lunghezze degli altri due lati. Questo concetto è illustrato nella figura Figura 1.
Diseguaglianze di Young2,Hölder3 e Minkowski4.
La dimostrazione della disuguaglianza triangolare (Equazione 1) è un po’ laboriosa e richiede l’uso di alcune disuguaglianze classiche, come quella di Young.
Lemma 1 (Disuguaglianza di Young) Dati due numeri reali p e q tali che
\dfrac{1}{p}+\dfrac{1}{q} = 1, \qquad 1 < p, q < \infty,
allora per ogni coppia di numeri reali non negativi a e b si ha
ab \leq \dfrac{a^p}{p} + \dfrac{b^q}{q}. \tag{2}
Inoltre, la disuguaglianza diventa uguaglianza se a^p = b^q.
Dimostrazione. Consideriamo la funzione
f(t) = \dfrac{t}{p} - t^{1/p}. \tag{3}
Allora, calcoliamo la derivata prima della funzione:
f'(t) = \dfrac{1}{p} - \dfrac{t^{1/p-1}}{p} = \dfrac{1}{p} - \dfrac{t^{-1/q}}{p} = \dfrac{1}{p} \left(1 - t^{-1/q}\right). \tag{4}
Poiché \frac{1}{q} < 1, abbiamo che f'(t) < 0 per 0 < t < 1 e f'(t) > 0 per t > 1. Quindi, t = 1 è un punto di minimo per f(t) in (0, \infty), e di conseguenza f(t) \geq f(1) per t > 0. Pertanto,
f(t) \geq f(1), \qquad \text{cioè} \qquad \dfrac{t}{p} - t^{1/p} \geq \dfrac{1}{p} - 1 = - \dfrac{1}{q}.
Da qui otteniamo:
t^{1/p} \leq \dfrac{1}{q} + \dfrac{t}{p}.
Osserviamo che se a = 0 o b = 0, la disuguaglianza è banalmente vera. Consideriamo quindi a, b > 0 e calcoliamo la disuguaglianza in t = a^p b^{-q}:
ab^{-q/p} \leq \dfrac{1}{q} + \dfrac{a^p b^{-q}}{p}.
Moltiplicando la disuguaglianza per b^q ed osservando che q - q/p = 1, otteniamo il risultato cercato:
ab \leq \dfrac{a^p}{p} + \dfrac{b^q}{q}.
Infine, osserviamo che se a^p = b^q, allora calcoliamo la disuguaglianza in t = 1, ottenendo l’uguaglianza:
ab = \dfrac{a^p}{p} + \dfrac{b^q}{q}.
Possiamo ora dimostrare la disuguaglianza di Hölder
Teorema 1 (Disuguaglianza di Hölder) Dati due numeri reali p e q tali che 1 < p, q < \infty e che soddisfano 1/p + 1/q = 1, e dati a_1, a_2, \ldots, a_n \geq 0 e b_1, b_2, \ldots, b_n \geq 0, allora
\sum_{k=1}^{n} a_k b_k \leq \left(\sum_{k=1}^{n} a_k^p\right)^{1/p} \left(\sum_{k=1}^{n} b_k^q\right)^{1/q}.
Dimostrazione. Sia
A = \left(\sum_{k=1}^{n} a_k^p\right)^{1/p}, \qquad B = \left(\sum_{k=1}^{n} b_k^q\right)^{1/q}.
Se AB = 0, allora o A = 0 oppure B = 0 5. Questo implica che tutti gli a_k sono zero, e quindi la disuguaglianza è banalmente vera. Lo stesso ragionamento si applica nel caso in cui B = 0.
Supponiamo quindi che AB > 0. Utilizzando la disuguaglianza Equazione 2 del lemma Lemma 1, otteniamo per ogni k:
Supponiamo, per esempio, che A \neq 0 e B \neq 0.
\dfrac{a_k}{A} \cdot \dfrac{b_k}{B} \leq \dfrac{a_k^p}{p A^p} + \dfrac{b_k^q}{q B^q}.
Sommando su tutti i k, abbiamo:
\dfrac{\displaystyle\sum_{k=1}^{n} a_k b_k}{AB} \leq \dfrac{\displaystyle\sum_{k=1}^{n} a_k^p}{p A^p} + \dfrac{\displaystyle\sum_{k=1}^{n} b_k^q}{q B^q}.
Osservando che
A^p = \sum_{k=1}^{n} a_k^p \quad\text{e}\quad B^q = \sum_{k=1}^{n} b_k^q
possiamo scrivere:
\dfrac{\sum_{k=1}^{n} a_k b_k}{AB} \leq \dfrac{A^p}{p A^p} + \dfrac{B^q}{q B^q} = \dfrac{1}{p} + \dfrac{1}{q} = 1.
Infine, dimostriamo la disuguaglianza di Minkowski
Teorema 2 (Disuguaglianza di Minkowski) Sia 1 \leq p < \infty; e siano a_1, a_2, \ldots, a_n \geq 0 e b_1, b_2, \ldots, b_n \geq 0. Allora si ha:
\left( \sum_{k=1}^{n} (a_k + b_k)^p \right)^{1/p} \leq \left( \sum_{k=1}^{n} a_k^p \right)^{1/p} + \left( \sum_{k=1}^{n} b_k^p \right)^{1/p}.
Dimostrazione. Il caso p = 1 è immediato e risulta banale. Consideriamo ora il caso p > 1.
Iniziamo con l’espandere:
\sum_{k=1}^{n} (a_k + b_k)^p = \sum_{k=1}^{n} a_k (a_k + b_k)^{p-1} + \sum_{k=1}^{n} b_k (a_k + b_k)^{p-1}.
Applicando la disuguaglianza di Hölder a ciascuna delle due somme, con q definito dalla relazione 1/p + 1/q = 1, otteniamo:
\begin{aligned} \sum_{k=1}^{n} (a_k + b_k)^p &\leq \left( \sum_{k=1}^{n} a_k^p \right)^{1/p} \left( \sum_{k=1}^{n} (a_k + b_k)^{q(p-1)} \right)^{1/q} \\ &\quad + \left( \sum_{k=1}^{n} b_k^p \right)^{1/p} \left( \sum_{k=1}^{n} (a_k + b_k)^{q(p-1)} \right)^{1/q}. \end{aligned}
Dividendo entrambi i lati dell’ineguaglianza per \left( \sum_{k=1}^{n} (a_k + b_k)^p \right)^{1/q} e notando che q(p-1) = p, otteniamo la disuguaglianza desiderata.
Osserviamo che la disuguaglianza di Minkowski per p=2 è proprio la Equazione 1.
Possiamo estendere la nozione di lunghezza di un vettore attraverso una generalizzazione della funzione \left|\left|,\cdot,\right|\right| che mantenga le tre proprietà precedentemente menzionate.
Alcune proprietà delle norme vettoriali
Continuità delle norme
Teorema 3 La norma vettoriale è una funzione uniformemente continua dallo spazio dei vettori \Bbb{K}^n in \Bbb{R}.
Dimostrazione. La continuità uniforme della norma segue immediatamente dalla disuguaglianza:
\Big|\,\|\boldsymbol{x}\| - \|\boldsymbol{y}\|\,\Big| \leq \|\boldsymbol{x}- \boldsymbol{y}\|,
che dimostra che la norma è uniformemente continua.
Equivalenza delle norme
Teorema 4 Siano \left|\left|\cdot\right|\right|^{'} e \left|\left|\cdot\right|\right|^{''} due norme in \Bbb{K}^n. Esistono due costanti \alpha > 0 e \beta > 0 tali che, per ogni \boldsymbol{x}\in \Bbb{K}^n, vale:
\alpha \left|\left|\boldsymbol{x}\right|\right|^{''} \leq \left|\left|\boldsymbol{x}\right|\right|^{'} \leq \beta \left|\left|\boldsymbol{x}\right|\right|^{''}.
Dimostrazione. Se \boldsymbol{x}= \boldsymbol{0}, il teorema è ovvio. Per \boldsymbol{x}\neq \boldsymbol{0}, proviamo l’affermazione considerando il caso particolare in cui \left|\left|\cdot\right|\right|^{''} è la norma \left|\left|\cdot\right|\right|_{\infty}. Il caso generale seguirà per confronto.
Definiamo l’insieme:
S = \{\boldsymbol{y}\in \Bbb{K}^n \mid \left|\left|\boldsymbol{y}\right|\right|_{\infty} = 1\}.
L’insieme S è chiuso e limitato, quindi compatto. Poiché la norma \left|\left|\cdot\right|\right|^{'} è continua, essa raggiunge un minimo strettamente positivo \alpha e un massimo \beta su S.
Per ogni \boldsymbol{x}\in \Bbb{K}^n, possiamo scrivere:
\boldsymbol{y}= \frac{\boldsymbol{x}}{\left|\left|\boldsymbol{x}\right|\right|_{\infty}} \in S.
Di conseguenza, abbiamo:
\alpha \leq \left|\left|\boldsymbol{y}\right|\right|^{'} = \left|\left|\frac{\boldsymbol{x}}{\left|\left|\boldsymbol{x}\right|\right|_{\infty}}\right|\right|^{'} \leq \beta,
che implica:
\alpha \left|\left|\boldsymbol{x}\right|\right|_{\infty} \leq \left|\left|\boldsymbol{x}\right|\right|^{'} \leq \beta \left|\left|\boldsymbol{x}\right|\right|_{\infty}.
Confronto tra norme standard
Per ogni vettore \boldsymbol{x}\in \Bbb{K}^n, valgono le seguenti disuguaglianze:
\begin{aligned} (i) \qquad & \|\boldsymbol{x}\|_{\infty} & \leq & \|\boldsymbol{x}\|_2 & \leq & \sqrt{n} \|\boldsymbol{x}\|_{\infty}, \\ (ii) \qquad & \|\boldsymbol{x}\|_2 & \leq & \|\boldsymbol{x}\|_1 & \leq & \sqrt{n} \|\boldsymbol{x}\|_{\infty}, \\ (iii)\qquad & \|\boldsymbol{x}\|_{\infty} & \leq & \|\boldsymbol{x}\|_1 & \leq & n \|\boldsymbol{x}\|_{\infty}. \end{aligned}
Dimostrazione. Le disuguaglianze si ottengono nei seguenti modi:
(i) Sia \|\cdot\|' = \|\cdot\|_2. Ogni vettore \boldsymbol{y}\in S = \{\boldsymbol{y}\in \Bbb{K}^n \mid \|\boldsymbol{y}\|_{\infty} = 1\} ha almeno una componente di modulo 1, diciamo la componente y_k, con 1 \leq k \leq n, mentre le altre componenti soddisfano \left\lvert y_i\right\rvert \leq 1 per i \neq k.
Pertanto, si ha:
\|\boldsymbol{y}\|_2^2 = 1 + \sum_{i=1 \atop i \neq k}^{n} \left\lvert y_i\right\rvert^2 \quad \forall \, \boldsymbol{y}\in S,
da cui segue che:
\begin{aligned} \alpha &= \min_{\boldsymbol{y}\in S} \|\boldsymbol{y}\|_2 = 1, \\ \beta &= \max_{\boldsymbol{y}\in S} \|\boldsymbol{y}\|_2 = \sqrt{n}. \end{aligned}
Quindi, si ottiene:
\|\boldsymbol{x}\|_{\infty} \leq \|\boldsymbol{x}\|_2 \leq \sqrt{n} \|\boldsymbol{x}\|_{\infty}.
(ii) La prima disuguaglianza di (ii) si ottiene notando che, per ogni \boldsymbol{x}\in \Bbb{K}^n,
\|\boldsymbol{x}\|_2^2 = \sum_{i=1}^{n} \left\lvert x_i\right\rvert^2 \leq \left( \sum_{i=1}^{n} \left\lvert x_i\right\rvert \right)^2 = \|\boldsymbol{x}\|_1^2.
La seconda disuguaglianza deriva dalla disuguaglianza di Cauchy-Schwarz:
\left\lvert(\boldsymbol{x}, \boldsymbol{y})\right\rvert \leq \|\boldsymbol{x}\|_2 \|\boldsymbol{y}\|_2,
applicata a un vettore ausiliario \boldsymbol{y} definito da:
y_i = \begin{cases} \frac{x_i}{\left\lvert x_i\right\rvert}, & \text{se} \, x_i \neq 0, \\ 0, & \text{se} \, x_i = 0. \end{cases}
Si osserva che:
\left\lvert(\boldsymbol{x}, \boldsymbol{y})\right\rvert = \sum_{i=1}^{n} \left\lvert x_i\right\rvert = \|\boldsymbol{x}\|_1,
e
\|\boldsymbol{y}\|_2 = \left( \sum_{i=1}^{n} \left\lvert y_i\right\rvert^2 \right)^{\frac{1}{2}} = \sqrt{n}.
Quindi, otteniamo:
\|\boldsymbol{x}\|_2 \leq \|\boldsymbol{x}\|_1 \leq \sqrt{n} \|\boldsymbol{x}\|_{\infty}.
(iii) Le disuguaglianze si ottengono combinando i risultati di (i) e (ii):
\|\boldsymbol{x}\|_{\infty} \leq \|\boldsymbol{x}\|_1 \leq n \|\boldsymbol{x}\|_{\infty}.
Definizione 1 (p-Norma) Utilizzando la disuguaglianza di Minkowski (Equazione 1), si dimostra che per 1 \leq p < \infty, la funzione definita come
\left|\left|\boldsymbol{x}\right|\right|_{p} = \left( \sum_{k=1}^{n} \left\lvert x_k\right\rvert^{p} \right)^{1/p}
è una norma. Questa norma è chiamata p-norma.
Due casi particolari di p-norma sono:
Norma 1: \left|\left|\boldsymbol{x}\right|\right|_1 = \displaystyle\sum_{i=1}^{n} \left\lvert x_i\right\rvert.
Norma 2: \left|\left|\boldsymbol{x}\right|\right|_2 = \sqrt{\displaystyle\sum_{i=1}^{n} \left\lvert x_i\right\rvert^{2}}.
Inoltre, è possibile estendere la definizione della norma al caso limite p \to \infty:
\left|\left|\boldsymbol{x}\right|\right|_{\infty} = \max_{k=1, \ldots, n} \left\lvert x_k\right\rvert,
e si può verificare facilmente che anche questa funzione è una norma.
Prodotti scalari
Il prodotto scalare tra due vettori è molto usato in fisica ed ha la seguente definizione
Definizione 2 (Prodotto Scalare (Euclideo)) Il prodotto scalare (o prodotto dot) tra due vettori \boldsymbol{a} e \boldsymbol{b} è dato dalla formula:
\boldsymbol{a}\cdot \boldsymbol{b}= \left|\left|\boldsymbol{a}\right|\right|_2 \left|\left|\boldsymbol{b}\right|\right|_2 \cos \theta_{\boldsymbol{a}\boldsymbol{b}}, \tag{5}
dove \theta_{\boldsymbol{a}\boldsymbol{b}} rappresenta l’angolo compreso tra i due vettori \boldsymbol{a} e \boldsymbol{b}.
Dalla figura 6 Figura 2 possiamo derivare una formula per il prodotto scalare che non utilizza il coseno, ma solo la norma.
Consideriamo le seguenti definizioni:
L = \left|\left|\boldsymbol{b}\right|\right|_2 \cos \theta_{\boldsymbol{a}\boldsymbol{b}}, \qquad H = \left|\left|\boldsymbol{b}\right|\right|_2 \sin \theta_{\boldsymbol{a}\boldsymbol{b}},
dove \theta_{\boldsymbol{a}\boldsymbol{b}} è l’angolo tra i vettori \boldsymbol{a} e \boldsymbol{b}. Applicando il teorema di Pitagora, otteniamo:
\left|\left|\boldsymbol{a}+ \boldsymbol{b}\right|\right|_2^2 - H^2 = (\left|\left|\boldsymbol{a}\right|\right|_2 + L)^2 = \left|\left|\boldsymbol{a}\right|\right|_2^2 + L^2 + 2 \left|\left|\boldsymbol{a}\right|\right|_2 L \tag{6}
e
\left|\left|\boldsymbol{a}- \boldsymbol{b}\right|\right|_2^2 - H^2 = (\left|\left|\boldsymbol{a}\right|\right|_2 - L)^2 = \left|\left|\boldsymbol{a}\right|\right|_2^2 + L^2 - 2 \left|\left|\boldsymbol{a}\right|\right|_2 L \tag{7}
Sottraendo l’equazione Equazione 7 da Equazione 6, otteniamo:
\left|\left|\boldsymbol{a}+ \boldsymbol{b}\right|\right|_2^2 - \left|\left|\boldsymbol{a}- \boldsymbol{b}\right|\right|_2^2 = 4 \left|\left|\boldsymbol{a}\right|\right|_2 L = 4 \left|\left|\boldsymbol{a}\right|\right|_2 \left|\left|\boldsymbol{b}\right|\right|_2 \cos \theta_{\boldsymbol{a}\boldsymbol{b}},
e quindi, utilizzando la formula Equazione 5, possiamo scrivere:
\boldsymbol{a}\cdot \boldsymbol{b}= \frac{\left|\left|\boldsymbol{a}+ \boldsymbol{b}\right|\right|_2^2 - \left|\left|\boldsymbol{a}- \boldsymbol{b}\right|\right|_2^2}{4}.
Inoltre, osserviamo che:
\left|\left|\boldsymbol{a}+ \boldsymbol{b}\right|\right|_2^2 - \left|\left|\boldsymbol{a}- \boldsymbol{b}\right|\right|_2^2 = \sum_{k=1}^{n} \left[\left\lvert a_k + b_k\right\rvert^2 - \left\lvert a_k - b_k\right\rvert^2\right] = 4 \sum_{k=1}^{n} a_k b_k,
da cui il prodotto scalare si esprime come:
\boldsymbol{a}\cdot \boldsymbol{b}= \sum_{k=1}^{n} a_k b_k. \tag{8}
Questa formula è valida per vettori reali. Per un vettore complesso \boldsymbol{a}, la formula Equazione 8 non restituisce direttamente il quadrato della lunghezza, poiché se a_k sono numeri complessi:
\boldsymbol{a}\cdot \boldsymbol{a} = \sum_{k=1}^{n} a_k^2 \neq \sum_{k=1}^{n} \left\lvert a_k\right\rvert^2.
Tuttavia, è possibile modificare la definizione di prodotto scalare per ottenere una formula che, applicata a vettori reali, sia equivalente a Equazione 5 e che, nel caso di vettori complessi, restituisca \boldsymbol{a}\cdot \boldsymbol{a}= \left|\left|\boldsymbol{a}\right|\right|_2^2.
:::
Definizione 3 (Prodotto Scalare nel Campo Complesso) Definiamo il prodotto scalare tra due vettori \boldsymbol{x} e \boldsymbol{y} di dimensione n come:
\boldsymbol{x}\cdot \boldsymbol{y}= \sum_{i=1}^{n} x_i \overline{y_i}, \tag{9}
dove \overline{\boldsymbol{z}} denota il coniugato complesso di un numero complesso \boldsymbol{z}.
Ricordiamo che:
\overline{a + {\color{blue}\imath}b} = a - {\color{blue}\imath}b
e il coniugato complesso soddisfa le seguenti proprietà:
\begin{aligned} \overline{z} \cdot z & = (a + {\color{blue}\imath}b)(a - {\color{blue}\imath}b) = a^2 + b^2 = \left\lvert z\right\rvert^2, \\ \overline{\overline{z}} & = \overline{a - {\color{blue}\imath}b} = a + {\color{blue}\imath}b = z, \\ \overline{z + w} &= \overline{z} + \overline{w}, \end{aligned}
oltre a:
\begin{aligned} \overline{zw} &= \overline{(a + {\color{blue}\imath}b)(c + {\color{blue}\imath}d)} = \overline{(ac - bd) + (bc + ad) {\color{blue}\imath}} \\ &= (ac - bd) - (bc + ad) {\color{blue}\imath}, \\ \overline{z} \cdot \overline{w} &= (a - {\color{blue}\imath}b)(c - {\color{blue}\imath}d) \\ &= ac - bd - (bc + ad) {\color{blue}\imath}, \end{aligned}
da cui segue:
\overline{zw} = \overline{z} \cdot \overline{w}.
Per un numero complesso z = a + {\color{blue}\imath}b, abbiamo:
\Re(z) = \frac{z + \overline{z}}{2} = a, \qquad \Im(z) = \frac{z - \overline{z}}{2 {\color{blue}\imath}} = b.
La formula Equazione 9 è nota come prodotto scalare euclideo.
Questa funzione soddisfa le seguenti proprietà:
Non negatività e nullità: \boldsymbol{x}\cdot \boldsymbol{x}= \sum_{i=1}^{n} x_i \overline{x_i} = \sum_{i=1}^{n} \left\lvert x_i\right\rvert^2 \geq 0. Inoltre, \boldsymbol{x}\cdot \boldsymbol{x}= 0 se e solo se x_i = 0 per tutti i, il che implica \boldsymbol{x}= \boldsymbol{0}.
Simmetria: \boldsymbol{x}\cdot \boldsymbol{y}= \sum_{i=1}^{n} x_i \overline{y_i} = \overline{\sum_{i=1}^{n} \overline{x_i} y_i} = \overline{\boldsymbol{y}\cdot \boldsymbol{x}}.
Linearità: (\boldsymbol{x}+ \boldsymbol{y}) \cdot \boldsymbol{z}= \sum_{i=1}^{n} (x_i + y_i) \overline{z_i} = \sum_{i=1}^{n} x_i \overline{z_i} + \sum_{i=1}^{n} y_i \overline{z_i} = \boldsymbol{x}\cdot \boldsymbol{z}+ \boldsymbol{y}\cdot \boldsymbol{z}.
Omogeneità: (\alpha \boldsymbol{x}) \cdot \boldsymbol{y}= \sum_{i=1}^{n} \alpha x_i \overline{y_i} = \alpha \sum_{i=1}^{n} x_i \overline{y_i} = \alpha (\boldsymbol{x}\cdot \boldsymbol{y}).
Queste proprietà (1)-(4) possono essere utilizzate per definire il prodotto scalare in modo assiomatico.
Definizione 4 (Prodotto Scalare in generale) Una funzione \left\langle\cdot,\cdot\right\rangle : \Bbb{K}^n \times \Bbb{K}^n \to \Bbb{K} è un prodotto scalare se soddisfa le seguenti proprietà per ogni \boldsymbol{x}, \boldsymbol{y}, \boldsymbol{z}\in \Bbb{K}^n e per ogni \alpha \in \Bbb{K}:
Non negatività e nullità: \left\langle\boldsymbol{x},\boldsymbol{x}\right\rangle \geq 0 \quad \text{e} \quad \left\langle\boldsymbol{x},\boldsymbol{x}\right\rangle = 0 \text{ se e solo se } \boldsymbol{x}= \boldsymbol{0}.
Simmetria Coniugata: \left\langle\boldsymbol{x},\boldsymbol{y}\right\rangle = \overline{\left\langle\boldsymbol{y},\boldsymbol{x}\right\rangle}, dove \overline{\cdot} denota l’operazione di coniugazione complessa.
Linearità nella prima variabile: \left\langle\boldsymbol{x}+ \boldsymbol{y},\boldsymbol{z}\right\rangle = \left\langle\boldsymbol{x},\boldsymbol{z}\right\rangle + \left\langle\boldsymbol{y},\boldsymbol{z}\right\rangle.
Omogeneità: \left\langle\alpha \boldsymbol{x},\boldsymbol{y}\right\rangle = \alpha \left\langle\boldsymbol{x},\boldsymbol{y}\right\rangle.
Queste proprietà definiscono il concetto di prodotto scalare in uno spazio vettoriale.
Teorema 5 (Disuguaglianza di Cauchy7-Schwarz8) Per un prodotto scalare generico, la disuguaglianza di Cauchy-Schwarz è espressa come:
\boxed{ (\boldsymbol{x}, \boldsymbol{y}) \leq \left|\left|\boldsymbol{x}\right|\right| \left|\left|\boldsymbol{y}\right|\right| } \tag{10}
dove \left|\left|\cdot\right|\right| rappresenta la norma indotta dal prodotto scalare. La disuguaglianza è stretta solo se \boldsymbol{x} e \boldsymbol{y} sono allineati, cioè se esiste uno scalare \gamma tale che \boldsymbol{x}= \gamma \boldsymbol{y}.
Dimostrazione. La disuguaglianza è ovvia se uno dei vettori è nullo. Supponiamo quindi che entrambi i vettori siano non nulli. Consideriamo il vettore \boldsymbol{x}- \alpha \boldsymbol{y} e applicando la proprietà (1) della definizione di prodotto scalare alla sua norma, otteniamo:
(\boldsymbol{x}- \alpha \boldsymbol{y}, \boldsymbol{x}- \alpha \boldsymbol{y}) \geq 0.
Sviluppando l’espressione, abbiamo:
\begin{aligned} 0 & \leq (\boldsymbol{x}- \alpha \boldsymbol{y}, \boldsymbol{x}- \alpha \boldsymbol{y}) \\ & = (\boldsymbol{x}, \boldsymbol{x}) - \alpha (\boldsymbol{y}, \boldsymbol{x}) - \overline{\alpha} (\boldsymbol{x}, \boldsymbol{y}) + \alpha \overline{\alpha} (\boldsymbol{y}, \boldsymbol{y}) \\ & = (\boldsymbol{x}, \boldsymbol{x}) - \alpha \overline{(\boldsymbol{x}, \boldsymbol{y})} - \overline{\alpha} [(\boldsymbol{x}, \boldsymbol{y}) - \alpha (\boldsymbol{y}, \boldsymbol{y})]. \end{aligned} \tag{11}
Scegliendo \alpha in modo da annullare l’espressione tra parentesi quadre, otteniamo:
\alpha = \frac{(\boldsymbol{x}, \boldsymbol{y})}{(\boldsymbol{y}, \boldsymbol{y})}.
Sostituendo questo valore di \alpha, si ottiene:
0 \leq \left|\left|\boldsymbol{x}\right|\right|^2 - \frac{\left\lvert(\boldsymbol{x}, \boldsymbol{y})\right\rvert^2}{\left|\left|\boldsymbol{y}\right|\right|^2},
che è equivalente alla disuguaglianza di Cauchy-Schwarz espressa in Equazione 10. Se \boldsymbol{x}- \alpha \boldsymbol{y}\neq \boldsymbol{0}, allora la disuguaglianza è stretta, e quindi anche Equazione 10 è stretta.
Ortogonalità e angolo tra vettori
Il concetto di prodotto scalare permette di definire l’ortogonalità e l’angolo tra due vettori. Utilizzando il prodotto scalare euclideo espresso in Equazione 9 e la formula per il prodotto scalare in Equazione 5, possiamo calcolare l’angolo \theta_{\boldsymbol{a}\boldsymbol{b}} tra due vettori \boldsymbol{a} e \boldsymbol{b} con la seguente formula:
\theta_{\boldsymbol{a}\boldsymbol{b}} = \arccos \left( \frac{\boldsymbol{a}\cdot \boldsymbol{b}}{\left|\left|\boldsymbol{a}\right|\right|_2 \left|\left|\boldsymbol{b}\right|\right|_2} \right).
Se l’angolo tra i vettori è 90^{0} allora \cos 90^{0}=0 implica che il loro prodotto scalare è nullo. Questo suggerisce la seguente definizione.
Definizione 5 (Ortogonalità) Due vettori \boldsymbol{a} e \boldsymbol{b} si dicono ortogonali se il loro prodotto scalare è nullo. In tal caso, scriviamo \boldsymbol{a}\perp \boldsymbol{b}, indicando che:
\boldsymbol{a}\cdot \boldsymbol{b}= 0.
Prodotto Vettoriale
Consideriamo due vettori \boldsymbol{a} e \boldsymbol{b} nello spazio tridimensionale \Bbb{R}^3. Vogliamo trovare un terzo vettore \boldsymbol{x} che sia ortogonale a entrambi i vettori dati. Algebricamente, il problema può essere formulato come:
\text{Trovare } \boldsymbol{x}\in \Bbb{R}^3 \text{ tale che:} \bgroup \left\{\begin{aligned} \boldsymbol{a}\cdot \boldsymbol{x}&= 0, \\ \boldsymbol{b}\cdot \boldsymbol{x}&= 0. \end{aligned}\right.\egroup
Espresso in termini delle componenti dei vettori, questo diventa:
\bgroup \left\{\begin{aligned} a_1 x_1 + a_2 x_2 + a_3 x_3 &= 0, \\ b_1 x_1 + b_2 x_2 + b_3 x_3 &= 0. \end{aligned}\right.\egroup \tag{12}
Una soluzione a questo sistema di equazioni è data dalle componenti:
\bgroup \left\{\begin{aligned} x_1 &= a_2 b_3 - a_3 b_2, \\ x_2 &= a_3 b_1 - a_1 b_3, \\ x_3 &= a_1 b_2 - a_2 b_1. \end{aligned}\right.\egroup \tag{13}
Questa soluzione è conosciuta come prodotto vettoriale e si indica con:
\boldsymbol{x}= \boldsymbol{a}\wedge \boldsymbol{b}.
Inoltre, possiamo verificare la seguente relazione:
(\left|\left|\boldsymbol{a}\wedge \boldsymbol{b}\right|\right|_2)^2 + (\boldsymbol{a}\cdot \boldsymbol{b})^2 = (\left|\left|\boldsymbol{a}\right|\right|_2)^2 (\left|\left|\boldsymbol{b}\right|\right|_2)^2, \tag{14}
da cui, utilizzando la formula sopra, otteniamo:
\left|\left|\boldsymbol{a}\wedge \boldsymbol{b}\right|\right|_2 = \left|\left|\boldsymbol{a}\right|\right|_2 \left|\left|\boldsymbol{b}\right|\right|_2 \sin \theta_{\boldsymbol{a}\boldsymbol{b}}.
Il prodotto vettoriale è molto utile in geometria nello spazio. Per esempio, per trovare l’equazione di un piano che passa per tre punti distinti \boldsymbol{a}, \boldsymbol{b}, e \boldsymbol{c}, possiamo usare il prodotto vettoriale. Definiamo i vettori:
\boldsymbol{v}= \boldsymbol{b}- \boldsymbol{a}, \quad \boldsymbol{w}= \boldsymbol{c}- \boldsymbol{a},
che sono vettori complanari al piano. Il vettore normale al piano è dato da:
\boldsymbol{N}= \boldsymbol{v}\wedge \boldsymbol{w}.
L’equazione del piano può quindi essere scritta come:
\boldsymbol{N}\cdot \boldsymbol{x}= \boldsymbol{N}\cdot \boldsymbol{a}.
Indipendenza Lineare e Basi in \Bbb{K}^n
Il concetto di dipendenza e indipendenza lineare è fondamentale in algebra lineare.
Definizione 6 (Indipendenza Lineare) Consideriamo k vettori non nulli \boldsymbol{x}_1, \boldsymbol{x}_2, \ldots, \boldsymbol{x}_k in uno spazio vettoriale. Questi vettori sono detti linearmente dipendenti se esistono degli scalari \alpha_1, \alpha_2, \ldots, \alpha_k, con almeno uno di essi non nullo, tali che:
\alpha_1 \boldsymbol{x}_1 + \alpha_2 \boldsymbol{x}_2 + \cdots + \alpha_k \boldsymbol{x}_k = 0.
Se, invece, non esistono tali scalari e l’unica soluzione all’equazione sopra è quella triviale, cioè tutti gli scalari sono zero, allora i vettori \boldsymbol{x}_1, \boldsymbol{x}_2, \ldots, \boldsymbol{x}_k sono detti linearmente indipendenti.
Consideriamo k vettori linearmente indipendenti in \Bbb{K}^n, denotati con \boldsymbol{x}_1, \boldsymbol{x}_2, \ldots, \boldsymbol{x}_k. Dato un vettore \boldsymbol{w}\in \Bbb{K}^n, è possibile che \boldsymbol{w} possa essere scritto come una combinazione lineare di questi vettori. In altre parole, esistono scalari \alpha_1, \alpha_2, \ldots, \alpha_k tali che:
\boldsymbol{w}= \alpha_1 \boldsymbol{x}_1 + \alpha_2 \boldsymbol{x}_2 + \cdots + \alpha_k \boldsymbol{x}_k.
Questi scalari \alpha_i sono scelti in modo tale che l’equazione sia soddisfatta.
Definizione 7 (Base) Se i vettori \boldsymbol{x}_1, \boldsymbol{x}_2, \ldots, \boldsymbol{x}_k sono tali che ogni vettore \boldsymbol{w}\in \Bbb{K}^n può essere espresso come una combinazione lineare di essi, allora diremo che questi vettori formano una base di \Bbb{K}^n. Affinché ciò accada, è necessario che il numero di vettori k sia uguale alla dimensione dello spazio, cioè k = n.
Inoltre, questa condizione è anche sufficiente. Infatti, se si scelgono n vettori qualsiasi in \Bbb{K}^n che siano linearmente indipendenti, allora questi vettori formano sempre una base di \Bbb{K}^n.
Indipendenza lineare dei vettori ortogonali
Teorema 6 I k vettori \boldsymbol{x}_1, \boldsymbol{x}_2, , \boldsymbol{x}_k che sono ortogonali a coppie,
\boldsymbol{x}_i \bot \boldsymbol{x}_j \quad \text{per } i \neq j,
sono necessariamente linearmente indipendenti.
Dimostrazione. Supponiamo che esistano k scalari \alpha_{1}, \alpha_{2}, , \alpha_{k} tali che
\alpha_{1}\boldsymbol{x}_1 + \alpha_{2}\boldsymbol{x}_2 + \cdots + \alpha_{k}\boldsymbol{x}_k = \boldsymbol{0}.
Per dimostrare che i vettori sono linearmente indipendenti, consideriamo il prodotto scalare di entrambi i lati dell’equazione con il vettore \boldsymbol{x}_i per i = 1, 2, \ldots, k. Utilizzando l’ortogonalità dei vettori, otteniamo:
\begin{aligned} 0 &= \boldsymbol{x}_i \cdot (\alpha_{1}\boldsymbol{x}_1 + \alpha_{2}\boldsymbol{x}_2 + \cdots + \alpha_{k}\boldsymbol{x}_k), \\ &= \alpha_{1} (\boldsymbol{x}_i \cdot \boldsymbol{x}_1) + \alpha_{2} (\boldsymbol{x}_i \cdot \boldsymbol{x}_2) + \cdots + \alpha_{i} (\boldsymbol{x}_i \cdot \boldsymbol{x}_i) + \cdots + \alpha_{k} (\boldsymbol{x}_i \cdot \boldsymbol{x}_k). \end{aligned}
Poiché \boldsymbol{x}_i \cdot \boldsymbol{x}_j = 0 per i \neq j, rimane
0 = \alpha_{i} (\boldsymbol{x}_i \cdot \boldsymbol{x}_i).
Dato che \boldsymbol{x}_i \cdot \boldsymbol{x}_i > 0 (perché \boldsymbol{x}_i è un vettore non nullo), segue che \alpha_{i} = 0.
Quindi, tutti i coefficienti \alpha_{i} devono essere zero, il che dimostra che i vettori \boldsymbol{x}_1, \boldsymbol{x}_2, , \boldsymbol{x}_k sono linearmente indipendenti.
Ortonormalizzazione di Gram9-Schmidt10
Definizione 8 (Vettori ortogonali) Dati k vettori \boldsymbol{v}_1, \boldsymbol{v}_2,, \boldsymbol{v}_k, diremo che gli stessi formano un sistema ortogonale se sono a due a due ortogonali, cioè
\boldsymbol{v}_i \bot\boldsymbol{v}_j, \qquad i \neq j.
Definizione 9 (Vettori ortonormali) Dati k vettori \boldsymbol{u}_1, \boldsymbol{u}_2,, \boldsymbol{u}_k, diremo che gli stessi formano un sistema ortonormale se sono a due a due ortogonali e di norma 1, cioè
\left|\left|\boldsymbol{u}_i\right|\right|_2=1, \qquad \boldsymbol{u}_i \bot\boldsymbol{u}_j, \quad i \neq j.
Definizione 10 (Span) Dati k vettori \boldsymbol{v}_1, \boldsymbol{v}_2,, \boldsymbol{v}_k, definiremo con \textrm{span}(\boldsymbol{v}_1,\boldsymbol{v}_2,\ldots,\boldsymbol{v}_k) lo spazio vettoriale generato dalle loro combinazioni lineari
\textrm{span}(\boldsymbol{v}_1,\boldsymbol{v}_2,\ldots,\boldsymbol{v}_k)= \left\{ \alpha_1\boldsymbol{v}_1+\alpha_2\boldsymbol{v}_2+\cdots+\alpha_k\boldsymbol{v}_k \;|\; \alpha_1,\alpha_2,\ldots,\alpha_k\in \Bbb{K} \right\}
Dati k vettori \boldsymbol{v}_1, \boldsymbol{v}_2,, \boldsymbol{v}_k, linearmente indipendenti è possibile costruire k vettori \boldsymbol{u}_1, \boldsymbol{u}_2,, \boldsymbol{u}_k a due a due ortogonali e di norma unitaria tali che
\textrm{span}(\boldsymbol{v}_1,\boldsymbol{v}_2,\ldots,\boldsymbol{v}_k) =\textrm{span}(\boldsymbol{u}_1,\boldsymbol{u}_2,\ldots,\boldsymbol{u}_k).
Teorema 7 Ortonormalizzazione di Gram-Schmidt
Consideriamo k vettori \boldsymbol{v}_1, \boldsymbol{v}_2, , \boldsymbol{v}_k che sono linearmente indipendenti. Possiamo costruire una nuova sequenza di k vettori ortonormali \boldsymbol{u}_1, \boldsymbol{u}_2, , \boldsymbol{u}_k che soddisfano le seguenti proprietà:
\boldsymbol{u}_1 = \dfrac{\boldsymbol{v}_1}{\left|\left|\boldsymbol{v}_1\right|\right|_2}:
Il primo vettore \boldsymbol{u}_1 è ottenuto normalizzando \boldsymbol{v}_1.
\boldsymbol{u}_i \bot \boldsymbol{u}_j per ogni i \neq j:
I vettori \boldsymbol{u}_i sono ortogonali tra loro.
\left|\left|\boldsymbol{u}_i\right|\right|_2 = 1 per ogni i = 1, 2, \ldots, k:
Ogni vettore \boldsymbol{u}_i è normalizzato, cioè ha lunghezza unitaria.
\boldsymbol{V}_j = \boldsymbol{U}_j per ogni j = 1, 2, \ldots, k:
Lo span dei primi j vettori \boldsymbol{v}_i è lo stesso dello span dei primi j vettori ortonormali \boldsymbol{u}_i, dove
\boldsymbol{V}_j = \text{span}(\boldsymbol{v}_1, \boldsymbol{v}_2, \ldots, \boldsymbol{v}_j)
e
\boldsymbol{U}_j = \text{span}(\boldsymbol{u}_1, \boldsymbol{u}_2, \ldots, \boldsymbol{u}_j) .
Dimostrazione. Dati k vettori \boldsymbol{v}_1, \boldsymbol{v}_2, , \boldsymbol{v}_k che sono linearmente indipendenti, notiamo che \left|\left|\boldsymbol{v}_i\right|\right|_2 \neq 0 per ogni i = 1, 2, \ldots, k. Quindi, possiamo sempre normalizzare il primo vettore \boldsymbol{v}_1 definendo \boldsymbol{u}_1 = \frac{\boldsymbol{v}_1}{\left|\left|\boldsymbol{v}_1\right|\right|_2}. La dimostrazione procede per induzione.
Passo 1:
Per k = 1, il teorema è ovviamente vero, poiché abbiamo \boldsymbol{u}_1 = \frac{\boldsymbol{v}_1}{\left|\left|\boldsymbol{v}_1\right|\right|_2}, che soddisfa tutte le condizioni richieste.
Passo 2:
Supponiamo che il teorema sia vero per k - 1 vettori. Ovvero, assumiamo di avere già trovato k - 1 vettori ortonormali \boldsymbol{u}_1, \boldsymbol{u}_2, , \boldsymbol{u}_{k-1} tali che:
\boldsymbol{u}_1 = \frac{\boldsymbol{v}_1}{\left|\left|\boldsymbol{v}_1\right|\right|_2}, \quad \boldsymbol{V}_j = \boldsymbol{U}_j \text{ per } j = 1, 2, \ldots, k - 1
Definiamo ora il vettore ausiliario \boldsymbol{w}_k e il vettore ortonormale \boldsymbol{u}_k come segue:
\begin{aligned} \boldsymbol{w}_k &= \boldsymbol{v}_k - \sum_{i=1}^{k-1} \beta_i \boldsymbol{u}_i, \\ \boldsymbol{u}_k &= \alpha \boldsymbol{w}_k, \end{aligned}
dove i coefficienti \alpha e \beta_i devono essere scelti in modo che \boldsymbol{u}_k \bot \boldsymbol{u}_i per ogni i = 1, 2, \ldots, k - 1 e \left|\left|\boldsymbol{u}_k\right|\right|_2 = 1.
Calcoliamo il prodotto scalare di \boldsymbol{w}_k con \boldsymbol{u}_j:
\boldsymbol{w}_k \cdot \boldsymbol{u}_j = \boldsymbol{v}_k \cdot \boldsymbol{u}_j - \sum_{i=1}^{k-1} \beta_i \boldsymbol{u}_i \cdot \boldsymbol{u}_j = \boldsymbol{v}_k \cdot \boldsymbol{u}_j - \beta_j \quad \text{per } j = 1, 2, \ldots, k - 1
Impostando \boldsymbol{w}_k \cdot \boldsymbol{u}_j = 0, otteniamo:
\beta_j = \boldsymbol{v}_k \cdot \boldsymbol{u}_j \quad \text{per } j = 1, 2, \ldots, k - 1
Per determinare \alpha, imponiamo che \left|\left|\boldsymbol{u}_k\right|\right|_2 = 1:
1 = \left|\left|\boldsymbol{u}_k\right|\right|_2^2 = \boldsymbol{u}_k \cdot \boldsymbol{u}_k = \alpha^2 (\boldsymbol{w}_k \cdot \boldsymbol{w}_k) = \alpha^2 \left|\left|\boldsymbol{w}_k\right|\right|_2^2
Da cui si ottiene \alpha = \frac{1}{\left|\left|\boldsymbol{w}_k\right|\right|_2}. È necessario che \boldsymbol{w}_k \neq \boldsymbol{0}; altrimenti, avremmo:
\boldsymbol{0}= \boldsymbol{v}_k - \sum_{i=1}^{k-1} \beta_i \boldsymbol{u}_i
Poiché \boldsymbol{U}_{k-1} = \boldsymbol{V}_{k-1}, esisterebbero k-1 scalari \gamma_i per cui:
\boldsymbol{v}_k = \sum_{i=1}^{k-1} \beta_i \boldsymbol{u}_i = \sum_{i=1}^{k-1} \gamma_i \boldsymbol{v}_i
Questo contraddice l’indipendenza lineare dei vettori \boldsymbol{v}_i.
Passo 3:
Infine, dobbiamo verificare che \boldsymbol{U}_k = \boldsymbol{V}_k. Consideriamo una combinazione lineare generica dei vettori \boldsymbol{v}_i:
\boldsymbol{z}= \sum_{i=1}^{k} \eta_i \boldsymbol{v}_i
Mostriamo che \boldsymbol{z}\in \boldsymbol{U}_k. Per l’ipotesi induttiva, esistono k-1 scalari \zeta_i tali che:
\sum_{i=1}^{k-1} \eta_i \boldsymbol{v}_i = \sum_{i=1}^{k-1} \zeta_i \boldsymbol{u}_i
Utilizzando la relazione:
\boldsymbol{v}_k = \frac{\boldsymbol{u}_k}{\alpha} + \sum_{i=1}^{k-1} \beta_i \boldsymbol{u}_i
Otteniamo:
\boldsymbol{z}= \frac{\eta_k}{\alpha} \boldsymbol{u}_k + \eta_k \sum_{i=1}^{k-1} \beta_i \boldsymbol{u}_i + \sum_{i=1}^{k-1} \zeta_i \boldsymbol{u}_i = \frac{\eta_k}{\alpha} \boldsymbol{u}_k + \sum_{i=1}^{k-1} (\zeta_i + \eta_k \beta_i) \boldsymbol{u}_i
Quindi, \boldsymbol{z}\in \boldsymbol{U}_k, e poiché \boldsymbol{z} è arbitrario, abbiamo \boldsymbol{V}_k \subset \boldsymbol{U}_k.
Viceversa, se \boldsymbol{z}\in \boldsymbol{U}_k, possiamo scrivere:
\boldsymbol{z}= \sum_{i=1}^{k} \zeta_i \boldsymbol{u}_i
e utilizzando la relazione:
\boldsymbol{z}= \zeta_k \alpha \left( \boldsymbol{v}_k - \sum_{i=1}^{k-1} \beta_i \boldsymbol{u}_i \right) + \sum_{i=1}^{k-1} \zeta_i \boldsymbol{u}_i = \zeta_k \alpha \boldsymbol{v}_k - \sum_{i=1}^{k-1} (\zeta_i - \zeta_k \alpha \beta_i) \boldsymbol{u}_i
Per l’ipotesi induttiva, esistono k-1 scalari \omega_i tali che:
\sum_{i=1}^{k-1} (\zeta_i - \zeta_k \alpha \beta_i) \boldsymbol{u}_i = \sum_{i=1}^{k-1} \omega_i \boldsymbol{v}_i
Quindi, \boldsymbol{z}\in \boldsymbol{V}_k. Poiché \boldsymbol{z} è arbitrario, abbiamo \boldsymbol{U}_k \subset \boldsymbol{V}_k, e quindi \boldsymbol{U}_k = \boldsymbol{V}_k.
Questo teorema porta al seguente algoritmo per l’ortonormalizzazione di un insieme di vettori:
Note
Ludwig Otto Hölder 1859-1937.↩︎
O entrambe simultaneamente, ma basta considerare uno dei due casi per procedere!↩︎
Nella figura, l’angolo tra i vettori \boldsymbol{a} e \boldsymbol{b} è indicato con il simbolo \theta per ragioni tipografiche, anziché con \theta_{\boldsymbol{a}\boldsymbol{b}}.↩︎
Karl Herman Amandus Schwarz (1843-1921).↩︎