Approssimazione di Funzioni

Sia $f: [a, b] \to \mathbb{R}$ una funzione continua. Vogliamo approssimare $f \approx g$ con $g$ una funzione “facile” da calcolare (ad esempio un polinomio).

§ Teorema (Weierstrass). Se $f \in C[a, b]$ , allora $\forall \epsilon > 0$ esiste $p_\epsilon(x)$ polinomio tale che:

 $\forall x \in [a, b] \quad |f(x) - p_\epsilon(x)| \le \epsilon$

Questo è equivalente a dire che

 $\max_{x \in [a, b]} |f(x) - p_\epsilon(x)| \le \epsilon$

ovvero $\|f - p_\epsilon\|_\infty \le \epsilon$ .

In generale, il tipo di approssimazione che cerchiamo per $f \in C[a, b]$ consiste nel fissare una base di funzioni $\{\phi_0, \phi_1, \dots, \phi_n\} \subset C[a, b]$ e cercare un’approssimazione della forma:

 $f \approx \sum_{i=0}^n \alpha_i \phi_i, \quad \alpha_i \in \mathbb{R}$

Consideriamo ora $V$ uno spazio vettoriale su $\mathbb{R}$ o $\mathbb{C}$ , dotato di una norma $\|\cdot\|$ .

§ Teorema. Ogni norma su $V$ è una funzione uniformemente continua nella topologia indotta dalla norma stessa.

Dimostrazione. Vogliamo verificare che $\forall \epsilon > 0, \exists \delta > 0$ tale che se $\|x - y\| \le \delta$ allora $|\|x\| - \|y\|| \le \epsilon$ . Dalla disuguaglianza triangolare abbiamo:

 $\|x\| = \|(x - y) + y\| \le \|x - y\| + \|y\| \implies \|x\| - \|y\| \le \|x - y\|$

Scambiando il ruolo di $x$ e $y$ (o equivalentemente ponendo $y \to x - y$ e $x \to y$ ):

 $\|y\| - \|x\| \le \|y - x\| = \|x - y\|$

Combinando le due disuguaglianze otteniamo $|\|x\| - \|y\|| \le \|x - y\|$ . Scegliendo $\delta = \epsilon$ si ottiene la tesi. $\square$

Approssimazione lineare

Sia $(V, \|\cdot\|)$ uno spazio vettoriale normato, $f \in V$ e $\{\phi_0, \dots, \phi_n\} \subset V$ un insieme di funzioni linearmente indipendenti. Vogliamo cercare dei coefficienti $\alpha_i^* \in \mathbb{R}$ tali che, definita $g_n := \sum_{i=0}^n \alpha_i^* \phi_i$ , si abbia:

 $\|f - g_n\| = \min_{\alpha_0, \dots, \alpha_n \in \mathbb{R}} \left\| f - \sum_{i=0}^n \alpha_i \phi_i \right\|$

Osservazione. Non è garantito che il minimo esista e, se esiste, non è detto che sia unico.

§ Definizione. Nel contesto precedente:

$g_n$ è detta funzione di migliore approssimazione.
$f - g_n$ è il resto dell’approssimazione.
$\delta_n := \|f - g_n\|$ è l’errore (assoluto) di approssimazione.

Assumiamo che esista $g_n$ per ogni $n$ . Possiamo approssimare $f$ con $g_n$ , ottenendo una successione $(\delta_n)_n$ di errori di approssimazione. Diciamo che vale la proprietà di buona approssimazione se $\delta_n \to 0$ per $n \to \infty$ .

§ Teorema. Sia $(V, \|\cdot\|)$ uno spazio vettoriale normato. Fissiamo $\{\phi_0, \dots, \phi_n\} \subset V$ funzioni linearmente indipendenti. Sia $G_n := \text{span}\{\phi_0, \dots, \phi_n\}$ e $f \in V$ . Allora:

Il problema dell’approssimazione lineare di $f$ rispetto a $G_n$ ha soluzione.
L’insieme delle soluzioni è convesso.
Fissata una successione $(\phi_i)_{i \ge 0}$ , definiamo per ogni $n$ l’errore $\delta_n$ rispetto allo spazio $G_n := \text{span}\{\phi_i\}_{i=0}^n$ . Allora $(\delta_n)_n$ è debolmente decrescente e ammette limite, ovvero $\exists \lim_n \delta_n \ge 0$ .

Dimostrazione.

L’idea è restringersi ad un compatto che contiene l’inf dove sappiamo essere un minimo. Consideriamo $\alpha = (\alpha_0, \dots, \alpha_n) \in \mathbb R^{n+1}$ e le funzioni

 $c(\alpha) := \left\| \sum_{i=0}^n \alpha_i \phi_i \right\| \quad \text{e} \quad d(\alpha) := \left\| f - \sum_{i=0}^n \alpha_i \phi_i \right\|$

Sia $t := \inf_{\alpha \in \mathbb{R}^{n+1}} d(\alpha) \ge 0$ e poniamo

 $\gamma := \min_{\substack{\alpha \in \mathbb{R}^{n+1} \\ \|\alpha\|_\infty = 1}} c(\alpha)$

$\gamma \neq 0$ poiché le $\phi_i$ sono linearmente indipendenti. Per la disuguaglianza triangolare:

 $\begin{aligned} d(\alpha) &\ge \left| \left\| \sum_{i=0}^n \alpha_i \phi_i \right\| - \|f\| \right| \\ &= \left| \|\alpha\|_\infty \left\| \sum_{i=0}^n \frac{\alpha_i}{\|\alpha\|_\infty} \phi_i \right\| - \|f\| \right| \\ &\ge \gamma \|\alpha\|_\infty - \|f\| \end{aligned}$

Vorremmo ora scegliere $B(0, \mu)$ in modo che il minimo sia lì dentro. Poniamo

 $\mu := \frac{t + \epsilon + \|f\|}{\gamma}$

Se $\|\alpha\|_\infty > \mu$ abbiamo

 $d(\alpha) > \gamma \mu - \|f\| > \gamma \frac{t + \epsilon + \|f\|}{\gamma} - \|f\| = t + \epsilon$

In questo modo l’errore è $\ge t + \epsilon$ per ogni $\epsilon > 0$ . Quindi per $\epsilon \to 0$ :

 $t = \inf_{\|\alpha\|_\infty \le \mu} d(\alpha) = \min_{\|\alpha\|_\infty \le \mu} d(\alpha)$

Siano $g_n, \hat{g}_n$ soluzioni, ovvero tali che $\|f - g_n\| = \|f - \hat{g}_n\| = \delta_n$ . Vogliamo mostrare che una loro combinazione convessa è ancora soluzione, ovvero che
```
 $g_n^{(\lambda)} := \lambda g_n + (1-\lambda) \hat{g}_n \in G_n \quad \forall \lambda \in [0, 1]$ 
```
e $\|f - g_n^{(\lambda)}\| = \delta_n$ .
- $g_n^{(\lambda)} \in G_n$ poiché $G_n$ è un sottospazio lineare.
- $\|f - g_n^{(\lambda)}\| = \|\lambda f + (1-\lambda) f - \lambda g_n - (1-\lambda) \hat{g}_n\| = \|\lambda(f - g_n) + (1-\lambda)(f - \hat{g}_n)\| \le \lambda \|f - g_n\| + (1-\lambda) \|f - \hat{g}_n\| = \lambda \delta_n + (1-\lambda) \delta_n = \delta_n$ . Essendo $\delta_n$ il valore minimo, deve valere l’uguaglianza. $\square$
Per definizione $G_n \subseteq G_{n+1} \implies \delta_{n+1} \le \delta_n$ ed essendo i $\delta_n \ge 0$ esiste sempre il limite.

Condizioni sufficienti per l’unicità

§ Definizione. Sia $(V, \|\cdot\|)$ uno spazio normato. $V$ è detto strettamente convesso se $\forall f, g \in V$ con $f \neq g$ , $\|f\| \le m, \|g\| \le m$ , si ha che:

 $\left\| f + g \right\| < 2m \iff \left\| \frac{f+g}{2} \right\| < m$

Esempio. $(\mathbb{R}^2, \|\cdot\|_\infty)$ non è strettamente convesso.

Un’altra caratterizzazione è che la palla unitaria $B$ è strettamente convessa se per ogni $f, g \in \partial B$ , il segmento $(f, g)$ interseca $\partial B$ solo in $f, g$ .

§ Proposizione. Sia $(V, \|\cdot\|)$ uno spazio vettoriale normato strettamente convesso, allora il problema dell’approssimazione lineare ha un’unica soluzione.

Dimostrazione. Sia $f$ la funzione da approssimare e $G_n := \text{span}\{\phi_i\}_{i=0}^n$ lo spazio in cui si cerca l’approssimazione. Se per assurdo esistono due soluzioni $g_n, \hat{g}_n \in G_n$ tali che $g_n \neq \hat{g}_n$ e $\|f - g_n\| = \|f - \hat{g}_n\| = \delta_n$ . Osserviamo che $f - g_n \neq f - \hat{g}_n$ ed applichiamo la stretta convessità a $f - g_n$ e $f - \hat{g}_n$ :

 $\begin{aligned} \|(f - g_n) + (f - \hat{g}_n)\| &< 2\delta_n \\ \implies \|2f - (g_n + \hat{g}_n)\| &< 2\delta_n \\ \implies \left\| f - \frac{g_n + \hat{g}_n}{2} \right\| &< \delta_n \end{aligned}$

il che è assurdo poiché $\delta_n$ era il minimo errore possibile. $\square$

§ Definizione. Sia $(V, \|\cdot\|)$ uno spazio vettoriale normato. $V$ è detto spazio di Banach se è completo rispetto alla norma $\|\cdot\|$ , ovvero se ogni successione di Cauchy in $V$ converge ad un elemento di $V$ .

Esempio. Lo spazio $(C[a, b], \|\cdot\|_\infty)$ delle funzioni continue su $[a, b]$ con la norma del massimo è uno spazio di Banach.

§ Definizione. Sia $H$ uno spazio vettoriale dotato di prodotto scalare $\langle \cdot, \cdot \rangle$ . Sia $\|v\| := \sqrt{\langle v, v \rangle}$ la norma indotta dal prodotto scalare. $V$ è detto spazio di Hilbert se è completo rispetto alla norma indotta.

Esempio.

$L^2(a, b)$ con il prodotto scalare $\langle f, g \rangle = \int_a^b f(x) g(x) \mathrm dx$ è uno spazio di Hilbert.
$(C[a, b], \|\cdot\|_2)$ con lo stesso prodotto scalare non è uno spazio di Hilbert. La sua chiusura è $L^2(a, b)$ . Ad esempio, la successione di funzioni continue:

§ Proposizione. In uno spazio con prodotto scalare vale la regola del parallelogramma: $\forall u, v \in V$ :

 $\|u+v\|^2 + \|u-v\|^2 = 2(\|u\|^2 + \|v\|^2)$

Viceversa, se in uno spazio normato vale questa proprietà, allora la norma è indotta dal prodotto scalare definito da:

 $\langle u, v \rangle = \frac{1}{4} (\|u+v\|^2 - \|u-v\|^2)$

§ Proposizione. Sia $V$ uno spazio normato con norma indotta da un prodotto scalare, allora $V$ è strettamente convesso.

Dimostrazione. Siano $u, v \in V$ con $u \neq v$ e $\|u\| \le m, \|v\| \le m$ . Vogliamo mostrare che $\|u+v\| < 2m$ . Dalla regola del parallelogramma:

 $\|u+v\|^2 = 2(\|u\|^2 + \|v\|^2) - \|u-v\|^2$

Essendo $u \neq v$ , si ha $\|u-v\|^2 > 0$ , quindi:

 $\|u+v\|^2 < 2(\|u\|^2 + \|v\|^2) \le 2(m^2 + m^2) = 4m^2$

e quindi $\|u+v\| < 2m$ . $\square$

Approssimazione in spazi di Hilbert

§ Teorema. Sia $(V, \|\cdot\|)$ uno spazio normato con norma indotta da un prodotto scalare. Siano $\{\phi_i\}_{i=0}^n \subset V$ linearmente indipendenti e $G_n := \text{span}\{\phi_i\}_{i=0}^n$ . Sia $f \in V$ . Allora:

Esiste un’unica $g_n \in G_n$ che realizza il minimo della distanza:
```
 $\min_{g \in G_n} \|f - g\|$ 
```
$g \in G_n$ è soluzione del problema dell’approssimazione lineare se e solo se:

 $\forall v \in G_n \quad \langle f - g, v \rangle = 0$

Dimostrazione.

L’esistenza è garantita dai teoremi precedenti. L’unicità segue dalla stretta convessità (appena dimostrata per gli spazi con prodotto scalare).
$\boxed{\Rightarrow}$ Sia $g_n$ la soluzione. Sia $v \in G_n$ .
- Se $v = 0$ , la tesi è ovvia.
- Se $v \neq 0$ : sappiamo che per ogni $g \in G_n$ , $\|f - g_n\| \le \|f - g\|$ . In particolare, per ogni $w \in G_n$ , $\|f - g_n\| \le \|f - (g_n + w)\|$ . Consideriamo $w = \gamma v$ con $\gamma \in \mathbb{R}$ . Allora:
```
 $\begin{aligned} \|f - g_n\|^2 &\le \|f - (g_n + \gamma v)\|^2 = \|(f - g_n) - \gamma v\|^2 \\ &= \langle (f - g_n) - \gamma v, (f - g_n) - \gamma v \rangle \\ &= \|f - g_n\|^2 + \gamma^2 \|v\|^2 - 2\gamma \langle f - g_n, v \rangle \end{aligned}$ 
```
Quindi $\gamma^2 \|v\|^2 - 2\gamma \langle f - g_n, v \rangle \ge 0$ per ogni $\gamma \in \mathbb{R}$ . Questo è un polinomio di secondo grado in $\gamma$ che non è mai negativo, quindi il suo discriminante deve essere $\le 0$ :
```
 $\Delta = (2 \langle f - g_n, v \rangle)^2 - 4 \|v\|^2 \cdot 0 \le 0 \implies \langle f - g_n, v \rangle = 0$ 
```
Alternativamente, possiamo scegliere $\gamma = \frac{\langle f - g_n, v \rangle}{\|v\|^2}$ per ottenere lo stesso risultato.

$\boxed{\Leftarrow}$ Sia $g \in G_n$ tale che $\langle f - g, v \rangle = 0$ per ogni $v \in G_n$ . Vogliamo dimostrare che $\forall h \in G_n$ , $\|f - g\| \le \|f - h\|$ . Sia $h \in G_n$ , possiamo scrivere $h = g + w$ con $w \in G_n$ . Allora:
```
 $\begin{aligned} \|f - h\|^2 &= \|f - (g + w)\|^2 = \|(f - g) - w\|^2 \\ &= \langle (f - g) - w, (f - g) - w \rangle \\ &= \|f - g\|^2 + \|w\|^2 - 2\langle f - g, w \rangle \end{aligned}$ 
```
Essendo $w \in G_n$ , per ipotesi $\langle f - g, w \rangle = 0$ , quindi:
```
 $\|f - h\|^2 = \|f - g\|^2 + \|w\|^2 \ge \|f - g\|^2$ 
```
il che prova che $g$ è il punto di minimo. $\square$

Espressione esplicita della soluzione

Osserviamo che $g_n = \sum_{i=0}^n \alpha_i \phi_i$ è soluzione se e solo se:

 $\forall v \in G_n \quad \langle f - g_n, v \rangle = 0$

Grazie alla linearità del prodotto scalare, tale condizione è equivalente a richiederla solo per gli elementi della base:

 $\begin{aligned} &\forall j=0,\dots,n \quad \langle f - g_n, \phi_j \rangle = 0 \\ \iff &\forall j=0,\dots,n \quad \langle f, \phi_j \rangle - \langle \sum_{i=0}^n \alpha_i \phi_i, \phi_j \rangle = 0 \\ \iff &\forall j=0,\dots,n \quad \sum_{i=0}^n \alpha_i \langle \phi_i, \phi_j \rangle = \langle f, \phi_j \rangle \end{aligned}$

Questo si può riscrivere in forma matriciale come un sistema lineare $A\alpha = b$ con $A \in \mathbb{R}^{(n+1) \times (n+1)}$ :

$A_{ij} = \langle \phi_j, \phi_i \rangle$ (Matrice di Gram)
$\alpha = [\alpha_0, \dots, \alpha_n]^T$
$b = [\langle f, \phi_0 \rangle, \dots, \langle f, \phi_n \rangle]^T$

Casi favorevoli: La matrice $A$ è sparsa o diagonale. Se le $\{\phi_i\}$ formano un insieme ortogonale rispetto al prodotto scalare considerato ( $\langle \phi_i, \phi_j \rangle = 0$ per $i \neq j$ ), allora la matrice $A$ è diagonale e la soluzione è immediata:

 $\alpha_i = \frac{\langle f, \phi_i \rangle}{\langle \phi_i, \phi_i \rangle} \implies g_n = \sum_{i=0}^n \frac{\langle f, \phi_i \rangle}{\langle \phi_i, \phi_i \rangle} \phi_i$

In questo caso, gli $\alpha_i$ sono detti coefficienti di Fourier di $f$ rispetto alla base ortogonale $\{\phi_i\}$ .

§ Definizione. Sia $H$ uno spazio di Hilbert. Un insieme ortogonale $\{\phi_j\}_{j \in \mathbb{N}} \subset H$ è detto completo (o massimale) se non esiste alcun elemento non nullo di $H$ che sia ortogonale a tutti i $\phi_j$ , ovvero:

 $\nexists y \in H, y \neq 0 \quad \text{tale che} \quad \forall j \in \mathbb{N} \quad \langle y, \phi_j \rangle = 0$

Osservazione. Se l’insieme $\{\phi_j\}$ è completo, allora l’insieme delle loro combinazioni lineari finite $S = \text{span}\{\phi_j\}_{j \in \mathbb{N}}$ è denso in $H$ :

 $\forall f \in H, \forall \epsilon > 0, \exists g \in S \quad \text{tale che} \quad \|f - g\| \le \epsilon$

§ Teorema. Sia $H$ uno spazio di Hilbert e $\{\phi_j\}_{j \in \mathbb{N}} \subset H$ un insieme ortogonale. Sia $f \in H$ e per ogni $n$ sia $g_n$ la migliore approssimazione di $f$ su $G_n = \text{span}\{\phi_0, \dots, \phi_n\}$ . Siano $r_n = f - g_n$ il resto e $\delta_n = \|r_n\|$ l’errore. Allora:

i) $\delta_n^2 = \|f\|^2 - \sum_{i=0}^n \frac{\langle f, \phi_i \rangle^2}{\langle \phi_i, \phi_i \rangle}$ ii) La serie $\sum_{i=0}^\infty \frac{\langle f, \phi_i \rangle^2}{\langle \phi_i, \phi_i \rangle}$ è convergente e vale la disuguaglianza di Bessel:

 $\sum_{i=0}^\infty \frac{\langle f, \phi_i \rangle^2}{\langle \phi_i, \phi_i \rangle} \le \|f\|^2$

iii) Se l’insieme $\{\phi_i\}$ è completo, allora vale l’identità di Parseval:

 $\|f\|^2 = \sum_{i=0}^\infty \frac{\langle f, \phi_i \rangle^2}{\langle \phi_i, \phi_i \rangle}$

Dimostrazione.

i) Calcoliamo l’errore quadratico:

 $\begin{aligned} \delta_n^2 &= \|r_n\|^2 = \|f - g_n\|^2 = \langle f - g_n, f - g_n \rangle \\ &= \langle f - g_n, f \rangle - \underbrace{\langle f - g_n, g_n \rangle}_{= 0 \text{ per ortogonalità}} \\ &= \langle f, f \rangle - \langle g_n, f \rangle = \|f\|^2 - \sum_{i=0}^n \alpha_i \langle \phi_i, f \rangle \\ &= \|f\|^2 - \sum_{i=0}^n \frac{\langle f, \phi_i \rangle}{\langle \phi_i, \phi_i \rangle} \langle \phi_i, f \rangle = \|f\|^2 - \sum_{i=0}^n \frac{\langle f, \phi_i \rangle^2}{\langle \phi_i, \phi_i \rangle} \end{aligned}$

ii) Poiché $\delta_n^2 \ge 0$ , abbiamo che per ogni $n$ :

 $\sum_{i=0}^n \frac{\langle f, \phi_i \rangle^2}{\langle \phi_i, \phi_i \rangle} \le \|f\|^2$

La successione delle somme parziali è monotona crescente e superiormente limitata da $\|f\|^2$ , quindi la serie converge e il limite (che è la disuguaglianza di Bessel) è $\le \|f\|^2$ .

iii) Se l’insieme è completo, la densità dello span implica che $\delta_n \to 0$ per $n \to \infty$ . Passando al limite in (i) si ottiene l’identità di Parseval. $\square$

Osservazione. La norma $\|\cdot\|_\infty$ non è indotta da un prodotto scalare. Si può verificare considerando ad esempio le funzioni $f(x) = x$ e $g(x) = 1-x$ su $[0, 1]$ e mostrando che non soddisfano la regola del parallelogramma.

Osservazione. La convergenza in norma $\|\cdot\|_2$ non implica in generale la convergenza uniforme. Un’eccezione rilevante si ha utilizzando come base i polinomi di Chebyshev di prima specie $T_n(x)$ (si veda il capitolo Approssimazione minimax). Se $f$ è almeno Lipschitziana, allora la sua serie di Chebyshev:

 $f(x) = \frac{a_0}{2} + \sum_{i=1}^\infty a_i T_i(x)$

converge uniformemente a $f$ .

Osservazione. Dal punto di vista computazionale, può convenire scegliere famiglie di funzioni non ortogonali ma con supporto limitato, tali che $\text{supp}(\phi_i) \cap \text{supp}(\phi_j) = \emptyset$ per $|i-j| \ge k$ (matrici a banda). Un esempio classico sono le Hat Functions (funzioni a tenda). Per l’insieme delle funzioni hat con il prodotto scalare $L^2$ , la matrice di Gram $A$ risulta essere tridiagonale. Se definiamo $\phi(x) = \max(0, h - |x|)$ , si ottiene:

 $A = \frac{h^3}{6} \text{trid}(1, 4, 1)$

Interpolazione polinomiale

§ Definizione. Dato un intervallo $[a, b]$ , una tavola dei nodi su $[a, b]$ è un insieme di punti:

 $\left\{ x_i^{(n)} \in [a, b] \mid i=0, \dots, n, \quad n \in \mathbb{N}, \quad x_i^{(n)} \neq x_j^{(n)} \text{ per } i \neq j \right\}$

A partire dai nodi ed i valori della funzione in essi, possiamo definire il polinomio interpolatore di Lagrange:

 $p_n(x) = \sum_{i=0}^n f(x_i^{(n)}) L_{i,n}(x)$

dove gli $L_{i,n}(x)$ sono i polinomi elementari di Lagrange:

 $L_{i,n}(x) = \prod_{\substack{j=0 \\ j \neq i}}^n \frac{x - x_j^{(n)}}{x_i^{(n)} - x_j^{(n)}}$

Fissata una tavola dei nodi, possiamo definire l’operatore di interpolazione:

 $\begin{aligned} \mathcal{A}_n: C[a, b] &\to C[a, b] \\ f &\mapsto p_n \end{aligned}$

Condizionamento dell’interpolazione

Vogliamo studiare la sensibilità del polinomio interpolatore rispetto a perturbazioni dei dati (i valori di $f$ ). Sia $f$ la funzione originale e $\tilde{f}$ una funzione perturbata. Sia $\tilde{p} = \mathcal{A}_n(\tilde{f})$ . Valutiamo la differenza puntuale:

 $\begin{aligned} |p_n(x) - \tilde{p}_n(x)| &= \left| \sum_{i=0}^n f(x_i) L_{i,n}(x) - \sum_{i=0}^n \tilde{f}(x_i) L_{i,n}(x) \right| \\ &\le \sum_{i=0}^n |f(x_i) - \tilde{f}(x_i)| \cdot |L_{i,n}(x)| \\ &\le \left( \max_{i=0,\dots,n} |f(x_i) - \tilde{f}(x_i)| \right) \sum_{i=0}^n |L_{i,n}(x)| \\ &\le \|f - \tilde{f}\|_\infty \cdot \lambda_n(x) \end{aligned}$

dove $\lambda_n(x) := \sum_{i=0}^n |L_{i,n}(x)|$ è detta funzione di Lebesgue.

§ Definizione. La quantità $\Lambda_n := \max_{x \in [a, b]} \lambda_n(x)$ è detta costante di Lebesgue.

Dalla disuguaglianza precedente otteniamo:

 $\|p_n - \tilde{p}_n\|_\infty \le \Lambda_n \|f - \tilde{f}\|_\infty$

Ricordando la definizione di norma operatoriale $\|\mathcal{A}_n\|_\infty = \sup_{g \neq 0} \frac{\|\mathcal{A}_n g\|_\infty}{\|g\|_\infty}$ , abbiamo che $\|\mathcal{A}_n\|_\infty \le \Lambda_n$ . Inoltre, la proposizione che segue mostra che vale l’uguaglianza.

§ Proposizione. $\|\mathcal{A}_n\|_\infty = \Lambda_n$ .

Dimostrazione. Cerchiamo una funzione $g \in C[a, b]$ con $\|g\|_\infty = 1$ tale che $\|\mathcal{A}_n g\|_\infty = \Lambda_n$ . Sia $\xi \in [a, b]$ il punto che realizza il massimo della funzione di Lebesgue, ovvero $\lambda_n(\xi) = \Lambda_n$ . Vogliamo che $g(x_i) = \text{sign}(L_{i,n}(\xi))$ , in modo che:

 $(\mathcal{A}_n g)(\xi) = \sum_{i=0}^n g(x_i) L_{i,n}(\xi) = \sum_{i=0}^n \text{sign}(L_{i,n}(\xi)) L_{i,n}(\xi) = \sum_{i=0}^n |L_{i,n}(\xi)| = \Lambda_n$

Poiché $\|g\|_\infty = 1$ , si ha $\|\mathcal{A}_n g\|_\infty \ge |(\mathcal{A}_n g)(\xi)| = \Lambda_n$ . Essendo già noto che $\|\mathcal{A}_n\|_\infty \le \Lambda_n$ , si conclude che $\|\mathcal{A}_n\|_\infty = \Lambda_n$ . $\square$

§ Teorema. Sia $p_n(x)$ il polinomio di interpolazione relativo ad una tavola di nodi fissata e $q_n^*(x)$ il polinomio di migliore approssimazione uniforme (ovvero tale che $\|f - q_n^*\|_\infty = \min_{p \in \mathcal{P}_n} \|f - p\|_\infty$ , si veda il capitolo Approssimazione minimax). Allora vale:

 $\|f - p_n\|_\infty \le (1 + \Lambda_n) \|f - q_n^*\|_\infty$

Dimostrazione. Sfruttiamo la disuguaglianza triangolare e la linearità dell’operatore di interpolazione $\mathcal{A}_n$ :

 $\begin{aligned} \|f - p_n\|_\infty &= \|f - q_n^* + q_n^* - p_n\|_\infty \le \|f - q_n^*\|_\infty + \|q_n^* - p_n\|_\infty \\ &= \|f - q_n^*\|_\infty + \|\mathcal{A}_n q_n^* - \mathcal{A}_n f\|_\infty \\ &= \|f - q_n^*\|_\infty + \|\mathcal{A}_n(q_n^* - f)\|_\infty \\ &\le \|f - q_n^*\|_\infty + \|\mathcal{A}_n\|_\infty \|q_n^* - f\|_\infty \\ &= (1 + \Lambda_n) \|f - q_n^*\|_\infty \quad \square \end{aligned}$

Questo risultato mostra che l’errore di interpolazione è controllato dalla costante di Lebesgue.

§ Teorema (Faber). Per ogni tavola dei nodi su $[a, b]$ , esiste una funzione $f \in C[a, b]$ tale che la successione dei polinomi interpolatori $(\mathcal{A}_n(f))_n$ non converge a $f$ in norma uniforme.

Il teorema di Faber si dimostra applicando il teorema di Banach-Steinhaus (o principio di uniforme limitatezza) agli operatori $\mathcal{A}_n$ , osservando che $\Lambda_n \to \infty$ .

§ Teorema (Banach-Steinhaus). Siano $V, W$ spazi di Banach e $\{T_n\}_n$ una successione di operatori lineari e continui da $V$ in $W$ . Se vale la limitatezza puntuale, ovvero:

 $\forall v \in V \quad \sup_n \|T_n(v)\|_W < +\infty$

allora la successione è uniformemente limitata in norma operatoriale:

 $\sup_n \|T_n\|_{\mathcal{L}(V, W)} < +\infty$

Infatti, per il teorema di Banach-Steinhaus, se la successione $\|\mathcal{A}_n\|_\infty$ fosse limitata, allora $\Lambda_n$ sarebbe limitata e per ogni $f \in C[a, b]$ la successione $\|\mathcal{A}_n(f)\|_\infty$ sarebbe limitata, il che garantirebbe la convergenza uniforme. Ma poiché $\Lambda_n \to \infty$ , deve esistere una funzione $f$ per cui la successione non converge.

Operatori Positivi e Teorema di Korovkin

Sia $K \subseteq \mathbb{R}$ un compatto. Lavoriamo nello spazio $C(K)$ delle funzioni continue su $K$ .

§ Definizione. Un operatore $L: C(K) \to C(K)$ si dice operatore lineare positivo se:

L è lineare: $L(\alpha f + \beta g) = \alpha L[f] + \beta L[g]$
L è positivo: $f \ge 0 \implies L[f] \ge 0$

§ Proposizione. Sia $L$ un LPO su $C(K)$ . Allora:

$f \le g \implies L[f] \le L[g]$ (Monotonia)
$|L[f]| \le L[|f|]$

§ Definizione. Se $\{L_n\}_n$ è una successione di operatori lineari su $C(K)$ e $f \in C(K)$ , diciamo che $\{L_n\}_n$ approssima bene $f$ se:

 $\lim_{n \to \infty} \|L_n[f] - f\|_\infty = 0$

§ Teorema (Korovkin). Sia $\{L_n\}_n$ una successione di operatori lineari positivi su $C(K)$ , con $K \subseteq \mathbb{R}$ compatto. Se $\{L_n\}_n$ approssima bene le tre funzioni test:

$x \mapsto 1$
$x \mapsto x$
$x \mapsto x^2$

allora $\{L_n\}_n$ approssima bene tutte le funzioni in $C(K)$ .

Dimostrazione. Sia $f \in C(K)$ e $\epsilon > 0$ . Vogliamo mostrare che esiste $\bar{n}$ tale che $\forall n \ge \bar{n}$ , $\forall y \in K$ si abbia $|L_n[f](y) - f(y)| \le \bar{\epsilon}$ (con $\bar{\epsilon}$ che dipende solo da $\epsilon$ ).

Se $|x - y| > \delta$ , allora $1 < \frac{|x-y|}{\delta} < \frac{(x-y)^2}{\delta^2}$ , quindi:

 $|f(x) - f(y)| \le 2M \le \frac{2M}{\delta^2} (x-y)^2$

In generale, per ogni $x, y \in K$ :

 $|f(x) - f(y)| \le \epsilon + \frac{2M}{\delta^2} (x-y)^2$

Definiamo i residui per le funzioni test:

$\epsilon_0^{(n)}(y) := L_n[1](y) - 1$
$\epsilon_1^{(n)}(y) := L_n[x](y) - y$
$\epsilon_2^{(n)}(y) := L_n[x^2](y) - y^2$ Per ipotesi, per $j=0, 1, 2$ , si ha $\|\epsilon_j^{(n)}\|_\infty \to 0$ per $n \to \infty$ . Sia $\bar{n}$ tale che $\forall n \ge \bar{n}$ , $|\epsilon_j^{(n)}(y)| \le \epsilon$ per ogni $y \in K$ .

Valutiamo $|L_n[f](y) - f(y)|$ :

 $\begin{aligned} |L_n[f](y) - f(y)| &= |L_n[f](y) - f(y) L_n[1](y) + f(y) L_n[1](y) - f(y)| \\ &= |L_n[f(\cdot) - f(y)](y) + f(y) \epsilon_0^{(n)}(y)| \\ &\le L_n[|f(x) - f(y)|](y) + M |\epsilon_0^{(n)}(y)| \end{aligned}$

Usando la stima su $|f(x) - f(y)|$ :

 $\begin{aligned} L_n[|f(x) - f(y)|](y) &\le L_n[\epsilon + \frac{2M}{\delta^2} (x-y)^2](y) \\ &= \epsilon L_n[1](y) + \frac{2M}{\delta^2} L_n[x^2 - 2xy + y^2](y) \\ &= \epsilon (1 + \epsilon_0^{(n)}(y)) + \frac{2M}{\delta^2} (L_n[x^2](y) - 2y L_n[x](y) + y^2 L_n[1](y)) \\ &= \epsilon (1 + \epsilon_0^{(n)}(y)) + \frac{2M}{\delta^2} (y^2 + \epsilon_2^{(n)}(y) - 2y(y + \epsilon_1^{(n)}(y)) + y^2(1 + \epsilon_0^{(n)}(y))) \\ &= \epsilon (1 + \epsilon_0^{(n)}(y)) + \frac{2M}{\delta^2} (\epsilon_2^{(n)}(y) - 2y \epsilon_1^{(n)}(y) + y^2 \epsilon_0^{(n)}(y)) \end{aligned}$

Sia $D := \max_K |y|$ . Per $n \ge \bar{n}$ abbiamo:

 $|L_n[f](y) - f(y)| \le \epsilon(1+\epsilon) + \frac{2M}{\delta^2}(\epsilon + 2D\epsilon + D^2\epsilon) + M\epsilon \le \gamma \epsilon$

dove $\gamma$ dipende solo dal compatto $K$ e dalla funzione $f$ , ma non da $n$ . Quindi $\|L_n[f] - f\|_\infty \to 0$ . $\square$

Polinomi di Bernstein e Teorema di Weierstrass

Possiamo usare il teorema di Korovkin per dare una dimostrazione costruttiva del teorema di Weierstrass su $[0, 1]$ .

§ Definizione. Gli operatori di Bernstein $B_n: C[0, 1] \to \mathcal{P}_n$ sono definiti da:

 $B_n[f](x) = \sum_{k=0}^n f\left(\frac{k}{n}\right) \binom{n}{k} x^k (1-x)^{n-k}$

Dimostrazione del Teorema di Weierstrass. Verifichiamo le tre condizioni del teorema di Korovkin per gli operatori di Bernstein (che sono chiaramente lineari e positivi):

Funzione $1$ :

 $B_n[1](x) = \sum_{k=0}^n 1 \cdot \binom{n}{k} x^k (1-x)^{n-k} = (x + (1-x))^n = 1^n = 1$

Quindi $\|B_n[1] - 1\|_\infty = 0$ .

Funzione $x$ :

 $\begin{aligned} B_n[x](x) &= \sum_{k=0}^n \frac{k}{n} \binom{n}{k} x^k (1-x)^{n-k} = \sum_{k=1}^n \frac{k}{n} \frac{n!}{k!(n-k)!} x^k (1-x)^{n-k} \\ &= \sum_{k=1}^n \frac{(n-1)!}{(k-1)!(n-k)!} x^k (1-x)^{n-k} \\ &= x \sum_{k=1}^n \binom{n-1}{k-1} x^{k-1} (1-x)^{(n-1)-(k-1)} \\ &= x \sum_{h=0}^{n-1} \binom{n-1}{h} x^h (1-x)^{n-1-h} \\ &= x \cdot 1 = x \end{aligned}$

Quindi $\|B_n[x] - x\|_\infty = 0$ .

Funzione $x^2$ :

 $\begin{aligned} B_n[x^2](x) &= \sum_{k=0}^n \frac{k^2}{n^2} \binom{n}{k} x^k (1-x)^{n-k} \\ &= \sum_{k=1}^n \frac{k}{n} \binom{n-1}{k-1} x^k (1-x)^{n-k} \\ &= x \sum_{h=0}^{n-1} \frac{h+1}{n} \binom{n-1}{h} x^h (1-x)^{n-1-h} \\ &= x \left[ \sum_{h=0}^{n-1} \frac{h}{n} \binom{n-1}{h} x^h (1-x)^{n-1-h} + \frac{1}{n} \sum_{h=0}^{n-1} \binom{n-1}{h} x^h (1-x)^{n-1-h} \right] \\ &= \frac{x}{n} \sum_{h=1}^{n-1} h \binom{n-1}{h} x^h (1-x)^{n-1-h} + \frac{x}{n} \underbrace{\sum_{h=0}^{n-1} \binom{n-1}{h} x^h (1-x)^{n-1-h}}_{1} \\ &= \frac{x}{n} \sum_{h=1}^{n-1} (n-1) \binom{n-2}{h-1} x^h (1-x)^{(n-1)-h} + \frac{x}{n} \\ &= x^2 \frac{n-1}{n} \sum_{h=1}^{n-1} \binom{n-2}{h-1} x^{h-1} (1-x)^{(n-2)-(h-1)} + \frac{x}{n} \\ &= \frac{n-1}{n} x^2 \sum_{r=0}^{n-2} \binom{n-2}{r} x^r (1-x)^{n-2-r} + \frac{x}{n} \\ &= x^2 \frac{n-1}{n} + \frac{x}{n} \end{aligned}$

Si osserva che:

 $B_n[x^2](x) - x^2 = \left(1 - \frac{1}{n}\right)x^2 + \frac{x}{n} - x^2 = \frac{x - x^2}{n} \xrightarrow{n \to \infty} 0$

ovvero $\|B_n[x^2] - x^2\|_\infty = \max_{x \in [0, 1]} \frac{x(1-x)}{n} = \frac{1}{4n} \to 0$ .

Per il Teorema di Korovkin, i polinomi di Bernstein $B_n[f]$ convergono uniformemente a $f$ per ogni $f \in C[0, 1]$ . $\square$

Approssimazione di Padé

Vorremmo un analogo dell’espansione di Taylor di grado massimo possibile per funzioni razionali in un intorno di $z=0$ .

Sia $f(z)$ la funzione da approssimare. Supponiamo che abbia espansione di Taylor in un intorno di $0$ :

 $f(z) = \sum_{i=0}^\infty c_i z^i$

Per ogni $m \ge 0$ , l’approssimazione di Taylor di grado $m$ è l’unico polinomio $p_m$ tale che:

 $f(z) - p_m(z) = O(z^{m+1})$

Vorremmo ora lavorare con funzioni in $\mathcal{R}_{m, n} := \{r = p/q \mid p \in \mathcal{P}_m, q \in \mathcal{P}_n\}$ ed ottenere un’approssimazione tale che

 $f(z) - r(z) = O(z^l)$

con $l$ massimo possibile.

§ Definizione (Tipo e difetto).

Diciamo che $r$ è una funzione razionale di tipo $(m, n)$ se $r \in \mathcal{R}_{m, n}$ .
Diremo che $r$ ha tipo esatto $(\mu, \nu)$ se $r = p/q$ con $\deg p = \mu, \deg q = \nu$ e $\gcd(p, q) = 1$ .
Data $r$ di tipo $(m, n)$ , il difetto di $r$ è $d = \min \{m-\mu, n-\nu\}$ con $(\mu, \nu)$ il tipo esatto di $r$ .

Convenzione: se $r = 0 \implies \mu = -\infty, d = n$ .

§ Definizione. Una funzione razionale $r \in \mathcal{R}_{m, n}$ è approssimazione di Padé di $f$ di tipo $(m, n)$ se:

 $f(z) = r(z) + O(z^l) \quad \text{per } z \to 0$

con $l$ massimo esponente possibile. (L. Trefethen, “Approximation Theory and Approximation Practice”)

Esempio. $f(z) = e^z$ ha approssimazione di Padé $(1, 1)$ :

 $r_{1,1}(z) = \frac{1+z/2}{1-z/2} \implies l = m+n+1 = 1+1+1 = 3$

Per trovarla possiamo considerare $r(z) = \frac{a_0 + a_1 z}{b_0 + b_1 z}$ , a meno di rinormalizzazione possiamo porre $b_0 = 1$ . Allora vogliamo che $e^z - r(z) = O(z^3)$ , ovvero:

 $\begin{aligned} (a_0 + a_1 z) + O(z^3) &= e^z (1 + b_1 z) \\ &= \left(1 + z + \frac{z^2}{2} + O(z^3)\right)(1 + b_1 z) \\ &= 1 + (1 + b_1) z + \left(\frac{1}{2} + b_1\right) z^2 + O(z^3) \\ \end{aligned}$

Confrontando i coefficienti otteniamo il sistema:

 $\begin{cases} a_0 = 1 \\ a_1 = 1 + b_1 \\ 0 = \dfrac{1}{2} + b_1 \end{cases} \implies \begin{cases} a_0 = 1 \\ a_1 = \dfrac{1}{2} \\ b_1 = -\dfrac{1}{2} \end{cases}$

Dunque l’approssimazione di Padé è quella indicata sopra. Questo procedimento ci dà un’idea di come costruiremo l’approssimazione di Padé in generale.

Osservazione. Sia $r \in \mathcal{R}_{m, n}$ con tipo esatto $(\mu, \nu)$ e difetto $d$ e sia $\tilde{r} = \tilde{p}/\tilde{q} \in \mathcal{R}_{m, n}$ . Allora:

 $r - \tilde{r} = \frac{p}{q} - \frac{\tilde{p}}{\tilde{q}} = \frac{p\tilde{q} - \tilde{p}q}{q\tilde{q}}$

ha tipo $(\max\{\mu+n, m+\nu\}, n+\nu)$ . Inoltre per la definizione di difetto:

 $\mu \le m-d, \quad \nu \le n-d$

 $\begin{aligned} \implies \max\{\mu+n, m+\nu\} &\le \max \{m-d+n, m+n-d\} \\ &= m+n-d \end{aligned}$

$\implies n+\nu \le n+n-d = 2n-d$ . Dunque $r - \tilde{r}$ ha tipo $(m+n-d, 2n-d)$ .

§ Teorema. Data $f(z) = \sum_{i=0}^\infty c_i z^i$ , $r \in \mathcal{R}_{m, n}$ è approssimazione di Padé di $f$ di tipo $(m, n)$ se e solo se:

 $f(z) = r(z) + O(z^{m+n+1-d})$

dove $d$ è il difetto di $r$ . (Inoltre $r$ esiste ed è unico).

Dimostrazione. $\boxed{\Leftarrow}$ Dimostriamo che se $r \in \mathcal{R}_{m, n}$ è tale che $f(z) = r(z) + O(z^{m+n+1-d})$ allora è approssimazione di Padé di tipo $(m, n)$ . Sia per assurdo $\exists \tilde{r} \in \mathcal{R}_{m, n}$ tale che $f(z) = \tilde{r}(z) + O(z^l)$ con $l > m+n+1-d$ .

Per l’osservazione precedente, $r - \tilde{r}$ ha tipo $(m+n-d, 2n-d)$ . Ora osserviamo che $z=0$ è radice di $r - \tilde{r}$ :

 $r(z) - \tilde{r}(z) = (f(z) - \tilde{r}(z)) - (f(z) - r(z)) = O(z^l) - O(z^{m+n+1-d}) = O(z^{m+n+1-d})$

poiché $l > m+n+1-d$ . Dunque $z=0$ ha molteplicità $\ge m+n+1-d$ . Ma il numeratore di $r - \tilde{r}$ ha grado al più $m+n-d$ . Un polinomio non nullo di grado $k$ non può avere una radice in $0$ di molteplicità $> k$ . Quindi $r - \tilde{r} = 0 \implies r = \tilde{r}$ , il che contraddice la massimalità di $l$ .

$\boxed{\exists!}$ Supponiamo esista un altro $\tilde{r} \in \mathcal{R}_{m, n}$ con $f(z) = \tilde{r}(z) + O(z^{m+n+1-d})$ . Come prima $r - \tilde{r}$ ha tipo $(m+n-d, 2n-d)$ , perciò $0$ ha molteplicità $\le m+n-d$ . Ma $r - \tilde{r} = f - r - (f - \tilde{r}) = O(z^{m+n+1-d})$ , perciò la molteplicità di $0$ è $\ge m+n+1-d$ . Questo implica $r - \tilde{r} \equiv 0 \implies r = \tilde{r}$ .

$\boxed{\exists}$ Dimostriamo costruttivamente l’esistenza. Scriviamo $r = p/q$ e cerchiamo $p, q$ tali che:

 $f(z) = \frac{p(z)}{q(z)} + O(z^{m+n+1}) \implies p(z) = f(z) q(z) + O(z^{m+n+1})$

Consideriamo le espansioni: $f(z) = \sum_{i=0}^\infty c_i z^i$ , $p(z) = \sum_{i=0}^m a_i z^i$ , $q(z) = \sum_{i=0}^n b_i z^i$ . L’equazione $p(z) + O(z^{m+n+1}) = f(z) q(z)$ corrisponde a uguagliare i primi $m+n+1$ coefficienti.

Il prodotto $f(z)q(z)$ ha coefficienti $[f \cdot q]_k = \sum_{j=0}^{\min(k, n)} c_{k-j} b_j$ . Uguagliando i coefficienti di grado $0, \dots, m+n$ :

 $\begin{bmatrix} a_0 \\ \vdots \\ a_m \\ 0 \\ \vdots \\ 0 \end{bmatrix} = \begin{bmatrix} c_0 & 0 & \dots & 0 \\ c_1 & c_0 & \dots & 0 \\ \vdots & \vdots & \ddots & \vdots \\ c_m & c_{m-1} & \dots & c_{m-n} \\ \hline c_{m+1} & c_m & \dots & c_{m-n+1} \\ \vdots & \vdots & \ddots & \vdots \\ c_{m+n} & c_{m+n-1} & \dots & c_m \end{bmatrix} \begin{bmatrix} b_0 \\ b_1 \\ \vdots \\ b_n \end{bmatrix}$

(dove $c_k = 0$ se $k < 0$ ). Il blocco inferiore è un sistema omogeneo di $n$ equazioni in $n+1$ incognite:

 $\begin{bmatrix} 0 \\ \vdots \\ 0 \end{bmatrix} = \begin{bmatrix} c_{m+1} & \dots & c_{m-n+1} \\ \vdots & \ddots & \vdots \\ c_{m+n} & \dots & c_m \end{bmatrix} \begin{bmatrix} b_0 \\ \vdots \\ b_n \end{bmatrix}$

Tale sistema ha sempre almeno una soluzione non nulla $(b_0, \dots, b_n)$ . Trovati i $b_j$ , i coefficienti $a_i$ sono determinati in modo unico dalla prima parte del sistema. $\square$