Approssimazione di Funzioni

Sia f: [a, b] \to \mathbb{R} una funzione continua. Vogliamo approssimare f \approx g con g una funzione “facile” da calcolare (ad esempio un polinomio).

§ Teorema (Weierstrass). Se f \in C[a, b], allora \forall \epsilon > 0 esiste p_\epsilon(x) polinomio tale che:

\forall x \in [a, b] \quad |f(x) - p_\epsilon(x)| \le \epsilon

Questo è equivalente a dire che

\max_{x \in [a, b]} |f(x) - p_\epsilon(x)| \le \epsilon

ovvero \|f - p_\epsilon\|_\infty \le \epsilon.

In generale, il tipo di approssimazione che cerchiamo per f \in C[a, b] consiste nel fissare una base di funzioni \{\phi_0, \phi_1, \dots, \phi_n\} \subset C[a, b] e cercare un’approssimazione della forma:

f \approx \sum_{i=0}^n \alpha_i \phi_i, \quad \alpha_i \in \mathbb{R}

Consideriamo ora V uno spazio vettoriale su \mathbb{R} o \mathbb{C}, dotato di una norma \|\cdot\|.

§ Teorema. Ogni norma su V è una funzione uniformemente continua nella topologia indotta dalla norma stessa.

Dimostrazione. Vogliamo verificare che \forall \epsilon > 0, \exists \delta > 0 tale che se \|x - y\| \le \delta allora |\|x\| - \|y\|| \le \epsilon. Dalla disuguaglianza triangolare abbiamo:

\|x\| = \|(x - y) + y\| \le \|x - y\| + \|y\| \implies \|x\| - \|y\| \le \|x - y\|

Scambiando il ruolo di x e y (o equivalentemente ponendo y \to x - y e x \to y):

\|y\| - \|x\| \le \|y - x\| = \|x - y\|

Combinando le due disuguaglianze otteniamo |\|x\| - \|y\|| \le \|x - y\|. Scegliendo \delta = \epsilon si ottiene la tesi. \square

Approssimazione lineare

Sia (V, \|\cdot\|) uno spazio vettoriale normato, f \in V e \{\phi_0, \dots, \phi_n\} \subset V un insieme di funzioni linearmente indipendenti. Vogliamo cercare dei coefficienti \alpha_i^* \in \mathbb{R} tali che, definita g_n := \sum_{i=0}^n \alpha_i^* \phi_i, si abbia:

\|f - g_n\| = \min_{\alpha_0, \dots, \alpha_n \in \mathbb{R}} \left\| f - \sum_{i=0}^n \alpha_i \phi_i \right\|

Osservazione. Non è garantito che il minimo esista e, se esiste, non è detto che sia unico.

§ Definizione. Nel contesto precedente:

  • g_n è detta funzione di migliore approssimazione.
  • f - g_n è il resto dell’approssimazione.
  • \delta_n := \|f - g_n\| è l’errore (assoluto) di approssimazione.

Assumiamo che esista g_n per ogni n. Possiamo approssimare f con g_n, ottenendo una successione (\delta_n)_n di errori di approssimazione. Diciamo che vale la proprietà di buona approssimazione se \delta_n \to 0 per n \to \infty.

§ Teorema. Sia (V, \|\cdot\|) uno spazio vettoriale normato. Fissiamo \{\phi_0, \dots, \phi_n\} \subset V funzioni linearmente indipendenti. Sia G_n := \text{span}\{\phi_0, \dots, \phi_n\} e f \in V. Allora:

  1. Il problema dell’approssimazione lineare di f rispetto a G_n ha soluzione.

  2. L’insieme delle soluzioni è convesso.

  3. Fissata una successione (\phi_i)_{i \ge 0}, definiamo per ogni n l’errore \delta_n rispetto allo spazio G_n := \text{span}\{\phi_i\}_{i=0}^n. Allora (\delta_n)_n è debolmente decrescente e ammette limite, ovvero \exists \lim_n \delta_n \ge 0.

Dimostrazione.

  1. L’idea è restringersi ad un compatto che contiene l’inf dove sappiamo essere un minimo. Consideriamo \alpha = (\alpha_0, \dots, \alpha_n) \in \mathbb R^{n+1} e le funzioni

    c(\alpha) := \left\| \sum_{i=0}^n \alpha_i \phi_i \right\| \quad \text{e} \quad d(\alpha) := \left\| f - \sum_{i=0}^n \alpha_i \phi_i \right\|

    Sia t := \inf_{\alpha \in \mathbb{R}^{n+1}} d(\alpha) \ge 0 e poniamo

    \gamma := \min_{\substack{\alpha \in \mathbb{R}^{n+1} \\ \|\alpha\|_\infty = 1}} c(\alpha)

    \gamma \neq 0 poiché le \phi_i sono linearmente indipendenti. Per la disuguaglianza triangolare:

    \begin{aligned}
    d(\alpha) &\ge \left| \left\| \sum_{i=0}^n \alpha_i \phi_i \right\| - \|f\| \right| \\
    &= \left| \|\alpha\|_\infty \left\| \sum_{i=0}^n \frac{\alpha_i}{\|\alpha\|_\infty} \phi_i \right\| - \|f\| \right| \\
    &\ge \gamma \|\alpha\|_\infty - \|f\|
    \end{aligned}

    Vorremmo ora scegliere B(0, \mu) in modo che il minimo sia lì dentro. Poniamo

    \mu := \frac{t + \epsilon + \|f\|}{\gamma}

    Se \|\alpha\|_\infty > \mu abbiamo

    d(\alpha) > \gamma \mu - \|f\| > \gamma \frac{t + \epsilon + \|f\|}{\gamma} - \|f\| = t + \epsilon

    In questo modo l’errore è \ge t + \epsilon per ogni \epsilon > 0. Quindi per \epsilon \to 0:

    t = \inf_{\|\alpha\|_\infty \le \mu} d(\alpha) = \min_{\|\alpha\|_\infty \le \mu} d(\alpha)
  2. Siano g_n, \hat{g}_n soluzioni, ovvero tali che \|f - g_n\| = \|f - \hat{g}_n\| = \delta_n. Vogliamo mostrare che una loro combinazione convessa è ancora soluzione, ovvero che

    g_n^{(\lambda)} := \lambda g_n + (1-\lambda) \hat{g}_n \in G_n \quad \forall \lambda \in [0, 1]

    e \|f - g_n^{(\lambda)}\| = \delta_n.

    • g_n^{(\lambda)} \in G_n poiché G_n è un sottospazio lineare.
    • \|f - g_n^{(\lambda)}\| = \|\lambda f + (1-\lambda) f - \lambda g_n - (1-\lambda) \hat{g}_n\| = \|\lambda(f - g_n) + (1-\lambda)(f - \hat{g}_n)\| \le \lambda \|f - g_n\| + (1-\lambda) \|f - \hat{g}_n\| = \lambda \delta_n + (1-\lambda) \delta_n = \delta_n. Essendo \delta_n il valore minimo, deve valere l’uguaglianza. \square
  3. Per definizione G_n \subseteq G_{n+1} \implies \delta_{n+1} \le \delta_n ed essendo i \delta_n \ge 0 esiste sempre il limite.

Condizioni sufficienti per l’unicità

§ Definizione. Sia (V, \|\cdot\|) uno spazio normato. V è detto strettamente convesso se \forall f, g \in V con f \neq g, \|f\| \le m, \|g\| \le m, si ha che:

\left\| f + g \right\| < 2m \iff \left\| \frac{f+g}{2} \right\| < m

Esempio. (\mathbb{R}^2, \|\cdot\|_\infty) non è strettamente convesso.

Un’altra caratterizzazione è che la palla unitaria B è strettamente convessa se per ogni f, g \in \partial B, il segmento (f, g) interseca \partial B solo in f, g.

§ Proposizione. Sia (V, \|\cdot\|) uno spazio vettoriale normato strettamente convesso, allora il problema dell’approssimazione lineare ha un’unica soluzione.

Dimostrazione. Sia f la funzione da approssimare e G_n := \text{span}\{\phi_i\}_{i=0}^n lo spazio in cui si cerca l’approssimazione. Se per assurdo esistono due soluzioni g_n, \hat{g}_n \in G_n tali che g_n \neq \hat{g}_n e \|f - g_n\| = \|f - \hat{g}_n\| = \delta_n. Osserviamo che f - g_n \neq f - \hat{g}_n ed applichiamo la stretta convessità a f - g_n e f - \hat{g}_n:

\begin{aligned}
\|(f - g_n) + (f - \hat{g}_n)\| &< 2\delta_n \\
\implies \|2f - (g_n + \hat{g}_n)\| &< 2\delta_n \\
\implies \left\| f - \frac{g_n + \hat{g}_n}{2} \right\| &< \delta_n
\end{aligned}

il che è assurdo poiché \delta_n era il minimo errore possibile. \square

§ Definizione. Sia (V, \|\cdot\|) uno spazio vettoriale normato. V è detto spazio di Banach se è completo rispetto alla norma \|\cdot\|, ovvero se ogni successione di Cauchy in V converge ad un elemento di V.

Esempio. Lo spazio (C[a, b], \|\cdot\|_\infty) delle funzioni continue su [a, b] con la norma del massimo è uno spazio di Banach.

§ Definizione. Sia H uno spazio vettoriale dotato di prodotto scalare \langle \cdot, \cdot \rangle. Sia \|v\| := \sqrt{\langle v, v \rangle} la norma indotta dal prodotto scalare. V è detto spazio di Hilbert se è completo rispetto alla norma indotta.

Esempio.

  • L^2(a, b) con il prodotto scalare \langle f, g \rangle = \int_a^b f(x) g(x) \mathrm dx è uno spazio di Hilbert.

  • (C[a, b], \|\cdot\|_2) con lo stesso prodotto scalare non è uno spazio di Hilbert. La sua chiusura è L^2(a, b). Ad esempio, la successione di funzioni continue:

C on [a, b] is not Banach

§ Proposizione. In uno spazio con prodotto scalare vale la regola del parallelogramma: \forall u, v \in V:

\|u+v\|^2 + \|u-v\|^2 = 2(\|u\|^2 + \|v\|^2)

Viceversa, se in uno spazio normato vale questa proprietà, allora la norma è indotta dal prodotto scalare definito da:

\langle u, v \rangle = \frac{1}{4} (\|u+v\|^2 - \|u-v\|^2)

§ Proposizione. Sia V uno spazio normato con norma indotta da un prodotto scalare, allora V è strettamente convesso.

Dimostrazione. Siano u, v \in V con u \neq v e \|u\| \le m, \|v\| \le m. Vogliamo mostrare che \|u+v\| < 2m. Dalla regola del parallelogramma:

\|u+v\|^2 = 2(\|u\|^2 + \|v\|^2) - \|u-v\|^2

Essendo u \neq v, si ha \|u-v\|^2 > 0, quindi:

\|u+v\|^2 < 2(\|u\|^2 + \|v\|^2) \le 2(m^2 + m^2) = 4m^2

e quindi \|u+v\| < 2m. \square

Approssimazione in spazi di Hilbert

§ Teorema. Sia (V, \|\cdot\|) uno spazio normato con norma indotta da un prodotto scalare. Siano \{\phi_i\}_{i=0}^n \subset V linearmente indipendenti e G_n := \text{span}\{\phi_i\}_{i=0}^n. Sia f \in V. Allora:

  1. Esiste un’unica g_n \in G_n che realizza il minimo della distanza:

    \min_{g \in G_n} \|f - g\|
  2. g \in G_n è soluzione del problema dell’approssimazione lineare se e solo se:

\forall v \in G_n \quad \langle f - g, v \rangle = 0

Dimostrazione.

  1. L’esistenza è garantita dai teoremi precedenti. L’unicità segue dalla stretta convessità (appena dimostrata per gli spazi con prodotto scalare).

  2. \boxed{\Rightarrow} Sia g_n la soluzione. Sia v \in G_n.

    • Se v = 0, la tesi è ovvia.
    • Se v \neq 0: sappiamo che per ogni g \in G_n, \|f - g_n\| \le \|f - g\|. In particolare, per ogni w \in G_n, \|f - g_n\| \le \|f - (g_n + w)\|. Consideriamo w = \gamma v con \gamma \in \mathbb{R}. Allora:
    \begin{aligned}
    \|f - g_n\|^2 &\le \|f - (g_n + \gamma v)\|^2 = \|(f - g_n) - \gamma v\|^2 \\
    &= \langle (f - g_n) - \gamma v, (f - g_n) - \gamma v \rangle \\
    &= \|f - g_n\|^2 + \gamma^2 \|v\|^2 - 2\gamma \langle f - g_n, v \rangle
    \end{aligned}

    Quindi \gamma^2 \|v\|^2 - 2\gamma \langle f - g_n, v \rangle \ge 0 per ogni \gamma \in \mathbb{R}. Questo è un polinomio di secondo grado in \gamma che non è mai negativo, quindi il suo discriminante deve essere \le 0:

    \Delta = (2 \langle f - g_n, v \rangle)^2 - 4 \|v\|^2 \cdot 0 \le 0 \implies \langle f - g_n, v \rangle = 0

    Alternativamente, possiamo scegliere \gamma = \frac{\langle f - g_n, v \rangle}{\|v\|^2} per ottenere lo stesso risultato.

    \boxed{\Leftarrow} Sia g \in G_n tale che \langle f - g, v \rangle = 0 per ogni v \in G_n. Vogliamo dimostrare che \forall h \in G_n, \|f - g\| \le \|f - h\|. Sia h \in G_n, possiamo scrivere h = g + w con w \in G_n. Allora:

    \begin{aligned}
    \|f - h\|^2 &= \|f - (g + w)\|^2 = \|(f - g) - w\|^2 \\
    &= \langle (f - g) - w, (f - g) - w \rangle \\
    &= \|f - g\|^2 + \|w\|^2 - 2\langle f - g, w \rangle
    \end{aligned}

    Essendo w \in G_n, per ipotesi \langle f - g, w \rangle = 0, quindi:

    \|f - h\|^2 = \|f - g\|^2 + \|w\|^2 \ge \|f - g\|^2

    il che prova che g è il punto di minimo. \square

Espressione esplicita della soluzione

Osserviamo che g_n = \sum_{i=0}^n \alpha_i \phi_i è soluzione se e solo se:

\forall v \in G_n \quad \langle f - g_n, v \rangle = 0

Grazie alla linearità del prodotto scalare, tale condizione è equivalente a richiederla solo per gli elementi della base:

\begin{aligned}
&\forall j=0,\dots,n \quad \langle f - g_n, \phi_j \rangle = 0 \\
\iff &\forall j=0,\dots,n \quad \langle f, \phi_j \rangle - \langle \sum_{i=0}^n \alpha_i \phi_i, \phi_j \rangle = 0 \\
\iff &\forall j=0,\dots,n \quad \sum_{i=0}^n \alpha_i \langle \phi_i, \phi_j \rangle = \langle f, \phi_j \rangle
\end{aligned}

Questo si può riscrivere in forma matriciale come un sistema lineare A\alpha = b con A \in \mathbb{R}^{(n+1) \times (n+1)}:

  • A_{ij} = \langle \phi_j, \phi_i \rangle (Matrice di Gram)
  • \alpha = [\alpha_0, \dots, \alpha_n]^T
  • b = [\langle f, \phi_0 \rangle, \dots, \langle f, \phi_n \rangle]^T

Casi favorevoli: La matrice A è sparsa o diagonale. Se le \{\phi_i\} formano un insieme ortogonale rispetto al prodotto scalare considerato (\langle \phi_i, \phi_j \rangle = 0 per i \neq j), allora la matrice A è diagonale e la soluzione è immediata:

\alpha_i = \frac{\langle f, \phi_i \rangle}{\langle \phi_i, \phi_i \rangle} \implies g_n = \sum_{i=0}^n \frac{\langle f, \phi_i \rangle}{\langle \phi_i, \phi_i \rangle} \phi_i

In questo caso, gli \alpha_i sono detti coefficienti di Fourier di f rispetto alla base ortogonale \{\phi_i\}.

§ Definizione. Sia H uno spazio di Hilbert. Un insieme ortogonale \{\phi_j\}_{j \in \mathbb{N}} \subset H è detto completo (o massimale) se non esiste alcun elemento non nullo di H che sia ortogonale a tutti i \phi_j, ovvero:

\nexists y \in H, y \neq 0 \quad \text{tale che} \quad \forall j \in \mathbb{N} \quad \langle y, \phi_j \rangle = 0

Osservazione. Se l’insieme \{\phi_j\} è completo, allora l’insieme delle loro combinazioni lineari finite S = \text{span}\{\phi_j\}_{j \in \mathbb{N}} è denso in H:

\forall f \in H, \forall \epsilon > 0, \exists g \in S \quad \text{tale che} \quad \|f - g\| \le \epsilon

§ Teorema. Sia H uno spazio di Hilbert e \{\phi_j\}_{j \in \mathbb{N}} \subset H un insieme ortogonale. Sia f \in H e per ogni n sia g_n la migliore approssimazione di f su G_n = \text{span}\{\phi_0, \dots, \phi_n\}. Siano r_n = f - g_n il resto e \delta_n = \|r_n\| l’errore. Allora:

i) \delta_n^2 = \|f\|^2 - \sum_{i=0}^n \frac{\langle f, \phi_i \rangle^2}{\langle \phi_i, \phi_i \rangle} ii) La serie \sum_{i=0}^\infty \frac{\langle f, \phi_i \rangle^2}{\langle \phi_i, \phi_i \rangle} è convergente e vale la disuguaglianza di Bessel:

\sum_{i=0}^\infty \frac{\langle f, \phi_i \rangle^2}{\langle \phi_i, \phi_i \rangle} \le \|f\|^2

iii) Se l’insieme \{\phi_i\} è completo, allora vale l’identità di Parseval:

\|f\|^2 = \sum_{i=0}^\infty \frac{\langle f, \phi_i \rangle^2}{\langle \phi_i, \phi_i \rangle}

Dimostrazione.

i) Calcoliamo l’errore quadratico:

\begin{aligned}
\delta_n^2 &= \|r_n\|^2 = \|f - g_n\|^2 = \langle f - g_n, f - g_n \rangle \\
&= \langle f - g_n, f \rangle - \underbrace{\langle f - g_n, g_n \rangle}_{= 0 \text{ per ortogonalità}} \\
&= \langle f, f \rangle - \langle g_n, f \rangle = \|f\|^2 - \sum_{i=0}^n \alpha_i \langle \phi_i, f \rangle \\
&= \|f\|^2 - \sum_{i=0}^n \frac{\langle f, \phi_i \rangle}{\langle \phi_i, \phi_i \rangle} \langle \phi_i, f \rangle = \|f\|^2 - \sum_{i=0}^n \frac{\langle f, \phi_i \rangle^2}{\langle \phi_i, \phi_i \rangle}
\end{aligned}

ii) Poiché \delta_n^2 \ge 0, abbiamo che per ogni n:

\sum_{i=0}^n \frac{\langle f, \phi_i \rangle^2}{\langle \phi_i, \phi_i \rangle} \le \|f\|^2

La successione delle somme parziali è monotona crescente e superiormente limitata da \|f\|^2, quindi la serie converge e il limite (che è la disuguaglianza di Bessel) è \le \|f\|^2.

iii) Se l’insieme è completo, la densità dello span implica che \delta_n \to 0 per n \to \infty. Passando al limite in (i) si ottiene l’identità di Parseval. \square

Osservazione. La norma \|\cdot\|_\infty non è indotta da un prodotto scalare. Si può verificare considerando ad esempio le funzioni f(x) = x e g(x) = 1-x su [0, 1] e mostrando che non soddisfano la regola del parallelogramma.

Osservazione. La convergenza in norma \|\cdot\|_2 non implica in generale la convergenza uniforme. Un’eccezione rilevante si ha utilizzando come base i polinomi di Chebyshev di prima specie T_n(x) (si veda il capitolo Approssimazione minimax). Se f è almeno Lipschitziana, allora la sua serie di Chebyshev:

f(x) = \frac{a_0}{2} + \sum_{i=1}^\infty a_i T_i(x)

converge uniformemente a f.

Osservazione. Dal punto di vista computazionale, può convenire scegliere famiglie di funzioni non ortogonali ma con supporto limitato, tali che \text{supp}(\phi_i) \cap \text{supp}(\phi_j) = \emptyset per |i-j| \ge k (matrici a banda). Un esempio classico sono le Hat Functions (funzioni a tenda). Per l’insieme delle funzioni hat con il prodotto scalare L^2, la matrice di Gram A risulta essere tridiagonale. Se definiamo \phi(x) = \max(0, h - |x|), si ottiene:

A = \frac{h^3}{6} \text{trid}(1, 4, 1)

Interpolazione polinomiale

§ Definizione. Dato un intervallo [a, b], una tavola dei nodi su [a, b] è un insieme di punti:

\left\{ x_i^{(n)} \in [a, b] \mid i=0, \dots, n, \quad n \in \mathbb{N}, \quad x_i^{(n)} \neq x_j^{(n)} \text{ per } i \neq j \right\}

A partire dai nodi ed i valori della funzione in essi, possiamo definire il polinomio interpolatore di Lagrange:

p_n(x) = \sum_{i=0}^n f(x_i^{(n)}) L_{i,n}(x)

dove gli L_{i,n}(x) sono i polinomi elementari di Lagrange:

L_{i,n}(x) = \prod_{\substack{j=0 \\ j \neq i}}^n \frac{x - x_j^{(n)}}{x_i^{(n)} - x_j^{(n)}}

Fissata una tavola dei nodi, possiamo definire l’operatore di interpolazione:

\begin{aligned}
\mathcal{A}_n: C[a, b] &\to C[a, b] \\
f &\mapsto p_n
\end{aligned}

Condizionamento dell’interpolazione

Vogliamo studiare la sensibilità del polinomio interpolatore rispetto a perturbazioni dei dati (i valori di f). Sia f la funzione originale e \tilde{f} una funzione perturbata. Sia \tilde{p} = \mathcal{A}_n(\tilde{f}). Valutiamo la differenza puntuale:

\begin{aligned}
|p_n(x) - \tilde{p}_n(x)| &= \left| \sum_{i=0}^n f(x_i) L_{i,n}(x) - \sum_{i=0}^n \tilde{f}(x_i) L_{i,n}(x) \right| \\
&\le \sum_{i=0}^n |f(x_i) - \tilde{f}(x_i)| \cdot |L_{i,n}(x)| \\
&\le \left( \max_{i=0,\dots,n} |f(x_i) - \tilde{f}(x_i)| \right) \sum_{i=0}^n |L_{i,n}(x)| \\
&\le \|f - \tilde{f}\|_\infty \cdot \lambda_n(x)
\end{aligned}

dove \lambda_n(x) := \sum_{i=0}^n |L_{i,n}(x)| è detta funzione di Lebesgue.

§ Definizione. La quantità \Lambda_n := \max_{x \in [a, b]} \lambda_n(x) è detta costante di Lebesgue.

Dalla disuguaglianza precedente otteniamo:

\|p_n - \tilde{p}_n\|_\infty \le \Lambda_n \|f - \tilde{f}\|_\infty

Ricordando la definizione di norma operatoriale \|\mathcal{A}_n\|_\infty = \sup_{g \neq 0} \frac{\|\mathcal{A}_n g\|_\infty}{\|g\|_\infty}, abbiamo che \|\mathcal{A}_n\|_\infty \le \Lambda_n. Inoltre, la proposizione che segue mostra che vale l’uguaglianza.

§ Proposizione. \|\mathcal{A}_n\|_\infty = \Lambda_n.

Dimostrazione. Cerchiamo una funzione g \in C[a, b] con \|g\|_\infty = 1 tale che \|\mathcal{A}_n g\|_\infty = \Lambda_n. Sia \xi \in [a, b] il punto che realizza il massimo della funzione di Lebesgue, ovvero \lambda_n(\xi) = \Lambda_n. Vogliamo che g(x_i) = \text{sign}(L_{i,n}(\xi)), in modo che:

(\mathcal{A}_n g)(\xi) = \sum_{i=0}^n g(x_i) L_{i,n}(\xi) = \sum_{i=0}^n \text{sign}(L_{i,n}(\xi)) L_{i,n}(\xi) = \sum_{i=0}^n |L_{i,n}(\xi)| = \Lambda_n

Poiché \|g\|_\infty = 1, si ha \|\mathcal{A}_n g\|_\infty \ge |(\mathcal{A}_n g)(\xi)| = \Lambda_n. Essendo già noto che \|\mathcal{A}_n\|_\infty \le \Lambda_n, si conclude che \|\mathcal{A}_n\|_\infty = \Lambda_n. \square

§ Teorema. Sia p_n(x) il polinomio di interpolazione relativo ad una tavola di nodi fissata e q_n^*(x) il polinomio di migliore approssimazione uniforme (ovvero tale che \|f - q_n^*\|_\infty = \min_{p \in \mathcal{P}_n} \|f - p\|_\infty, si veda il capitolo Approssimazione minimax). Allora vale:

\|f - p_n\|_\infty \le (1 + \Lambda_n) \|f - q_n^*\|_\infty

Dimostrazione. Sfruttiamo la disuguaglianza triangolare e la linearità dell’operatore di interpolazione \mathcal{A}_n:

\begin{aligned}
\|f - p_n\|_\infty &= \|f - q_n^* + q_n^* - p_n\|_\infty \le \|f - q_n^*\|_\infty + \|q_n^* - p_n\|_\infty \\
&= \|f - q_n^*\|_\infty + \|\mathcal{A}_n q_n^* - \mathcal{A}_n f\|_\infty \\
&= \|f - q_n^*\|_\infty + \|\mathcal{A}_n(q_n^* - f)\|_\infty \\
&\le \|f - q_n^*\|_\infty + \|\mathcal{A}_n\|_\infty \|q_n^* - f\|_\infty \\
&= (1 + \Lambda_n) \|f - q_n^*\|_\infty \quad \square
\end{aligned}

Questo risultato mostra che l’errore di interpolazione è controllato dalla costante di Lebesgue.

§ Teorema (Faber). Per ogni tavola dei nodi su [a, b], esiste una funzione f \in C[a, b] tale che la successione dei polinomi interpolatori (\mathcal{A}_n(f))_n non converge a f in norma uniforme.

Il teorema di Faber si dimostra applicando il teorema di Banach-Steinhaus (o principio di uniforme limitatezza) agli operatori \mathcal{A}_n, osservando che \Lambda_n \to \infty.

§ Teorema (Banach-Steinhaus). Siano V, W spazi di Banach e \{T_n\}_n una successione di operatori lineari e continui da V in W. Se vale la limitatezza puntuale, ovvero:

\forall v \in V \quad \sup_n \|T_n(v)\|_W < +\infty

allora la successione è uniformemente limitata in norma operatoriale:

\sup_n \|T_n\|_{\mathcal{L}(V, W)} < +\infty

Infatti, per il teorema di Banach-Steinhaus, se la successione \|\mathcal{A}_n\|_\infty fosse limitata, allora \Lambda_n sarebbe limitata e per ogni f \in C[a, b] la successione \|\mathcal{A}_n(f)\|_\infty sarebbe limitata, il che garantirebbe la convergenza uniforme. Ma poiché \Lambda_n \to \infty, deve esistere una funzione f per cui la successione non converge.

Operatori Positivi e Teorema di Korovkin

Sia K \subseteq \mathbb{R} un compatto. Lavoriamo nello spazio C(K) delle funzioni continue su K.

§ Definizione. Un operatore L: C(K) \to C(K) si dice operatore lineare positivo se:

  1. L è lineare: L(\alpha f + \beta g) = \alpha L[f] + \beta L[g]
  2. L è positivo: f \ge 0 \implies L[f] \ge 0

§ Proposizione. Sia L un LPO su C(K). Allora:

  • f \le g \implies L[f] \le L[g] (Monotonia)
  • |L[f]| \le L[|f|]

§ Definizione. Se \{L_n\}_n è una successione di operatori lineari su C(K) e f \in C(K), diciamo che \{L_n\}_n approssima bene f se:

\lim_{n \to \infty} \|L_n[f] - f\|_\infty = 0

§ Teorema (Korovkin). Sia \{L_n\}_n una successione di operatori lineari positivi su C(K), con K \subseteq \mathbb{R} compatto. Se \{L_n\}_n approssima bene le tre funzioni test:

  1. x \mapsto 1

  2. x \mapsto x

  3. x \mapsto x^2

allora \{L_n\}_n approssima bene tutte le funzioni in C(K).

Dimostrazione. Sia f \in C(K) e \epsilon > 0. Vogliamo mostrare che esiste \bar{n} tale che \forall n \ge \bar{n}, \forall y \in K si abbia |L_n[f](y) - f(y)| \le \bar{\epsilon} (con \bar{\epsilon} che dipende solo da \epsilon).

Sia M = \max_K |f|. Poiché f è continua su un compatto, essa è uniformemente continua: \exists \delta > 0 tale che \forall x, y \in K con |x - y| \le \delta si ha |f(x) - f(y)| \le \epsilon.

Se |x - y| > \delta, allora 1 < \frac{|x-y|}{\delta} < \frac{(x-y)^2}{\delta^2}, quindi:

|f(x) - f(y)| \le 2M \le \frac{2M}{\delta^2} (x-y)^2

In generale, per ogni x, y \in K:

|f(x) - f(y)| \le \epsilon + \frac{2M}{\delta^2} (x-y)^2

Definiamo i residui per le funzioni test:

  • \epsilon_0^{(n)}(y) := L_n[1](y) - 1
  • \epsilon_1^{(n)}(y) := L_n[x](y) - y
  • \epsilon_2^{(n)}(y) := L_n[x^2](y) - y^2 Per ipotesi, per j=0, 1, 2, si ha \|\epsilon_j^{(n)}\|_\infty \to 0 per n \to \infty. Sia \bar{n} tale che \forall n \ge \bar{n}, |\epsilon_j^{(n)}(y)| \le \epsilon per ogni y \in K.

Valutiamo |L_n[f](y) - f(y)|:

\begin{aligned}
|L_n[f](y) - f(y)| &= |L_n[f](y) - f(y) L_n[1](y) + f(y) L_n[1](y) - f(y)| \\
&= |L_n[f(\cdot) - f(y)](y) + f(y) \epsilon_0^{(n)}(y)| \\
&\le L_n[|f(x) - f(y)|](y) + M |\epsilon_0^{(n)}(y)|
\end{aligned}

Usando la stima su |f(x) - f(y)|:

\begin{aligned}
L_n[|f(x) - f(y)|](y) &\le L_n[\epsilon + \frac{2M}{\delta^2} (x-y)^2](y) \\
&= \epsilon L_n[1](y) + \frac{2M}{\delta^2} L_n[x^2 - 2xy + y^2](y) \\
&= \epsilon (1 + \epsilon_0^{(n)}(y)) + \frac{2M}{\delta^2} (L_n[x^2](y) - 2y L_n[x](y) + y^2 L_n[1](y)) \\
&= \epsilon (1 + \epsilon_0^{(n)}(y)) + \frac{2M}{\delta^2} (y^2 + \epsilon_2^{(n)}(y) - 2y(y + \epsilon_1^{(n)}(y)) + y^2(1 + \epsilon_0^{(n)}(y))) \\
&= \epsilon (1 + \epsilon_0^{(n)}(y)) + \frac{2M}{\delta^2} (\epsilon_2^{(n)}(y) - 2y \epsilon_1^{(n)}(y) + y^2 \epsilon_0^{(n)}(y))
\end{aligned}

Sia D := \max_K |y|. Per n \ge \bar{n} abbiamo:

|L_n[f](y) - f(y)| \le \epsilon(1+\epsilon) + \frac{2M}{\delta^2}(\epsilon + 2D\epsilon + D^2\epsilon) + M\epsilon \le \gamma \epsilon

dove \gamma dipende solo dal compatto K e dalla funzione f, ma non da n. Quindi \|L_n[f] - f\|_\infty \to 0. \square

Polinomi di Bernstein e Teorema di Weierstrass

Possiamo usare il teorema di Korovkin per dare una dimostrazione costruttiva del teorema di Weierstrass su [0, 1].

§ Definizione. Gli operatori di Bernstein B_n: C[0, 1] \to \mathcal{P}_n sono definiti da:

B_n[f](x) = \sum_{k=0}^n f\left(\frac{k}{n}\right) \binom{n}{k} x^k (1-x)^{n-k}

Dimostrazione del Teorema di Weierstrass. Verifichiamo le tre condizioni del teorema di Korovkin per gli operatori di Bernstein (che sono chiaramente lineari e positivi):

  1. Funzione 1:

    B_n[1](x) = \sum_{k=0}^n 1 \cdot \binom{n}{k} x^k (1-x)^{n-k} = (x + (1-x))^n = 1^n = 1

    Quindi \|B_n[1] - 1\|_\infty = 0.

  2. Funzione x:

    \begin{aligned}
    B_n[x](x) &= \sum_{k=0}^n \frac{k}{n} \binom{n}{k} x^k (1-x)^{n-k} = \sum_{k=1}^n \frac{k}{n} \frac{n!}{k!(n-k)!} x^k (1-x)^{n-k} \\
    &= \sum_{k=1}^n \frac{(n-1)!}{(k-1)!(n-k)!} x^k (1-x)^{n-k} \\
    &= x \sum_{k=1}^n \binom{n-1}{k-1} x^{k-1} (1-x)^{(n-1)-(k-1)} \\
    &= x \sum_{h=0}^{n-1} \binom{n-1}{h} x^h (1-x)^{n-1-h} \\
    &= x \cdot 1 = x
    \end{aligned}

    Quindi \|B_n[x] - x\|_\infty = 0.

  3. Funzione x^2:

    \begin{aligned}
    B_n[x^2](x) &= \sum_{k=0}^n \frac{k^2}{n^2} \binom{n}{k} x^k (1-x)^{n-k} \\
    &= \sum_{k=1}^n \frac{k}{n} \binom{n-1}{k-1} x^k (1-x)^{n-k} \\
    &= x \sum_{h=0}^{n-1} \frac{h+1}{n} \binom{n-1}{h} x^h (1-x)^{n-1-h} \\
    &= x \left[ \sum_{h=0}^{n-1} \frac{h}{n} \binom{n-1}{h} x^h (1-x)^{n-1-h} + \frac{1}{n} \sum_{h=0}^{n-1} \binom{n-1}{h} x^h (1-x)^{n-1-h} \right] \\
    &= \frac{x}{n} \sum_{h=1}^{n-1} h \binom{n-1}{h} x^h (1-x)^{n-1-h} + \frac{x}{n} \underbrace{\sum_{h=0}^{n-1} \binom{n-1}{h} x^h (1-x)^{n-1-h}}_{1} \\
    &= \frac{x}{n} \sum_{h=1}^{n-1} (n-1) \binom{n-2}{h-1} x^h (1-x)^{(n-1)-h} + \frac{x}{n} \\
    &= x^2 \frac{n-1}{n} \sum_{h=1}^{n-1} \binom{n-2}{h-1} x^{h-1} (1-x)^{(n-2)-(h-1)} + \frac{x}{n} \\
    &= \frac{n-1}{n} x^2 \sum_{r=0}^{n-2} \binom{n-2}{r} x^r (1-x)^{n-2-r} + \frac{x}{n} \\
    &= x^2 \frac{n-1}{n} + \frac{x}{n}
    \end{aligned}

    Si osserva che:

    B_n[x^2](x) - x^2 = \left(1 - \frac{1}{n}\right)x^2 + \frac{x}{n} - x^2 = \frac{x - x^2}{n} \xrightarrow{n \to \infty} 0

    ovvero \|B_n[x^2] - x^2\|_\infty = \max_{x \in [0, 1]} \frac{x(1-x)}{n} = \frac{1}{4n} \to 0.

    Per il Teorema di Korovkin, i polinomi di Bernstein B_n[f] convergono uniformemente a f per ogni f \in C[0, 1]. \square

Approssimazione di Padé

Vorremmo un analogo dell’espansione di Taylor di grado massimo possibile per funzioni razionali in un intorno di z=0.

Sia f(z) la funzione da approssimare. Supponiamo che abbia espansione di Taylor in un intorno di 0:

f(z) = \sum_{i=0}^\infty c_i z^i

Per ogni m \ge 0, l’approssimazione di Taylor di grado m è l’unico polinomio p_m tale che:

f(z) - p_m(z) = O(z^{m+1})

Vorremmo ora lavorare con funzioni in \mathcal{R}_{m, n} := \{r = p/q \mid p \in \mathcal{P}_m, q \in \mathcal{P}_n\} ed ottenere un’approssimazione tale che

f(z) - r(z) = O(z^l)

con l massimo possibile.

§ Definizione (Tipo e difetto).

  • Diciamo che r è una funzione razionale di tipo (m, n) se r \in \mathcal{R}_{m, n}.
  • Diremo che r ha tipo esatto (\mu, \nu) se r = p/q con \deg p = \mu, \deg q = \nu e \gcd(p, q) = 1.
  • Data r di tipo (m, n), il difetto di r è d = \min \{m-\mu, n-\nu\} con (\mu, \nu) il tipo esatto di r.

Convenzione: se r = 0 \implies \mu = -\infty, d = n.

§ Definizione. Una funzione razionale r \in \mathcal{R}_{m, n} è approssimazione di Padé di f di tipo (m, n) se:

f(z) = r(z) + O(z^l) \quad \text{per } z \to 0

con l massimo esponente possibile. (L. Trefethen, “Approximation Theory and Approximation Practice”)

Esempio. f(z) = e^z ha approssimazione di Padé (1, 1):

r_{1,1}(z) = \frac{1+z/2}{1-z/2} \implies l = m+n+1 = 1+1+1 = 3

Per trovarla possiamo considerare r(z) = \frac{a_0 + a_1 z}{b_0 + b_1 z}, a meno di rinormalizzazione possiamo porre b_0 = 1. Allora vogliamo che e^z - r(z) = O(z^3), ovvero:

\begin{aligned}
(a_0 + a_1 z) + O(z^3) &= e^z (1 + b_1 z) \\
&= \left(1 + z + \frac{z^2}{2} + O(z^3)\right)(1 + b_1 z) \\
&= 1 + (1 + b_1) z + \left(\frac{1}{2} + b_1\right) z^2 + O(z^3) \\
\end{aligned}

Confrontando i coefficienti otteniamo il sistema:

\begin{cases}
a_0 = 1 \\
a_1 = 1 + b_1 \\
0 = \dfrac{1}{2} + b_1
\end{cases}
\implies
\begin{cases}
a_0 = 1 \\
a_1 = \dfrac{1}{2} \\
b_1 = -\dfrac{1}{2}
\end{cases}

Dunque l’approssimazione di Padé è quella indicata sopra. Questo procedimento ci dà un’idea di come costruiremo l’approssimazione di Padé in generale.

Osservazione. Sia r \in \mathcal{R}_{m, n} con tipo esatto (\mu, \nu) e difetto d e sia \tilde{r} = \tilde{p}/\tilde{q} \in \mathcal{R}_{m, n}. Allora:


r - \tilde{r} = \frac{p}{q} - \frac{\tilde{p}}{\tilde{q}} = \frac{p\tilde{q} - \tilde{p}q}{q\tilde{q}}

ha tipo (\max\{\mu+n, m+\nu\}, n+\nu). Inoltre per la definizione di difetto:


\mu \le m-d, \quad \nu \le n-d


\begin{aligned}
\implies \max\{\mu+n, m+\nu\} &\le \max \{m-d+n, m+n-d\} \\
&= m+n-d
\end{aligned}

\implies n+\nu \le n+n-d = 2n-d. Dunque r - \tilde{r} ha tipo (m+n-d, 2n-d).

§ Teorema. Data f(z) = \sum_{i=0}^\infty c_i z^i, r \in \mathcal{R}_{m, n} è approssimazione di Padé di f di tipo (m, n) se e solo se:


f(z) = r(z) + O(z^{m+n+1-d})

dove d è il difetto di r. (Inoltre r esiste ed è unico).

Dimostrazione. \boxed{\Leftarrow} Dimostriamo che se r \in \mathcal{R}_{m, n} è tale che f(z) = r(z) + O(z^{m+n+1-d}) allora è approssimazione di Padé di tipo (m, n). Sia per assurdo \exists \tilde{r} \in \mathcal{R}_{m, n} tale che f(z) = \tilde{r}(z) + O(z^l) con l > m+n+1-d.

Per l’osservazione precedente, r - \tilde{r} ha tipo (m+n-d, 2n-d). Ora osserviamo che z=0 è radice di r - \tilde{r}:


r(z) - \tilde{r}(z) = (f(z) - \tilde{r}(z)) - (f(z) - r(z)) = O(z^l) - O(z^{m+n+1-d}) = O(z^{m+n+1-d})

poiché l > m+n+1-d. Dunque z=0 ha molteplicità \ge m+n+1-d. Ma il numeratore di r - \tilde{r} ha grado al più m+n-d. Un polinomio non nullo di grado k non può avere una radice in 0 di molteplicità > k. Quindi r - \tilde{r} = 0 \implies r = \tilde{r}, il che contraddice la massimalità di l.

\boxed{\exists!} Supponiamo esista un altro \tilde{r} \in \mathcal{R}_{m, n} con f(z) = \tilde{r}(z) + O(z^{m+n+1-d}). Come prima r - \tilde{r} ha tipo (m+n-d, 2n-d), perciò 0 ha molteplicità \le m+n-d. Ma r - \tilde{r} = f - r - (f - \tilde{r}) = O(z^{m+n+1-d}), perciò la molteplicità di 0 è \ge m+n+1-d. Questo implica r - \tilde{r} \equiv 0 \implies r = \tilde{r}.

\boxed{\exists} Dimostriamo costruttivamente l’esistenza. Scriviamo r = p/q e cerchiamo p, q tali che:


f(z) = \frac{p(z)}{q(z)} + O(z^{m+n+1}) \implies p(z) = f(z) q(z) + O(z^{m+n+1})

Consideriamo le espansioni: f(z) = \sum_{i=0}^\infty c_i z^i, p(z) = \sum_{i=0}^m a_i z^i, q(z) = \sum_{i=0}^n b_i z^i. L’equazione p(z) + O(z^{m+n+1}) = f(z) q(z) corrisponde a uguagliare i primi m+n+1 coefficienti.

Il prodotto f(z)q(z) ha coefficienti [f \cdot q]_k = \sum_{j=0}^{\min(k, n)} c_{k-j} b_j. Uguagliando i coefficienti di grado 0, \dots, m+n:

\begin{bmatrix}
a_0 \\ \vdots \\ a_m \\ 0 \\ \vdots \\ 0
\end{bmatrix} = \begin{bmatrix}
c_0 & 0 & \dots & 0 \\
c_1 & c_0 & \dots & 0 \\
\vdots & \vdots & \ddots & \vdots \\
c_m & c_{m-1} & \dots & c_{m-n} \\
\hline
c_{m+1} & c_m & \dots & c_{m-n+1} \\
\vdots & \vdots & \ddots & \vdots \\
c_{m+n} & c_{m+n-1} & \dots & c_m
\end{bmatrix} \begin{bmatrix}
b_0 \\ b_1 \\ \vdots \\ b_n
\end{bmatrix}

(dove c_k = 0 se k < 0). Il blocco inferiore è un sistema omogeneo di n equazioni in n+1 incognite:

\begin{bmatrix}
0 \\ \vdots \\ 0
\end{bmatrix} = \begin{bmatrix}
c_{m+1} & \dots & c_{m-n+1} \\
\vdots & \ddots & \vdots \\
c_{m+n} & \dots & c_m
\end{bmatrix} \begin{bmatrix}
b_0 \\ \vdots \\ b_n
\end{bmatrix}

Tale sistema ha sempre almeno una soluzione non nulla (b_0, \dots, b_n). Trovati i b_j, i coefficienti a_i sono determinati in modo unico dalla prima parte del sistema. \square