Approssimazione di Funzioni
Sia f: [a, b] \to \mathbb{R} una funzione continua. Vogliamo approssimare f \approx g con g una funzione “facile” da calcolare (ad esempio un polinomio).
§ Teorema (Weierstrass). Se f \in C[a, b], allora \forall \epsilon > 0 esiste p_\epsilon(x) polinomio tale che:
\forall x \in [a, b] \quad |f(x) - p_\epsilon(x)| \le \epsilon
Questo è equivalente a dire che
\max_{x \in [a, b]} |f(x) - p_\epsilon(x)| \le \epsilon
ovvero \|f - p_\epsilon\|_\infty \le \epsilon.
In generale, il tipo di approssimazione che cerchiamo per f \in C[a, b] consiste nel fissare una base di funzioni \{\phi_0, \phi_1, \dots, \phi_n\} \subset C[a, b] e cercare un’approssimazione della forma:
f \approx \sum_{i=0}^n \alpha_i \phi_i, \quad \alpha_i \in \mathbb{R}
Consideriamo ora V uno spazio vettoriale su \mathbb{R} o \mathbb{C}, dotato di una norma \|\cdot\|.
§ Teorema. Ogni norma su V è una funzione uniformemente continua nella topologia indotta dalla norma stessa.
Dimostrazione. Vogliamo verificare che \forall \epsilon > 0, \exists \delta > 0 tale che se \|x - y\| \le \delta allora |\|x\| - \|y\|| \le \epsilon.
Dalla disuguaglianza triangolare abbiamo:
\|x\| = \|(x - y) + y\| \le \|x - y\| + \|y\| \implies \|x\| - \|y\| \le \|x - y\|
Scambiando il ruolo di x e y (o equivalentemente ponendo y \to x - y e x \to y):
\|y\| - \|x\| \le \|y - x\| = \|x - y\|
Combinando le due disuguaglianze otteniamo |\|x\| - \|y\|| \le \|x - y\|.
Scegliendo \delta = \epsilon si ottiene la tesi. \square
Approssimazione lineare
Sia (V, \|\cdot\|) uno spazio vettoriale normato, f \in V e \{\phi_0, \dots, \phi_n\} \subset V un insieme di funzioni linearmente indipendenti. Vogliamo cercare dei coefficienti \alpha_i^* \in \mathbb{R} tali che, definita g_n := \sum_{i=0}^n \alpha_i^* \phi_i, si abbia:
\|f - g_n\| = \min_{\alpha_0, \dots, \alpha_n \in \mathbb{R}} \left\| f - \sum_{i=0}^n \alpha_i \phi_i \right\|
Osservazione. Non è garantito che il minimo esista e, se esiste, non è detto che sia unico.
§ Definizione. Nel contesto precedente:
g_nè detta funzione di migliore approssimazione.f - g_nè il resto dell’approssimazione.\delta_n := \|f - g_n\|è l’errore (assoluto) di approssimazione.
Assumiamo che esista g_n per ogni n. Possiamo approssimare f con g_n, ottenendo una successione (\delta_n)_n di errori di approssimazione. Diciamo che vale la proprietà di buona approssimazione se \delta_n \to 0 per n \to \infty.
§ Teorema. Sia (V, \|\cdot\|) uno spazio vettoriale normato. Fissiamo \{\phi_0, \dots, \phi_n\} \subset V funzioni linearmente indipendenti. Sia G_n := \text{span}\{\phi_0, \dots, \phi_n\} e f \in V. Allora:
-
Il problema dell’approssimazione lineare di
frispetto aG_nha soluzione. -
L’insieme delle soluzioni è convesso.
-
Fissata una successione
(\phi_i)_{i \ge 0}, definiamo per ogninl’errore\delta_nrispetto allo spazioG_n := \text{span}\{\phi_i\}_{i=0}^n. Allora(\delta_n)_nè debolmente decrescente e ammette limite, ovvero\exists \lim_n \delta_n \ge 0.
Dimostrazione.
-
L’idea è restringersi ad un compatto che contiene l’inf dove sappiamo essere un minimo. Consideriamo
\alpha = (\alpha_0, \dots, \alpha_n) \in \mathbb R^{n+1}e le funzionic(\alpha) := \left\| \sum_{i=0}^n \alpha_i \phi_i \right\| \quad \text{e} \quad d(\alpha) := \left\| f - \sum_{i=0}^n \alpha_i \phi_i \right\|Sia
t := \inf_{\alpha \in \mathbb{R}^{n+1}} d(\alpha) \ge 0e poniamo\gamma := \min_{\substack{\alpha \in \mathbb{R}^{n+1} \\ \|\alpha\|_\infty = 1}} c(\alpha)\gamma \neq 0poiché le\phi_isono linearmente indipendenti. Per la disuguaglianza triangolare:\begin{aligned} d(\alpha) &\ge \left| \left\| \sum_{i=0}^n \alpha_i \phi_i \right\| - \|f\| \right| \\ &= \left| \|\alpha\|_\infty \left\| \sum_{i=0}^n \frac{\alpha_i}{\|\alpha\|_\infty} \phi_i \right\| - \|f\| \right| \\ &\ge \gamma \|\alpha\|_\infty - \|f\| \end{aligned}Vorremmo ora scegliere
B(0, \mu)in modo che il minimo sia lì dentro. Poniamo\mu := \frac{t + \epsilon + \|f\|}{\gamma}Se
\|\alpha\|_\infty > \muabbiamod(\alpha) > \gamma \mu - \|f\| > \gamma \frac{t + \epsilon + \|f\|}{\gamma} - \|f\| = t + \epsilonIn questo modo l’errore è
\ge t + \epsilonper ogni\epsilon > 0. Quindi per\epsilon \to 0:t = \inf_{\|\alpha\|_\infty \le \mu} d(\alpha) = \min_{\|\alpha\|_\infty \le \mu} d(\alpha) -
Siano
g_n, \hat{g}_nsoluzioni, ovvero tali che\|f - g_n\| = \|f - \hat{g}_n\| = \delta_n. Vogliamo mostrare che una loro combinazione convessa è ancora soluzione, ovvero cheg_n^{(\lambda)} := \lambda g_n + (1-\lambda) \hat{g}_n \in G_n \quad \forall \lambda \in [0, 1]e
\|f - g_n^{(\lambda)}\| = \delta_n.g_n^{(\lambda)} \in G_npoichéG_nè un sottospazio lineare.\|f - g_n^{(\lambda)}\| = \|\lambda f + (1-\lambda) f - \lambda g_n - (1-\lambda) \hat{g}_n\| = \|\lambda(f - g_n) + (1-\lambda)(f - \hat{g}_n)\| \le \lambda \|f - g_n\| + (1-\lambda) \|f - \hat{g}_n\| = \lambda \delta_n + (1-\lambda) \delta_n = \delta_n. Essendo\delta_nil valore minimo, deve valere l’uguaglianza.\square
-
Per definizione
G_n \subseteq G_{n+1} \implies \delta_{n+1} \le \delta_ned essendo i\delta_n \ge 0esiste sempre il limite.
Condizioni sufficienti per l’unicità
§ Definizione. Sia (V, \|\cdot\|) uno spazio normato. V è detto strettamente convesso se \forall f, g \in V con f \neq g, \|f\| \le m, \|g\| \le m, si ha che:
\left\| f + g \right\| < 2m \iff \left\| \frac{f+g}{2} \right\| < m
Esempio. (\mathbb{R}^2, \|\cdot\|_\infty) non è strettamente convesso.
Un’altra caratterizzazione è che la palla unitaria B è strettamente convessa se per ogni f, g \in \partial B, il segmento (f, g) interseca \partial B solo in f, g.
§ Proposizione. Sia (V, \|\cdot\|) uno spazio vettoriale normato strettamente convesso, allora il problema dell’approssimazione lineare ha un’unica soluzione.
Dimostrazione. Sia f la funzione da approssimare e G_n := \text{span}\{\phi_i\}_{i=0}^n lo spazio in cui si cerca l’approssimazione.
Se per assurdo esistono due soluzioni g_n, \hat{g}_n \in G_n tali che g_n \neq \hat{g}_n e \|f - g_n\| = \|f - \hat{g}_n\| = \delta_n.
Osserviamo che f - g_n \neq f - \hat{g}_n ed applichiamo la stretta convessità a f - g_n e f - \hat{g}_n:
\begin{aligned}
\|(f - g_n) + (f - \hat{g}_n)\| &< 2\delta_n \\
\implies \|2f - (g_n + \hat{g}_n)\| &< 2\delta_n \\
\implies \left\| f - \frac{g_n + \hat{g}_n}{2} \right\| &< \delta_n
\end{aligned}
il che è assurdo poiché \delta_n era il minimo errore possibile. \square
§ Definizione. Sia (V, \|\cdot\|) uno spazio vettoriale normato. V è detto spazio di Banach se è completo rispetto alla norma \|\cdot\|, ovvero se ogni successione di Cauchy in V converge ad un elemento di V.
Esempio. Lo spazio (C[a, b], \|\cdot\|_\infty) delle funzioni continue su [a, b] con la norma del massimo è uno spazio di Banach.
§ Definizione. Sia H uno spazio vettoriale dotato di prodotto scalare \langle \cdot, \cdot \rangle. Sia \|v\| := \sqrt{\langle v, v \rangle} la norma indotta dal prodotto scalare. V è detto spazio di Hilbert se è completo rispetto alla norma indotta.
Esempio.
-
L^2(a, b)con il prodotto scalare\langle f, g \rangle = \int_a^b f(x) g(x) \mathrm dxè uno spazio di Hilbert. -
(C[a, b], \|\cdot\|_2)con lo stesso prodotto scalare non è uno spazio di Hilbert. La sua chiusura èL^2(a, b). Ad esempio, la successione di funzioni continue:
§ Proposizione. In uno spazio con prodotto scalare vale la regola del parallelogramma:
\forall u, v \in V:
\|u+v\|^2 + \|u-v\|^2 = 2(\|u\|^2 + \|v\|^2)
Viceversa, se in uno spazio normato vale questa proprietà, allora la norma è indotta dal prodotto scalare definito da:
\langle u, v \rangle = \frac{1}{4} (\|u+v\|^2 - \|u-v\|^2)
§ Proposizione. Sia V uno spazio normato con norma indotta da un prodotto scalare, allora V è strettamente convesso.
Dimostrazione. Siano u, v \in V con u \neq v e \|u\| \le m, \|v\| \le m. Vogliamo mostrare che \|u+v\| < 2m.
Dalla regola del parallelogramma:
\|u+v\|^2 = 2(\|u\|^2 + \|v\|^2) - \|u-v\|^2
Essendo u \neq v, si ha \|u-v\|^2 > 0, quindi:
\|u+v\|^2 < 2(\|u\|^2 + \|v\|^2) \le 2(m^2 + m^2) = 4m^2
e quindi \|u+v\| < 2m. \square
Approssimazione in spazi di Hilbert
§ Teorema. Sia (V, \|\cdot\|) uno spazio normato con norma indotta da un prodotto scalare. Siano \{\phi_i\}_{i=0}^n \subset V linearmente indipendenti e G_n := \text{span}\{\phi_i\}_{i=0}^n. Sia f \in V. Allora:
-
Esiste un’unica
g_n \in G_nche realizza il minimo della distanza:\min_{g \in G_n} \|f - g\| -
g \in G_nè soluzione del problema dell’approssimazione lineare se e solo se:
\forall v \in G_n \quad \langle f - g, v \rangle = 0
Dimostrazione.
-
L’esistenza è garantita dai teoremi precedenti. L’unicità segue dalla stretta convessità (appena dimostrata per gli spazi con prodotto scalare).
-
\boxed{\Rightarrow}Siag_nla soluzione. Siav \in G_n.- Se
v = 0, la tesi è ovvia. - Se
v \neq 0: sappiamo che per ognig \in G_n,\|f - g_n\| \le \|f - g\|. In particolare, per ogniw \in G_n,\|f - g_n\| \le \|f - (g_n + w)\|. Consideriamow = \gamma vcon\gamma \in \mathbb{R}. Allora:
\begin{aligned} \|f - g_n\|^2 &\le \|f - (g_n + \gamma v)\|^2 = \|(f - g_n) - \gamma v\|^2 \\ &= \langle (f - g_n) - \gamma v, (f - g_n) - \gamma v \rangle \\ &= \|f - g_n\|^2 + \gamma^2 \|v\|^2 - 2\gamma \langle f - g_n, v \rangle \end{aligned}Quindi
\gamma^2 \|v\|^2 - 2\gamma \langle f - g_n, v \rangle \ge 0per ogni\gamma \in \mathbb{R}. Questo è un polinomio di secondo grado in\gammache non è mai negativo, quindi il suo discriminante deve essere\le 0:\Delta = (2 \langle f - g_n, v \rangle)^2 - 4 \|v\|^2 \cdot 0 \le 0 \implies \langle f - g_n, v \rangle = 0Alternativamente, possiamo scegliere
\gamma = \frac{\langle f - g_n, v \rangle}{\|v\|^2}per ottenere lo stesso risultato.\boxed{\Leftarrow}Siag \in G_ntale che\langle f - g, v \rangle = 0per ogniv \in G_n. Vogliamo dimostrare che\forall h \in G_n,\|f - g\| \le \|f - h\|. Siah \in G_n, possiamo scrivereh = g + wconw \in G_n. Allora:\begin{aligned} \|f - h\|^2 &= \|f - (g + w)\|^2 = \|(f - g) - w\|^2 \\ &= \langle (f - g) - w, (f - g) - w \rangle \\ &= \|f - g\|^2 + \|w\|^2 - 2\langle f - g, w \rangle \end{aligned}Essendo
w \in G_n, per ipotesi\langle f - g, w \rangle = 0, quindi:\|f - h\|^2 = \|f - g\|^2 + \|w\|^2 \ge \|f - g\|^2il che prova che
gè il punto di minimo.\square - Se
Espressione esplicita della soluzione
Osserviamo che g_n = \sum_{i=0}^n \alpha_i \phi_i è soluzione se e solo se:
\forall v \in G_n \quad \langle f - g_n, v \rangle = 0
Grazie alla linearità del prodotto scalare, tale condizione è equivalente a richiederla solo per gli elementi della base:
\begin{aligned}
&\forall j=0,\dots,n \quad \langle f - g_n, \phi_j \rangle = 0 \\
\iff &\forall j=0,\dots,n \quad \langle f, \phi_j \rangle - \langle \sum_{i=0}^n \alpha_i \phi_i, \phi_j \rangle = 0 \\
\iff &\forall j=0,\dots,n \quad \sum_{i=0}^n \alpha_i \langle \phi_i, \phi_j \rangle = \langle f, \phi_j \rangle
\end{aligned}
Questo si può riscrivere in forma matriciale come un sistema lineare A\alpha = b con A \in \mathbb{R}^{(n+1) \times (n+1)}:
A_{ij} = \langle \phi_j, \phi_i \rangle(Matrice di Gram)\alpha = [\alpha_0, \dots, \alpha_n]^Tb = [\langle f, \phi_0 \rangle, \dots, \langle f, \phi_n \rangle]^T
Casi favorevoli: La matrice A è sparsa o diagonale. Se le \{\phi_i\} formano un insieme ortogonale rispetto al prodotto scalare considerato (\langle \phi_i, \phi_j \rangle = 0 per i \neq j), allora la matrice A è diagonale e la soluzione è immediata:
\alpha_i = \frac{\langle f, \phi_i \rangle}{\langle \phi_i, \phi_i \rangle} \implies g_n = \sum_{i=0}^n \frac{\langle f, \phi_i \rangle}{\langle \phi_i, \phi_i \rangle} \phi_i
In questo caso, gli \alpha_i sono detti coefficienti di Fourier di f rispetto alla base ortogonale \{\phi_i\}.
§ Definizione. Sia H uno spazio di Hilbert. Un insieme ortogonale \{\phi_j\}_{j \in \mathbb{N}} \subset H è detto completo (o massimale) se non esiste alcun elemento non nullo di H che sia ortogonale a tutti i \phi_j, ovvero:
\nexists y \in H, y \neq 0 \quad \text{tale che} \quad \forall j \in \mathbb{N} \quad \langle y, \phi_j \rangle = 0
Osservazione. Se l’insieme \{\phi_j\} è completo, allora l’insieme delle loro combinazioni lineari finite S = \text{span}\{\phi_j\}_{j \in \mathbb{N}} è denso in H:
\forall f \in H, \forall \epsilon > 0, \exists g \in S \quad \text{tale che} \quad \|f - g\| \le \epsilon
§ Teorema. Sia H uno spazio di Hilbert e \{\phi_j\}_{j \in \mathbb{N}} \subset H un insieme ortogonale. Sia f \in H e per ogni n sia g_n la migliore approssimazione di f su G_n = \text{span}\{\phi_0, \dots, \phi_n\}. Siano r_n = f - g_n il resto e \delta_n = \|r_n\| l’errore. Allora:
i) \delta_n^2 = \|f\|^2 - \sum_{i=0}^n \frac{\langle f, \phi_i \rangle^2}{\langle \phi_i, \phi_i \rangle}
ii) La serie \sum_{i=0}^\infty \frac{\langle f, \phi_i \rangle^2}{\langle \phi_i, \phi_i \rangle} è convergente e vale la disuguaglianza di Bessel:
\sum_{i=0}^\infty \frac{\langle f, \phi_i \rangle^2}{\langle \phi_i, \phi_i \rangle} \le \|f\|^2
iii) Se l’insieme \{\phi_i\} è completo, allora vale l’identità di Parseval:
\|f\|^2 = \sum_{i=0}^\infty \frac{\langle f, \phi_i \rangle^2}{\langle \phi_i, \phi_i \rangle}
Dimostrazione.
i) Calcoliamo l’errore quadratico:
\begin{aligned}
\delta_n^2 &= \|r_n\|^2 = \|f - g_n\|^2 = \langle f - g_n, f - g_n \rangle \\
&= \langle f - g_n, f \rangle - \underbrace{\langle f - g_n, g_n \rangle}_{= 0 \text{ per ortogonalità}} \\
&= \langle f, f \rangle - \langle g_n, f \rangle = \|f\|^2 - \sum_{i=0}^n \alpha_i \langle \phi_i, f \rangle \\
&= \|f\|^2 - \sum_{i=0}^n \frac{\langle f, \phi_i \rangle}{\langle \phi_i, \phi_i \rangle} \langle \phi_i, f \rangle = \|f\|^2 - \sum_{i=0}^n \frac{\langle f, \phi_i \rangle^2}{\langle \phi_i, \phi_i \rangle}
\end{aligned}
ii) Poiché \delta_n^2 \ge 0, abbiamo che per ogni n:
\sum_{i=0}^n \frac{\langle f, \phi_i \rangle^2}{\langle \phi_i, \phi_i \rangle} \le \|f\|^2
La successione delle somme parziali è monotona crescente e superiormente limitata da \|f\|^2, quindi la serie converge e il limite (che è la disuguaglianza di Bessel) è \le \|f\|^2.
iii) Se l’insieme è completo, la densità dello span implica che \delta_n \to 0 per n \to \infty. Passando al limite in (i) si ottiene l’identità di Parseval. \square
Osservazione. La norma \|\cdot\|_\infty non è indotta da un prodotto scalare. Si può verificare considerando ad esempio le funzioni f(x) = x e g(x) = 1-x su [0, 1] e mostrando che non soddisfano la regola del parallelogramma.
Osservazione. La convergenza in norma \|\cdot\|_2 non implica in generale la convergenza uniforme. Un’eccezione rilevante si ha utilizzando come base i polinomi di Chebyshev di prima specie T_n(x) (si veda il capitolo Approssimazione minimax). Se f è almeno Lipschitziana, allora la sua serie di Chebyshev:
f(x) = \frac{a_0}{2} + \sum_{i=1}^\infty a_i T_i(x)
converge uniformemente a f.
Osservazione. Dal punto di vista computazionale, può convenire scegliere famiglie di funzioni non ortogonali ma con supporto limitato, tali che \text{supp}(\phi_i) \cap \text{supp}(\phi_j) = \emptyset per |i-j| \ge k (matrici a banda). Un esempio classico sono le Hat Functions (funzioni a tenda).
Per l’insieme delle funzioni hat con il prodotto scalare L^2, la matrice di Gram A risulta essere tridiagonale. Se definiamo \phi(x) = \max(0, h - |x|), si ottiene:
A = \frac{h^3}{6} \text{trid}(1, 4, 1)
Interpolazione polinomiale
§ Definizione. Dato un intervallo [a, b], una tavola dei nodi su [a, b] è un insieme di punti:
\left\{ x_i^{(n)} \in [a, b] \mid i=0, \dots, n, \quad n \in \mathbb{N}, \quad x_i^{(n)} \neq x_j^{(n)} \text{ per } i \neq j \right\}
A partire dai nodi ed i valori della funzione in essi, possiamo definire il polinomio interpolatore di Lagrange:
p_n(x) = \sum_{i=0}^n f(x_i^{(n)}) L_{i,n}(x)
dove gli L_{i,n}(x) sono i polinomi elementari di Lagrange:
L_{i,n}(x) = \prod_{\substack{j=0 \\ j \neq i}}^n \frac{x - x_j^{(n)}}{x_i^{(n)} - x_j^{(n)}}
Fissata una tavola dei nodi, possiamo definire l’operatore di interpolazione:
\begin{aligned}
\mathcal{A}_n: C[a, b] &\to C[a, b] \\
f &\mapsto p_n
\end{aligned}
Condizionamento dell’interpolazione
Vogliamo studiare la sensibilità del polinomio interpolatore rispetto a perturbazioni dei dati (i valori di f). Sia f la funzione originale e \tilde{f} una funzione perturbata. Sia \tilde{p} = \mathcal{A}_n(\tilde{f}).
Valutiamo la differenza puntuale:
\begin{aligned}
|p_n(x) - \tilde{p}_n(x)| &= \left| \sum_{i=0}^n f(x_i) L_{i,n}(x) - \sum_{i=0}^n \tilde{f}(x_i) L_{i,n}(x) \right| \\
&\le \sum_{i=0}^n |f(x_i) - \tilde{f}(x_i)| \cdot |L_{i,n}(x)| \\
&\le \left( \max_{i=0,\dots,n} |f(x_i) - \tilde{f}(x_i)| \right) \sum_{i=0}^n |L_{i,n}(x)| \\
&\le \|f - \tilde{f}\|_\infty \cdot \lambda_n(x)
\end{aligned}
dove \lambda_n(x) := \sum_{i=0}^n |L_{i,n}(x)| è detta funzione di Lebesgue.
§ Definizione. La quantità \Lambda_n := \max_{x \in [a, b]} \lambda_n(x) è detta costante di Lebesgue.
Dalla disuguaglianza precedente otteniamo:
\|p_n - \tilde{p}_n\|_\infty \le \Lambda_n \|f - \tilde{f}\|_\infty
Ricordando la definizione di norma operatoriale \|\mathcal{A}_n\|_\infty = \sup_{g \neq 0} \frac{\|\mathcal{A}_n g\|_\infty}{\|g\|_\infty}, abbiamo che \|\mathcal{A}_n\|_\infty \le \Lambda_n. Inoltre, la proposizione che segue mostra che vale l’uguaglianza.
§ Proposizione. \|\mathcal{A}_n\|_\infty = \Lambda_n.
Dimostrazione. Cerchiamo una funzione g \in C[a, b] con \|g\|_\infty = 1 tale che \|\mathcal{A}_n g\|_\infty = \Lambda_n.
Sia \xi \in [a, b] il punto che realizza il massimo della funzione di Lebesgue, ovvero \lambda_n(\xi) = \Lambda_n.
Vogliamo che g(x_i) = \text{sign}(L_{i,n}(\xi)), in modo che:
(\mathcal{A}_n g)(\xi) = \sum_{i=0}^n g(x_i) L_{i,n}(\xi) = \sum_{i=0}^n \text{sign}(L_{i,n}(\xi)) L_{i,n}(\xi) = \sum_{i=0}^n |L_{i,n}(\xi)| = \Lambda_n
Poiché \|g\|_\infty = 1, si ha \|\mathcal{A}_n g\|_\infty \ge |(\mathcal{A}_n g)(\xi)| = \Lambda_n. Essendo già noto che \|\mathcal{A}_n\|_\infty \le \Lambda_n, si conclude che \|\mathcal{A}_n\|_\infty = \Lambda_n. \square
§ Teorema. Sia p_n(x) il polinomio di interpolazione relativo ad una tavola di nodi fissata e q_n^*(x) il polinomio di migliore approssimazione uniforme (ovvero tale che \|f - q_n^*\|_\infty = \min_{p \in \mathcal{P}_n} \|f - p\|_\infty, si veda il capitolo Approssimazione minimax). Allora vale:
\|f - p_n\|_\infty \le (1 + \Lambda_n) \|f - q_n^*\|_\infty
Dimostrazione. Sfruttiamo la disuguaglianza triangolare e la linearità dell’operatore di interpolazione \mathcal{A}_n:
\begin{aligned}
\|f - p_n\|_\infty &= \|f - q_n^* + q_n^* - p_n\|_\infty \le \|f - q_n^*\|_\infty + \|q_n^* - p_n\|_\infty \\
&= \|f - q_n^*\|_\infty + \|\mathcal{A}_n q_n^* - \mathcal{A}_n f\|_\infty \\
&= \|f - q_n^*\|_\infty + \|\mathcal{A}_n(q_n^* - f)\|_\infty \\
&\le \|f - q_n^*\|_\infty + \|\mathcal{A}_n\|_\infty \|q_n^* - f\|_\infty \\
&= (1 + \Lambda_n) \|f - q_n^*\|_\infty \quad \square
\end{aligned}
Questo risultato mostra che l’errore di interpolazione è controllato dalla costante di Lebesgue.
§ Teorema (Faber). Per ogni tavola dei nodi su [a, b], esiste una funzione f \in C[a, b] tale che la successione dei polinomi interpolatori (\mathcal{A}_n(f))_n non converge a f in norma uniforme.
Il teorema di Faber si dimostra applicando il teorema di Banach-Steinhaus (o principio di uniforme limitatezza) agli operatori \mathcal{A}_n, osservando che \Lambda_n \to \infty.
§ Teorema (Banach-Steinhaus). Siano V, W spazi di Banach e \{T_n\}_n una successione di operatori lineari e continui da V in W. Se vale la limitatezza puntuale, ovvero:
\forall v \in V \quad \sup_n \|T_n(v)\|_W < +\infty
allora la successione è uniformemente limitata in norma operatoriale:
\sup_n \|T_n\|_{\mathcal{L}(V, W)} < +\infty
Infatti, per il teorema di Banach-Steinhaus, se la successione \|\mathcal{A}_n\|_\infty fosse limitata, allora \Lambda_n sarebbe limitata e per ogni f \in C[a, b] la successione \|\mathcal{A}_n(f)\|_\infty sarebbe limitata, il che garantirebbe la convergenza uniforme. Ma poiché \Lambda_n \to \infty, deve esistere una funzione f per cui la successione non converge.
Operatori Positivi e Teorema di Korovkin
Sia K \subseteq \mathbb{R} un compatto. Lavoriamo nello spazio C(K) delle funzioni continue su K.
§ Definizione. Un operatore L: C(K) \to C(K) si dice operatore lineare positivo se:
- L è lineare:
L(\alpha f + \beta g) = \alpha L[f] + \beta L[g] - L è positivo:
f \ge 0 \implies L[f] \ge 0
§ Proposizione. Sia L un LPO su C(K). Allora:
f \le g \implies L[f] \le L[g](Monotonia)|L[f]| \le L[|f|]
§ Definizione. Se \{L_n\}_n è una successione di operatori lineari su C(K) e f \in C(K), diciamo che \{L_n\}_n approssima bene f se:
\lim_{n \to \infty} \|L_n[f] - f\|_\infty = 0
§ Teorema (Korovkin). Sia \{L_n\}_n una successione di operatori lineari positivi su C(K), con K \subseteq \mathbb{R} compatto. Se \{L_n\}_n approssima bene le tre funzioni test:
-
x \mapsto 1 -
x \mapsto x -
x \mapsto x^2
allora \{L_n\}_n approssima bene tutte le funzioni in C(K).
Dimostrazione. Sia f \in C(K) e \epsilon > 0. Vogliamo mostrare che esiste \bar{n} tale che \forall n \ge \bar{n}, \forall y \in K si abbia |L_n[f](y) - f(y)| \le \bar{\epsilon} (con \bar{\epsilon} che dipende solo da \epsilon).
Sia M = \max_K |f|. Poiché f è continua su un compatto, essa è uniformemente continua: \exists \delta > 0 tale che \forall x, y \in K con |x - y| \le \delta si ha |f(x) - f(y)| \le \epsilon.
Se |x - y| > \delta, allora 1 < \frac{|x-y|}{\delta} < \frac{(x-y)^2}{\delta^2}, quindi:
|f(x) - f(y)| \le 2M \le \frac{2M}{\delta^2} (x-y)^2
In generale, per ogni x, y \in K:
|f(x) - f(y)| \le \epsilon + \frac{2M}{\delta^2} (x-y)^2
Definiamo i residui per le funzioni test:
\epsilon_0^{(n)}(y) := L_n[1](y) - 1\epsilon_1^{(n)}(y) := L_n[x](y) - y\epsilon_2^{(n)}(y) := L_n[x^2](y) - y^2Per ipotesi, perj=0, 1, 2, si ha\|\epsilon_j^{(n)}\|_\infty \to 0pern \to \infty. Sia\bar{n}tale che\forall n \ge \bar{n},|\epsilon_j^{(n)}(y)| \le \epsilonper ogniy \in K.
Valutiamo |L_n[f](y) - f(y)|:
\begin{aligned}
|L_n[f](y) - f(y)| &= |L_n[f](y) - f(y) L_n[1](y) + f(y) L_n[1](y) - f(y)| \\
&= |L_n[f(\cdot) - f(y)](y) + f(y) \epsilon_0^{(n)}(y)| \\
&\le L_n[|f(x) - f(y)|](y) + M |\epsilon_0^{(n)}(y)|
\end{aligned}
Usando la stima su |f(x) - f(y)|:
\begin{aligned}
L_n[|f(x) - f(y)|](y) &\le L_n[\epsilon + \frac{2M}{\delta^2} (x-y)^2](y) \\
&= \epsilon L_n[1](y) + \frac{2M}{\delta^2} L_n[x^2 - 2xy + y^2](y) \\
&= \epsilon (1 + \epsilon_0^{(n)}(y)) + \frac{2M}{\delta^2} (L_n[x^2](y) - 2y L_n[x](y) + y^2 L_n[1](y)) \\
&= \epsilon (1 + \epsilon_0^{(n)}(y)) + \frac{2M}{\delta^2} (y^2 + \epsilon_2^{(n)}(y) - 2y(y + \epsilon_1^{(n)}(y)) + y^2(1 + \epsilon_0^{(n)}(y))) \\
&= \epsilon (1 + \epsilon_0^{(n)}(y)) + \frac{2M}{\delta^2} (\epsilon_2^{(n)}(y) - 2y \epsilon_1^{(n)}(y) + y^2 \epsilon_0^{(n)}(y))
\end{aligned}
Sia D := \max_K |y|. Per n \ge \bar{n} abbiamo:
|L_n[f](y) - f(y)| \le \epsilon(1+\epsilon) + \frac{2M}{\delta^2}(\epsilon + 2D\epsilon + D^2\epsilon) + M\epsilon \le \gamma \epsilon
dove \gamma dipende solo dal compatto K e dalla funzione f, ma non da n. Quindi \|L_n[f] - f\|_\infty \to 0. \square
Polinomi di Bernstein e Teorema di Weierstrass
Possiamo usare il teorema di Korovkin per dare una dimostrazione costruttiva del teorema di Weierstrass su [0, 1].
§ Definizione. Gli operatori di Bernstein B_n: C[0, 1] \to \mathcal{P}_n sono definiti da:
B_n[f](x) = \sum_{k=0}^n f\left(\frac{k}{n}\right) \binom{n}{k} x^k (1-x)^{n-k}
Dimostrazione del Teorema di Weierstrass. Verifichiamo le tre condizioni del teorema di Korovkin per gli operatori di Bernstein (che sono chiaramente lineari e positivi):
-
Funzione
1:B_n[1](x) = \sum_{k=0}^n 1 \cdot \binom{n}{k} x^k (1-x)^{n-k} = (x + (1-x))^n = 1^n = 1Quindi
\|B_n[1] - 1\|_\infty = 0. -
Funzione
x:\begin{aligned} B_n[x](x) &= \sum_{k=0}^n \frac{k}{n} \binom{n}{k} x^k (1-x)^{n-k} = \sum_{k=1}^n \frac{k}{n} \frac{n!}{k!(n-k)!} x^k (1-x)^{n-k} \\ &= \sum_{k=1}^n \frac{(n-1)!}{(k-1)!(n-k)!} x^k (1-x)^{n-k} \\ &= x \sum_{k=1}^n \binom{n-1}{k-1} x^{k-1} (1-x)^{(n-1)-(k-1)} \\ &= x \sum_{h=0}^{n-1} \binom{n-1}{h} x^h (1-x)^{n-1-h} \\ &= x \cdot 1 = x \end{aligned}Quindi
\|B_n[x] - x\|_\infty = 0. -
Funzione
x^2:\begin{aligned} B_n[x^2](x) &= \sum_{k=0}^n \frac{k^2}{n^2} \binom{n}{k} x^k (1-x)^{n-k} \\ &= \sum_{k=1}^n \frac{k}{n} \binom{n-1}{k-1} x^k (1-x)^{n-k} \\ &= x \sum_{h=0}^{n-1} \frac{h+1}{n} \binom{n-1}{h} x^h (1-x)^{n-1-h} \\ &= x \left[ \sum_{h=0}^{n-1} \frac{h}{n} \binom{n-1}{h} x^h (1-x)^{n-1-h} + \frac{1}{n} \sum_{h=0}^{n-1} \binom{n-1}{h} x^h (1-x)^{n-1-h} \right] \\ &= \frac{x}{n} \sum_{h=1}^{n-1} h \binom{n-1}{h} x^h (1-x)^{n-1-h} + \frac{x}{n} \underbrace{\sum_{h=0}^{n-1} \binom{n-1}{h} x^h (1-x)^{n-1-h}}_{1} \\ &= \frac{x}{n} \sum_{h=1}^{n-1} (n-1) \binom{n-2}{h-1} x^h (1-x)^{(n-1)-h} + \frac{x}{n} \\ &= x^2 \frac{n-1}{n} \sum_{h=1}^{n-1} \binom{n-2}{h-1} x^{h-1} (1-x)^{(n-2)-(h-1)} + \frac{x}{n} \\ &= \frac{n-1}{n} x^2 \sum_{r=0}^{n-2} \binom{n-2}{r} x^r (1-x)^{n-2-r} + \frac{x}{n} \\ &= x^2 \frac{n-1}{n} + \frac{x}{n} \end{aligned}Si osserva che:
B_n[x^2](x) - x^2 = \left(1 - \frac{1}{n}\right)x^2 + \frac{x}{n} - x^2 = \frac{x - x^2}{n} \xrightarrow{n \to \infty} 0ovvero
\|B_n[x^2] - x^2\|_\infty = \max_{x \in [0, 1]} \frac{x(1-x)}{n} = \frac{1}{4n} \to 0.Per il Teorema di Korovkin, i polinomi di Bernstein
B_n[f]convergono uniformemente afper ognif \in C[0, 1].\square
Approssimazione di Padé
Vorremmo un analogo dell’espansione di Taylor di grado massimo possibile per funzioni razionali in un intorno di z=0.
Sia f(z) la funzione da approssimare. Supponiamo che abbia espansione di Taylor in un intorno di 0:
f(z) = \sum_{i=0}^\infty c_i z^i
Per ogni m \ge 0, l’approssimazione di Taylor di grado m è l’unico polinomio p_m tale che:
f(z) - p_m(z) = O(z^{m+1})
Vorremmo ora lavorare con funzioni in \mathcal{R}_{m, n} := \{r = p/q \mid p \in \mathcal{P}_m, q \in \mathcal{P}_n\} ed ottenere un’approssimazione tale che
f(z) - r(z) = O(z^l)
con l massimo possibile.
§ Definizione (Tipo e difetto).
- Diciamo che
rè una funzione razionale di tipo(m, n)ser \in \mathcal{R}_{m, n}. - Diremo che
rha tipo esatto(\mu, \nu)ser = p/qcon\deg p = \mu, \deg q = \nue\gcd(p, q) = 1. - Data
rdi tipo(m, n), il difetto dirèd = \min \{m-\mu, n-\nu\}con(\mu, \nu)il tipo esatto dir.
Convenzione: se r = 0 \implies \mu = -\infty, d = n.
§ Definizione. Una funzione razionale r \in \mathcal{R}_{m, n} è approssimazione di Padé di f di tipo (m, n) se:
f(z) = r(z) + O(z^l) \quad \text{per } z \to 0
con l massimo esponente possibile.
(L. Trefethen, “Approximation Theory and Approximation Practice”)
Esempio. f(z) = e^z ha approssimazione di Padé (1, 1):
r_{1,1}(z) = \frac{1+z/2}{1-z/2} \implies l = m+n+1 = 1+1+1 = 3
Per trovarla possiamo considerare r(z) = \frac{a_0 + a_1 z}{b_0 + b_1 z}, a meno di rinormalizzazione possiamo porre b_0 = 1. Allora vogliamo che e^z - r(z) = O(z^3), ovvero:
\begin{aligned}
(a_0 + a_1 z) + O(z^3) &= e^z (1 + b_1 z) \\
&= \left(1 + z + \frac{z^2}{2} + O(z^3)\right)(1 + b_1 z) \\
&= 1 + (1 + b_1) z + \left(\frac{1}{2} + b_1\right) z^2 + O(z^3) \\
\end{aligned}
Confrontando i coefficienti otteniamo il sistema:
\begin{cases}
a_0 = 1 \\
a_1 = 1 + b_1 \\
0 = \dfrac{1}{2} + b_1
\end{cases}
\implies
\begin{cases}
a_0 = 1 \\
a_1 = \dfrac{1}{2} \\
b_1 = -\dfrac{1}{2}
\end{cases}
Dunque l’approssimazione di Padé è quella indicata sopra. Questo procedimento ci dà un’idea di come costruiremo l’approssimazione di Padé in generale.
Osservazione. Sia r \in \mathcal{R}_{m, n} con tipo esatto (\mu, \nu) e difetto d e sia \tilde{r} = \tilde{p}/\tilde{q} \in \mathcal{R}_{m, n}. Allora:
r - \tilde{r} = \frac{p}{q} - \frac{\tilde{p}}{\tilde{q}} = \frac{p\tilde{q} - \tilde{p}q}{q\tilde{q}}
ha tipo (\max\{\mu+n, m+\nu\}, n+\nu). Inoltre per la definizione di difetto:
\mu \le m-d, \quad \nu \le n-d
\begin{aligned}
\implies \max\{\mu+n, m+\nu\} &\le \max \{m-d+n, m+n-d\} \\
&= m+n-d
\end{aligned}
\implies n+\nu \le n+n-d = 2n-d. Dunque r - \tilde{r} ha tipo (m+n-d, 2n-d).
§ Teorema. Data f(z) = \sum_{i=0}^\infty c_i z^i, r \in \mathcal{R}_{m, n} è approssimazione di Padé di f di tipo (m, n) se e solo se:
f(z) = r(z) + O(z^{m+n+1-d})
dove d è il difetto di r. (Inoltre r esiste ed è unico).
Dimostrazione.
\boxed{\Leftarrow} Dimostriamo che se r \in \mathcal{R}_{m, n} è tale che f(z) = r(z) + O(z^{m+n+1-d}) allora è approssimazione di Padé di tipo (m, n).
Sia per assurdo \exists \tilde{r} \in \mathcal{R}_{m, n} tale che f(z) = \tilde{r}(z) + O(z^l) con l > m+n+1-d.
Per l’osservazione precedente, r - \tilde{r} ha tipo (m+n-d, 2n-d). Ora osserviamo che z=0 è radice di r - \tilde{r}:
r(z) - \tilde{r}(z) = (f(z) - \tilde{r}(z)) - (f(z) - r(z)) = O(z^l) - O(z^{m+n+1-d}) = O(z^{m+n+1-d})
poiché l > m+n+1-d.
Dunque z=0 ha molteplicità \ge m+n+1-d. Ma il numeratore di r - \tilde{r} ha grado al più m+n-d. Un polinomio non nullo di grado k non può avere una radice in 0 di molteplicità > k. Quindi r - \tilde{r} = 0 \implies r = \tilde{r}, il che contraddice la massimalità di l.
\boxed{\exists!} Supponiamo esista un altro \tilde{r} \in \mathcal{R}_{m, n} con f(z) = \tilde{r}(z) + O(z^{m+n+1-d}). Come prima r - \tilde{r} ha tipo (m+n-d, 2n-d), perciò 0 ha molteplicità \le m+n-d.
Ma r - \tilde{r} = f - r - (f - \tilde{r}) = O(z^{m+n+1-d}), perciò la molteplicità di 0 è \ge m+n+1-d.
Questo implica r - \tilde{r} \equiv 0 \implies r = \tilde{r}.
\boxed{\exists} Dimostriamo costruttivamente l’esistenza. Scriviamo r = p/q e cerchiamo p, q tali che:
f(z) = \frac{p(z)}{q(z)} + O(z^{m+n+1}) \implies p(z) = f(z) q(z) + O(z^{m+n+1})
Consideriamo le espansioni: f(z) = \sum_{i=0}^\infty c_i z^i, p(z) = \sum_{i=0}^m a_i z^i, q(z) = \sum_{i=0}^n b_i z^i. L’equazione p(z) + O(z^{m+n+1}) = f(z) q(z) corrisponde a uguagliare i primi m+n+1 coefficienti.
Il prodotto f(z)q(z) ha coefficienti [f \cdot q]_k = \sum_{j=0}^{\min(k, n)} c_{k-j} b_j. Uguagliando i coefficienti di grado 0, \dots, m+n:
\begin{bmatrix}
a_0 \\ \vdots \\ a_m \\ 0 \\ \vdots \\ 0
\end{bmatrix} = \begin{bmatrix}
c_0 & 0 & \dots & 0 \\
c_1 & c_0 & \dots & 0 \\
\vdots & \vdots & \ddots & \vdots \\
c_m & c_{m-1} & \dots & c_{m-n} \\
\hline
c_{m+1} & c_m & \dots & c_{m-n+1} \\
\vdots & \vdots & \ddots & \vdots \\
c_{m+n} & c_{m+n-1} & \dots & c_m
\end{bmatrix} \begin{bmatrix}
b_0 \\ b_1 \\ \vdots \\ b_n
\end{bmatrix}
(dove c_k = 0 se k < 0). Il blocco inferiore è un sistema omogeneo di n equazioni in n+1 incognite:
\begin{bmatrix}
0 \\ \vdots \\ 0
\end{bmatrix} = \begin{bmatrix}
c_{m+1} & \dots & c_{m-n+1} \\
\vdots & \ddots & \vdots \\
c_{m+n} & \dots & c_m
\end{bmatrix} \begin{bmatrix}
b_0 \\ \vdots \\ b_n
\end{bmatrix}
Tale sistema ha sempre almeno una soluzione non nulla (b_0, \dots, b_n). Trovati i b_j, i coefficienti a_i sono determinati in modo unico dalla prima parte del sistema. \square