Polinomi Ortogonali

§ Definizione. Consideriamo i seguenti spazi di polinomi:

  • \mathcal{P}_n lo spazio vettoriale dei polinomi reali di grado al più n.

  • \mathcal{P} lo spazio vettoriale di tutti i polinomi a coefficienti reali.

§ Definizione. Dato \langle \cdot, \cdot \rangle prodotto scalare su \mathcal{P}, l’insieme

\left\{ p_i(x) \mid \forall i \in \mathbb{N}, p_i(x) \in \mathcal{P}_i, \deg p_i = i, \text{ e } \forall j \neq i, \langle p_i, p_j \rangle = 0 \right\}

è detto insieme di polinomi ortogonali rispetto a \langle \cdot, \cdot \rangle. In altre parole, è un insieme di polinomi di grado crescente ognuno ortogonale a tutti gli altri rispetto al prodotto scalare dato.

Il prodotto scalare \langle \cdot, \cdot \rangle induce la norma \|p\| = \sqrt{\langle p, p \rangle} e diciamo che l’insieme \{ p_i / h_i \} con h_i = \|p_i\| è un insieme di polinomi ortonormali.

Osservazione. p(x) \in \mathcal{P}_n \cong \mathbb{R}^{n+1}, per cui il prodotto scalare su \mathcal{P}_n ne induce uno su \mathbb{R}^{n+1} e viceversa.

Esempio. Il prodotto scalare euclideo induce:

\left\langle \sum_{i=0}^n a_i x^i, \sum_{i=0}^n b_i x^i \right\rangle = \sum_{i=0}^n a_i b_i

e segue che i monomi \{ 1, x, x^2, \dots \} sono un insieme ortonormale rispetto a questo prodotto scalare.

Osservazione. Dato un prodotto scalare su \mathcal{P} mediante Gram-Schmidt possiamo sempre costruire un insieme ortogonale partendo da \{ 1, x, x^2, \dots \}:

  • p_0(x) = 1
  • p_k(x) = x^k - \sum_{i=0}^{k-1} \dfrac{\langle x^k, p_i \rangle}{\langle p_i, p_i \rangle} p_i(x)

Questi \{ p_0, \dots, p_n \} sono linearmente indipendenti \Rightarrow formano una base di \mathcal{P}_n.

Osservazione. Per ogni n \ge 0, i polinomi p_0, p_1, \dots, p_n sono linearmente indipendenti e formano una base di \mathcal{P}_n.

§ Teorema. Sia \{ p_0, p_1, \dots \} un insieme di polinomi ortogonali. Allora

\forall q \in \mathcal{P}_n, \forall i > n \; \langle p_i, q \rangle = 0

ovvero dato un polinomio q di grado al più n, esso è ortogonale a tutti i polinomi ortogonali di grado maggiore di n.

In altre parole, per ogni n abbiamo che p_{n+1} \perp \mathcal{P}_n.

Dimostrazione. Poiché q \in \mathcal{P}_n, possiamo scriverlo nella base dei polinomi ortogonali fino al grado n:

q(x) = \sum_{k=0}^n a_k p_k(x)

Calcoliamo ora il prodotto scalare:

\langle p_i, q \rangle = \left\langle p_i, \sum_{k=0}^n a_k p_k \right\rangle = \sum_{k=0}^n a_k \langle p_i, p_k \rangle = 0

poiché per costruzione \langle p_i, p_k \rangle = 0 per i \neq k. \square

§ Proposizione. Gli insiemi di polinomi ortogonali sono unici a meno di una costante moltiplicativa.

Dimostrazione. Siano \{ p_i(x) \} e \{ q_i(x) \} due insiemi di polinomi ortogonali monici rispetto ad uno stesso prodotto scalare. Consideriamo p_n e q_n poliomi di grado n in ciascun insieme. Calcaliamo il prodotto scalare:

\langle p_n - q_n, p_n - q_n \rangle = \langle p_n, p_n - q_n \rangle - \langle q_n, p_n - q_n \rangle = 0

in quanto per monicità p_n - q_n ha grado strettamente minore di n e dunque è ortogonale sia a p_n che a q_n. Dunque p_n - q_n = 0 \Rightarrow p_n = q_n. \square

Osservazione. Unendo gli ultimi due risultati possiamo ricavare una caratterizzazione dei polinomi ortogonali, p è un polinomio ortogonale di grado n se e solo se è ortogonale a tutti i polinomi di grado strettamente minore di n (a meno di una costante moltiplicativa).

§ Teorema (Proprietà di norma minima). Tra tutti i polinomi di grado n che hanno coefficiente del termine di grado massimo uguale a p_n(x), il polinomio p_n(x) è di norma minima.

Dimostrazione. Ogni polinomio q con \deg q = n che ha lo stesso coefficiente di grado massimo di p_n si può scrivere come q(x) = p_n(x) + \tilde q(x) con \deg \tilde q < n. Allora:

\Rightarrow \|q\|^2 = \langle q, q \rangle = \langle p_n, p_n \rangle + \langle \tilde q, \tilde q \rangle = \|p_n\|^2 + \|\tilde q\|^2

poiché i termini incrociati \langle p_n, \tilde q \rangle = 0 per il teorema di ortogonalità rispetto a sottospazi \Rightarrow \|q\|^2 \ge \|p_n\|^2 e si ha l’uguaglianza solo quando \tilde q = 0. \square

Prodotti scalari integrali

§ Definizione. Consideriamo a, b \in \overline{\mathbb{R}} con a < b ed una funzione peso w(x) : [a, b] \to \mathbb{R} tale che \forall x \in \mathbb{R}, w(x) > 0 e per ogni polinomio f \in \mathcal{P} l’integrale \int_a^b f(x) w(x) \mathrm{d}x esiste finito.

Dati f, g \in \mathcal{P}, definiamo

\langle f, g \rangle := \int_a^b f(x) g(x) w(x) \mathrm{d}x

detto prodotto scalare integrale su [a, b] con peso w. Abbiamo anche una norma indotta.

§ Proposizione. Questo prodotto scalare verifica la proprietà

\langle x f(x), g(x) \rangle = \langle f(x), x g(x) \rangle

Rispetto al prodotto scalare euclideo questa proprietà diventa

\langle S f, g \rangle = \langle f, S g \rangle \\[1em]
S \coloneqq
\begin{bmatrix}
    0 &   & \\
    1 & 0 & \\
      & 1 & \ddots  \\
      &   & \ddots \\
\end{bmatrix}

dove S è l’operatore di shift a destra che rappresenta la moltiplicazione per x.

§ Teorema. Dato un insieme di polinomi ortogonali \{p_n\}_n rispetto ad un prodotto scalare integrale, i polinomi sono tutti di grado \ge 1 ed i loro zeri sono reali, semplici ed interni all’intervallo (a, b).

Dimostrazione. Sia p_n un polinomio ortogonale e Z = \{z_1, \dots, z_n\} i suoi zeri in \mathbb{C}. Consideriamo Z \cap \mathbb{R} \cap (a, b) = \{ z_1, \dots, z_j \} l’insieme dei suoi zeri reali contenuti nell’intervallo (a, b).

Per assurdo supponiamo j < n. Spezziamo l’insieme degli zeri reali in (a, b) in due sottoinsiemi Z_0 \sqcup Z_1 in base alla parità della molteplicità di ciascun zero. Consideriamo il polinomio con zeri tutte le radici di molteplicità dispari:

q(x) = \prod_{z \in Z_1} (x - z)

Allora il prodotto p_n(x) \cdot q(x) ha tutti zeri con molteplicità pari in (a, b) e dunque non cambia mai segno in (a, b). Segue che:

\langle p_n, q \rangle = \int_a^b p_n(x) q(x) w(x) \mathrm{d}x \neq 0

Ma questo è assurdo poiché \deg q \le j < n, quindi per ortogonalità rispetto a sottospazi deve valere \langle p_n, q \rangle = 0. \square

Ricorrenza a 3 termini

Una proprietà fondamentale degli insiemi di polinomi ortogonali rispetto a prodotti scalari integrali è che essi soddisfano una relazione di ricorrenza rispetto ai due polinomi precedenti.

§ Teorema. Sia \{p_i(x)\}_i un insieme di polinomi ortogonali rispetto ad un prodotto scalare integrale con p_0(x) = a_0 e p_1(x) = a_1 x + b_1. Allora esistono tre successioni di costanti A_i, B_i, C_i \in \mathbb{R} tali che:

p_{i+1}(x) = (x A_{i+1} + B_{i+1}) p_i(x) - C_i p_{i-1}(x)

con A_{i+1} \neq 0 e C_i \neq 0. Inoltre le costanti sono date da:

A_{i+1} = \frac{\langle p_{i+1}, p_{i+1} \rangle}{\langle x p_i, p_{i+1} \rangle}, \quad B_{i+1} = - A_{i+1} \frac{\langle x p_i, p_i \rangle}{\langle p_i, p_i \rangle}, \quad C_i = \frac{A_{i+1}}{A_i} \frac{\langle p_i, p_i \rangle}{\langle p_{i-1}, p_{i-1} \rangle}

Dimostrazione. Il polinomio x p_i(x) ha grado i+1, dunque l’insieme \{ x p_i, p_i, p_{i-1}, \dots, p_0 \} è composto da polinomi linearmente indipendenti. Possiamo quindi scrivere p_{i+1} come combinazione lineare di questi:

p_{i+1} = \alpha_{i+1} x p_i + \sum_{k=0}^i \alpha_k p_k

Per ogni 0 \le j \le i, calcoliamo il prodotto scalare \langle p_{i+1}, p_j \rangle che sappiamo già essere nullo per ortogonalità:

\begin{aligned}
    0
    &= \langle p_{i+1}, p_j \rangle \\
    &= \left\langle \alpha_{i+1} x p_i + \sum_{k=0}^i \alpha_k p_k \;,\; p_j \right\rangle \\
    &= \alpha_{i+1} \langle x p_i, p_j \rangle + \sum_{k=0}^i \alpha_k \langle p_k, p_j \rangle \\
    &= \alpha_{i+1} \langle x p_i, p_j \rangle + \alpha_{j} \langle p_j, p_j \rangle \\
\end{aligned}

Sfruttando la proprietà del prodotto scalare integrale \langle x p_i, p_j \rangle = \langle p_i, x p_j \rangle:

0 = \alpha_{j} \langle p_j, p_j \rangle + \alpha_{i+1} \langle p_i, x p_j \rangle \quad (*)

Notiamo che per j < i-1, si ha \deg(x p_j) = j+1 < i, quindi per il teorema di ortogonalità rispetto a sottospazi segue che \langle p_i, x p_j \rangle = 0. Dunque sostituendo in (*) otteniamo \alpha_j = 0 per j = 0, \dots, i-2 e la relazione si riduce a:

p_{i+1} = \alpha_{i+1} x p_i + \alpha_i p_i + \alpha_{i-1} p_{i-1}

che ha la forma cercata ponendo A_{i+1} = \alpha_{i+1}, B_{i+1} = \alpha_i e C_i = -\alpha_{i-1}.

Per ricavare le espressioni dei coefficienti, applichiamo il prodotto scalare:

  • Moltiplicando per p_{i+1}: \langle p_{i+1}, p_{i+1} \rangle = A_{i+1} \langle x p_i, p_{i+1} \rangle
  • Moltiplicando per p_i: 0 = A_{i+1} \langle x p_i, p_i \rangle + B_{i+1} \langle p_i, p_i \rangle
  • Moltiplicando per p_{i-1}: 0 = A_{i+1} \langle x p_i, p_{i-1} \rangle - C_i \langle p_{i-1}, p_{i-1} \rangle

Dall’ultima relazione e dal fatto che applicando la stessa ricorrenza al passo precedente vale che

\langle x p_i, p_{i-1} \rangle = \langle p_i, x p_{i-1} \rangle = \frac{\langle p_i, p_i \rangle}{A_i}

si ottiene:

C_i = A_{i+1} \frac{\langle p_i, x p_{i-1} \rangle}{\langle p_{i-1}, p_{i-1} \rangle} = \frac{A_{i+1}}{A_i} \frac{\langle p_i, p_i \rangle}{\langle p_{i-1}, p_{i-1} \rangle}

Poiché tutti i termini sono norme non nulle, segue che C_i \neq 0. \square

Osservazione. Come abbiamo già visto, gli insiemi di polinomi ortogonali sono unici a meno di una costante moltiplicativa dunque possiamo normalizzarli in modo che siano monici (ovvero con coefficiente di testa unitario), allora A_{i+1} = 1 e le formule si semplificano in:

  • B_{i+1} = - \dfrac{\langle x p_i, p_i \rangle}{\langle p_i, p_i \rangle}

  • C_i = \dfrac{\langle p_i, p_i \rangle}{\langle p_{i-1}, p_{i-1} \rangle} > 0

Un’altra conseuenza della ricorrenza a 3 termini è che per calcolare i coefficienti A_i, B_i, C_i ci basta calcolare i prodotti scalari \langle p_i, p_i \rangle, \langle p_{i-1}, p_{i-1} \rangle e \langle x p_i, p_i \rangle per i = 0, \dots, n che in totale sono solo 2n prodotti scalari.

Christoffel-Darboux

§ Teorema (Formula di Christoffel-Darboux). Sia \{p_i(x)\}_i un insieme di polinomi ortogonali rispetto ad un prodotto scalare integrale su [a, b]. Allora per ogni n \ge 0 vale:

(x - y) \sum_{i=0}^n \frac{p_i(x) p_i(y)}{h_i} = \gamma_n \left( p_{n+1}(x) p_n(y) - p_{n+1}(y) p_n(x) \right)

dove h_i = \langle p_i, p_i \rangle e \gamma_n è una costante data da:

\gamma_n = \frac{1}{h_n A_{n+1}}

con A_{n+1} il coefficiente della ricorrenza a 3 termini.

Dimostrazione. Procediamo per induzione su n.

  1. Base n = 0: La relazione diventa

    (x - y) \frac{p_0(x) p_0(y)}{h_0} = \gamma_0 (p_1(x) p_0(y) - p_1(y) p_0(x))

    Sostituendo p_0(x) = a_0 e p_1(x) = a_1 x + b_1:

    \begin{aligned}
        & \gamma_0 ((a_1 x + b_1) a_0 - (a_1 y + b_1) a_0) \\
        &= \gamma_0 (a_1 a_0 x + b_1 a_0 - a_1 a_0 y - b_1 a_0) \\
        &= \gamma_0 a_1 a_0 (x - y)
    \end{aligned}

    Uguagliando i termini otteniamo

    \dfrac{a_0^2}{h_0} = \gamma_0 a_1 a_0 \Rightarrow \gamma_0 = \dfrac{a_0}{a_1 h_0} = \dfrac{1}{A_1 h_0}
  2. Passo induttivo n-1 \Rightarrow n: Consideriamo il termine p_{n+1}(x) p_n(y) - p_{n+1}(y) p_n(x) e sostituiamo l’espressione della ricorrenza a 3 termini per p_{n+1}:

    \begin{aligned}
        & ((x A_{n+1} + B_{n+1}) p_n(x) - C_n p_{n-1}(x)) p_n(y) - ((y A_{n+1} + B_{n+1}) p_n(y) - C_n p_{n-1}(y)) p_n(x) \\
        &= (x - y) A_{n+1} p_n(x) p_n(y) + C_n (p_n(x) p_{n-1}(y) - p_n(y) p_{n-1}(x))
    \end{aligned}

    Per ipotesi induttiva, il secondo termine è:

    p_n(x) p_{n-1}(y) - p_n(y) p_{n-1}(x) = \frac{x - y}{\gamma_{n-1}} \sum_{i=0}^{n-1} \frac{p_i(x) p_i(y)}{h_i}

    Sostituendo e raccogliendo (x - y):

    (x - y) \left[ A_{n+1} p_n(x) p_n(y) + \frac{C_n}{\gamma_{n-1}} \sum_{i=0}^{n-1} \frac{p_i(x) p_i(y)}{h_i} \right]

    Ricordando che C_n = \frac{A_{n+1} h_n}{A_n h_{n-1}} (dalla ricorrenza) e \gamma_{n-1} = \frac{1}{h_{n-1} A_n}, si ha che \frac{C_n}{\gamma_{n-1}} = A_{n+1} h_n. Dunque:

    \begin{aligned}
        &= (x - y) \left[ A_{n+1} p_n(x) p_n(y) + A_{n+1} h_n \sum_{i=0}^{n-1} \frac{p_i(x) p_i(y)}{h_i} \right] \\
        &= (x - y) A_{n+1} h_n \sum_{i=0}^{n} \frac{p_i(x) p_i(y)}{h_i}
    \end{aligned}

    Che corrisponde alla tesi con \gamma_n = \frac{1}{h_n A_{n+1}}. \square

Osservazione. Applicando la formula con x = x_i e y = x_j zeri distinti di p_{n+1}(x):

\begin{aligned}
    & \underbrace{(x_i - x_j)}_{\neq 0} \sum_{k=0}^n \frac{1}{h_k} p_k(x_i) p_k(x_j) \\
    &= \gamma_n (\underbrace{p_{n+1}(x_i)}_{=0} p_n(x_j) - \underbrace{p_{n+1}(x_j)}_{=0} p_n(x_i)) = 0 \\
    & \implies \sum_{k=0}^n \hat p_k(x_i) \hat p_k(x_j) = 0
\end{aligned}

dove \hat p_k(x) = p_k(x) / \sqrt{h_k} sono i polinomi ortogonali riscalati in modo che formino un insieme ortonormale. Se definiamo la matrice V di dimensione (n+1) \times (n+1) delle valutazioni dei polinomi negli zeri di p_{n+1}(x):

[V]_{ij} = \hat p_{i-1}(x_j)

la relazione di prima implica che V^\top V è una matrice diagonale, ovvero V ha colonne ortogonali.

Rendendola ortonormale dividendo ogni colonna per la sua norma \sigma_j = 1/\|v^{(j)}\|, dove v^{(j)} = (\hat p_i(x_j))_{i=0}^n, otteniamo una matrice ortogonale W = V \cdot \text{diag}(\sigma_1, \dots, \sigma_{n+1}) tale che W^\top W = I.

In termini di componenti, questo significa:

\sum_{k=1}^{n+1} \hat p_i(x_k) \hat p_j(x_k) \sigma_k^2 = \delta_{ij}

con i pesi dati da \sigma_k^2 = \left( \sum_{s=0}^n \hat p_{s}(x_k)^2 \right)^{-1} = \left( \sum_{s=0}^n \frac{p_s(x_k)^2}{h_s} \right)^{-1}.

Osservazione. Se consideriamo lo spazio \mathcal{P}_n, i due prodotti scalari:

  1. \langle p, q \rangle \coloneqq \int_a^b p(x) q(x) w(x) \mathrm{d}x

  2. \langle p, q \rangle \coloneqq \sum_{k=1}^{n+1} p(x_k) q(x_k) \sigma_k^2

coincidono sulla base dei polinomi ortonormali \{\hat p_0, \dots, \hat p_n\} (per la relazione di ortogonalità discreta derivata sopra) e dunque coincidono su tutto \mathcal{P}_n. Segue che:

\int_a^b p(x) q(x) w(x) \mathrm{d}x = \sum_{k=1}^{n+1} p(x_k) q(x_k) \sigma_k^2, \quad \forall p, q \in \mathcal{P}_n

Questa relazione è alla base delle formule di quadratura gaussiana.

§ Definizione. Dati p(x), q(x) il bezoutiano B(x, y) è

B(x, y) := \frac{p(x)q(y) - p(y)q(x)}{x - y}
= \frac{1}{x - y} \left|\begin{matrix} p(x) & p(y) \\ q(x) & q(y) \end{matrix}\right|

a cui si associa la matrice B_n = (b_{ij}) con b_{ij} := [B(x, y)]_{x^i y^j}, matrice dei coefficienti dei monomi x^i y^j di B(x, y) ovvero

B(x, y) = \sum_{i, j} b_{ij} x^i y^j \\[0.5em]
\rightsquigarrow B_n \coloneqq
\begin{bmatrix}
    b_{00} & b_{01} & \cdots & b_{0n} \\
    b_{10} & b_{11} & \cdots & b_{1n} \\
    \vdots & \vdots & \ddots & \vdots \\
    b_{n0} & b_{n1} & \cdots & b_{nn}
\end{bmatrix}
  • Un’altra proprietà è che se p, q sono polinomi ortogonali di grado n+1, B(x, y) è somma di prodotti di polinomi ortogonali.
  • La fattorizzazione LU di B_n dà i quozienti e i resti della divisione euclidea di p, q.

Polinomi ortogonali e matrici tridiagonali

Osservazione. Sia \mathcal{T}_n(x) la matrice tridiagonale n \times n definita da

\mathcal{T}_n(x) = \begin{bmatrix} a_1 x + b_1 & -a_0 & & \\ -C_1 & A_2 x + B_2 & -1 & \\ & \ddots & \ddots & \ddots \\ & & -C_{n-1} & A_n x + B_n \end{bmatrix}

con A_i, B_i, C_i coefficienti della ricorrenza a 3 termini.

  • Con la regola di Laplace sull’ultima riga si ottiene:

    • \det \mathcal{T}_1(x) = a_1 x + b_1 = p_1(x)

    • \det \mathcal{T}_2(x) = (A_2 x + B_2) p_1(x) - C_1 p_0(x) = p_2(x)

    • \det \mathcal{T}_n(x) = (A_n x + B_n) \det \mathcal{T}_{n-1}(x) - C_{n-1} \det \mathcal{T}_{n-2}(x)

  • Per induzione segue che \det \mathcal{T}_n(x) = p_n(x).

  • Inoltre

    \mathcal{T}_n(x) \begin{bmatrix} p_0(x) \\ \vdots \\ p_{n-1}(x) \end{bmatrix} = \begin{bmatrix} 0 \\ \vdots \\ p_n(x) \end{bmatrix}

    per cui (p_i(x))_i è nel nucleo di \mathcal{T}_n(x) se e solo se x è uno zero di p_n(x).

Osservazione. Se i polinomi ortogonali sono normalizzati in modo che A_i = 1 per ogni i, allora

\mathcal{T}_n(x) = xI - T_n, \quad T_n := \text{tridiag}(C_i, -B_i, 1)

Dunque gli zeri di p_n(x) possono essere visti come gli autovalori di T_n. Gli autovettori u^{(i)} invece sono tali che:

T_n u^{(i)} = x_i u^{(i)}, \quad u^{(i)} = (p_k(x_i))_{k=0}^{n-1}

Osservazione. Se normalizziamo i polinomi in modo da avere a_0 = A_i = 1, poiché i C_i > 0, possiamo trovare una matrice diagonale D = \text{diag}(d_1, \dots, d_n) tale che D^{-1} T_n D è simmetrica. Imponendo questa condizione otteniamo:

C_i d_i / d_{i+1} = d_{i+1} / d_i \Rightarrow d_{i+1} = d_i \sqrt{C_i}

e scegliendo d_1 = \sqrt{h_0} = 1 otteniamo d_i = \prod_{k=1}^{i-1} \sqrt{C_k}.

\Rightarrow D^{-1} \mathcal{T}_n D = \begin{bmatrix} B_1 + x & -\sqrt{C_1} & & \\ -\sqrt{C_1} & B_2 + x & -\sqrt{C_2} & \\ & \ddots & \ddots & \ddots \\ & & -\sqrt{C_{n-1}} & B_n + x \end{bmatrix}

[…] Altro modo di ottenere Christoffel-Darboux…

Rappresentazione polinomi ortogonali

Esistono altre rappresentazioni dei polinomi ortogonali oltre alla ricorrenza a 3 termini:

  • Matrice dei momenti
  • Formula di Rodrigues

Matrice dei momenti

Consideriamo le quantità:

\mu_k := \int_a^b x^k w(x) \mathrm{d}x = \langle 1, x^k \rangle

§ Teorema. Sia n \ge 0:

M_n(x) = \begin{bmatrix} \mu_0 & \mu_1 & \dots & \mu_n \\ \mu_1 & \mu_2 & \dots & \mu_{n+1} \\ \vdots & \vdots & \ddots & \vdots \\ \mu_{n-1} & \mu_n & \dots & \mu_{2n-1} \\ 1 & x & \dots & x^n \end{bmatrix}

e p_n(x) = \det M_n(x). Allora i p_n(x) sono ortogonali rispetto al prodotto scalare integrale.

Dimostrazione. Vediamo che \langle x^k, p_n(x) \rangle = 0 per k < n, per linearità seguirà l’ortogonalità:

\begin{aligned}
& \langle x^k, p_n(x) \rangle = \int_a^b x^k w(x) \det M_n(x) \mathrm{d}x \\[1em]
&= \int_a^b \det
    \begin{bmatrix} \mu_0 & \mu_1 & \dots & \mu_n \\
        \mu_1 & \mu_2 & \dots & \mu_{n+1} \\
        \vdots & \vdots & \ddots & \vdots \\
        \mu_{n-1} & \mu_n & \dots & \mu_{2n-1} \\
        x^k w(x) & x \cdot x^k w(x) & \dots & x^n \cdot x^k w(x)
    \end{bmatrix} \mathrm{d}x \\[1em]
&= \det
    \begin{bmatrix} \mu_0 & \mu_1 & \dots & \mu_n \\
        \mu_1 & \mu_2 & \dots & \mu_{n+1} \\
        \vdots & \vdots & \ddots & \vdots \\
        \mu_{n-1} & \mu_n & \dots & \mu_{2n-1} \\
        \int_a^b x^k w(x) \mathrm{d}x & \int_a^b x^{k+1} w(x) \mathrm{d}x & \dots & \int_a^b x^{k+n} w(x) \mathrm{d}x
    \end{bmatrix} \\[1em]
&= \det
    \begin{bmatrix} \mu_0 & \dots & \mu_n \\
        \vdots & \ddots & \vdots \\
        \mu_{n-1} & \dots & \mu_{2n-1} \\
        \mu_k & \dots & \mu_{k+n}
    \end{bmatrix} = 0
\end{aligned}

in quanto per k < n l’ultima riga coinciderà con una delle precedenti e dunque il determinante sarà nullo. \square

§ Definizione. Chiamiamo H_n = (h_{ij})_{i,j=1,\dots,n} con h_{ij} := \mu_{i+j-2}.

  • Avremo \mu_{i+j-2} = \langle x^{i-1}, x^{j-1} \rangle.
  • È costante lungo le anti-diagonali, quindi è anche simmetrica.
  • H_n è una matrice di Hankel.
  • L’inversa di una di queste matrici è di Bezout.
  • Per w(x) = 1 su [0, 1], H_n = \left( \frac{1}{i+j-1} \right) è detta matrice di Hilbert.

Formula di Rodrigues

§ Teorema. Sia s(x) \in C^n[a, b] tale che \forall k = 0, \dots, n-1, s^{(k)}(a) = s^{(k)}(b) = 0. Allora la funzione t(x) = s^{(n)}(x) / \omega(x) è ortogonale a ogni polinomio di grado al più n-1. Dunque

p_n(x) = \frac{\beta_n}{\omega(x)} \frac{\mathrm{d}^n}{\mathrm{d}x^n} s_n(x), \quad n \ge 0

con \beta_n \in \mathbb{R}, s_n(x) \in C^n[a, b], s_n^{(k)}(a) = s_n^{(k)}(b) = 0 per k = 0, \dots, n-1.

Dimostrazione. Sia q(x) un polinomio con \deg q(x) \le n-1. Allora:

\begin{aligned}
\langle q(x), s^{(n)}(x)/\omega(x) \rangle &= \int_a^b \omega(x) q(x) \frac{s^{(n)}(x)}{\omega(x)} \mathrm{d}x \\
&= \int_a^b q(x) s^{(n)}(x) \mathrm{d}x \\
&\stackrel{\text{int. per parti}}{=} \left[ q(x) s^{(n-1)}(x) \right]_a^b - \int_a^b q'(x) s^{(n-1)}(x) \mathrm{d}x \\
&\stackrel{\text{per ipotesi } s^{(k)}=0}{=} - \int_a^b q'(x) s^{(n-1)}(x) \mathrm{d}x \\
&\stackrel{\text{per parti ripet.}}{=} \dots = (-1)^n \int_a^b q^{(n)}(x) s(x) \mathrm{d}x = 0
\end{aligned}

poiché q ha grado \le n-1, quindi q^{(n)}(x) = 0. \square

Polinomi Ortogonali Notevoli

Legendre

  • \omega(x) = 1 su [-1, 1]
  • s_n(x) = (1 - x^2)^n

Chebyshev (I specie)

  • \omega(x) = (1 - x^2)^{-1/2} su [-1, 1]
  • s_n(x) = (1 - x^2)^{n-1/2} su [-1, 1]

Sono generati dalla seguente successione di ricorrenza:

\begin{cases}
T_{n+1}(x) = 2x T_n(x) - T_{n-1}(x), \quad n \ge 1 \\
T_0(x) = 1, T_1(x) = x
\end{cases}

§ Teorema. I polinomi T_n(x) definiti sopra verificano

T_n(\cos \theta) = \cos n\theta

Dimostrazione. Per induzione:

  1. Per n = 0, 1: verificato direttamente.
  2. Passo induttivo:
    \begin{aligned}
    T_{n+1}(\cos \theta) &= 2 \cos \theta \cos n\theta - \cos(n-1)\theta \\
    &= 2 \cos \theta \cos n\theta - (\cos n\theta \cos \theta + \sin n\theta \sin \theta) \\
    &= \cos \theta \cos n\theta - \sin n\theta \sin \theta = \cos(n+1)\theta
    \end{aligned}

Questo ci permette di verificare l’ortogonalità applicando la sostituzione x = \cos \theta negli integrali:

\begin{aligned}
\langle T_n, T_m \rangle &= \int_{-1}^{+1} \frac{1}{\sqrt{1-x^2}} T_n(x) T_m(x) \mathrm{d}x \\
&= \int_0^\pi \frac{1}{\sin \theta} \cos(n\theta) \cos(m\theta) \cdot \sin \theta \mathrm{d}\theta \\
&= \int_0^\pi \cos n\theta \cos m\theta \mathrm{d}\theta = \begin{cases} 0 & n \neq m \\ \pi & n = m = 0 \\ \pi/2 & n = m > 0 \end{cases}
\end{aligned}

\square

§ Teorema. Possiamo caratterizzare gli zeri di T_n(x):

x_k^{(n)} := \cos \frac{(2k-1)\pi}{2n}, \quad k = 1, \dots, n

ed i massimi/minimi sono assunti in t_k^{(n)} = \cos(k\pi/n) per k = 0, \dots, n.

Dimostrazione. Gli x_k^{(n)} sono tutti distinti e da T_n(\cos \theta) = \cos n\theta segue che T_n(x_k^{(n)}) = 0, quindi per motivi di grado sono tutti gli zeri di T_n(x). Inoltre T_n(\cos \theta) = \cos n\theta \Rightarrow T_n(x) \in [-1, 1], i cui estremi sono assunti \iff \cos(n\theta) = \pm 1 \iff n\theta = k\pi \iff \theta = \frac{k\pi}{n} con k = 0, \dots, n. \square

§ Teorema. Tra i polinomi monici di grado n con n \ge 1, quello che minimizza la norma infinito su [-1, 1] è

\frac{1}{2^{n-1}} T_n(x)

e vale che \left\| T_n(x) / 2^{n-1} \right\|_\infty = 1/2^{n-1} (ovvero \left\| T_n(x) \right\|_\infty = 1).

Dimostrazione. Per il teorema precedente, T_n(x) assume valore massimo/minimo in \pm 1 per n+1 volte \Rightarrow \|T_n(x)\|_\infty = 1 \Rightarrow \| T_n / 2^{n-1} \|_\infty = 1 / 2^{n-1}.

Se per assurdo esiste un polinomio monico diverso con norma infinito minore, detto p_n, possiamo scriverlo come:

p_n(x) = \frac{1}{2^{n-1}} T_n(x) + q(x)

con q(x) \neq 0 e di grado strettamente minore di n. Dunque per assurdo vale:

\left\| \frac{T_n(x)}{2^{n-1}} + q(x) \right\|_\infty < \frac{1}{2^{n-1}}

Consideriamo i punti minimi/massimi t_k^{(n)} di T_n, ricordiamo che \{t_k^{(n)}\}_{k=0}^n sono tutti distinti e decrescenti (ovvero t_0^{(n)} \gt \dots \gt t_n^{(n)}) per ogni k. Valutiamo la disuguaglianza in questi punti:

\left| \frac{T_n(t_k^{(n)})}{2^{n-1}} + q(t_k^{(n)}) \right| = \left| \frac{(-1)^k}{2^{n-1}} + q(t_k^{(n)}) \right| < \frac{1}{2^{n-1}}

\Rightarrow (-1)^k q(t_k^{(n)}) \le 0 \quad \forall k = 0, \dots, n.

Ora vorremmo mostrare che q(x) è il polinomio nullo. Intuivamente nei punti t_k^{(n)} il polinomio q(x) cambia segno perché assume valori di segno opposto, dunque cambia segno almeno n volte e avendo grado < n deve essere il polinomio nullo.

Questa argomentazione in realtà non basta perché q(t_k^{(n)}) \leq 0 e non q(t_k^{(n)}) \lt 0, quindi potrebbe essere zero per alcuni k e non cambiare segno (situazione in cui il polinomio ha uno zero di molteplicità pari in quel punto).

Riformuliamo dunque l’argomento passando dalla derivata q'(x):

  • Per k pari e 0 \leq k \leq n-2, si considera l’intervallo [t_{k+2}^{(n)}, t_k^{(n)}] in cui q(t_k^{(n)}) \le 0 e q(t_{k+2}^{(n)}) \le 0. Dunque q(x) ha un massimo locale in un punto m_k \in (t_{k+2}^{(n)}, t_k^{(n)}) con q'(m_k) = 0.

  • Per k dispari e 1 \leq k \leq n-1, si considera l’intervallo [t_{k+1}^{(n)}, t_{k-1}^{(n)}] ed analogamente si trova un punto m_k \in (t_{k+1}^{(n)}, t_{k-1}^{(n)}) questo volta di minimo locale con q'(m_k) = 0.

Dunque in totale abbiamo trovato n-1 punti m_k distinti in cui q'(m_k) = 0, ma se q(x) ha grado < n allora q'(x) ha grado < n-1 e non può avere n-1 zeri distinti a meno che non sia il polinomio nullo \Rightarrow q'(x) \equiv 0 \Rightarrow q(x) = \text{cost.}

Ma se q(x) \neq 0 che per k pari o dispari varrebbe:

\left| \frac{T_n(t_k^{(n)})}{2^{n-1}} + q(t_k^{(n)}) \right| = \frac{1}{2^{n-1}} + |q(t_k^{(n)})| > \frac{1}{2^{n-1}}

in base al segno di q, che è un assurdo. \square

Osservazione. La matrice associata è la seguente:

\begin{bmatrix} x & -1 & & \\ -1 & 2x & -1 & \\ & -1 & 2x & \ddots \\ & & \ddots & \ddots \end{bmatrix}

e la matrice simmetrica associata è

\frac{1}{2} \begin{bmatrix} 0 & \sqrt{2} & & \\ \sqrt{2} & 0 & 1 & \\ & 1 & \ddots & \ddots \\ & & \ddots & \ddots \end{bmatrix}

Chebyshev (II specie)

  • w(x) = (1 - x^2)^{1/2} su [-1, 1]
  • s_n(x) = (1 - x^2)^{n+1/2} su [-1, 1]

Laguerre

  • w(x) = e^{-x} su [0, +\infty]
  • s_n(x) = e^{-x} x^n

Hermite

  • w(x) = e^{-x^2} su [-\infty, +\infty]
  • s_n(x) = e^{-x^2}