Teoria della misura & integrazione

Nozioni di base di misura e integrazione

Ricordiamo le seguenti nozioni.

§ Definizione 1.1.1. Un insieme \mathcal{F} di parti di un dato insieme \Omega (ovvero \mathcal{F} è un sottoinsieme dell’insieme delle parti \mathcal{P}(\Omega) di \Omega) è una \sigma-algebra se

  • \Omega \in \mathcal{F}

  • se A \in \mathcal{F}, allora il complementare A^\complement \in \mathcal{F}

  • se (A_n)_{n \ge 1} \subset \mathcal{F}, allora \bigcup_n A_n \in \mathcal{F}

Osservazione 1.1.2. Nel contesto della definizione precedente, un insieme \mathcal{F} è una algebra se valgono le tre proprietà precedenti, con la specifica che la terza vale solo per un numero finito di insiemi.

Osservazione 1.1.3 (\sigma-algebra generata). Osserviamo che non è difficile verificare che l’intersezione di \sigma-algebre è una \sigma-algebra. Dato dunque \mathcal{I} \subset \mathcal{P}(\Omega), si definisce la \sigma-algebra generata da \mathcal{I} come l’intersezione di tutte le \sigma-algebre che contengono \mathcal{I}. Questa è la più piccola (per inclusione) \sigma-algebra che contiene \mathcal{I}, e si denota comunemente con \sigma(\mathcal{I}).

§ Definizione 1.1.4. Un insieme \mathcal{I} \subset \mathcal{P}(\Omega) è un \pi-sistema se \Omega \in \mathcal{I}1 e se \mathcal{I} è chiuso per intersezioni finite: se A, B \in \mathcal{I}, allora A \cap B \in \mathcal{I}.

§ Definizione 1.1.5. Un insieme \mathcal{M} \subset \mathcal{P}(\Omega) è una classe di Dynkin se

  • \Omega \in \mathcal{M}

  • se A, B \in \mathcal{M} e A \subset B, allora B \setminus A \in \mathcal{M} (chiusura per differenze crescenti di insiemi)

  • se (A_n)_{n \ge 1} \subset \mathcal{M}, e se A_n \subset A_{n+1} per ogni n, allora \bigcup_n A_n \in \mathcal{M} (chiusura per unioni numerabili crescenti)

Osserviamo che l’intersezione di classi di Dynkin è ancora una classe di Dynkin, e dunque, in analogia con la definizione di \sigma-algebra generata possiamo dare la seguente definizione.

§ Definizione. Dato un insieme \Omega, e

, si definisce la classe di Dynkin generata da un insieme \mathcal{I} \subset \mathcal{P}(\Omega) come l’intersezione di tutte le classi di Dynkin che contengono \mathcal{I}.

Inoltre una \sigma-algebra è una classe di Dynkin, ma in generale il viceversa non è vero (vedi Esempio 1.1.8).

Teorema 1.1.6 (Lemma di Dynkin). Sia \mathcal{I} \subset \mathcal{P}(\Omega) un \pi-sistema. Allora la classe di Dynkin \mathcal{M} generata da \mathcal{I} è una \sigma-algebra.

Dimostrazione. Poiché \Omega \in \mathcal{M} e \mathcal{M} è stabile per passaggio al complementare (infatti A^\complement = \Omega \setminus A), è sufficiente provare che \mathcal{M} è stabile per intersezioni finite. In effetti di conseguenza \mathcal{M} è stabile per unioni finite, e quindi per unioni numerabili poiché è una classe di Dynkin, in quanto

\bigcup_n A_n = \bigcup_n \left( \bigcup_{k=1}^n A_k \right).

Verifichiamo dunque che \mathcal{M} è chiuso per intersezioni finite. Mostriamo preliminarmente che se B \in \mathcal{I} e C \in \mathcal{M}, allora B \cap C \in \mathcal{M}. Infatti, fissato B \in \mathcal{I}, se \mathcal{C} = \{C \in \mathcal{M} : B \cap C \in \mathcal{M}\}, allora \mathcal{C} è una classe di Dynkin che contiene \mathcal{I}, e dunque \mathcal{C} = \mathcal{M}. In effetti \mathcal{I} \subset \mathcal{C} per ipotesi. Se poi C_1, C_2 \in \mathcal{C} e C_1 \subset C_2, allora (C_2 \setminus C_1) \cap B = (C_2 \cap B) \setminus (C_1 \cap B) \in \mathcal{M}. Infine, se (C_n)_{n \ge 1} \subset \mathcal{C} è una successione crescente per inclusione, allora anche (C_n \cap B)_{n \ge 1} è crescente per inclusione e

\left( \bigcup C_n \right) \cap B = \bigcup C_n \cap B \in \mathcal{M}.

Analogamente si dimostra che se B \in \mathcal{M}, e se \mathcal{C}' = \{C \in \mathcal{M} : B \cap C \in \mathcal{M}\}, allora \mathcal{C}' è una classe di Dynkin che contiene \mathcal{I}, dunque \mathcal{C}' = \mathcal{M} e la dimostrazione è conclusa. \square

Poiché una \sigma-algebra è una classe di Dynkin, si può dare una conclusione più precisa.

§ Corollario 1.1.7. Nel contesto del Teorema 1.1.6, la classe di Dynkin generata da \mathcal{I} è uguale a \sigma(\mathcal{I}), la più piccola \sigma-algebra generata da \mathcal{I}.

Dimostrazione. La conclusione segue immediatamente dall’osservazione che una \sigma-algebra è una classe di Dynkin. \square

Esempio 1.1.8. Osserviamo che il teorema precedente è in generale non banale, nel senso che esistono classi di Dynkin che non sono \sigma-algebre. Ad esempio, se \Omega = \{a, b, c, d\}, l’insieme \mathcal{M} = \{\varnothing, \{a, b\}, \{b, c\}, \{c, d\}, \{a, d\}, \Omega\} è una classe di Dynkin, ma non una \sigma-algebra. L’esempio vale più in generale per \Omega finito e di cardinalità pari, con \mathcal{M} la classe dei sottoinsiemi di \Omega di cardinalità pari. Per un esempio su un insieme infinito, si consideri \Omega = \mathbb{R} e un intero M \ge 1. L’insieme \mathcal{M} = \{A \in \mathcal{B}(\mathbb{R}) : \ell(A \cap [0, M]) \text{ è un intero}\}, dove \ell è la misura di Lebesgue, è una classe di Dynkin ma non una \sigma-algebra.

La dimostrazione della seguente caratterizzazione è elementare.

§ Lemma 1.1.9. Dati uno spazio misurabile (\Omega, \mathcal{F}) e \mathcal{M} \subset \mathcal{F}, l’insieme \mathcal{M} è una classe di Dynkin se e solo se

  • \varnothing \in \mathcal{M}

  • se A \in \mathcal{M}, allora A^\complement \in \mathcal{M}

  • se (A_n)_{n \ge 0} \subset \mathcal{M} sono a due a due disgiunti, allora \bigcup_n A_n \in \mathcal{M}.

Vediamo ora due conseguenze immediate, che saranno utili nel seguito. Premettiamo la seguente definizione.

§ Definizione 1.1.10. Dato uno spazio misurabile (\Omega, \mathcal{F}), una misura è una funzione \mu : \mathcal{F} \to [0, \infty] tale che,

  • \mu(A) \ge 0 per ogni A \in \mathcal{F}

  • (\sigma-additività) per ogni famiglia numerabile (A_n)_{n \ge 0} di elementi di \mathcal{F} a due a due disgiunti (A_i \cap A_j = \varnothing per ogni i \neq j),

    \mu\left(\bigcup_{n \ge 0} A_n\right) = \sum_{n=0}^\infty \mu(A_n).

Una misura \mu si dice

  • \sigma-finita se \Omega è unione numerabile di insiemi (di \mathcal{F}) di misura finita,

  • finita se \mu(\Omega) < \infty,

  • probabilità se \mu(\Omega) = 1.

§ Corollario 1.1.11. Dato uno spazio di misura (\Omega, \mathcal{F}), sia \mathcal{I} un \pi-sistema che genera \mathcal{F}. Se \mathbb{P}_1, \mathbb{P}_2 sono due probabilità su (\Omega, \mathcal{F}) tali che \mathbb{P}_1[A] = \mathbb{P}_2[A] per ogni A \in \mathcal{I}, allora \mathbb{P}_1 = \mathbb{P}_2.

Dimostrazione. L’insieme

\{A \in \mathcal{F} : \mathbb{P}_1[A] = \mathbb{P}_2[A]\}

è una classe di Dynkin che contiene \mathcal{I}. \square

Ricordiamo che dati due spazi misurabili (E_1, \mathcal{E}_1) e (E_2, \mathcal{E}_2), la \sigma-algebra prodotto \mathcal{E}_1 \otimes \mathcal{E}_2 tra \mathcal{E}_1 e \mathcal{E}_2 è la \sigma-algebra su E_1 \times E_2 generata dall’insieme (dei rettangoli) \{A_1 \times A_2 : A_1 \in \mathcal{E}_1, A_2 \in \mathcal{E}_2\}. Osserviamo che quest’ultimo insieme è un \pi-sistema.

§ Corollario 1.1.12. Se C \in \mathcal{E}_1 \otimes \mathcal{E}_2, allora per ogni x \in E_1 la sezione C_x = \{y \in E_2 : (x, y) \in C\} è un elemento di \mathcal{E}_2. Analogo risultato vale per la sezione C_y \in \mathcal{E}_1.

Dimostrazione. L’insieme degli elementi di \mathcal{E}_1 \times \mathcal{E}_2 che soddisfano la proprietà richiesta contiene i rettangoli ed è una classe di Dynkin. \square

Il teorema della classe monotona

Una variante del Lemma di Dynkin è il teorema della classe monotona, che presenta ipotesi leggermente differenti ed una analoga conclusione.

§ Definizione 1.1.13. Dato un insieme \Omega, un insieme \mathcal{M} \subset \mathcal{P}(\Omega) è una classe monotona se

  • se (A_n)_{n \ge 0} \subset \mathcal{M} è una famiglia numerabile crescente per inclusione, allora \bigcup_n A_n \in \mathcal{M}

  • se (A_n)_{n \ge 0} \subset \mathcal{M} è una famiglia numerabile decrescente per inclusione, allora \bigcap_n A_n \in \mathcal{M}

Osservazione 1.1.14. Una classe di Dynkin è una classe monotona, ma in generale il viceversa non è vero. Ad esempio, se \Omega = \{a, b\}, allora \mathcal{M} = \{\varnothing, \{a\}, \{a, b\}\} è una classe monotona, ma non una classe di Dynkin.

Si osservi che, come nel caso di \sigma-algebre o classi di Dynkin, si può verificare elementarmente che l’intersezione di classi monotone è ancora una classe monotona. Si definisce dunque, in maniera analoga a quanto fatto in precedenza per \sigma-algebre o classi di Dynkin, la classe monotona generata da una collezione di insiemi.

§ Teorema 1.1.15 (Classe monotona). Se \mathcal{A} è una algebra su un insieme \Omega, allora la classe monotona generata da \mathcal{A} è una \sigma-algebra (infatti la \sigma-algebra generata da \mathcal{A}).

Versione funzionale del Lemma di Dynkin

Il Lemma di Dynkin si può reinterpretare in una versione “funzionale”. Premettiamo il seguente risultato di approssimazione. A tal fine definiamo la nozione di funzione semplice. Se (\Omega, \mathcal{F}) è uno spazio di misura, una funzione misurabile reale f : \Omega \to \mathbb{R} si dice semplice se esistono un intero n \ge 1, a_1, a_2, \dots, a_n \in \mathbb{R} e A_1, A_2, \dots, A_n \in \mathcal{F} tali che

f = \sum_{i=1}^n a_i \bbone_{A_i}.

§ Proposizione 1.1.16. Se f : \Omega \to \mathbb{R} è misurabile positiva, allora esiste una successione (f_n)_{n \ge 1} di funzioni semplici positive tali che f_n \uparrow f. La convergenza è uniforme se f è limitata.

Dimostrazione. Supponiamo f limitata e M = \sup f. Per ogni n si ponga

f_n(\omega) = \sum_{k=0}^{\lfloor 2^n M \rfloor} \frac{k}{2^n} \bbone_{\left[ \frac{k}{2^n}, \frac{k+1}{2^n} \right)}(f(\omega)), \qquad \omega \in \Omega,

dove \lfloor \cdot \rfloor è la parte intera (il più grande intero più piccolo dell’argomento). Fissato n, per ogni \omega \in \Omega, esiste un unico k \in \{0, 1, \dots, \lfloor 2^n M \rfloor\} tale che f(x) \in \left[ \frac{k}{2^n}, \frac{k+1}{2^n} \right), in tal caso f_n(x) = \frac{k}{2^n}, e dunque

f_n(x) \le f(x) \le f_n(x) + \frac{1}{2^n},

da cui segue la convergenza uniforme. Per mostrare che la successione è monotona crescente, è sufficiente osservare che

\left[ \frac{k}{2^n}, \frac{k+1}{2^n} \right) = \left[ \frac{2k}{2^{n+1}}, \frac{2k+1}{2^{n+1}} \right) \cup \left[ \frac{2k+1}{2^{n+1}}, \frac{2k+2}{2^{n+1}} \right),

che sull’intervallo a sinistra nella formula precedente vale f_n = \frac{k}{2^n}, mentre f_{n+1} = f_n sul primo intervallo a destra, e f_{n+1} = \frac{2k+1}{2^{n+1}} > f_n sul secondo intervallo.

Se invece f non è limitata, è sufficiente definire, per n intero e \omega \in \Omega,

f_n(\omega) = n \bbone_{[n, \infty)}(f(x)) + \sum_{k=0}^{n 2^n - 1} \frac{k}{2^n} \bbone_{\left[ \frac{k}{2^n}, \frac{k+1}{2^n} \right)}(f(\omega)).

La dimostrazione che tale successione è monotona crescente e converge (puntualmente) a f usa argomenti analoghi al caso di f limitata. \square

§ Teorema 1.1.17 (versione funzionale del teorema della classe monotona). Dato uno spazio di misura (\Omega, \mathcal{F}), sia \mathcal{I} un \pi-sistema che genera \mathcal{F}. Sia poi \mathcal{H} un insieme di funzioni misurabili reali su (\Omega, \mathcal{F}) tali che

  • \bbone_A \in \mathcal{H} per ogni A \in \mathcal{I}

  • \mathcal{H} è uno spazio vettoriale

  • se (f_n)_{n \ge 1} \subset \mathcal{H}, con f_n \ge 0 per ogni n, e se f_n \uparrow f per una funzione (reale, misurabile, positiva) limitata f, allora f \in \mathcal{H}

Allora \mathcal{H} contiene tutte le funzioni misurabili reali limitate su (\Omega, \mathcal{F}).

Dimostrazione. L’insieme \{A \in \mathcal{F} : \bbone_A \in \mathcal{H}\} è una classe di Dynkin che contiene \mathcal{I}, dunque è uguale a \mathcal{F}. Di conseguenza \mathcal{H} contiene tutte le funzioni semplici positive e, in virtù del lemma precedente, tutte le funzioni reali misurabili limitate positive. Infine, ogni funzione misurabile reale limitata f si scrive come differenza di funzioni positive, f = f_+ - f_-, dove x_+ = \max(x, 0), e x_- = \max(-x, 0). \square

Il teorema di estensione di Caratheodory

Se \mathcal{A} è un’algebra di parti di un insieme \Omega, una funzione \mathbb{m} : \mathcal{A} \to [0, \infty] è detta

Ricordiamo che se \mathbb{m} è additiva, la \sigma-additività equivale alla proprietà di passaggio al limite sulle successioni crescenti di insiemi, cioè se A_n \uparrow A allora \mathbb{m}(A_n) \uparrow \mathbb{m}(A). Viceversa la proprietà di passaggio al limite sulle successioni decrescenti (cioè A_n \downarrow A \implies \mathbb{m}(A_n) \downarrow \mathbb{m}(A)) (unita alla additività semplice) è più forte della \sigma-additività, ed è equivalente ad essa se \mathbb{m}(\Omega) < +\infty.

§ Teorema 1.2.1 (Teorema di Caratheodory). Sia \mathbb{P} una funzione \sigma-additiva definita su un’algebra \mathcal{A} di parti di un insieme \Omega tale che \mathbb{P}(\Omega) = 1 : \mathbb{P} si prolunga (in un sol modo) alla \sigma-algebra \mathcal{F} generata da \mathcal{A}.

Prima di dimostrare il teorema, introduciamo alcuni risultati preliminari.

§ Lemma 1.2.2. Siano (A_n)_{n \ge 1} e (A'_n)_{n \ge 1} due famiglie crescenti di elementi di \mathcal{A} e supponiamo che si abbia \bigcup_{n \ge 1} A_n \subseteq \bigcup_{n \ge 1} A'_n : allora vale la disuguaglianza

\lim_{n \to \infty} \mathbb{P}(A_n) \le \lim_{n \to \infty} \mathbb{P}(A'_n)

Dimostrazione. Per ogni fissato n si ha A_n = \bigcup_{m \ge 1} (A_n \cap A'_m) e di conseguenza \mathbb{P}(A_n) = \lim_{m \to \infty} \mathbb{P}(A_n \cap A'_m) \le \lim_{m \to \infty} \mathbb{P}(A'_m). È facile a questo punto completare la dimostrazione. \square

Indichiamo con \mathcal{B} la classe degli insiemi che siano unione di una successione crescente di elementi di \mathcal{A},

\mathcal{B} = \left\{ \bigcup_n A_n : (A_n)_{n \ge 0} \subset \mathcal{A}, A_n \subset A_{n+1} \text{ per ogni } n \right\},

e definiamo, se B = \bigcup_{n \ge 1} A_n e A_n \subseteq A_{n+1},

\mathbb{P}(B) = \lim_{n \to \infty} \mathbb{P}(A_n).

Il Lemma 1.2.2 mostra che questa definizione prolunga la funzione d’insieme \mathbb{P} da \mathcal{A} a \mathcal{B} in modo non ambiguo, cioè non dipende dalla particolare successione crescente (A_n)_{n \ge 1} di insiemi scelta per rappresentare B.

§ Lemma 1.2.3. La funzione \mathbb{P} definita su \mathcal{B} gode delle seguenti proprietà:

  • se B_n \uparrow B, \mathbb{P}(B_n) \uparrow \mathbb{P}(B);

  • se B_1, B_2 sono elementi di \mathcal{B}, anche (B_1 \cup B_2) e (B_1 \cap B_2) sono elementi di \mathcal{B} e vale l’eguaglianza

    \mathbb{P}(B_1 \cup B_2) + \mathbb{P}(B_1 \cap B_2) = \mathbb{P}(B_1) + \mathbb{P}(B_2).

In particolare \mathbb{P} definita su \mathcal{B} è \sigma-additiva.

Dimostrazione. Cominciamo a provare la prima affermazione: per ogni n, scriviamo B_n = \bigcup_{m \ge 1} B_{n,m} e definiamo D_n = B_{1,n} \cup \dots \cup B_{n,n}. Per ogni n, D_n \subseteq B_n e quindi \lim_{n \to \infty} \mathbb{P}(D_n) \le \lim_{n \to \infty} \mathbb{P}(B_n). Viceversa D_n \uparrow B (poiché D_n \supseteq B_{k,n} qualunque sia k \le n), e quindi \lim_{n \to \infty} \mathbb{P}(B_n) \ge \mathbb{P}(B). poiché la disuguaglianza nell’altro senso è immediata, segue l’eguaglianza. Proviamo ora la seconda affermazione: consideriamo due successioni crescenti di elementi di \mathcal{A} tali che B_{1,n} \uparrow B_1 e B_{2,n} \uparrow B_2. Per ogni n fissato vale l’eguaglianza

\mathbb{P}(B_{1,n} \cup B_{2,n}) + \mathbb{P}(B_{1,n} \cap B_{2,n}) = \mathbb{P}(B_{1,n}) + \mathbb{P}(B_{2,n})

Questa eguaglianza va al limite e si conclude. \square

In particolare la prima proprietà del lemma precedente suggerisce che, se si vuole estendere la probabilità \mathbb{P} ad un insieme più ampio di \mathcal{B}, allora è necessaria un’altra strategia. Pertanto, si definisce, dato C \subseteq \Omega,

\mathbb{P}^*(C) = \inf\{\mathbb{P}(B) : B \in \mathcal{B}, C \subset B\}.

Dalla definizione segue immediatamente che \mathbb{P}^* ristretta a \mathcal{B} coincide con \mathbb{P}.

§ Proposizione 1.2.4. La funzione d’insieme \mathbb{P}^* gode delle seguenti proprietà:

  1. per ogni C, si ha 0 \le \mathbb{P}^*(C) \le 1

  2. se C_1 \subseteq C_2, allora \mathbb{P}^*(C_1) \le \mathbb{P}^*(C_2)

  3. se C_n \uparrow C, allora \mathbb{P}^*(C_n) \uparrow \mathbb{P}^*(C)

  4. \mathbb{P}^*(C_1 \cup C_2) + \mathbb{P}^*(C_1 \cap C_2) \le \mathbb{P}^*(C_1) + \mathbb{P}^*(C_2)

Dimostrazione. Le proprietà 1) e 2) sono evidenti; proviamo ora 3). Da una parte è evidente che \lim_{n \to \infty} \mathbb{P}^*(C_n) \le \mathbb{P}^*(C). Per provare la disuguaglianza opposta, dato \varepsilon > 0, sia B_n \in \mathcal{B} con B_n \supseteq C_n e \mathbb{P}(B_n) \le \mathbb{P}^*(C_n) + \frac{\varepsilon}{2^n}, e poniamo D_n = B_1 \cup \dots \cup B_n e D = \bigcup_{n \ge 1} D_n. Proviamo per induzione la disuguaglianza

\mathbb{P}(D_n) \le \mathbb{P}^*(C_n) + \sum_{k=1}^n \frac{\varepsilon}{2^k}

Supponiamo che questa disuguaglianza (ovviamente verificata per n=1) sia vera per n: si ha

\begin{aligned}
\mathbb{P}(D_{n+1}) &= \mathbb{P}(D_n \cup B_{n+1}) = \mathbb{P}(D_n) + \mathbb{P}(B_{n+1}) - \mathbb{P}(D_n \cap B_{n+1}) \le \\
&\le \mathbb{P}^*(C_n) + \sum_{k=1}^n \frac{\varepsilon}{2^k} + \mathbb{P}^*(C_{n+1}) + \frac{\varepsilon}{2^{n+1}} - \mathbb{P}^*(C_n) \\
&= \mathbb{P}^*(C_{n+1}) + \sum_{k=1}^{n+1} \frac{\varepsilon}{2^k}
\end{aligned}

Di conseguenza

\mathbb{P}^*(C) \le \mathbb{P}(D) = \lim_{n \to \infty} \mathbb{P}(D_n) \le \lim_{n \to \infty} \mathbb{P}^*(C_n) + \varepsilon.

Ne segue la disuguaglianza voluta. Proviamo ora 4): dato \varepsilon > 0, scegliamo B_i \in \mathcal{B} con B_i \supseteq C_i e \mathbb{P}(B_i) \le \mathbb{P}^*(C_i) + \varepsilon/2. Si ha,

\begin{aligned}
\mathbb{P}^*(C_1 \cup C_2) + \mathbb{P}^*(C_1 \cap C_2) &\le \mathbb{P}(B_1 \cup B_2) + \mathbb{P}(B_1 \cap B_2) = \\
&= \mathbb{P}(B_1) + \mathbb{P}(B_2) \le \mathbb{P}^*(C_1) + \mathbb{P}^*(C_2) + \varepsilon
\end{aligned}

poiché questa disuguaglianza è verificata per ogni \varepsilon positivo, segue la tesi. \square

Notiamo che, se C \subseteq \Omega, vale la disuguaglianza \mathbb{P}^*(C) + \mathbb{P}^*(C^\complement) \ge 1 : poniamo allora

\mathcal{C} = \{C \subseteq \Omega \mid \mathbb{P}^*(C) + \mathbb{P}^*(C^\complement) = 1\}

e notiamo che \mathcal{C} \supseteq \mathcal{B} \supseteq \mathcal{A}.

§ Teorema 1.2.5. L’insieme \mathcal{C} è una \sigma-algebra, inoltre \mathbb{P}^* ristretta a \mathcal{C} è \sigma-additiva.

Dimostrazione. È evidente che \mathcal{C} è stabile per passaggio al complementare: mostriamo che è stabile per unione e intersezione finita. Siano C_1 e C_2 elementi di \mathcal{C} : valgono le disuguaglianze

\mathbb{P}^*(C_1 \cup C_2) + \mathbb{P}^*(C_1 \cap C_2) \le \mathbb{P}^*(C_1) + \mathbb{P}^*(C_2)
\mathbb{P}^*((C_1 \cup C_2)^\complement) + \mathbb{P}^*((C_1 \cap C_2)^\complement) \le \mathbb{P}^*(C_1^\complement) + \mathbb{P}^*(C_2^\complement).

Sommando, a destra si ottiene 2: quindi tutte le disuguaglianze devono essere eguaglianze e \mathbb{P}^* è finitamente additiva. Tuttavia \mathbb{P}^* è allora \sigma-additiva poiché va al limite sulle successioni monotone di insiemi. Rimane da provare che \mathcal{C} è stabile per unione crescente: sia (C_n)_{n \ge 1} una successione di elementi di \mathcal{C} con C_n \uparrow C (e di conseguenza C_n^\complement \downarrow C^\complement ). Per ogni n si ha

\mathbb{P}^*(C_n) + \mathbb{P}^*(C^\complement) \le \mathbb{P}^*(C_n) + \mathbb{P}^*(C_n^\complement) = 1

e, al limite,

\mathbb{P}^*(C) + \mathbb{P}^*(C^\complement) = 1

e questo conclude la dimostrazione. \square

Il Teorema 1.2.1 è una conseguenza del Teorema 1.2.5. In generale però \mathcal{F} \subseteq \mathcal{C}. In effetti \mathcal{C} è una \sigma-algebra completa, contiene cioè tutti i sottoinsiemi di un evento di probabilità nulla. Infatti se \mathbb{P}^*[A] = 0, allora

\mathbb{P}^*[A] + \mathbb{P}^*[A^\complement] = \mathbb{P}^*[A^\complement] \le 1,

e quindi A \in \mathcal{C}.

Estensione a misure \sigma-finite

Il Teorema 1.2.1 è valido anche per le misure \sigma-finite, ed in questa sezione indichiamo solo le modifiche necessarie ad adattare il risultato a tali misure. In effetti il Teorema 1.2.1 si estende ad una funzione \mu \sigma-additiva definita su una algebra \mathcal{A} di parti di \Omega e la dimostrazione rimane quasi identica con una sola importante modifica. La classe \mathcal{C} = \{C \subseteq \Omega : \mathbb{P}^*(C) + \mathbb{P}^*(C^\complement) = 1\} deve essere sostituita dalla classe degli insiemi misurabili secondo Caratheodory: A è detto misurabile secondo Caratheodory se per ogni altro sottoinsieme B di \Omega si ha

\mu^*(B) = \mu^*(A \cap B) + \mu^*(A^\complement \cap B),

dove \mu^* è definita come \mathbb{P}^*.

Esempio 1.2.6 (misura di Lebesgue). La misura di Lebesgue si può costruire con una variante del Teorema 1.2.1 di Caratheodory basata su semi-algebre. Un insieme \mathcal{S} di parti è una semi-algebra se

  • \varnothing \in \mathcal{S}

  • \mathcal{S} è chiusa per intersezioni finite

  • il complementare di un elemento di \mathcal{S} è unione finita disgiunta di elementi di \mathcal{S}

Come semi-algebra si può ad esempio considerare \{[a, b) : -\infty \le a \le b \le \infty\}.

Esempio 1.2.7 (misura non \sigma-finita). La cardinalità è una misura \sigma-additiva sullo spazio misurabile (\mathbb{R}, \mathcal{P}(\mathbb{R})), che non è \sigma-finita.

Costruzione canonica di una successione numerabile di lanci

Mostriamo come sia possibile usare il teorema di estensione per costruire successioni di variabili con una data legge. In questa parte ci concentriamo su un caso elementare, e discuteremo il caso generale nel prossimo capitolo. Risolviamo dunque il problema di costruire uno spazio di probabilità che modelli il lancio di infinite monete, con probabilità p \in (0, 1) di ottenere testa (ovvero con distribuzione di Bernoulli di parametro p). Poniamo \Omega = \{0, 1\}^{\mathbb{N}_*}, e definiamo la collezione \mathcal{A} degli insiemi

\{\omega = (\omega_n)_{n \ge 1} : (\omega_n)_{n \in J} \in B\},

al variare di J \subset \mathbb{N}_* finito e B \subset \{0, 1\}^J. In altre parole un insieme di \mathcal{A} è determinato dai risultati su un numero finito di lanci (quelli corrispondenti agli indici in J). La verifica che \mathcal{A} è una algebra è elementare. Definiamo su \mathcal{A} la seguente funzione di insiemi,

\mathbb{P}[A] = \sum_{\omega \in A} \prod_{n \in J} p^{\omega_n} (1-p)^{1-\omega_n}.

Si può dimostrare che \mathbb{P} è una funzione \sigma-additiva su \mathcal{A}, dunque si estende univocamente ad una probabilità, che continuiamo a denotare con \mathbb{P}, su \sigma(\mathcal{A}). Osserviamo che, per un fissato J = \{n_1, n_2, \dots, n_k\} e valori x_1, x_2, \dots, x_k \in \{0, 1\},

\mathbb{P}[\{\omega : \omega_{n_1} = x_1, \omega_{n_2} = x_2, \dots, \omega_{n_k} = x_k\}] = \prod_{i=1}^k p^{x_i} (1-p)^{1-x_i},

e dunque si modellano infiniti lanci indipendenti di una moneta. Questo ci da anche ragione del motivo per cui non funziona cercare di definire direttamente la legge congiunta di un numero infinito di monete, perché in tal caso il prodotto nella formula precedente convergerebbe a 0. Tale conclusione era da attendersi perché \Omega ha la potenza del continuo.

Costruzione di successioni di variabili dipendenti

Si vuole ora applicare il Teorema 1.2.1 di Caratheodory alla costruzione di successioni di variabili (opportunamente) dipendenti. Per capire meglio le definizioni astratte seguenti, si considerino tre variabili aleatorie discrete (X_1, X_2, X_3), allora la legge di (X_1, X_2, X_3) è

\mathbb{P}[X_1 \in A_1, X_2 \in A_2, X_3 \in A_3] =
\tiny = \sum_{x_0 \in A_1} \left( \sum_{x_1 \in A_2} \left( \sum_{x_2 \in A_3} \mathbb{P}[X_3 = x_2 \mid X_1 = x_0, X_2 = x_1] \right) \mathbb{P}[X_2 = x_1 \mid X_1 = x_0] \right) \mathbb{P}[X_1 = x_0],

ed i termini \mathbb{P}[X_1 \in \cdot], \mathbb{P}[X_2 \in \cdot \mid X_1 = x_0], \mathbb{P}[X_3 \in \cdot \mid X_1 = x_0, X_2 = x_1] sono nuclei di probabilità nel senso della definizione seguente.

§ Definizione 1.2.8 Dati due spazi misurabili (\Omega_1, \mathcal{F}_1), (\Omega_2, \mathcal{F}_2), un nucleo di probabilità da \Omega_1 a \Omega_2 è una funzione k : \Omega_1 \times \mathcal{F}_2 \to [0, \infty) tale che

  • per ogni B \in \mathcal{F}_2, x \mapsto k(x, B) è \mathcal{F}_1 misurabile

  • per ogni x \in \Omega_1, k(x, \cdot) è una probabilità su (\Omega_2, \mathcal{F}_2)

Si osservi che una probabilità può essere interpretata come un nucleo di probabilità costante rispetto alla prima variabile.

§ Definizione 1.2.9 Dati gli spazi misurabili (\Omega_1, \mathcal{F}_1), (\Omega_2, \mathcal{F}_2), (\Omega_3, \mathcal{F}_3), un nucleo k_1 da \Omega_1 a \Omega_2 e un nucleo k_2 da \Omega_1 \times \Omega_2 a \Omega_3, il nucleo k_1 \otimes k_2, da \Omega_1 a \Omega_2 \times \Omega_3 è definito come

k_1 \otimes k_2(x, B) = \int \left( \int \bbone_B(y, z) k_2((x, y), dz) \right) k_1(x, dy).

§ Teorema 1.2.10 (Ionescu-Tulcea). Siano dati una famiglia (\Omega_n, \mathcal{F}_n)_{n \ge 0} di spazi misurabili, una probabilità k_0 su \Omega_0, e per ogni n \ge 1 un nucleo k_n da \prod_{i=0}^{n-1} \Omega_i a \Omega_n. Allora esiste una probabilità \mathbb{P} su \prod_{n=0}^\infty \Omega_n tale che per ogni n la misura immagine di \mathbb{P} rispetto alla proiezione su \prod_{i=0}^n \Omega_n è \bigotimes_{i=0}^n k_i.

Completamento di una probabilità

In questa sezione esponiamo il completamento di una \sigma-algebra rispetto ad una probabilità. Sia (\Omega, \mathcal{F}, \mathbb{P}) uno spazio di probabilità e chiamiamo \mathcal{N} la famiglia dei sottoinsiemi A \subseteq \Omega tali che esiste B \in \mathcal{F} con A \subseteq B e \mathbb{P}[B] = 0. Gli elementi di \mathcal{N} sono chiamati gli insiemi trascurabili di \mathbb{P}. Si verifica elementarmente che, se A \in \mathcal{N} e B \subseteq A anche B \in \mathcal{N}, inoltre \mathcal{N} è stabile per unione numerabile. Indichiamo con \mathcal{F}^\mathbb{P} = \sigma(\mathcal{F} \cup \mathcal{N}) la \sigma-algebra generata da \mathcal{F} e da \mathcal{N}. Questa è chiamata il completamento di \mathcal{F} rispetto alla probabilità \mathbb{P}. Vale la seguente caratterizzazione.

§ Teorema 1.3.1. Un sottoinsieme A \subseteq \Omega appartiene a \mathcal{F}^\mathbb{P} se e solo se esistono B, C \in \mathcal{F} tali che B \subseteq A \subseteq C e \mathbb{P}(C \setminus B) = 0. Inoltre \mathbb{P} si estende in uno ed in un sol modo ad una probabilità su \mathcal{F}^\mathbb{P} ponendo, per A, B, C come sopra \mathbb{P}(A) = \mathbb{P}(B) = \mathbb{P}(C).

Dimostrazione. Sia

\mathcal{G} = \{A \subset \Omega : \text{esistono } B, C \in \mathcal{F}, B \subset A \subset C, \mathbb{P}[C \setminus B] = 0\}.

Notiamo preliminarmente che \mathcal{G} \subset \mathcal{F}^\mathbb{P}. In effetti se A \in \mathcal{G}, allora A = B \cup (A \setminus B), con B \in \mathcal{F} e A \setminus B \in \mathcal{N}, in quanto A \setminus B \subset C \setminus B. Inoltre si verifica elementarmente che \mathcal{F} \cup \mathcal{N} \subset \mathcal{G}. Infatti, \mathcal{F} \subset \mathcal{G} (se A \in \mathcal{F}, si considera B = C = A) e \mathcal{N} \subset \mathcal{G} (se A \in \mathcal{N}, B = \varnothing, A \subset C e \mathbb{P}[C] = 0), dunque \mathcal{F}^\mathbb{P} \subset \mathcal{G}. Per concludere dunque è sufficiente mostrare che \mathcal{G} è una \sigma-algebra. Si verifica immediatamente che se A \in \mathcal{G}, anche A^\complement \in \mathcal{G}. Infatti se B \subseteq A \subseteq C, allora C^\complement \subseteq A^\complement \subseteq B^\complement e B^\complement \setminus C^\complement = C \setminus B. Verifichiamo ora la stabilità per unione numerabile. Se, per ogni n, B_n \subseteq A_n \subseteq C_n, con \mathbb{P}(C_n \setminus B_n) = 0, allora

\bigcup_{n \ge 1} B_n \subseteq \bigcup_{n \ge 1} A_n \subseteq \bigcup_{n \ge 1} C_n

e si ha

\left( \bigcup_{n \ge 1} C_n \right) \setminus \left( \bigcup_{n \ge 1} B_n \right) \subseteq \bigcup_{n \ge 1} (C_n \setminus B_n)

che è trascurabile. Infine verifichiamo che \mathbb{P} si estende univocamente a \mathcal{F}^\mathbb{P}. Se infatti B \subseteq A \subseteq C e B' \subseteq A \subseteq C', con \mathbb{P}[C \setminus B] = \mathbb{P}[C' \setminus B'] = 0, allora \mathbb{P}[B'] \le \mathbb{P}[C] e \mathbb{P}[B] \le \mathbb{P}[C'], da cui \mathbb{P}[B] = \mathbb{P}[C] = \mathbb{P}[B'] = \mathbb{P}[C']. Infine, la verifica che l’estensione rimane una probabilità su \mathcal{F}^\mathbb{P} è elementare e omessa. \square

Il nome completamento deriva dalla proprietà che se A \in \mathcal{F}^\mathbb{P}, con \mathbb{P}(A) = 0 e B \subseteq A, allora anche B \in \mathcal{F}^\mathbb{P}. Se A \in \mathcal{F}^\mathbb{P}, si dice che A è \mathbb{P}-misurabile.

Osservazione 1.3.2. Il completamento di una \sigma-algebra \mathcal{E} su insieme E rispetto ad una misura discreta è sempre la famiglia di tutti i sottoinsiemi di E.

Su \mathbb{R}, o più in generale su \mathbb{R}^n, il completamento della \sigma-algebra di Borel rispetto alla misura di Lebesgue coincide con la famiglia degli insiemi misurabili secondo Lebesgue. Inoltre l’intersezione delle \sigma-algebre \mathcal{B}(\mathbb{R}^n)^\mu al variare di tutte le misure \sigma-finite \mu è chiamata la \sigma-algebra degli insiemi universalmente misurabili.

Teoria dell’integrazione di variabili aleatorie reali

L’esposizione di questo paragrafo è ristretta all’integrazione rispetto ad una probabilità, tuttavia praticamente tutti i risultati sono validi per l’integrazione rispetto a una misura \sigma-finita, con modifiche marginali nelle dimostrazioni. Ricordiamo che una variabile aleatoria su un dato spazio di probabilità (\Omega, \mathcal{F}, \mathbb{P}) a valori in uno spazio di misura (E, \mathcal{E}) è una funzione X : \Omega \to E misurabile rispetto alle \sigma-algebre \mathcal{F} e \mathcal{E}, ovvero

X^{-1}(A) \in \mathcal{F}, \qquad \text{per ogni } A \in \mathcal{E}.

Osserviamo che con un argomento di classe monotona si può mostrare che è sufficiente verificare la condizione precedente solo per i misurabili A in un \pi-sistema di \mathcal{E}. Se la variabile è reale, ovvero se E = \mathbb{R} (o E = \mathbb{R}^d), si considera sottinteso che la \sigma-algebra associata è la \sigma-algebra dei Boreliani, cioè la \sigma-algebra generata dagli aperti, o equivalentemente dai chiusi.

§ Definizione 1.4.1 Se X : \Omega \to E è una variabile aleatoria, la \sigma-algebra generata da X, denotata come \sigma(X), è definita come la più piccola \sigma-algebra (su \Omega) per cui X è misurabile.

In effetti è elementare verificare che

\sigma(X) = \{X^{-1}(A) : A \in \mathcal{E}\}.

Più interessante è studiare la struttura delle variabili aleatorie reali che risultano misurabili rispetto alla \sigma-algebra \sigma(X).

§ Lemma 1.4.2 (Doob). Sullo spazio (\Omega, \mathcal{F}, \mathbb{P}) siano date una variabile aleatoria X a valori in (E, \mathcal{E}) e una variabile aleatoria reale Y che sia \sigma(X)-misurabile2. Allora esiste una funzione misurabile g : E \to \mathbb{R} tale che Y = g(X).

Dimostrazione. Sia \mathcal{H} l’insieme delle variabili aleatorie reali del tipo desiderato, che cioè si possono scrivere come g(X) per una funzione misurabile g. Tali variabili sono certamente \sigma(X)-misurabili. Osserviamo che le funzioni indicatrici di eventi di \sigma(X) sono in \mathcal{H} in quanto per A \in \mathcal{E},

\bbone_{X^{-1}A} = \bbone_A(X).

Si verifica elementarmente che \mathcal{H} è uno spazio vettoriale. Se inoltre g_n(X) \uparrow Y, con Y limitata, allora

Y = \lim_n g_n(X) = \limsup_n g_n(X) = (\limsup_n g_n)(X),

e Y \in \mathcal{H}. Si conclude dunque, per la versione funzionale del teorema della classe monotona, che \mathcal{H} contiene tutte le variabili aleatorie limitate \sigma(X) misurabili. Il passaggio a tutte le variabili aleatorie \sigma(X)-misurabili è elementare, in quanto ogni variabile reale Y si scompone come Y = Y_+ - Y_-, dove x_+ = \max(x, 0), e x_- = \max(-x, 0). \square

1.4.1. Integrazione di variabili aleatorie reali. Sia assegnato uno spazio di probabilità (\Omega, \mathcal{F}, \mathbb{P}). Si chiama variabile aleatoria reale una funzione misurabile X : \Omega \to \mathbb{R} rispetto a \mathcal{F} e alla \sigma-algebra dei Boreliani di \mathbb{R}. Una tale variabile aleatoria reale è detta semplice se prende un numero finito di valori o, equivalentemente, se può essere scritta nella forma X = \sum_{i=1}^n a_i \bbone_{A_i}, dove A_1, \dots, A_n sono elementi di \mathcal{F} ed \bbone_{A} indica la funzione indicatrice dell’insieme A.

Per una variabile aleatoria semplice X = \sum_{i=1}^n a_i \bbone_{A_i} possiamo definire l’integrale

\mathbb{E}[X] = \sum_{i=1}^n a_i \mathbb{P}(A_i)

È facile verificare che tale numero non dipende dalla particolare forma scelta per rappresentare X e che valgono le seguenti proprietà:

§ Lemma 1.4.3. Sia X_n una successione di variabile aleatoria semplici a valori positivi, supponiamo che X_n converga crescendo verso X e supponiamo che anche X sia semplice: allora \mathbb{E}[X_n] \uparrow \mathbb{E}[X].

Dimostrazione. Naturalmente \mathbb{E}[X] \ge \sup_n \mathbb{E}[X_n] = \lim_{n \to \infty} \mathbb{E}[X_n]. Fissiamo ora \varepsilon > 0 e sia A_\varepsilon^n = \{(X - X_n) \ge \varepsilon\}, sia inoltre c = \sup_\omega X(\omega) : notiamo che A_\varepsilon^n \downarrow \varnothing e di conseguenza \mathbb{P}(A_\varepsilon^n) \downarrow 0. Dalla disuguaglianza (X - X_n) \le c \bbone_{A_\varepsilon^n} + \varepsilon, si ricava \mathbb{E}[X] \le \mathbb{E}[X_n] + c \mathbb{P}(A_\varepsilon^n) + \varepsilon, e di conseguenza la tesi. \square

È importante osservare che se la successione (X_n)_{n \ge 1} converge (puntualmente), il limite X è sicuramente misurabile ma non è detto che sia semplice: nel lemma precedente dunque è importante supporre che anche X sia semplice.

§ Lemma 1.4.4. Siano (X_n)_{n \ge 1} e (X'_n)_{n \ge 1} due successioni crescenti di variabile aleatoria semplici a valori positivi e supponiamo che si abbia \lim_n X_n \le \lim_n X'_n, allora

\lim_n \mathbb{E}[X_n] \le \lim_n \mathbb{E}[X'_n].

Dimostrazione. Per ogni n fissato, si ha X_n = \sup_m (X_n \wedge X'_m) \le \sup_m X'_m, e, di conseguenza,

\mathbb{E}[X_n] = \sup_m \mathbb{E}[X_n \wedge X'_m] \le \sup_m \mathbb{E}[X'_m]

e da qui si ottiene immediatamente il risultato voluto. \square

Nella costruzione dell’integrale è fondamentale il risultato di approssimazione per mezzo di variabili aleatorie semplici, che abbiamo già visto (Proposizione 1.1.16). Questo permette di enunciare la seguente definizione.

§ Definizione 1.4.5. Definiamo, per una variabile aleatoria X a valori positivi,

\mathbb{E}[X] = \lim_{n \to \infty} \mathbb{E}[X_n],

dove (X_n)_{n \ge 1} è una successione di variabile aleatoria semplici tale che X_n \uparrow X. Il Lemma 1.4.4 garantisce che questo numero non dipende dalla particolare successione approssimante scelta, inoltre in questa definizione si può supporre che la variabile aleatoria X sia a valori in [0, +\infty].

Notiamo che, se X \ge 0, \mathbb{E}[X] \in [0, +\infty]. Sono immediati i seguenti risultati.

§ Proposizione 1.4.6. Se X, Y sono variabili aleatorie a valori positivi,

  • se a \ge 0, allora \mathbb{E}[aX + Y] = a\mathbb{E}[X] + \mathbb{E}[Y],

  • se X \ge 0, allora \mathbb{E}[X] = 0 se e solo se X = 0 q. c.,

  • se X e Y sono a valori reali (q. c.), l’eguaglianza \mathbb{E}[X \bbone_A] = \mathbb{E}[Y \bbone_A] per ogni A \in \mathcal{F} vale se e solo se X = Y q. c..

Dimostrazione. Si dimostra ad esempio la seconda proprietà. Si supponga per assurdo \mathbb{P}[X > 0] > 0, allora esiste \epsilon > 0 tale che \mathbb{P}[A] > 0. Posto A = \{X \ge \epsilon\}, si ha che X - \epsilon \bbone_A \ge 0, dunque esiste una successione (Y_n)_{n \ge 0} di variabili aleatorie semplici tali che Y_n \uparrow X - \epsilon \bbone_A. Di conseguenza Y_n + \epsilon \bbone_A \uparrow X. Ogni variabile Y_n + \epsilon \bbone_A è ancora semplice positiva, quindi

0 = \mathbb{E}[X] = \lim_n \mathbb{E}[Y_n + \epsilon \bbone_A] = \lim_n \mathbb{E}[Y_n] + \epsilon \mathbb{P}[A] \ge \epsilon \mathbb{P}[A] > 0,

una contraddizione. \square

§ Lemma 1.4.7 (Convergenza Monotona, o Beppo-Levi). Siano (X_n)_{n \ge 1} variabili aleatorie a valori positivi tali che X_n \uparrow X. Allora

\mathbb{E}[X_n] \uparrow \mathbb{E}[X].

Dimostrazione. Sia, per ogni n fissato, (X_{n,m})_{m \ge 1} una successione crescente di variabili aleatorie semplici tale che X_n = \sup_{m \ge 1} X_{n,m} e poniamo Y_m = X_{1,m} \vee \dots \vee X_{m,m}. La (Y_m)_{m \ge 1} è una successione crescente di variabili aleatorie semplici e Y_m \uparrow X. Di conseguenza \mathbb{E}[Y_m] \uparrow \mathbb{E}[X], inoltre per ogni m fissato \mathbb{E}[Y_m] \le \mathbb{E}[X_m]. poiché ovviamente si ha, per m fissato, \mathbb{E}[X] \ge \mathbb{E}[X_m], segue facilmente la tesi. \square

§ Lemma 1.4.8 (Fatou). Sia (X_n)_{n \ge 1} una successione di variabili aleatorie a valori positivi, allora vale la disuguaglianza,

\mathbb{E}[\liminf_{n \to \infty} X_n] \le \liminf_{n \to \infty} \mathbb{E}[X_n].

Dimostrazione. Dalla definizione \liminf_n X_n = \sup_{n \ge 1} (\inf_{k \ge n} X_k) e Y_n = \inf_{k \ge n} X_k \uparrow \liminf_n X_n. Di conseguenza

\mathbb{E}[\liminf_{n \to \infty} X_n] = \sup_{n \ge 1} \mathbb{E}[\inf_{k \ge n} X_k] \le \sup_{n \ge 1} \inf_{k \ge n} \mathbb{E}[X_k] = \liminf_{n \to \infty} \mathbb{E}[X_n],

come richiesto \square.

Consideriamo ora una variabile aleatoria reale X non necessariamente positiva, e siano X^+ = X \vee 0 e X^- = -(X \wedge 0).

§ Definizione 1.4.9. La variabile aleatoria X è detta integrabile se

\mathbb{E}[|X|] = \mathbb{E}[X^+] + \mathbb{E}[X^-] < +\infty,

e si chiama integrale di X il numero, denotato con \mathbb{E}[X],

\mathbb{E}[X] = \mathbb{E}[X^+] - \mathbb{E}[X^-].

Tale numero è chiamato valore atteso o speranza matematica della variabile aleatoria X.

§ Lemma 1.4.10. Il valore atteso è omogeneo e lineare sulle variabili integrabili

Dimostrazione. L’omogeneità è immediata. Per mostrare la linearità, si osserva preliminarmente che, se X = U - V, dove U e V sono entrambe positive integrabili, allora X è integrabile e \mathbb{E}[X] = \mathbb{E}[U] - \mathbb{E}[V]. Infatti, U + X_- = V + X_+, quindi X_+ \le U e X_- \le V, in particolare X_-, X_+ sono integrabili e \mathbb{E}[X_+] - \mathbb{E}[X_-] = \mathbb{E}[U] - \mathbb{E}[V]. Se ora X, Y sono integrabili, allora

X + Y = (X_+ + Y_+) - (X_- + Y_-),

e l’argomento precedente garantisce che X + Y è integrabile e \mathbb{E}[X + Y] = \mathbb{E}[X] + \mathbb{E}[Y]. \square

Supponiamo ora che si abbia X \ge Y con Y integrabile (questo equivale a dire che \mathbb{E}[X^-] < +\infty). In tal caso ha senso il numero \mathbb{E}[X] = \mathbb{E}[X - Y] + \mathbb{E}[Y]. In effetti in tal caso \mathbb{E}[X] \in (-\infty, +\infty]. In questo caso si dice che X è semi-integrabile inferiormente. Inoltre se (X_n)_{n \ge 1} è una successione di variabili aleatorie con X_n \ge Y qualunque sia n, ed Y integrabile, continuano a valere il teorema di convergenza monotona ed il lemma di Fatou. Naturalmente analoghe proprietà valgono se X \le Y con Y integrabile. Il teorema fondamentale di passaggio al limite sotto il segno di integrale è il seguente.

§ Teorema 1.4.11 (di convergenza dominata o di Lebesgue). Sia (X_n)_{n \ge 1} una successione di variabile aleatoria. e supponiamo che la successione (X_n)_{n \ge 1} converga puntualmente ad X e che esista una variabile aleatoria integrabile Y tale che si abbia |X_n| \le Y : allora

\lim_{n \to \infty} \mathbb{E}[X_n] = \mathbb{E}[X]

Dimostrazione. Tenendo conto dell’osservazione precedente, poiché per ogni n si ha -Y \le X_n \le Y, la dimostrazione è una conseguenza immediata del Lemma 1.4.8. Si ha infatti

\mathbb{E}[\liminf_{n \to \infty} X_n] \le \liminf_{n \to \infty} \mathbb{E}[X_n] \le \limsup_{n \to \infty} \mathbb{E}[X_n] \le \mathbb{E}[\limsup_{n \to \infty} X_n],

ed infine la conclusione segue immediatamente dal fatto che X = \liminf_n X_n = \limsup_n X_n. \square

Nel calcolo del valore atteso è di importanza fondamentale la nozione di legge (chiamata probabilità immagine nel contesto della teoria della misura).

§ Definizione 1.4.12 (legge). Data una variabile aleatoria X su uno spazio misurabile (\Omega, \mathcal{F}), a valori in (E, \mathcal{E}), la legge di X, denotata con \mathbb{P}_X, è la probabilità su (E, \mathcal{E}) definita da

\mathbb{P}_X[A] = \mathbb{P}[X \in A], \qquad A \in \mathcal{E}.

Il valore atteso di una variabile dipende solo dalla sua legge, come si vede dalla seguente fondamentale formula di integrazione.

§ Proposizione 1.4.13. Siano date una variabile aleatoria X su uno spazio misurabile (\Omega, \mathcal{F}), a valori in (E, \mathcal{E}), ed una funzione misurabile \varphi : E \to \mathbb{R}. Si ha che \varphi(X) è integrabile se e solo se \varphi è integrabile rispetto a \mathbb{P}_X. Inoltre, in tal caso,

\mathbb{E}[\varphi(X)] = \int \varphi(x) \, \mathbb{P}_X(dx).

Infine la formula precedente vale anche quando \varphi è positiva, senza ipotesi di integrabilità.

Dimostrazione. È sufficiente dimostrare la formula, in quanto la prima affermazione segue dalla formula applicata a |\varphi|. Osserviamo che, se A \in \mathcal{E} e \varphi = \bbone_A,

\mathbb{E}[\varphi(X)] = \mathbb{P}[X \in A] = \mathbb{P}_X[A] = \int \varphi \, d\mathbb{P}_X.

Poiché la formula è chiusa per linearità e per limiti monotoni crescenti (grazie al teorema di convergenza monotona), la versione funzionale del teorema della classe monotona garantisce che la formula vale per ogni funzione misurabile limitata. La formula si estende poi a funzioni positive (se \varphi è positiva, \varphi_n = \varphi \wedge n sono misurabili limitate e \varphi_n \uparrow \varphi, e la formula si estende a \varphi per convergenza monotona) e integrabili (considerando \varphi = \varphi_+ - \varphi_-). \square

§ Proposizione 1.4.14 (Disuguaglianza di Jensen). Sia \varphi : \mathbb{R} \to \mathbb{R} una funzione convessa e supponiamo che X e \varphi(X) siano integrabili: allora

\varphi(\mathbb{E}[X]) \le \mathbb{E}[\varphi(X)].

Dimostrazione. Ogni funzione convessa \varphi si può scrivere nella forma \varphi(x) = \sup_n L_n(x), dove L_n(x) = a_n x + b_n è una funzione lineare affine. Per ogni n fissato si ha

L_n(\mathbb{E}[X]) = \mathbb{E}[L_n(X)] \le \mathbb{E}[\varphi(X)]

e, prendendo a sinistra l’estremo superiore al variare di n, si ottiene la disuguaglianza. \square

§ Corollario 1.4.15. Se 1 \le p < q < +\infty e se \mathbb{E}[|X|^q] < +\infty, allora anche \mathbb{E}[|X|^p] < +\infty.

Spazi di Lebesgue. Dato uno spazio di probabilità (\Omega, \mathcal{F}, \mathbb{P}), si definisce

\mathcal{L}^0(\Omega, \mathcal{F}) = \{X : \Omega \to \mathbb{R} : X \text{ misurabile}\},

e, se p \in [1, \infty],

\mathcal{L}^p(\Omega, \mathcal{F}, \mathbb{P}) = \{X \in \mathcal{L}^0(\Omega, \mathcal{F}) : \|X\|_p < \infty\},

dove

\|X\|_p = (\mathbb{E}[|X|^p])^{\frac{1}{p}}, \qquad 1 \le p < \infty,
\|X\|_\infty = \min\{M : \mathbb{P}[|X| > M] = 0\}.

Si può verificare elementarmente che \mathcal{L}^p (per p=0 e 1 \le p \le \infty) è uno spazio lineare e, per 1 \le p \le \infty, \|\cdot\|_p è una semi-norma su \mathcal{L}^p (\|X\|_p = 0 garantisce solo che X=0 q.c.). Per ottenere spazi normati, la soluzione è quozientare rispetto all’uguaglianza quasi certa. La norma e la struttura di spazio lineare sono stabili rispetto al quoziente, e i corrispondenti spazi che si ottengono sono denotati L^p(\Omega, \mathcal{F}, \mathbb{P}). Una immediata conseguenza della disuguaglianza di Jensen è che, se p \le q, allora \mathcal{L}^q \subset \mathcal{L}^p e L^q \subset L^p (si veda Corollario 1.4.15).

Si conclude questa parte con alcune elementari ma fondamentali disuguaglianze. Si premette la seguente considerazione. Se 1/p + 1/q = 1, con 1 < p, q < \infty, e se x, y > 0 (altrimenti la disuguaglianza è banale), allora xy \le 1/p x^p + 1/q y^q. Infatti, per convessità dell’esponenziale,

xy = \exp\left( \frac{1}{p} \log x^p + \frac{1}{q} \log y^q \right) \le \frac{1}{p} \exp(\log x^p) + \frac{1}{q} \exp(\log y^q) = \frac{1}{p} x^p + \frac{1}{q} y^q.

§ Lemma 1.4.16 (Disuguaglianza di Young). Se 1 < p, q < \infty con \frac{1}{p} + \frac{1}{q} = 1, e se X \in \mathcal{L}^p(\Omega, \mathcal{F}, \mathbb{P}), Y \in \mathcal{L}^q(\Omega, \mathcal{F}, \mathbb{P}), allora XY \in \mathcal{L}^1(\Omega, \mathcal{F}, \mathbb{P}) e

|\mathbb{E}[XY]| \le \frac{1}{p} \mathbb{E}[|X|^p] + \frac{1}{q} \mathbb{E}[|Y|^q]

Dimostrazione. Per mostrare che XY \in \mathcal{L}^1 è sufficiente applicare la disuguaglianza xy \le \frac{1}{p} x^p + \frac{1}{q} y^q a |X| e |Y|, e prendere poi il valore atteso, per ottenere

\mathbb{E}[|XY|] \le \frac{1}{p} \mathbb{E}[|X|^p] + \frac{1}{q} \mathbb{E}[|Y|^q].

La disuguaglianza richiesta segue poi osservando che |\mathbb{E}[XY]| \le \mathbb{E}[|XY|]. \square

Si osserva che la disuguaglianza precedente continua a esser vera anche se X \notin \mathcal{L}^p o Y \notin \mathcal{L}^q.

§ Proposizione 1.4.17 (Disuguaglianza di Hölder). Se 1 \le p, q \le \infty con \frac{1}{p} + \frac{1}{q} = 1 (oppure p=1, q=\infty o viceversa), e se X \in \mathcal{L}^p(\Omega, \mathcal{F}, \mathbb{P}), Y \in \mathcal{L}^q(\Omega, \mathcal{F}, \mathbb{P}), allora XY \in \mathcal{L}^1(\Omega, \mathcal{F}, \mathbb{P}) e

|\mathbb{E}[XY]| \le \|X\|_p \|Y\|_q

Dimostrazione. Se p=1 e q=\infty (il caso p=\infty, q=1 è analogo), allora |XY| \le |X| \|Y\|_\infty q.c., e la conclusione è immediata. Si suppone quindi che 1 < p, q < \infty, e anche che \|X\|_p > 0 e \|Y\|_q > 0 (altrimenti la disuguaglianza è immediata). Posto \tilde{X} = X/\|X\|_p, \tilde{Y} = Y/\|Y\|_q, si applica la disuguaglianza precedente per ottenere che XY \in \mathcal{L}^1, e Lemma 1.4.16 per ottenere la disuguaglianza richiesta. \square

Nel caso particolare p=q=2, la disuguaglianza xy \le \frac{1}{p} x^p + \frac{1}{q} y^q è la elementare disuguaglianza 2xy \le x^2 + y^2, e la disuguaglianza in Proposizione 1.4.17 è nota come disuguaglianza di Cauchy-Schwarz.

1.4.3. Estensione a misure \sigma-finite. Anche la costruzione dell’integrale è sostanzialmente identica per misure \sigma-finite, la sola vera differenza è nella definizione di funzione semplice. In effetti in tal caso si chiamano funzioni semplici le funzioni che possono essere scritte nella forma f = \sum_{i=1}^n a_i \bbone_{A_i}, con A_1, \dots, A_n \in \mathcal{F}, e con \mu(A_i) < +\infty. Il risultato fondamentale di approssimazione (Proposizione 1.1.16) rimane valido con questa nuova definizione di funzione semplice. È bene puntualizzare che la diseguaglianza di Jensen (Proposizione 1.4.14) è vera solo con le probabilità. Se \mu è una misura \sigma-finita su \mathcal{E} e f : E \to F una applicazione misurabile, si definisce allo stesso modo la misura immagine \nu = f(\mu). Nel linguaggio della teoria geometrica della misura, la misura immagine è chiamata usualmente pushforward e indicata con f_\# \mu. La misura immagine \nu = f(\mu) non è necessariamente \sigma-finita, tuttavia se lo è vale di nuovo la formula di integrazione

\int_F \varphi(x) \, \nu(dx) = \int_E (\varphi \circ f)(t) \, \mu(dt).

Footnotes

  1. La definizione comunemente richiede solo che \mathcal{I} \neq \varnothing. D’altra parte in ogni contesto in cui si userà un \pi-sistema, si richiederà che \Omega \in \mathcal{I}.

  2. Ovvero Y^{-1}A \in \sigma(X) per ogni Boreliano A.