Speranza condizionale

Definizione e proprietà

§ Ricordiamo che: (\Omega, \mathcal{F}, \mathbb{P}), X integrabile, \mathcal{E} \subseteq \mathcal{F} \sigma-algebra. Una variabile aleatoria Y è una speranza condizionale di X data \mathcal{E} se:

  • Y è \mathcal{E}-misurabile,
  • Y è integrabile,
  • \mathbb{E}[X \bbone_A] = \mathbb{E}[Y \bbone_A], \quad \forall A \in \mathcal{E}.

e scriveremo Y = \mathbb{E}[X | \mathcal{E}].

Vedremo esistenza e unicità di una tale Y, ma intanto vediamo alcune proprietà.

Notazione: La speranza condizionale si indica con \mathbb{E}[X | \mathcal{E}]. Se \mathcal{E} = \sigma(Z) scriveremo \mathbb{E}[X | Z] invece di \mathbb{E}[X | \sigma(Z)].

Vedremo che nelle ipotesi del teorema, la speranza condizionale esiste ed è unica a meno di uguaglianza q.c.

§ Proposizione.

  1. \mathbb{E}[\mathbb{E}[X | \mathcal{E}]] = \mathbb{E}[X]

  2. \mathbb{E}[cX + Y | \mathcal{E}] = c \mathbb{E}[X | \mathcal{E}] + \mathbb{E}[Y | \mathcal{E}]

  3. Se X \le Y q.c., allora \mathbb{E}[X | \mathcal{E}] \le \mathbb{E}[Y | \mathcal{E}] q.c.

  4. Se X è \mathcal{E}-misurabile, allora \mathbb{E}[X | \mathcal{E}] = X q.c.

  5. Se X è indipendente da \mathcal{E}, allora \mathbb{E}[X | \mathcal{E}] = \mathbb{E}[X] q.c.

  6. Se \mathcal{G} \subseteq \mathcal{E} \subseteq \mathcal{F}, allora \mathbb{E}[\mathbb{E}[X | \mathcal{E}] | \mathcal{G}] = \mathbb{E}[X | \mathcal{G}] q.c.

  7. Se X_n \uparrow X q.c., allora \mathbb{E}[X_n | \mathcal{E}] \uparrow \mathbb{E}[X | \mathcal{E}] q.c.

  8. Se X, Y e XY sono integrabili e Y è \mathcal{E}-misurabile, allora \mathbb{E}[XY | \mathcal{E}] = Y \mathbb{E}[X | \mathcal{E}].

  9. Se \varphi è convessa e X, \varphi(X) integrabili, allora \varphi(\mathbb{E}[X | \mathcal{E}]) \le \mathbb{E}[\varphi(X) | \mathcal{E}].

  10. Se 1 \le p < \infty e X \in \mathcal{L}^p, allora \mathbb{E}[X | \mathcal{E}] \in \mathcal{L}^p e |\mathbb{E}[X | \mathcal{E}]|^p \le \mathbb{E}[|X|^p | \mathcal{E}]. (per p = \infty vale \sup_\Omega \mathbb{E}[X | \mathcal{E}] \le \mathbb{E}[\sup X | \mathcal{E}])

Dimostrazione.

  1. A = \Omega nella definizione.

  2. [Linearità del valore atteso]

  3. \forall \varepsilon > 0, A_\varepsilon := \{ \mathbb{E}[Y | \mathcal{E}] \le \mathbb{E}[X | \mathcal{E}] - \varepsilon \}

    \bigcup_{\varepsilon > 0} A_\varepsilon = \{ \mathbb{E}[Y | \mathcal{E}] < \mathbb{E}[X | \mathcal{E}] \}

    Su A_\varepsilon, \mathbb{E}[Y - X | \mathcal{E}] \le -\varepsilon; inoltre A_\varepsilon \in \mathcal{E}, dunque,

    0 \le \mathbb{E}[(Y - X) \bbone_{A_\varepsilon}] \stackrel{\text{def}}{=} \mathbb{E}[\mathbb{E}[Y - X | \mathcal{E}] \bbone_{A_\varepsilon}] \le -\varepsilon \mathbb{P}[A_\varepsilon] \le 0

    \rightarrow \mathbb{P}[A_\varepsilon] = 0 \implies \mathbb{P}[A] = 0.

  4. [Misurabilità]

  5. [Indipendenza]

  6. \mathbb{E}[\mathbb{E}[X | \mathcal{E}] | \mathcal{G}] è \mathcal{G}-misurabile e integrabile. \forall A \in \mathcal{G} dobbiamo far vedere che

    \mathbb{E}[\mathbb{E}[X | \mathcal{G}] \bbone_A] = \mathbb{E}[\mathbb{E}[\mathbb{E}[X | \mathcal{E}] | \mathcal{G}] \bbone_A]
    • \mathbb{E}[\mathbb{E}[X | \mathcal{G}] \bbone_A] = \mathbb{E}[X \bbone_A]
    • \mathbb{E}[\mathbb{E}[\mathbb{E}[X | \mathcal{E}] | \mathcal{G}] \bbone_A] = \mathbb{E}[\mathbb{E}[X | \mathcal{E}] \bbone_A] = \mathbb{E}[X \bbone_A], poiché A \in \mathcal{G} \subseteq \mathcal{E}.
  7. Se X_n \uparrow X, per la (3) sappiamo che \exists Y t.c. \mathbb{E}[X_n | \mathcal{E}] \uparrow Y. Inoltre \forall A \in \mathcal{E}

    \mathbb{E}[X_n \bbone_A] = \mathbb{E}[\mathbb{E}[X_n | \mathcal{E}] \bbone_A]

    Applicando il teorema di convergenza monotona ad entrambi i membri:

    \mathbb{E}[X \bbone_A] = \mathbb{E}[Y \bbone_A]

    Y è integrabile, infatti se prendiamo A = \{ Y > 0 \}, \mathbb{E}[Y_+] = \mathbb{E}[Y \bbone_A] = \mathbb{E}[X \bbone_A] < +\infty e analogamente \mathbb{E}[Y_-] < +\infty.

  8. Usando il teorema della classe monotona mostriamo che \forall Y \mathcal{E}-misurabile e limitata vale \mathbb{E}[XY | \mathcal{E}] = Y \mathbb{E}[X | \mathcal{E}]. Intanto prendiamo X \ge 0 integrabile. Sia B \in \mathcal{E} e Y = \bbone_B, allora \forall A \in \mathcal{E},

    \mathbb{E}[XY \bbone_A] = \mathbb{E}[X \bbone_{A \cap B}] = \mathbb{E}[\mathbb{E}[X | \mathcal{E}] \bbone_{A \cap B}] = \mathbb{E}[\mathbb{E}[X | \mathcal{E}] Y \bbone_A].

    Dalla (2) segue la linearità e dalla (7) segue la chiusura per limiti crescenti. Quindi \mathbb{E}[XY | \mathcal{E}] = Y \mathbb{E}[X | \mathcal{E}] \forall Y \mathcal{E}-misurabile limitata. Non è restrittivo supporre Y \ge 0, (altrimenti Y = Y_+ - Y_- e tutto funziona per linearità), poi prendiamo Y_n = Y \wedge n \uparrow Y e per (7) si conclude \mathbb{E}[XY | \mathcal{E}] = Y \mathbb{E}[X | \mathcal{E}]. Per X generica si conclude usando la decomposizione X = X_+ - X_-.

  9. \varphi convessa \implies \varphi(x) = \sup_{L \le \varphi, L \text{ affine}} L(x); inoltre il sup si può realizzare su una famiglia numerabile (L_n)_{n \ge 1} con L_n \le \varphi \rightarrow \varphi = \sup_n L_n.

    \varphi(\mathbb{E}[X | \mathcal{E}]) = \sup_n L_n(\mathbb{E}[X | \mathcal{E}]) \stackrel{(2)}{=} \sup_n \mathbb{E}[L_n(X) | \mathcal{E}] \stackrel{(3)}{\le} \mathbb{E}[\sup_m L_m(X) | \mathcal{E}] = \mathbb{E}[\varphi(X) | \mathcal{E}]
  10. Conseguenza della (9) perché x \mapsto |x|^p è convessa \forall p \in [1, +\infty).

§ Lemma. (Freezing Lemma) Siano X una v.a. \mathcal{E}-misurabile e Y una v.a. indipendente da \mathcal{E}. Sia \phi una funzione misurabile tale che \phi(X, Y) sia integrabile. Allora

\mathbb{E}[\phi(X, Y) \mid \mathcal{E}] = g(X) \text{ q.c.}

dove g(x) = \mathbb{E}[\phi(x, Y)].

Dimostrazione. Dunque l’insieme di tutte le funzioni \varphi misurabili limitate tali che \mathbb{E}[\varphi(X, Y) \mid \mathcal{E}] = \mathbb{E}[\varphi(X, y) \mid \mathcal{E}]_{y=Y}

  • contiene \bbone_{A \times B}
  • è uno spazio lineare
  • è chiuso per limiti crescenti grazie al teorema di convergenza monotona per speranze condizionali.

Si conclude per il teorema della classe monotona.

§ Teorema. Nelle ipotesi della definizione, la speranza condizionale esiste ed è unica a meno di uguaglianza q.c.

Dimostrazione (del teorema).

  • Unicità. Siano Y_1, Y_2 speranze di X data \mathcal{E}. \forall A \in \mathcal{E}, \mathbb{E}[Y_1 \bbone_A] = \mathbb{E}[X \bbone_A] = \mathbb{E}[Y_2 \bbone_A], quindi

    \mathbb{E}[(Y_1 - Y_2) \bbone_A] = 0 \implies Y_1 = Y_2 \text{ q.c.}

    poiché sono entrambe \mathcal{E}-misurabili, dunque si può scegliere A = \{ Y_1 - Y_2 \ge 0 \} \in \mathcal{E}, da cui si ottiene che la parte positiva (Y_1 - Y_2)_+ = 0 q.c. e analogamente la parte negativa (Y_1 - Y_2)_- = 0 q.c.

  • Esistenza (momento secondo finito). Supponiamo intanto \mathbb{E}[X^2] < +\infty. La speranza condizionale minimizza \inf_{Y \in \mathcal{L}^2(\Omega, \mathcal{E}, \mathbb{P})} \mathbb{E}[(Y - X)^2]. Infatti questo inf è finito (si ottiene \mathbb{E}[X^2] < +\infty per Y=0) ed è un minimo; infatti presa Y_n successione in \mathcal{L}^2(\Omega, \mathcal{E}, \mathbb{P}) tale che \mathbb{E}[(Y_n - X)^2] \to \inf_Y \mathbb{E}[(Y - X)^2], si ha che Y_n è di Cauchy, dunque, poiché \mathcal{L}^2(\Omega, \mathcal{E}, \mathbb{P}) è completo, Y_n \to Y \in \mathcal{L}^2(\Omega, \mathcal{E}, \mathbb{P}) e \mathbb{E}[(Y - X)^2] = \inf_Y \mathbb{E}[(Y - X)^2]. In generale vale l’identità (y_1 - y_2)^2 = 2(x - y_1)^2 + 2(x - y_2)^2 - 4(\frac{y_1 + y_2}{2} - x)^2, dunque \forall n, m:

    \mathbb{E}[(Y_n - Y_m)^2] = 2\mathbb{E}[(X - Y_n)^2] + 2\mathbb{E}[(X - Y_m)^2] - 4\mathbb{E}\left[\left(X - \frac{Y_n + Y_m}{2}\right)^2\right]

    segue che \limsup_{n,m \to +\infty} \mathbb{E}[(Y_n - Y_m)^2] \le 0.

    Sia Y una variabile che realizza il minimo. Allora \forall Z \in \mathcal{L}^2(\Omega, \mathcal{E}, \mathbb{P}), \forall \varepsilon \in \mathbb{R}, vale:

    \mathbb{E}[(Y - X)^2] \le \mathbb{E}[(Y + \varepsilon Z - X)^2]

    Dunque indicando con \varepsilon \mapsto \mathbb{E}[(Y - X + \varepsilon Z)^2] la funzione, vale:

    \frac{d}{d\varepsilon} \mathbb{E}[(Y - X + \varepsilon Z)^2] \Big|_{\varepsilon=0} = 0, \text{ cioè } \mathbb{E}[(Y - X) Z] = 0

    \forall Z \in \mathcal{L}^2(\mathcal{E}). Scegliendo Z = \bbone_A con A \in \mathcal{E}, si ha

    \mathbb{E}[Y \bbone_A] = \mathbb{E}[X \bbone_A], \quad \forall A \in \mathcal{E}.
  • Esistenza (caso generale). Per completare la dimostrazione dell’esistenza per il caso generale, sia X una variabile aleatoria integrabile (X \in \mathcal{L}^1).

    Sia (X_n)_{n \ge 1} una successione di variabili aleatorie in \mathcal{L}^2 che converge a X in media, ovvero tale che \mathbb{E}[|X_n - X|] \to 0 (si può scegliere, ad esempio, X_n = (-n \vee X) \wedge n). Si ha che la successione delle speranze condizionali (\mathbb{E}[X_n | \mathcal{E}])_{n \ge 1} è di Cauchy in \mathcal{L}^1. Infatti, usando la proprietà (10) con p=1:

    \begin{aligned}
        \mathbb{E}[|\mathbb{E}[X_n | \mathcal{E}] - \mathbb{E}[X_m | \mathcal{E}]|] &= \mathbb{E}[|\mathbb{E}[X_n - X_m | \mathcal{E}]|] \\
        &\le \mathbb{E}[\mathbb{E}[|X_n - X_m| | \mathcal{E}]] \\
        &= \mathbb{E}[|X_n - X_m|] \xrightarrow{n,m \to \infty} 0.
    \end{aligned}

    Poiché \mathcal{L}^1(\Omega, \mathcal{E}, \mathbb{P}) è uno spazio completo, esiste una variabile Y \in \mathcal{L}^1(\Omega, \mathcal{E}, \mathbb{P}) tale che \mathbb{E}[|\mathbb{E}[X_n | \mathcal{E}] - Y|] \to 0. Infine, per ogni fissato A \in \mathcal{E}, vale l’uguaglianza:

    \mathbb{E}[X_n \bbone_A] = \mathbb{E}[\mathbb{E}[X_n | \mathcal{E}] \bbone_A].

    Passando al limite per n \to \infty, per la convergenza in \mathcal{L}^1 si ottiene:

    \mathbb{E}[X \bbone_A] = \mathbb{E}[Y \bbone_A],

    che conferma che Y è la speranza condizionale cercata. \square

Se X = (X_1, \dots, X_d) è a valori in \mathbb{R}^d, allora \mathbb{E}[X \mid \mathcal{E}] = (\mathbb{E}[X_1 \mid \mathcal{E}], \dots, \mathbb{E}[X_d \mid \mathcal{E}]) e le proprietà dimostrate si estendono al caso di variabili vettoriali.

Esempi

Esempio. (\Omega, \mathcal{F}, \mathbb{P}), X integrabile, \mathcal{E} generata da una partizione (B_n)_{n \ge 1}, cioè: \bigcup_{n \ge 1} B_n = \Omega, (B_n)_{n \ge 1} a due a due disgiunti, B_n \in \mathcal{E}, \forall n \ge 1.

Dunque un generico elemento di \mathcal{E} è \bigcup_{n \in J} B_n con J \subseteq \mathbb{N} \setminus \{0\}. Se Y è \mathcal{E}-misurabile, \forall c \in \mathbb{R}, \{Y = c\} = \bigcup_{n \in S} B_n \implies Y è costante q.c. su ogni B_n.

Consideriamo ora \mathbb{E}[X \mid \mathcal{E}]. Fissato n \in \mathbb{N} \setminus \{0\}, \mathbb{E}[X \bbone_{B_n}] = \mathbb{E}[\mathbb{E}[X \mid \mathcal{E}] \bbone_{B_n}], quindi su B_n la speranza condizionale vale \mathbb{E}[X \bbone_{B_n}] / \mathbb{P}[B_n] =: c_n

\implies \mathbb{E}[X \mid \mathcal{E}] = \sum_{n \ge 1} c_n \bbone_{B_n}

Esempio. Se \mathcal{E} = \sigma(Y), Y v.a. discreta, allora \mathcal{E} è generata dalla partizione (\{Y = y_n\} \mid y_n \in Y(\Omega), \mathbb{P}[Y = y_n] > 0). Per il teorema di Doob, \mathbb{E}[X \mid \sigma(Y)] = g(Y) dove

g(y) = \sum_{n=1}^\infty \frac{\mathbb{E}[X \bbone_{\{Y = y_n\}}]}{\mathbb{P}[Y = y_n]} \bbone_{\{y_n\}}(y)

e quindi

\mathbb{E}[X \mid \sigma(Y)] = \sum_{n=1}^\infty \frac{\mathbb{E}[X \bbone_{\{Y = y_n\}}]}{\mathbb{P}[Y = y_n]} \bbone_{\{Y = y_n\}}

Esempio. Supponiamo che (X, Y) abbia densità congiunta f(x, y). Sia \mathcal{E} = \sigma(Y), allora \{Y \in A\} \in \mathcal{E}. Sappiamo che:

\mathbb{E}[X \bbone_{\{Y \in A\}}] = \mathbb{E}[X \bbone_A(Y)] = \iint x \bbone_A(y) f(x, y) \mathrm dx \mathrm dy

D’altra parte, per il teorema di Doob esiste g tale che \mathbb{E}[X \mid Y] = g(Y) q.c., quindi:

\begin{aligned}
\mathbb{E}[\mathbb{E}[X \mid Y] \bbone_{\{Y \in A\}}] &= \mathbb{E}[g(Y) \bbone_{\{Y \in A\}}] \\
&= \int g(y) \bbone_A(y) f_Y(y) \mathrm dy
\end{aligned}

dove f_Y(y) = \int f(x, y) \mathrm dx è la densità di Y. Uguagliando le due espressioni:

\begin{aligned}
\mathbb{E}[X \bbone_A(Y)] &= \iint x \bbone_A(y) f(x, y) \mathrm dx \mathrm dy \\
&= \iint x \bbone_A(y) f_Y(y) \frac{f(x, y)}{f_Y(y)} \mathrm dx \mathrm dy \\
&= \int \bbone_A(y) f_Y(y) \left( \int x \frac{f(x, y)}{f_Y(y)} \mathrm dx \right) \mathrm dy
\end{aligned}

da cui segue che:

g(y) = \int x \frac{f(x, y)}{f_Y(y)} \mathrm dx = \int x f_{X|Y}(x \mid y) \mathrm dx

Definiamo la densità condizionale di X dato Y=y come:

f_{X|Y}(x \mid y) =
\begin{cases}
\dfrac{f(x, y)}{f_Y(y)} & \text{se } f_Y(y) \neq 0 \\[1em]
0 & \text{altrimenti}
\end{cases}

Idealmente f_{X|Y}(\;\cdot \mid y) è la densità di X dato Y=y.


Note

§ Trucco. Per dimostrare che \mathbb{E}[\;\dots \mid \mathcal{F}_n] = \mathbb{E}[\;\dots \mid X_n], ci basta far vedere che \mathbb{E}[\;\dots \mid \mathcal{F}_n] = h(X_n) (ovvero è una funzione di X_n).

§ Fatto. Se (X, Y) ha densità congiunta f_{X,Y}(x,y) e f_Y(y) > 0, allora la densità, detta densità condizionale, della speranza condizionale \mathbb{E}[X \mid Y=y] è data da:

f_{X|Y}(x \mid y) \coloneqq
\begin{cases}
\dfrac{f_{X,Y}(x, y)}{f_Y(y)} & \text{se } f_Y(y) \neq 0 \\[1em]
0 & \text{altrimenti}
\end{cases}