Speranza condizionale
Definizione e proprietà
§ Ricordiamo che: (\Omega, \mathcal{F}, \mathbb{P}), X integrabile, \mathcal{E} \subseteq \mathcal{F} \sigma-algebra. Una variabile aleatoria Y è una speranza condizionale di X data \mathcal{E} se:
Yè\mathcal{E}-misurabile,Yè integrabile,\mathbb{E}[X \bbone_A] = \mathbb{E}[Y \bbone_A], \quad \forall A \in \mathcal{E}.
e scriveremo Y = \mathbb{E}[X | \mathcal{E}].
Vedremo esistenza e unicità di una tale Y, ma intanto vediamo alcune proprietà.
Notazione: La speranza condizionale si indica con \mathbb{E}[X | \mathcal{E}].
Se \mathcal{E} = \sigma(Z) scriveremo \mathbb{E}[X | Z] invece di \mathbb{E}[X | \sigma(Z)].
Vedremo che nelle ipotesi del teorema, la speranza condizionale esiste ed è unica a meno di uguaglianza q.c.
§ Proposizione.
-
\mathbb{E}[\mathbb{E}[X | \mathcal{E}]] = \mathbb{E}[X] -
\mathbb{E}[cX + Y | \mathcal{E}] = c \mathbb{E}[X | \mathcal{E}] + \mathbb{E}[Y | \mathcal{E}] -
Se
X \le Yq.c., allora\mathbb{E}[X | \mathcal{E}] \le \mathbb{E}[Y | \mathcal{E}]q.c. -
Se
Xè\mathcal{E}-misurabile, allora\mathbb{E}[X | \mathcal{E}] = Xq.c. -
Se
Xè indipendente da\mathcal{E}, allora\mathbb{E}[X | \mathcal{E}] = \mathbb{E}[X]q.c. -
Se
\mathcal{G} \subseteq \mathcal{E} \subseteq \mathcal{F}, allora\mathbb{E}[\mathbb{E}[X | \mathcal{E}] | \mathcal{G}] = \mathbb{E}[X | \mathcal{G}]q.c. -
Se
X_n \uparrow Xq.c., allora\mathbb{E}[X_n | \mathcal{E}] \uparrow \mathbb{E}[X | \mathcal{E}]q.c. -
Se
X, YeXYsono integrabili eYè\mathcal{E}-misurabile, allora\mathbb{E}[XY | \mathcal{E}] = Y \mathbb{E}[X | \mathcal{E}]. -
Se
\varphiè convessa eX, \varphi(X)integrabili, allora\varphi(\mathbb{E}[X | \mathcal{E}]) \le \mathbb{E}[\varphi(X) | \mathcal{E}]. -
Se
1 \le p < \inftyeX \in \mathcal{L}^p, allora\mathbb{E}[X | \mathcal{E}] \in \mathcal{L}^pe|\mathbb{E}[X | \mathcal{E}]|^p \le \mathbb{E}[|X|^p | \mathcal{E}]. (perp = \inftyvale\sup_\Omega \mathbb{E}[X | \mathcal{E}] \le \mathbb{E}[\sup X | \mathcal{E}])
Dimostrazione.
-
A = \Omeganella definizione. -
[Linearità del valore atteso]
-
\forall \varepsilon > 0, A_\varepsilon := \{ \mathbb{E}[Y | \mathcal{E}] \le \mathbb{E}[X | \mathcal{E}] - \varepsilon \}\bigcup_{\varepsilon > 0} A_\varepsilon = \{ \mathbb{E}[Y | \mathcal{E}] < \mathbb{E}[X | \mathcal{E}] \}Su
A_\varepsilon,\mathbb{E}[Y - X | \mathcal{E}] \le -\varepsilon; inoltreA_\varepsilon \in \mathcal{E}, dunque,0 \le \mathbb{E}[(Y - X) \bbone_{A_\varepsilon}] \stackrel{\text{def}}{=} \mathbb{E}[\mathbb{E}[Y - X | \mathcal{E}] \bbone_{A_\varepsilon}] \le -\varepsilon \mathbb{P}[A_\varepsilon] \le 0\rightarrow \mathbb{P}[A_\varepsilon] = 0 \implies \mathbb{P}[A] = 0. -
[Misurabilità]
-
[Indipendenza]
-
\mathbb{E}[\mathbb{E}[X | \mathcal{E}] | \mathcal{G}]è\mathcal{G}-misurabile e integrabile.\forall A \in \mathcal{G}dobbiamo far vedere che\mathbb{E}[\mathbb{E}[X | \mathcal{G}] \bbone_A] = \mathbb{E}[\mathbb{E}[\mathbb{E}[X | \mathcal{E}] | \mathcal{G}] \bbone_A]\mathbb{E}[\mathbb{E}[X | \mathcal{G}] \bbone_A] = \mathbb{E}[X \bbone_A]\mathbb{E}[\mathbb{E}[\mathbb{E}[X | \mathcal{E}] | \mathcal{G}] \bbone_A] = \mathbb{E}[\mathbb{E}[X | \mathcal{E}] \bbone_A] = \mathbb{E}[X \bbone_A], poichéA \in \mathcal{G} \subseteq \mathcal{E}.
-
Se
X_n \uparrow X, per la (3) sappiamo che\exists Yt.c.\mathbb{E}[X_n | \mathcal{E}] \uparrow Y. Inoltre\forall A \in \mathcal{E}\mathbb{E}[X_n \bbone_A] = \mathbb{E}[\mathbb{E}[X_n | \mathcal{E}] \bbone_A]Applicando il teorema di convergenza monotona ad entrambi i membri:
\mathbb{E}[X \bbone_A] = \mathbb{E}[Y \bbone_A]Yè integrabile, infatti se prendiamoA = \{ Y > 0 \},\mathbb{E}[Y_+] = \mathbb{E}[Y \bbone_A] = \mathbb{E}[X \bbone_A] < +\inftye analogamente\mathbb{E}[Y_-] < +\infty. -
Usando il teorema della classe monotona mostriamo che
\forall Y\mathcal{E}-misurabile e limitata vale\mathbb{E}[XY | \mathcal{E}] = Y \mathbb{E}[X | \mathcal{E}]. Intanto prendiamoX \ge 0integrabile. SiaB \in \mathcal{E}eY = \bbone_B, allora\forall A \in \mathcal{E},\mathbb{E}[XY \bbone_A] = \mathbb{E}[X \bbone_{A \cap B}] = \mathbb{E}[\mathbb{E}[X | \mathcal{E}] \bbone_{A \cap B}] = \mathbb{E}[\mathbb{E}[X | \mathcal{E}] Y \bbone_A].Dalla (2) segue la linearità e dalla (7) segue la chiusura per limiti crescenti. Quindi
\mathbb{E}[XY | \mathcal{E}] = Y \mathbb{E}[X | \mathcal{E}]\forall Y\mathcal{E}-misurabile limitata. Non è restrittivo supporreY \ge 0, (altrimentiY = Y_+ - Y_-e tutto funziona per linearità), poi prendiamoY_n = Y \wedge n \uparrow Ye per (7) si conclude\mathbb{E}[XY | \mathcal{E}] = Y \mathbb{E}[X | \mathcal{E}]. PerXgenerica si conclude usando la decomposizioneX = X_+ - X_-. -
\varphiconvessa\implies \varphi(x) = \sup_{L \le \varphi, L \text{ affine}} L(x); inoltre il sup si può realizzare su una famiglia numerabile(L_n)_{n \ge 1}conL_n \le \varphi \rightarrow \varphi = \sup_n L_n.\varphi(\mathbb{E}[X | \mathcal{E}]) = \sup_n L_n(\mathbb{E}[X | \mathcal{E}]) \stackrel{(2)}{=} \sup_n \mathbb{E}[L_n(X) | \mathcal{E}] \stackrel{(3)}{\le} \mathbb{E}[\sup_m L_m(X) | \mathcal{E}] = \mathbb{E}[\varphi(X) | \mathcal{E}] -
Conseguenza della (9) perché
x \mapsto |x|^pè convessa\forall p \in [1, +\infty).
§ Lemma. (Freezing Lemma) Siano X una v.a. \mathcal{E}-misurabile e Y una v.a. indipendente da \mathcal{E}. Sia \phi una funzione misurabile tale che \phi(X, Y) sia integrabile. Allora
\mathbb{E}[\phi(X, Y) \mid \mathcal{E}] = g(X) \text{ q.c.}
dove g(x) = \mathbb{E}[\phi(x, Y)].
Dimostrazione.
Dunque l’insieme di tutte le funzioni \varphi misurabili limitate tali che \mathbb{E}[\varphi(X, Y) \mid \mathcal{E}] = \mathbb{E}[\varphi(X, y) \mid \mathcal{E}]_{y=Y}
- contiene
\bbone_{A \times B} - è uno spazio lineare
- è chiuso per limiti crescenti grazie al teorema di convergenza monotona per speranze condizionali.
Si conclude per il teorema della classe monotona.
§ Teorema. Nelle ipotesi della definizione, la speranza condizionale esiste ed è unica a meno di uguaglianza q.c.
Dimostrazione (del teorema).
-
Unicità. Siano
Y_1, Y_2speranze diXdata\mathcal{E}.\forall A \in \mathcal{E}, \mathbb{E}[Y_1 \bbone_A] = \mathbb{E}[X \bbone_A] = \mathbb{E}[Y_2 \bbone_A], quindi\mathbb{E}[(Y_1 - Y_2) \bbone_A] = 0 \implies Y_1 = Y_2 \text{ q.c.}poiché sono entrambe
\mathcal{E}-misurabili, dunque si può scegliereA = \{ Y_1 - Y_2 \ge 0 \} \in \mathcal{E}, da cui si ottiene che la parte positiva(Y_1 - Y_2)_+ = 0q.c. e analogamente la parte negativa(Y_1 - Y_2)_- = 0q.c. -
Esistenza (momento secondo finito). Supponiamo intanto
\mathbb{E}[X^2] < +\infty. La speranza condizionale minimizza\inf_{Y \in \mathcal{L}^2(\Omega, \mathcal{E}, \mathbb{P})} \mathbb{E}[(Y - X)^2]. Infatti questo inf è finito (si ottiene\mathbb{E}[X^2] < +\inftyperY=0) ed è un minimo; infatti presaY_nsuccessione in\mathcal{L}^2(\Omega, \mathcal{E}, \mathbb{P})tale che\mathbb{E}[(Y_n - X)^2] \to \inf_Y \mathbb{E}[(Y - X)^2], si ha cheY_nè di Cauchy, dunque, poiché\mathcal{L}^2(\Omega, \mathcal{E}, \mathbb{P})è completo,Y_n \to Y \in \mathcal{L}^2(\Omega, \mathcal{E}, \mathbb{P})e\mathbb{E}[(Y - X)^2] = \inf_Y \mathbb{E}[(Y - X)^2]. In generale vale l’identità(y_1 - y_2)^2 = 2(x - y_1)^2 + 2(x - y_2)^2 - 4(\frac{y_1 + y_2}{2} - x)^2, dunque\forall n, m:\mathbb{E}[(Y_n - Y_m)^2] = 2\mathbb{E}[(X - Y_n)^2] + 2\mathbb{E}[(X - Y_m)^2] - 4\mathbb{E}\left[\left(X - \frac{Y_n + Y_m}{2}\right)^2\right]segue che
\limsup_{n,m \to +\infty} \mathbb{E}[(Y_n - Y_m)^2] \le 0.Sia
Yuna variabile che realizza il minimo. Allora\forall Z \in \mathcal{L}^2(\Omega, \mathcal{E}, \mathbb{P}), \forall \varepsilon \in \mathbb{R}, vale:\mathbb{E}[(Y - X)^2] \le \mathbb{E}[(Y + \varepsilon Z - X)^2]Dunque indicando con
\varepsilon \mapsto \mathbb{E}[(Y - X + \varepsilon Z)^2]la funzione, vale:\frac{d}{d\varepsilon} \mathbb{E}[(Y - X + \varepsilon Z)^2] \Big|_{\varepsilon=0} = 0, \text{ cioè } \mathbb{E}[(Y - X) Z] = 0\forall Z \in \mathcal{L}^2(\mathcal{E}). ScegliendoZ = \bbone_AconA \in \mathcal{E}, si ha\mathbb{E}[Y \bbone_A] = \mathbb{E}[X \bbone_A], \quad \forall A \in \mathcal{E}. -
Esistenza (caso generale). Per completare la dimostrazione dell’esistenza per il caso generale, sia
Xuna variabile aleatoria integrabile (X \in \mathcal{L}^1).Sia
(X_n)_{n \ge 1}una successione di variabili aleatorie in\mathcal{L}^2che converge aXin media, ovvero tale che\mathbb{E}[|X_n - X|] \to 0(si può scegliere, ad esempio,X_n = (-n \vee X) \wedge n). Si ha che la successione delle speranze condizionali(\mathbb{E}[X_n | \mathcal{E}])_{n \ge 1}è di Cauchy in\mathcal{L}^1. Infatti, usando la proprietà (10) conp=1:\begin{aligned} \mathbb{E}[|\mathbb{E}[X_n | \mathcal{E}] - \mathbb{E}[X_m | \mathcal{E}]|] &= \mathbb{E}[|\mathbb{E}[X_n - X_m | \mathcal{E}]|] \\ &\le \mathbb{E}[\mathbb{E}[|X_n - X_m| | \mathcal{E}]] \\ &= \mathbb{E}[|X_n - X_m|] \xrightarrow{n,m \to \infty} 0. \end{aligned}Poiché
\mathcal{L}^1(\Omega, \mathcal{E}, \mathbb{P})è uno spazio completo, esiste una variabileY \in \mathcal{L}^1(\Omega, \mathcal{E}, \mathbb{P})tale che\mathbb{E}[|\mathbb{E}[X_n | \mathcal{E}] - Y|] \to 0. Infine, per ogni fissatoA \in \mathcal{E}, vale l’uguaglianza:\mathbb{E}[X_n \bbone_A] = \mathbb{E}[\mathbb{E}[X_n | \mathcal{E}] \bbone_A].Passando al limite per
n \to \infty, per la convergenza in\mathcal{L}^1si ottiene:\mathbb{E}[X \bbone_A] = \mathbb{E}[Y \bbone_A],che conferma che
Yè la speranza condizionale cercata.\square
Se X = (X_1, \dots, X_d) è a valori in \mathbb{R}^d, allora \mathbb{E}[X \mid \mathcal{E}] = (\mathbb{E}[X_1 \mid \mathcal{E}], \dots, \mathbb{E}[X_d \mid \mathcal{E}]) e le proprietà dimostrate si estendono al caso di variabili vettoriali.
Esempi
Esempio. (\Omega, \mathcal{F}, \mathbb{P}), X integrabile, \mathcal{E} generata da una partizione (B_n)_{n \ge 1}, cioè: \bigcup_{n \ge 1} B_n = \Omega, (B_n)_{n \ge 1} a due a due disgiunti, B_n \in \mathcal{E}, \forall n \ge 1.
Dunque un generico elemento di \mathcal{E} è \bigcup_{n \in J} B_n con J \subseteq \mathbb{N} \setminus \{0\}.
Se Y è \mathcal{E}-misurabile, \forall c \in \mathbb{R}, \{Y = c\} = \bigcup_{n \in S} B_n \implies Y è costante q.c. su ogni B_n.
Consideriamo ora \mathbb{E}[X \mid \mathcal{E}]. Fissato n \in \mathbb{N} \setminus \{0\},
\mathbb{E}[X \bbone_{B_n}] = \mathbb{E}[\mathbb{E}[X \mid \mathcal{E}] \bbone_{B_n}], quindi su B_n la speranza condizionale vale \mathbb{E}[X \bbone_{B_n}] / \mathbb{P}[B_n] =: c_n
\implies \mathbb{E}[X \mid \mathcal{E}] = \sum_{n \ge 1} c_n \bbone_{B_n}
Esempio. Se \mathcal{E} = \sigma(Y), Y v.a. discreta, allora \mathcal{E} è generata dalla partizione (\{Y = y_n\} \mid y_n \in Y(\Omega), \mathbb{P}[Y = y_n] > 0).
Per il teorema di Doob, \mathbb{E}[X \mid \sigma(Y)] = g(Y) dove
g(y) = \sum_{n=1}^\infty \frac{\mathbb{E}[X \bbone_{\{Y = y_n\}}]}{\mathbb{P}[Y = y_n]} \bbone_{\{y_n\}}(y)
e quindi
\mathbb{E}[X \mid \sigma(Y)] = \sum_{n=1}^\infty \frac{\mathbb{E}[X \bbone_{\{Y = y_n\}}]}{\mathbb{P}[Y = y_n]} \bbone_{\{Y = y_n\}}
Esempio. Supponiamo che (X, Y) abbia densità congiunta f(x, y). Sia \mathcal{E} = \sigma(Y), allora \{Y \in A\} \in \mathcal{E}.
Sappiamo che:
\mathbb{E}[X \bbone_{\{Y \in A\}}] = \mathbb{E}[X \bbone_A(Y)] = \iint x \bbone_A(y) f(x, y) \mathrm dx \mathrm dy
D’altra parte, per il teorema di Doob esiste g tale che \mathbb{E}[X \mid Y] = g(Y) q.c., quindi:
\begin{aligned}
\mathbb{E}[\mathbb{E}[X \mid Y] \bbone_{\{Y \in A\}}] &= \mathbb{E}[g(Y) \bbone_{\{Y \in A\}}] \\
&= \int g(y) \bbone_A(y) f_Y(y) \mathrm dy
\end{aligned}
dove f_Y(y) = \int f(x, y) \mathrm dx è la densità di Y.
Uguagliando le due espressioni:
\begin{aligned}
\mathbb{E}[X \bbone_A(Y)] &= \iint x \bbone_A(y) f(x, y) \mathrm dx \mathrm dy \\
&= \iint x \bbone_A(y) f_Y(y) \frac{f(x, y)}{f_Y(y)} \mathrm dx \mathrm dy \\
&= \int \bbone_A(y) f_Y(y) \left( \int x \frac{f(x, y)}{f_Y(y)} \mathrm dx \right) \mathrm dy
\end{aligned}
da cui segue che:
g(y) = \int x \frac{f(x, y)}{f_Y(y)} \mathrm dx = \int x f_{X|Y}(x \mid y) \mathrm dx
Definiamo la densità condizionale di X dato Y=y come:
f_{X|Y}(x \mid y) =
\begin{cases}
\dfrac{f(x, y)}{f_Y(y)} & \text{se } f_Y(y) \neq 0 \\[1em]
0 & \text{altrimenti}
\end{cases}
Idealmente f_{X|Y}(\;\cdot \mid y) è la densità di X dato Y=y.
Note
§ Trucco. Per dimostrare che \mathbb{E}[\;\dots \mid \mathcal{F}_n] = \mathbb{E}[\;\dots \mid X_n], ci basta far vedere che \mathbb{E}[\;\dots \mid \mathcal{F}_n] = h(X_n) (ovvero è una funzione di X_n).
§ Fatto. Se (X, Y) ha densità congiunta f_{X,Y}(x,y) e f_Y(y) > 0, allora la densità, detta densità condizionale, della speranza condizionale \mathbb{E}[X \mid Y=y] è data da:
f_{X|Y}(x \mid y) \coloneqq
\begin{cases}
\dfrac{f_{X,Y}(x, y)}{f_Y(y)} & \text{se } f_Y(y) \neq 0 \\[1em]
0 & \text{altrimenti}
\end{cases}