308 lines
13 KiB
TeX
308 lines
13 KiB
TeX
\documentclass[12pt,a4paper,notitlepage,twocolumn]{article}
|
||
\usepackage{amsmath}
|
||
\usepackage{amssymb}
|
||
\usepackage{amsbsy}
|
||
\usepackage{mathtools}
|
||
\usepackage{float}
|
||
\usepackage[french]{babel}
|
||
|
||
\usepackage{palatino}
|
||
|
||
\usepackage[active]{srcltx}
|
||
\usepackage{scrtime}
|
||
|
||
\newcounter{qnumber}
|
||
\setcounter{qnumber}{0}
|
||
|
||
\newcounter{enumber}
|
||
\setcounter{enumber}{0}
|
||
|
||
\newcommand{\question}{\textbf{(\addtocounter{qnumber}{1}\theqnumber)}\,}
|
||
\newcommand{\exercice}{\textbf{\addtocounter{enumber}{1}\textsc{Exercice} \theenumber}.\,}
|
||
\setlength{\parindent}{0cm}
|
||
|
||
|
||
\begin{document}
|
||
|
||
\title{\textsc{Économétrie Approfondie}\\ \small{(Éléments de correction)}}
|
||
\date{Mercredi 13 décembre 2023}
|
||
|
||
\maketitle
|
||
|
||
\thispagestyle{empty}
|
||
|
||
|
||
\bigskip
|
||
|
||
\exercice On suppose que les données sont générées par le modèle suivant~:
|
||
\[
|
||
y_i = x_{1,i}\beta_1 + \ldots x_{K,i}\beta_K + \varepsilon_i
|
||
\]
|
||
où $x_{k,i}$, pour $k=1,\ldots,K$ sont des variables explicatives
|
||
déterministes, $\beta_k$, pour $k=1,\ldots,K$, sont des paramètres
|
||
réels, $\varepsilon_i$ une variable aléatoire centrée de
|
||
variance $\sigma_{\varepsilon}^2$. \question On obtient la représentation matricielle de ce modèle en concatément (verticalement) les observations. On pose~: $Y = \left( y_1, y_2, \dots, y_N \right)'$, $\varepsilon = \left( \varepsilon_1, \varepsilon_2, \dots, \varepsilon_N \right)'$, $\beta = \left( \beta_1, \beta_2, \dots, \beta_K \right)$ et
|
||
\[
|
||
X =
|
||
\begin{pmatrix}
|
||
x_{1,1} & x_{2,1} & \ldots & x_{K,1}\\
|
||
x_{1,2} & x_{2,2} & \ldots & x_{K,2}\\
|
||
\vdots & \vdots & & \vdots \\
|
||
x_{1,N} & x_{2,N} & \ldots & x_{K,N}\\
|
||
\end{pmatrix}
|
||
\]
|
||
|
||
On peut alors réécrire le modèle sous la forme~:
|
||
\[
|
||
Y = X\beta + \varepsilon
|
||
\]
|
||
\question L'estimateur des MCO est le vecteur $\hat\beta$ qui minimise la somme des carrés des résidus :
|
||
\begin{equation*}
|
||
\begin{split}
|
||
\hat\beta &= \arg\min_{\{\beta\}} (Y-X\beta)'(Y-X\beta) \\
|
||
&= \arg\min_{\{\beta\}} Y'Y - \beta'X'Y - Y'X\beta + \beta'X'X\beta \\
|
||
&= \arg\min_{\{\beta\}} \beta'X'X\beta -2\beta'X'Y
|
||
\end{split}
|
||
\end{equation*}
|
||
|
||
La condition nécessaire d'optimalité est~:
|
||
\[
|
||
2X'X\hat\beta - 2X'Y = 0
|
||
\]
|
||
\[
|
||
\Leftrightarrow \hat\beta = \left( X'X \right)^{-1}X'Y
|
||
\]
|
||
en supposant que la matrice $X'X$ est inversible (c'est le cas si,
|
||
comme nous le supposons habituellement, $X$ est une matrice de
|
||
rang $K$). \question $\hat\beta$ est un estimateur sans biais
|
||
de $\beta$. Pour le montrer substituons le DGP dans l'expression de
|
||
l'estimateur :
|
||
\[
|
||
\begin{split}
|
||
\hat \beta &= \left( X'X \right)^{-1}X'\left( X\beta + \varepsilon \right)\\
|
||
&= \left( X'X \right)^{-1}X'X\beta +\left( X'X \right)^{-1}X'\varepsilon\\
|
||
&= \beta + \left( X'X \right)^{-1}X'\varepsilon
|
||
\end{split}
|
||
\]
|
||
En supposant que les variables exogènes sont déterministes (sinon il
|
||
faut recourrir au théorème des espérances itérées), on a donc :
|
||
\[
|
||
\begin{split}
|
||
\mathbb E\left[\hat\beta\right] &= \beta + \mathbb E\left[\left( X'X \right)^{-1}X'\varepsilon\right]\\
|
||
&= \beta + \left( X'X \right)^{-1}X'\mathbb E\left[\varepsilon\right]\\
|
||
&= \beta
|
||
\end{split}
|
||
\]
|
||
|
||
\question La variance de $\hat \beta$ est définie
|
||
par
|
||
$\mathbb V\left[\hat\beta\right] = \mathbb E\left[\left( \hat\beta-\mathbb E\left[ \hat\beta \right] \right)^2\right]$. En
|
||
substituant l'expression de $\hat\beta$ en fonction de $\beta$ (qui
|
||
est aussi l'espérance de $\hat\beta$), il vient (en supposant
|
||
que $\mathbb E\left[\varepsilon_i\varepsilon_j\right]=0$ pour
|
||
tout $i\neq j$)~:
|
||
\[
|
||
\begin{split}
|
||
\mathbb V\left[\hat\beta \right] &= \mathbb V\left[\left( X'X \right)^{-1}X'\varepsilon\right]\\
|
||
&= \left( X'X \right)^{-1}X'\mathbb V\left[\varepsilon\right] X\left( X'X \right)^{-1} \\
|
||
&= \left( X'X \right)^{-1}X'\sigma_{\varepsilon}^2 I_N X\left( X'X \right)^{-1} \\
|
||
&= \sigma^2_{\varepsilon}\left( X'X \right)^{-1}X'X\left( X'X \right)^{-1}\\
|
||
&= \sigma^2_{\varepsilon}\left( X'X \right)^{-1}
|
||
\end{split}
|
||
\]
|
||
Si la variance du vecteur $\varepsilon$ est différente
|
||
de $\sigma_{\varepsilon}^2I_N$ (autocorrélation ou hétéroscédasticité)
|
||
les matrices $X'X$ ne se simplifient plus et on obtient~:
|
||
\[
|
||
\mathbb V\left[\hat\beta \right] = \left( X'X \right)^{-1}X'\Sigma X\left( X'X \right)^{-1}
|
||
\]
|
||
où $\Sigma$ est la matrice de variance covariance
|
||
de $\varepsilon$. \question L'estimateur des MCO est une variable
|
||
aléatoire, \emph{i.e.} a une variance, car $\hat\beta$ est une
|
||
fonction linéaire du vecteur aléatoire $\varepsilon$.
|
||
|
||
\setcounter{qnumber}{0}
|
||
\bigskip
|
||
|
||
\exercice On considère le modèle suivant~:
|
||
\[
|
||
y_i = \mu + \varepsilon_i
|
||
\]
|
||
pour $i=1,\ldots,N$ avec $\mu$ un paramètre réel et $\varepsilon_i$ une variable aléatoire réelle
|
||
d'espérance nulle et de variance $\sigma_{i}^2$ avec $\mathbb E\left[ \varepsilon_i\varepsilon_j \right]=0$ si $i\neq j$. On suppose que
|
||
$\lim_{N\rightarrow\infty}N^{-1}\sum_{i=1}^N \sigma_i^2 = \bar
|
||
\sigma^2<\infty$. Le modèle empirique est~:
|
||
\[
|
||
y_i = a + u_i
|
||
\]
|
||
\question On montre facilement que l'estimateur des MCO de $a$ est la moyenne des $y_i$. Le modèle peut s'écrire sous forme matricielle~:
|
||
\[
|
||
Y = X a + U
|
||
\]
|
||
avec $Y = \left( y_1,y_2,\dots,y_N \right)'$, $U = \left( u_1, u_2, \dots, u_N \right)'$ et $X = (1, 1, \dots, 1)'$ un vecteur $N\times 1$. K'estimateur des MCO est~:
|
||
\[
|
||
\begin{split}
|
||
\hat a_{\textsc{mco}} &= (X'X)^{-1}X'Y\\
|
||
&= N^{-1}\sum_{i=1}^Ny_i = \bar y
|
||
\end{split}
|
||
\]
|
||
\question L'espérance $\hat a_{\textsc{mco}}$, en substituant le processus générateur des données, est~:
|
||
\[
|
||
\begin{split}
|
||
\mathbb E \left[\hat a_{\textsc{mco}}\right] &= N^{-1}\sum_{i=1}^N\mathbb E[\mu + \varepsilon_i]\\
|
||
&= N^{-1}N\mu + 0 = \mu
|
||
\end{split}
|
||
\]
|
||
$\hat a_{\textsc{mco}}$ est donc un estimateur sans biais de $\mu$. \question On suit la même démarche pour le calcul de la variance de $\hat a_{\textsc{mco}}$\footnote{En retenant de la question 2 que $\hat a_{\textsc{mco}}=\mu+N^{-1}\sum_{i=1}^N$ et donc que $\hat a_{\textsc{mco}}-\mathbb E\left[ \hat a_{\textsc{mco}} \right]=N^{-1}\sum_{i=1}^N\varepsilon_i$.}. On a~:
|
||
\[
|
||
\begin{split}
|
||
\mathbb V\left[\hat a_{\textsc{mco}} \right] &= N^{-2}\mathbb E\left[\sum_{i=1}^N\sum_{j=1}^N\varepsilon_i\varepsilon_j \right]\\
|
||
&= N^{-2}\sum_{i=1}^N\sum_{j=1}^N\mathbb E\left[\varepsilon_i\varepsilon_j \right]\\
|
||
\end{split}
|
||
\]
|
||
comme les $\varepsilon_i$ sont non corrélés, il vient :
|
||
\[
|
||
\begin{split}
|
||
\mathbb V\left[ \hat a_{\textsc{mco}} \right] &= N^{-2}\sum_{i=1}^N\sigma_i^2\\
|
||
&= \frac{\bar \sigma^2}{N}
|
||
\end{split}
|
||
\]
|
||
\question La variance de $\hat a_{\textsc{mco}}$ tend vers 0 quand $N$
|
||
tend vers l'infini, l'estimateur tend donc, par la loi des frands
|
||
nombres, en probabilité vers son espérance~:
|
||
\[
|
||
\hat a_{\textsc{mco}}\xlongrightarrow[N\rightarrow\infty]{\textrm{proba}}\mu
|
||
\]
|
||
\question Cet estimateur sans biais n'est pas efficace car la variance
|
||
des résidus est spécifique à chaque observation (problème
|
||
d'hétéroscédasticité). \question De façon générale, l'estimateur des MCG est défini par~:
|
||
\[
|
||
\hat a_{\textsc{mcg}} = \left( X'\Sigma^{-1}X \right)^{-1}X'\Sigma^{-1}Y
|
||
\]
|
||
où $\Sigma$ est la variance du vecteur $\varepsilon$~:
|
||
\[
|
||
\Sigma =
|
||
\begin{pmatrix}
|
||
\sigma_1^2 & 0 & 0 & \dots & 0 \\
|
||
0 & \sigma_2^2 & 0 & \dots & 0 \\
|
||
\vdots & & \ddots & & \vdots \\
|
||
\vdots & & & \ddots & \vdots \\
|
||
0 & \dots& & 0 & \sigma_N^2
|
||
\end{pmatrix}
|
||
\]
|
||
On a donc~:
|
||
\[
|
||
\hat a_{\textsc{mcg}} = \left( \frac{1}{\sigma_1^2} + \frac{1}{\sigma_2^2} + \dots + \frac{1}{\sigma_N^2} \right)^{-1}\left( \frac{y_1}{\sigma_1^2} + \frac{y_2}{\sigma_2^2} + \dots + \frac{y_N}{\sigma_N^2} \right)
|
||
\]
|
||
|
||
Il s'agit d'un estimateur sans biais de $\mu$. En effet~:
|
||
\[
|
||
\begin{split}
|
||
\mathbb E\left[ \hat a_{\textsc{mcg}}\right] &= \left( \frac{1}{\sigma_1^2} + \frac{1}{\sigma_2^2} + \dots + \frac{1}{\sigma_N^2} \right)^{-1}\sum_{i=1}^N \frac{\mathbb E[y_i]}{\sigma_i^2}\\
|
||
&= \left( \sum_{i=1}^N \frac{1}{\sigma_i^2} \right)^{-1}\sum_{i=1}^N \frac{\mu}{\sigma_i^2} \\
|
||
&= \mu
|
||
\end{split}
|
||
\]
|
||
\question Pour calculer la variance de $\hat a_{\textsc{mcg}}$ on peut partir de la forumule obtenue en cours, $\left(X'\Sigma^{-1}X\right)^{-1}$, ou du cas particulier étudié ici~:
|
||
\[
|
||
\begin{split}
|
||
\mathbb V\left[ \hat a_{\textsc{mcg}}\right] &= \mathbb E\left[ \left( \hat a_{\textsc{mcg}} -\mu\right)^2\right]\\
|
||
&= \left( \sum_{i=1}^N \frac{1}{\sigma_i^2} \right)^{-2} \mathbb E\left[\left(\sum_{i=1}^N \frac{\varepsilon_i}{\sigma_i^2}\right)^2\right]\\
|
||
&= \left( \sum_{i=1}^N \frac{1}{\sigma_i^2} \right)^{-2} \mathbb E\left[\sum_{i=1}^N\sum_{j=1}^N\frac{\varepsilon_i}{\sigma_i^2}\frac{\varepsilon_j}{\sigma_j^2} \right]\\
|
||
&= \left( \sum_{i=1}^N \frac{1}{\sigma_i^2} \right)^{-2} \mathbb E\left[\sum_{i=1}^N \frac{\varepsilon_i^2}{\sigma_i^4}\right]\\
|
||
&= \left( \sum_{i=1}^N \frac{1}{\sigma_i^2} \right)^{-2} \sum_{i=1}^N \frac{1}{\sigma_i^2}\\
|
||
&= \left( \sum_{i=1}^N \frac{1}{\sigma_i^2} \right)^{-1}
|
||
\end{split}
|
||
\]
|
||
|
||
\question La variance de $\hat a_{\textsc{mco}}$ est plus grande que celle de $\hat a_{\textsc{mcg}}$. En effet~:
|
||
\[
|
||
\mathbb V \left[\hat a_{\textsc{mco}}\right] > \mathbb V \left[\hat a_{\textsc{mco}}\right]
|
||
\]
|
||
\[
|
||
\Leftrightarrow \frac{\bar \sigma^2}{N} > \left( \sum_{i=1}^N \frac{1}{\sigma_i^2} \right)^{-1}
|
||
\]
|
||
\[
|
||
\Leftrightarrow \bar \sigma^2 > N\left( \sum_{i=1}^N \frac{1}{\sigma_i^2} \right)^{-1}
|
||
\]
|
||
On reconnaît gauche une moyenne arithmétique et à droite une moyenne
|
||
harmonique. La moyenne harmonique est toujours plus petite que la
|
||
moyenne arithmétique (voir le rappel). Donc la variance de
|
||
l'estimateur des MCO est plus grande que la variance de l'estimateur
|
||
des MCG. Comme la variance de l'estimateur des MCO converge vers 0
|
||
quand $N$ tend vers l'infini, la variance de l'estimateur des MCG
|
||
converge nécessairement vers 0 quand $N$tend vers l'infini, et donc
|
||
l'estimateur des MCG converge aussi en probabilité vers $\mu$.
|
||
|
||
\textbf{\textsc{Rappel}} \textit{Soient $\alpha_1, \ldots,\alpha_n$ des nombres réels positifs, alors la moyenne arithmétique des $\alpha_i$ est plus grande que la moyenne harmonique des $\alpha_i$:
|
||
\[
|
||
\frac{\alpha_1+\ldots+\alpha_n}{n} > \frac{n}{\frac{1}{\alpha_1}+\ldots+\frac{1}{\alpha_n}}
|
||
\]}
|
||
|
||
\setcounter{qnumber}{0}
|
||
\bigskip
|
||
|
||
\exercice Soit le modèle~:
|
||
\[
|
||
y_t = \beta x_t + \varepsilon_t
|
||
\]
|
||
avec $\beta$ un paramètre réel et
|
||
\[
|
||
\varepsilon_t = \varphi_1 \varepsilon_{t-1} + \varphi_2\varepsilon_{t-2} + \nu_t
|
||
\]
|
||
où $\nu_t$ est une variable aléatoire centrée de
|
||
variance $\sigma_\nu^2$ et les paramètres
|
||
réels $\varphi_1$, $\varphi_2$ sont tels que les moments d'ordre 2 (la
|
||
variance et la fonction d'autocorrélation) de $\varepsilon_t$ sont
|
||
bien définis. On peut montrer, cela fera l'objet d'un cours au second
|
||
semestre que la fonction d'autocorrélation
|
||
de $\varepsilon$, $\rho(k)$, est non nulle est tend vers zero
|
||
quand $k$ tend vers l'infini (la corrélation entre $\varepsilon_t$
|
||
et $\varepsilon_{t-k}$ se rapproche de zéro quand $k$ devient assez
|
||
grand). On suppose que les valeurs de $\varphi_1$ et $\varphi_2$ sont
|
||
connues. \question des MCO pour $\beta$ n'est pas un estimateur efficace car les résidus du modèle sont autocorrélés. \question On
|
||
pose $\tilde y_t = y_t-\varphi_1 y_{t-1} - \varphi_2 y_{t-2}$
|
||
et $\tilde x_t = x_t-\varphi_1 x_{t-1}-\varphi_2 x_{t-2}$. En
|
||
utilisant la définition de $y$ on a :
|
||
\[
|
||
y_{t-1} = \beta x_{t-1} + \varepsilon_{t-1}
|
||
\]
|
||
et
|
||
\[
|
||
y_{t-2} = \beta x_{t-2} + \varepsilon_{t-2}
|
||
\]
|
||
ainsi~:
|
||
\[
|
||
\tilde y_t = y_t-\varphi_1 y_{t-1}-\varphi_2 y_{t-2}
|
||
\]
|
||
\[
|
||
\Leftrightarrow \tilde y_t = \beta x_t + \varepsilon_t- \beta\varphi_1 x_{t-1} - \varphi\varepsilon_{t-1} - \beta\varphi_2 x_{t-2} - \varphi_2\varepsilon_{t-2}
|
||
\]
|
||
\[
|
||
\Leftrightarrow \tilde y_t = \beta \tilde x_t + \varepsilon_t - \varphi_1\varepsilon_{t-1} - \varphi_2\varepsilon_{t-2}
|
||
\]
|
||
\[
|
||
\Leftrightarrow \tilde y_t = \beta \tilde x_t + \nu_t
|
||
\]
|
||
Ici l'estimateur est efficace car $\nu_t$ n'est pas autocorrélé (il
|
||
n'y a pas d'hétéroscédasticité car la variance est constante, elle ne
|
||
dépend pas de $t$). \question Il s'agit d'un estimateur des
|
||
MCG. \question Si les paramètres $\varphi_1$ et $\varphi_2$ ne sont
|
||
pas connus, on peut les estimer dans une première étape. En estimant
|
||
le modèle original, par les MCO on récupère les résidus estimés et on
|
||
estime le modèle autorégressif~:
|
||
\[
|
||
\hat\varepsilon_t = \varphi_1\hat\varepsilon_{t-1} + \varphi_2\hat\varepsilon_{t-2} + \nu_t
|
||
\]
|
||
On utilise alors $\hat\varphi_1$ et $\hat\varphi_2$ pour transformer
|
||
les données comme décrit plus haut. On peut reprendre la procédure
|
||
plusierus fois tant que les estimations pour $\beta$ et les
|
||
paramètres $\varphi_1$ et $\varphi_2$ changent.
|
||
|
||
\end{document}
|
||
|
||
%%% Local Variables:
|
||
%%% mode: latex
|
||
%%% TeX-master: t
|
||
%%% End:
|