2144 lines
128 KiB
TeX
2144 lines
128 KiB
TeX
% stephane.adjemian@ens.fr
|
||
% florian.pelgrin@unil.ch
|
||
\documentclass[10pt,subeqn]{article}
|
||
|
||
\usepackage[latin1]{inputenc}
|
||
\usepackage[T1]{fontenc}
|
||
\usepackage{palatino}
|
||
\usepackage{natbib}
|
||
\bibliographystyle{mystyle}
|
||
|
||
%\usepackage{float}
|
||
%\usepackage{graphicx}
|
||
%\usepackage{dcolumn}
|
||
\usepackage{hyperref}
|
||
\usepackage[francais]{babel}
|
||
\usepackage{setspace}
|
||
\usepackage[active]{srcltx}
|
||
\usepackage{amssymb}
|
||
\usepackage[centertags]{amsmath}
|
||
\usepackage{amstext}
|
||
\usepackage{amsbsy}
|
||
\usepackage{amsopn}
|
||
\usepackage{amscd}
|
||
\usepackage{amsxtra}
|
||
\usepackage{amsthm}
|
||
%\usepackage{ae,aeguill}
|
||
%\usepackage{endnotes}
|
||
|
||
\newtheorem{theorem}{Theorem}%[section]
|
||
\newtheorem{algorithm}[theorem]{Algorithme}
|
||
\newtheorem{axiom}[theorem]{Axiome}
|
||
\newtheorem{case}[theorem]{Cas}
|
||
\newtheorem{conclusion}[theorem]{Conclusion}
|
||
\newtheorem{condition}[theorem]{Condition}
|
||
\newtheorem{conjecture}[theorem]{Conjecture}
|
||
\newtheorem{corollary}[theorem]{Corollaire}
|
||
\newtheorem{criterion}[theorem]{Crit\`{e}re}
|
||
\newtheorem{definition}[theorem]{D\'{e}finition}
|
||
\newtheorem{example}[theorem]{Exemple}
|
||
\newtheorem{lemma}[theorem]{Lemme}
|
||
\newtheorem{notation}[theorem]{Notation}
|
||
\newtheorem{problem}[theorem]{Probl\`{e}me}
|
||
\newtheorem{proposition}[theorem]{Proposition}
|
||
\newtheorem{remark}[theorem]{Remarque}
|
||
\newtheorem{summary}[theorem]{R\'{e}sum\'{e}}
|
||
|
||
%\newcolumntype{d}{D{,}{,}{-1}}
|
||
\newcommand{\norm}[1]{\left\Vert#1\right\Vert}
|
||
\newcommand{\abs}[1]{\left\vert#1\right\vert}
|
||
\newcommand{\set}[1]{\left\{#1\right\}}
|
||
\newcommand{\croc}[1]{\left[#1\right]}
|
||
\newcommand{\parent}[1]{\left(#1\right)}
|
||
\newcommand{\Real}{\mathbb R}
|
||
\newcommand{\sample}{\mathcal Y_T^*}
|
||
\newcommand{\samplet}[1]{\mathcal Y_{#1}^*}
|
||
\newcommand{\eps}{\varepsilon}
|
||
\newcommand{\trace}{\mathrm{tr}}
|
||
\newcommand{\To}{\longrightarrow}
|
||
\newcommand{\BX}{\mathbf{B}(X)}
|
||
\newcommand{\normal}[2]{ \mathcal{N}\left(#1,#2\right) }
|
||
\newcommand{\iid}[2]{ \text{iid}\left(#1,#2\right) }
|
||
\newcommand{\boxref}[1]{[\ref{#1}]}
|
||
\newcommand{\equaref}[1]{(\ref{#1})}
|
||
\newcommand{\fullref}[1]{[\ref{#1}, en page \pageref{#1}]}
|
||
\newcommand{\VEC}{\mathrm{vec}}
|
||
|
||
\setlength{\hoffset}{-18pt}
|
||
\setlength{\oddsidemargin}{10pt} % Marge gauche sur pages impaires
|
||
\setlength{\evensidemargin}{9pt} % Marge gauche sur pages paires
|
||
\setlength{\marginparwidth}{54pt} % Largeur de note dans la marge
|
||
\setlength{\textwidth}{481pt} % Largeur de la zone de texte (17cm)
|
||
\setlength{\voffset}{-18pt} % Bon pour DOS
|
||
\setlength{\marginparsep}{7pt} % S<>paration de la marge
|
||
\setlength{\topmargin}{0pt} % Pas de marge en haut
|
||
\setlength{\headheight}{7pt}%13pt} % Haut de page
|
||
\setlength{\headsep}{10pt} % Entre le haut de page et le texte
|
||
\setlength{\footskip}{27pt} % Bas de page + s<>paration
|
||
\setlength{\textheight}{22cm}%708pt} % Hauteur de la zone de texte (25cm)
|
||
|
||
%% <20> d<>cocher pour <20>co et prev
|
||
%\renewcommand{\footnote}{\endnote}
|
||
%\renewcommand{\enotesize}{\normalsize}
|
||
|
||
\begin{document}
|
||
|
||
|
||
|
||
\title{Un regard Bay<61>sien sur les Mod<6F>les Dynamiques de la Macro<72>conomie}
|
||
\author{\texttt{St<EFBFBD>phane Adjemian\footnote{stephane.adjemian@ens.fr}}\\\texttt{Universit<EFBFBD> du Maine, \textsc{gains} et \textsc{cepremap}} \and
|
||
\texttt{Florian Pelgrin\footnote{florian.pelgrin@unil.ch}}\\ \texttt{Universit<EFBFBD> de Lausanne - \textsc{hec}, \textsc{iems} et \textsc{cirano}}}
|
||
|
||
\date{\today}
|
||
|
||
\maketitle
|
||
|
||
\begin{abstract}
|
||
L'objet de cette contribution est de pr<70>senter l'approche bay<61>sienne
|
||
des mod<6F>les dynamiques les plus consid<69>r<EFBFBD>s en macro<72>conomie~: les
|
||
mod<EFBFBD>les DSGE (\textit{Dynamic Stochastic General Equilibrium}) et
|
||
les mod<6F>les VAR.
|
||
\medskip
|
||
|
||
\noindent \textbf{Classification JEL :} C3, C5, E3
|
||
|
||
\noindent \textbf{Mots-Clefs :} \'<EFBFBD>conom<EFBFBD>trie Bay<61>sienne, Mod<6F>les
|
||
VAR, Mod<6F>les DSGE.
|
||
|
||
\end{abstract}
|
||
|
||
|
||
|
||
\bigskip
|
||
\bigskip
|
||
|
||
|
||
\begin{spacing}{1.3}
|
||
|
||
\section{Introduction}\label{intro}
|
||
|
||
\par{Ces derni<6E>res ann<6E>es, l'analyse des fluctuations <20>conomiques s'est
|
||
d<EFBFBD>velopp<EFBFBD>e autour des Mod<6F>les d'\'{E}quilibre G<>n<EFBFBD>ral Intertemporels
|
||
Stochastiques (DSGE). Pour autant, jusqu'<27> tr<74>s r<>cemment, l'engouement
|
||
pour l'approche DSGE comme outil d'analyse de la politique <20>conomique est demeur<75> relativement
|
||
faible, et l'approche des mod<6F>les Vectoriels Autor<6F>gressif (VAR) a
|
||
<EFBFBD>t<EFBFBD> (est) souvent privil<69>gi<67>e. Plusieurs raisons expliquent cette
|
||
pr<EFBFBD>f<EFBFBD>rence. D'une part, la mod<6F>lisation VAR de la dynamique des
|
||
variables macro-<2D>conomiques impose un nombre tr<74>s restreint de
|
||
contraintes et offre une qualit<69> d'ajustement aux donn<6E>es (et des
|
||
pr<EFBFBD>visions) relativement bonne. Au contraire, en augmentant le
|
||
nombre de contraintes sur les donn<6E>es, encourant ainsi le risque
|
||
d'une mauvaise sp<73>cification, les mod<6F>les DSGE de la premi<6D>re
|
||
g<EFBFBD>n<EFBFBD>ration (les mod<6F>les de la th<74>orie des cycles r<>els) se sont
|
||
traduits par des performances d'ajustement et de pr<70>visions tr<74>s
|
||
pauvres. D'autre part, l'<27>mergence d'une approche plus structurelle
|
||
des mod<6F>les VAR (par rapport <20> l'approche a-th<74>orique, \cite{Sims80}
|
||
)--- autorisant des proc<6F>dures d'identification des chocs <20> partir
|
||
de restrictions contemporaines, de court terme (\cite{Sims86};
|
||
\cite{Bernanke86}) ou de long terme (\cite{BlanchardQuah89})---ont
|
||
conduit <20> exiger que tout mod<6F>le th<74>orique puisse reproduire les
|
||
fonctions de r<>ponse des variables macro-<2D>conomiques <20> des chocs
|
||
structurels identifi<66>s dans les mod<6F>les VAR
|
||
(\cite{RotembergWoodford97}, \cite{ChristianoEichenbaumEvans03}).
|
||
Finalement, l'absence d'un traitement <20>conom<6F>trique convaincant n'a
|
||
fait que renforcer la recommandation de
|
||
\cite{KydlandPrescott82}---l'<27>talonnage est pr<70>f<EFBFBD>rable.}\newline
|
||
|
||
\par{Cependant, on a constat<61> un regain d'int<6E>r<EFBFBD>t des mod<6F>les DSGE et cela essentiellement pour deux
|
||
raisons~: (\textit{i}) les avanc<6E>es th<74>oriques et notamment la prise
|
||
en compte de fondements micro-<2D>conomiques des rigidit<69>s nominales
|
||
et/ou r<>elles (\textit{ii}) les progr<67>s dans l'estimation et
|
||
l'<27>valuation des mod<6F>les sur la base de m<>thodes statistiques
|
||
formelles\footnote{Voir les travaux de \cite{Smith93},
|
||
\cite{Canova94}, \cite{DejongIngramWhiteman96}, \cite{Geweke99},
|
||
\cite{DridiGuayRenault07} et \cite{Bierens05}.}. Dans cette
|
||
perspective, l'id<69>e suivant laquelle de tels mod<6F>les sont utiles
|
||
pour la pr<70>vision et l'analyse de la politique <20>conomique s'est
|
||
r<EFBFBD>pandue dans le milieu acad<61>mique ainsi qu'aupr<70>s des institutions
|
||
internationales et des banques centrales. Parmi toutes ces approches
|
||
<EFBFBD>conom<EFBFBD>triques, la litt<74>rature privil<69>gie, pour de << bonnes >>
|
||
et << mauvaises >> raisons, la statistique bay<61>sienne. Parmi les
|
||
<< bonnes >> raisons, nous pourrions souligner le fait que la
|
||
fonction de vraisemblance d'un mod<6F>le de dimension <20>lev<65>e (de
|
||
nombreux param<61>tres <20> estimer) est souvent << plate >> dans
|
||
certaines directions. En d'autres termes, les donn<6E>es peuvent ne pas <20>tre
|
||
suffisamment informatives pour identifier (avec pr<70>cision) les
|
||
param<EFBFBD>tres structurels. En d<>formant la fonction de vraisemblance <20> l'aide
|
||
d'informations \textit{a priori} sur les param<61>tres, c'est-<2D>-dire en
|
||
privil<EFBFBD>giant une approche bay<61>sienne, l'identification devient
|
||
possible. Il est n<>anmoins trop souvent ignor<6F> que la mise en oeuvre
|
||
et l'interpr<70>tation des r<>sultats de l'estimation bay<61>sienne
|
||
requi<EFBFBD>rent un certain nombre d'hypoth<74>ses et de conditions de
|
||
validit<EFBFBD>, ou que nombre de probl<62>mes rencontr<74>s en <20>conom<6F>trie
|
||
classique ont leur contrepartie en <20>conom<6F>trie bay<61>sienne. Toujours
|
||
est-il que l'approche bay<61>sienne a consid<69>rablement favoris<69> le
|
||
d<EFBFBD>veloppement des mod<6F>les DSGE comme outil d'analyse et de pr<70>vision
|
||
de la politique mon<6F>taire. Dans le m<>me temps, il n'en demeure pas
|
||
moins que les mod<6F>les DSGE et VAR continuent <20> <20>tre oppos<6F>s et que
|
||
nombre de papiers cherchent g<>n<EFBFBD>ralement <20> l<>gitimer leurs r<>sultats
|
||
en comparant, par exemple, les pr<70>visions (ou tout autre statistique
|
||
ou quantit<69> d'int<6E>r<EFBFBD>t) de leur(s) mod<6F>le(s) avec ceux d'un VAR
|
||
(\cite{SmetsWouters2004}).}\newline
|
||
|
||
\par{L'objet de ce papier est de pr<70>senter l'approche bay<61>sienne des mod<6F>les VAR et DSGE en mettant en avant les
|
||
principaux concepts, leur mise en oeuvre pratique et les limites
|
||
sous-jacentes. Nous montrons en quoi les mod<6F>les DSGE et VAR sont
|
||
des outils compl<70>mentaires que l'on ne doit pas n<>cessairement
|
||
chercher <20> opposer. Nous n'abordons pas ici certains probl<62>mes
|
||
importants, comme l'estimation non lin<69>aire des mod<6F>les
|
||
DSGE\footnote{Le lecteur int<6E>ress<73> trouvera une introduction
|
||
int<EFBFBD>ressante pour l'estimation des mod<6F>les nonlin<69>aires dans
|
||
\cite{AndrieuDoucetRobert04}, \cite{Arulampalam02}, et
|
||
\cite{Andrieu04}, ainsi que dans les contributions de
|
||
\cite{Gordon93} et \cite{Kitagawa96}. Pour des applications en
|
||
<EFBFBD>conomie, voir \cite{ChopinPelgrin04}, \cite{VillaverdeRamirez05}
|
||
et \cite{AnSchorfheide07}.}}.\newline
|
||
|
||
\par{L'article est organis<69> comme suit. Dans une premi<6D>re section, nous pr<70>sentons les principaux
|
||
concepts de l'analyse bay<61>sienne et montrons comment les appliquer dans le cadre des mod<6F>les VAR. Une
|
||
attention particuli<6C>re est attach<63>e <20> la nature (informative, non
|
||
informative, empirique) des croyances \textit{a priori}. Dans une deuxi<78>me
|
||
section, nous abordons les sp<73>cificit<69>s de l'approche bay<61>sienne des
|
||
mod<EFBFBD>les DSGE. Contrairement aux mod<6F>les VAR, il n'est
|
||
plus possible d'obtenir une expression analytique de la distribution
|
||
\textit{a posteriori}. Pour rem<65>dier <20> cette difficult<6C>,
|
||
il est n<>cessaire de recourir <20> des m<>thodes de Monte-Carlo et
|
||
notamment <20> la th<74>orie des cha<68>nes de Markov. Dans cette
|
||
perspective, apr<70>s avoir d<>riv<69> de mani<6E>re g<>n<EFBFBD>rale la densit<69> a
|
||
posteriori d'un mod<6F>le DSGE, nous expliquons les principaux
|
||
algorithmes d'estimation (algorithme de Metropolis-Hasting, par
|
||
fonction d'importance). Dans une troisi<73>me section, nous illustrons comment peuvent se combiner les
|
||
approches VAR et DSGE.}
|
||
|
||
\section{L'approche Bay<61>sienne}\label{sec:1}
|
||
|
||
\subsection{G<EFBFBD>n<EFBFBD>ralit<EFBFBD>s}\label{sec:1:1}
|
||
|
||
\par{L'approche bay<61>sienne propose un cadre rigoureux pour (\emph{i})
|
||
formaliser nos croyances\footnote{Le mot << croyance >> sugg<67>re
|
||
une dimension subjective de l'information \textit{a priori}. Il
|
||
convient n<>anmoins de signaler que parmi les
|
||
<EFBFBD>conom<EFBFBD>tres bay<61>siens il n'y a pas de consensus sur l'interpr<70>tation
|
||
subjective ou objective des probabilit<69>s. Par exemple, l'approche
|
||
bay<EFBFBD>sienne empirique utilise l'<27>chantillon pour d<>finir l'information
|
||
\textit{a priori} (voir par exemple le prior Minnesota de la section
|
||
\ref{sec:1:4:pratique}).} \textit{a priori} et (\emph{ii})
|
||
d<EFBFBD>terminer comment celles-ci doivent <20>tre mises <20> jour une fois
|
||
que les donn<6E>es sont observ<72>es. Les croyances, \textit{a priori} ou
|
||
\textit{a posteriori}, sont repr<70>sent<6E>es <20> l'aide
|
||
d'une densit<69> de probabilit<69> jointe sur les param<61>tres d'un mod<6F>le.
|
||
Cette densit<69> jointe caract<63>rise l'incertitude quant au
|
||
processus g<>n<EFBFBD>rateur des donn<6E>es (DGP, pour \textit{Data Generating
|
||
Process}), en d<>crivant une famille (un continuum) de mod<6F>les.}\newline
|
||
|
||
\par{Imaginons que nous souhaitions caract<63>riser nos croyances
|
||
sur le param<61>tre de Calvo d'une courbe de Phillips. Ce param<61>tre, $\xi_p$, est la probabilit<69>
|
||
pour une firme, en concurrence monopolistique, de ne pas pouvoir
|
||
ajuster son prix de fa<66>on optimale <20> une date quelconque. Ainsi,
|
||
nous savons d<>j<EFBFBD> que ce param<61>tre doit appartenir <20> l'intervalle
|
||
[0,1]. Nous pourrions donc utiliser une distribution
|
||
b<EFBFBD>ta\footnote{Pour une pr<70>sentation des principales distributions
|
||
utilis<EFBFBD>es dans cette litt<74>rature, le lecteur peut se reporter aux
|
||
annexes de \cite{ZellnerBook}. La distribution uniforme est un cas
|
||
particulier de la b<>ta.} d<>finie sur cet intervalle. A partir de la
|
||
probabilit<EFBFBD> $\xi_p$, nous pouvons d<>finir le temps moyen pendant
|
||
lequel une firme ne pourra pas ajuster son prix de fa<66>on optimale~:
|
||
$\zeta_p\equiv\frac{1}{1-\xi_p}$. Si par ailleurs, <20> l'aide
|
||
d'enqu<71>tes micro<72>conomiques, nous savons que le temps moyen
|
||
durant lequel une firme ne r<>ajuste pas son prix de fa<66>on
|
||
<< optimale >> est de quatre trimestres, nous pouvons d<>duire qu'une
|
||
valeur pertinente de la probabilit<69> $\xi_p$ est trois quarts.
|
||
L'<27>conomiste bay<61>sien pourra donc formaliser son \textit{a priori}
|
||
sur le param<61>tre $\xi_p$ en s<>lectionnant une distribution b<>ta
|
||
ayant pour mode $3/4$ et en sp<73>cifiant une variance mesurant son
|
||
incertitude sur le param<61>tre d'int<6E>r<EFBFBD>t. Il choisira une variance
|
||
d'autant plus grande qu'il est incertain des <20>valuations
|
||
micro<EFBFBD>conomiques dont il dispose\footnote{Cette incertitude peut
|
||
s'expliquer par une ad<61>quation imparfaite entre le concept th<74>orique
|
||
et l'enqu<71>te micro<72>conomique.}. Notons qu'il pourrait directement
|
||
poser son \textit{a priori} sur le d<>lai moyen d'attente avant qu'il
|
||
ne puisse optimalement ajuster son prix, $\zeta_p$~;
|
||
ceci r<>sultera en une distribution diff<66>rente pour le param<61>tre
|
||
$\xi_p$. Si $\xi_p$ est le seul param<61>tre du mod<6F>le pour lequel nous sommes incertain,
|
||
\textit{ie} si les autres param<61>tres ont des variances \textit{a priori} nulles, la densit<69>
|
||
a priori sur ce param<61>tre d<>crit une famille de DGP, index<65>e par $\xi_p$~:
|
||
chaque valeur possible de $\xi_p$ correspond <20> un DGP.}\newline
|
||
|
||
\par{Plus g<>n<EFBFBD>ralement, nous noterons l'\textit{a priori} sur un vecteur
|
||
de param<61>tres $\theta_{\mathcal M}$ associ<63> <20> un mod<6F>le param<61>trique
|
||
$\mathcal M$, $\theta_{\mathcal M} \equiv \left(\theta_1^{\mathcal
|
||
M},\dots,\theta_{q_{\mathcal M}}^{\mathcal M}\right)$, de la fa<66>on
|
||
suivante~:
|
||
\begin{equation}\label{equ:bayes:prior}
|
||
p_0(\theta_{\mathcal M}|\mathcal M)
|
||
\end{equation}
|
||
Cette densit<69> jointe d<>finit notre incertitude quant aux param<61>tres $\theta_{\mathcal M}$
|
||
avant que nous ayons port<72> attention aux donn<6E>es. Il convient de noter
|
||
que nous raisonnons conditionnellement <20> un mod<6F>le. En toute
|
||
g<EFBFBD>n<EFBFBD>ralit<EFBFBD> l'incertitude pourrait aussi porter sur la forme du mod<6F>le
|
||
param<EFBFBD>trique $\mathcal M$. Plus loin nous omettrons g<>n<EFBFBD>ralement le conditionnement (ainsi que l'indexation)
|
||
par le mod<6F>le pour simplifier les notations.}\newline
|
||
|
||
\par{Nous observons un <20>chantillon $\sample = \left\{y_t^*
|
||
\right\}_{t=1}^T$ o<> $y_t^*$ est un vecteur de $m$ variables. Nous
|
||
nous limiterons au cas o<> l'indice $t$ repr<70>sente le temps. La
|
||
vraisemblance est la densit<69> de l'<27>chantillon conditionnellement au
|
||
mod<EFBFBD>le et ses param<61>tres~; on notera~:
|
||
\begin{equation}\label{equ:bayes:lik}
|
||
\mathcal L \left(\theta_{\mathcal M};\sample,\mathcal M\right)
|
||
\equiv p(\sample| \theta_{\mathcal M},\mathcal M)
|
||
\end{equation}
|
||
L'estimateur du maximum de vraisemblance (MV) des param<61>tres
|
||
$\theta_{\mathcal M}$ d'un mod<6F>le $\mathcal M$ est la valeur des
|
||
param<EFBFBD>tres qui rend le plus << probable>> l'occurrence de
|
||
l'<27>chantillon <20> notre disposition. Autrement dit, l'estimateur du
|
||
MV s<>lectionne le param<61>tre $\theta_{\mathcal M}$ d<>finissant le
|
||
DGP qui a le plus probablement g<>n<EFBFBD>r<EFBFBD> les donn<6E>es. La d<>marche
|
||
statistique, classique ou bay<61>sienne, est une d<>marche d'inversion
|
||
--- il s'agit de remonter des observations aux param<61>tres du DGP.
|
||
Un mod<6F>le (la vraisemblance) d<>finit la densit<69> d'un ensemble de
|
||
variables conditionnellement <20> des param<61>tres inconnus.
|
||
L'observation de l'<27>chantillon donne en retour de l'information
|
||
sur les param<61>tres. La notation d<>finie par l'<27>quation
|
||
(\ref{equ:bayes:lik}) r<>sume le principe de l'inf<6E>rence~; la
|
||
vraisemblance est la densit<69> de l'<27>chantillon $\sample$ sachant
|
||
les param<61>tres $\theta$ mais nous <20>crivons habituellement la
|
||
vraisemblance comme une fonction des param<61>tres, \textit{ie.}
|
||
formellement nous <20>changeons les r<>les de $\sample$ et
|
||
$\theta$.}\newline
|
||
|
||
\par{Nous disposons des densit<69>s $p_0(\theta_{\mathcal M}|\mathcal M)$, qui caract<63>rise
|
||
l'information postul<75>e \textit{a priori}, et $p(\sample
|
||
|\theta_{\mathcal M},\mathcal M)$, qui caract<63>rise l'information amen<65>e par les donn<6E>es. On croise
|
||
ces deux sources d'informations orthogonales, en utilisant le th<74>or<6F>me de
|
||
Bayes, pour obtenir la densit<69> de $\theta_M$ sachant les donn<6E>es
|
||
$\sample$, \textit{ie} la densit<69> post<73>rieure~:
|
||
\begin{equation}\label{equ:bayes:posterior}
|
||
p_1\left(\theta_{\mathcal M}|\sample,\mathcal M\right) =
|
||
\frac{p_0\left(\theta_{\mathcal M} | \mathcal M\right)
|
||
p(\sample|\theta_{\mathcal M},\mathcal M)}{p(\sample | \mathcal M)}
|
||
\end{equation}
|
||
avec
|
||
\begin{equation}\label{equ:bayes:marginaldensity}
|
||
p\left(\sample | \mathcal M\right) = \int_{\Theta_{\mathcal M}}
|
||
p_0\left(\theta_{\mathcal M} | \mathcal M\right)
|
||
p(\sample|\theta_{\mathcal M},\mathcal M)\mathrm d \theta_{\mathcal
|
||
M}
|
||
\end{equation}
|
||
la densit<69> marginale. Ainsi, la densit<69> post<73>rieure est
|
||
proportionnelle <20> la densit<69> \textit{a priori} multipli<6C>e par la
|
||
vraisemblance~:
|
||
\[
|
||
\begin{split}
|
||
p_1\left(\theta_{\mathcal M}|\sample,\mathcal M\right) & \propto
|
||
p_0\left(\theta_{\mathcal M} | \mathcal M\right)
|
||
p\left(\sample|\theta_{\mathcal M},\mathcal M\right)\\
|
||
& \equiv \mathcal K \left(\theta_{\mathcal M} | \sample,{\mathcal M}
|
||
\right)
|
||
\end{split}
|
||
\]
|
||
Puisque le d<>nominateur dans \equaref{equ:bayes:posterior}, la
|
||
densit<EFBFBD> marginale, ne d<>pend pas de $\theta_{\mathcal M}$,
|
||
l'inf<6E>rence sur les param<61>tres, par exemple l'<27>valuation de
|
||
l'esp<73>rance post<73>rieure, peut <20>tre mise en oeuvre <20> l'aide du seul
|
||
noyau post<73>rieur, $\mathcal K \left(\theta_{\mathcal M} |
|
||
\sample,{\mathcal M} \right)$. On repr<70>sente nos croyances \textit{a
|
||
posteriori} en exhibant les propri<72>t<EFBFBD>s de la distribution \textit{a
|
||
posteriori}. Nous pouvons repr<70>senter graphiquement la densit<69>
|
||
post<EFBFBD>rieure marginale de chaque param<61>tre $\theta$, construire des
|
||
intervalles contenant $\alpha \%$ de la distribution post<73>rieure, ou
|
||
encore calculer des moments \textit{a posteriori}. Par exemple, la
|
||
comparaison des variances \textit{a priori} et \textit{a posteriori}
|
||
peut nous renseigner sur l'information apport<72>e par les donn<6E>es,
|
||
relativement <20> celle contenue dans nos croyances \textit{a priori}.
|
||
Les variances de chaque param<61>tre sont d<>finies <20> partir des
|
||
<EFBFBD>l<EFBFBD>ments diagonaux des matrice suivantes~:
|
||
\[
|
||
\mathbb V_0[\theta] = \int_{\Theta} \theta\theta'p_0(\theta)\mathrm d\theta -
|
||
\left(\int_{\Theta} \theta p_0(\theta)\mathrm d\theta\right)\left(\int_{\Theta} \theta p_0(\theta)\mathrm d\theta\right)'
|
||
\]
|
||
et
|
||
\[
|
||
\mathbb V_1[\theta] = \int_{\Theta} \theta\theta'p_1(\theta|\sample)\mathrm d\theta -
|
||
\left(\int_{\Theta} \theta p_1(\theta|\sample)\mathrm d\theta\right)\left(\int_{\Theta} \theta p_1(\theta|\sample)\mathrm d\theta\right)'
|
||
\]
|
||
Si la variance post<73>rieure d'un param<61>tre est plus faible que sa
|
||
variance \textit{a priori} cela signifie que les donn<6E>es apportent
|
||
une information suppl<70>mentaire sur ce param<61>tre, relativement <20>
|
||
l'information \textit{a priori}. Dans certains cas, il est possible
|
||
d'obtenir analytiquement la densit<69> post<73>rieure et ses
|
||
moments\footnote{Une condition n<>cessaire est que nous disposions
|
||
d'une expression analytique de la vraisemblance.}~; nous verrons un
|
||
exemple dans la section suivante. Plus g<>n<EFBFBD>ralement, il est
|
||
n<EFBFBD>cessaire de recourir <20> des algorithmes num<75>riques, pour
|
||
caract<EFBFBD>riser la distribution post<73>rieure, \textit{ie} pour <20>valuer
|
||
les int<6E>grales n<>cessaires au calcul des moments.}\newline
|
||
|
||
\par{Pour communiquer nos croyances \textit{a posteriori} on d<>sire souvent recourir <20> un m<>dia plus synth<74>tique en
|
||
r<EFBFBD>sumant, <20> l'image de l'approche classique, la distribution post<73>rieure par un point. On parle alors d'estimation
|
||
ponctuelle. R<>duire la distribution post<73>rieure <20> un point s'apparente <20> un choix en univers incertain. Il est donc
|
||
naturel de construire une estimation ponctuelle en minimisant l'esp<73>rance post<73>rieure d'une fonction de perte~:
|
||
\begin{equation}\label{equ:bayes:pointestimate}
|
||
\hat{\theta} = \arg\underset{a}{\min}\int_{\Theta} p_1(\theta|\sample,\mathcal M)L(a,\theta)\mathrm d\theta
|
||
\end{equation}
|
||
o<EFBFBD> $L(a,\theta)$ est une fonction associant une perte au choix $a$ si la vraie valeur du param<61>tre est $\theta$. Si,
|
||
par exemple, la fonction de perte est quadratique\footnote{Nous supposons un instant qu'il n'y a qu'un param<61>tre
|
||
dans le mod<6F>le.}~:
|
||
\[
|
||
L(a,\theta) = (a-\theta)^2
|
||
\]
|
||
alors on montre \cite[page 24]{ZellnerBook} que l'estimation ponctuelle doit <20>tre l'esp<73>rance post<73>rieure de
|
||
$\theta$. D'autres fonctions de perte aboutiront <20> d'autres estimations ponctuelles. La m<>diane post<73>rieure
|
||
peut <20>tre rationnalis<69>e en consid<69>rant la fonction de perte $L(a,\theta) = |a-\theta|$~; plus g<>n<EFBFBD>ralement on
|
||
peut exhiber une fonction de perte pour justifier l'utilisation de chaque quantile de la distribution comme une
|
||
estimation ponctuelle.}\newline
|
||
|
||
\par{Tant que l'inf<6E>rence porte sur les param<61>tres d'un mod<6F>le, nous
|
||
pouvons mettre de c<>t<EFBFBD> la constante d'int<6E>gration, $p(\mathcal
|
||
Y_T^{\ast}|\mathcal M)$. Cependant, la densit<69> marginale
|
||
con\-tient une information pertinente si nous d<>sirons comparer
|
||
diff<EFBFBD>rents mod<6F>les. En effet, celle-ci nous renseigne sur la
|
||
densit<EFBFBD> de l'<27>chantillon conditionnellement au mod<6F>le.
|
||
L'interpr<70>tation de sa d<>finition
|
||
(\ref{equ:bayes:marginaldensity}) est directe~: la densit<69>
|
||
marginale est une moyenne des vraisemblances, obtenues pour
|
||
diff<EFBFBD>rentes valeurs des param<61>tres, pond<6E>r<EFBFBD>es par nos croyances
|
||
\textit{a priori} sur les valeurs de ces param<61>tres. Comme cette
|
||
quantit<EFBFBD> ne d<>pend pas des param<61>tres, puis\-que nous avons
|
||
int<EFBFBD>gr<EFBFBD> le noyau post<73>rieur par rapport aux param<61>tres pour
|
||
l'obtenir, elle autorise facilement la comparaison de mod<6F>les non
|
||
embo<EFBFBD>t<EFBFBD>s\footnote{La comparaison est moins simple dans le cas de
|
||
l'inf<6E>rence classique.}. Par exemple, si nous disposons de deux
|
||
mod<EFBFBD>les alternatifs, $\mathcal A$ et $\mathcal B$, pour expliquer
|
||
les donn<6E>es et si nous obtenons $p(\mathcal Y_T^{\ast}|\mathcal
|
||
A)>p(\mathcal Y_T^{\ast}|\mathcal B)$, alors cela signifie que les
|
||
donn<EFBFBD>es <20> notre disposition ont plus probablement <20>t<EFBFBD> g<>n<EFBFBD>r<EFBFBD>es par
|
||
le mod<6F>le $\mathcal A$ que par le mod<6F>le $\mathcal B$. Cette
|
||
approche ne fournit pas un test formel, pour prendre une d<>cision
|
||
il faut sp<73>cifier un crit<69>re de perte\footnote{Se reporter <20>
|
||
Zellner \cite[chapitre 10]{ZellnerBook}, en particulier la
|
||
premi<EFBFBD>re section pages 292 <20> 298. Le choix d'un mod<6F>le parmi une
|
||
collection de mod<6F>les s'apparente <20> l'estimation d'un param<61>tre
|
||
dont la distribution est discr<63>te. Il y a donc une analogie entre
|
||
le choix d'un mod<6F>le et l'estimation ponctuelle de $\theta$.}.
|
||
Ici, nous supposons implicitement que nous n'avons pas de <<
|
||
pr<EFBFBD>f<EFBFBD>rence >> \textit{a priori} pour un des deux mod<6F>les. En
|
||
toute g<>n<EFBFBD>ralit<69> nous pourrions d<>finir une densit<69> de probabilit<69>
|
||
(discr<63>te) \textit{a priori} pour les mod<6F>les $\mathcal I =
|
||
\mathcal A,\mathcal B$. Par exemple, nous pourrions supposer que
|
||
$p_0(\mathcal A)>p_0(\mathcal B)$ \textit{a priori}. Par le
|
||
th<EFBFBD>or<EFBFBD>me de Bayes, nous obtenons la probabilit<69> \textit{a
|
||
posteriori} du mod<6F>le $\mathcal I$~:
|
||
\[
|
||
p_1(\mathcal I|\sample) = \frac{p_0(\mathcal I)p(\sample|\mathcal
|
||
I)}{\sum_{\mathcal I} p_0(\mathcal I)p(\sample|\mathcal I)}
|
||
\]
|
||
L'interpr<70>tation est directe, il s'agit d'une version discr<63>te des
|
||
<EFBFBD>quations (\ref{equ:bayes:posterior}) et
|
||
(\ref{equ:bayes:predictivedensity}). Si nous devons s<>lectionner
|
||
un mod<6F>le, notre pr<70>f<EFBFBD>rence ira au mod<6F>le qui maximise la densit<69>
|
||
post<EFBFBD>rieure. L'<27>licitation d'une densit<69> de probabilit<69> \textit{a
|
||
priori} sur la collection de mod<6F>les n'est pas une chose ais<69>e~;
|
||
on ne peut associer une probabilit<69> <20> un mod<6F>le de la m<>me fa<66>on
|
||
que l'on pose une densit<69> \textit{a priori} sur le param<61>tre de
|
||
Calvo d'une courbe de Phillips. C'est pourquoi une densit<69> de
|
||
probabilit<EFBFBD> uniforme est souvent utilis<69>e dans la litt<74>rature
|
||
concern<EFBFBD>e par l'estimation des mod<6F>les DSGE. Pour une revue des
|
||
enjeux de la comparaison de mod<6F>les, on peut lire \citet[chapitre
|
||
7]{RobertBook} ou \citet{Sims2003}. Enfin, notons que la comparaison de diff<66>rents
|
||
mod<EFBFBD>les, par l'interm<72>diaire de leurs densit<69>s marginales, ne doit
|
||
pas n<>cessairement aboutir <20> un choix. Dans certaines situations,
|
||
il peut <20>tre souhaitable de combiner plusieurs mod<6F>les, en les
|
||
pond<EFBFBD>rant par leurs densit<69>s marginales respectives\footnote{Pour
|
||
une description des m<>thodes \emph{Bayesian Model Averaging}, voir
|
||
\cite{BookKoop03}, chapitre 11.}.}\newline
|
||
|
||
\par{Apr<EFBFBD>s l'estimation, le mod<6F>le peut <20>tre utilis<69> pour construire des pr<70>visions et des fonctions
|
||
de r<>ponse. <20> l'image de l'estimation des param<61>tres, le paradigme bay<61>sien ne fournit pas en premier lieu
|
||
des pr<70>visions ponctuelles mais des densit<69>s pr<70>dictives. Supposons que nous souhaitions <20>tablir des
|
||
pr<EFBFBD>dictions sur $y_{T+1}^*$, un vecteur d'endog<6F>nes non encore observ<72>es, le but est de construire la
|
||
densit<EFBFBD> (pr<70>dictive) de ce vecteur. Cette densit<69> peut <20>tre obtenue en int<6E>grant par rapport <20> $\theta$
|
||
la densit<69> post<73>rieure jointe de $y_{T+1}^*$ et $\theta$~:
|
||
\[
|
||
p\left(y_{T+1}^*|\sample\right) = \int_{\Theta}p\left(y_{T+1}^*,\theta|\sample\right)\mathrm d \theta
|
||
\]
|
||
o<EFBFBD> la densit<69> sous l'int<6E>grale est d<>finie par~:
|
||
\[
|
||
p\left(y_{T+1}^*,\theta|\sample\right) = p\left(y_{T+1}^*|\theta,\sample\right)p_1\left(\theta|\sample\right)
|
||
\]
|
||
par le th<74>or<6F>me de Bayes. La densit<69> jointe de $y_{T+1}^*$ et $\theta$ est le produit de la densit<69>
|
||
post<EFBFBD>rieure de $\theta$ et de la densit<69> de $y_{T+1}^*$ conditionnelle <20> $\theta$. Cette derni<6E>re
|
||
densit<EFBFBD> est directement obtenue <20> partir de la d<>finition du
|
||
mod<EFBFBD>le.\newline Donnons un exemple dans le cas scalaire. Si le
|
||
mod<EFBFBD>le est un processus autor<6F>gressif d'ordre un~: $y^*_t = \theta y^*_{t-1} + \varepsilon_t$ avec $t=1,\dots,T$,
|
||
$\varepsilon_t \underset{iid}{\sim}\normal{0}{\sigma^2}$ et $\sigma^2$, la variance de l'innovation, connue.
|
||
La distribution de $y_{T+1}^*$ conditionnellement <20> $\theta$ et
|
||
$\sample$\footnote{Dans le cas du mod<6F>le AR(1) l'information
|
||
apport<EFBFBD>e par l'<27>chantillon est r<>sum<75>e par la derni<6E>re observation
|
||
$y^*_{T}$.} est gaussienne~: $y_{T+1}|
|
||
\sample,\theta\sim\normal{\theta y^*_T}{\sigma^2}$. La densit<69>
|
||
pr<EFBFBD>dictive s'<27>crit finalement~:
|
||
\begin{equation}\label{equ:bayes:predictivedensity}
|
||
p\left(y_{T+1}^*|\sample\right) = \int_{\Theta} p\left(y_{T+1}^*|\theta,\sample\right)
|
||
p_1\left(\theta|\sample\right)\mathrm d \theta
|
||
\end{equation}
|
||
et s'interpr<70>te comme une moyenne des densit<69>s conditionnelles de $y_{T+1}^*$ sachant $\theta$, pond<6E>r<EFBFBD>es par la
|
||
densit<EFBFBD> post<73>rieure de $\theta$.\newline <20> partir de cette densit<69> pr<70>dictive, on peut construire une pr<70>diction
|
||
ponctuelle des variables en se donnant une fonction de perte, repr<70>senter un intervalle contenant $\alpha\%$ de
|
||
la distribution de $y_{T+1}^*$, ou encore repr<70>senter la densit<69> pr<70>dictive (marginale) de chaque variable
|
||
composant le vecteur des observables. En confrontant la densit<69> pr<70>dictive aux r<>alisations effectives des
|
||
variables, on peut alors <20>valuer dans quelle mesure notre mod<6F>le tend <20> sur-estimer ou sous-estimer, par exemple, le
|
||
taux de croissance <20> un trimestre du PIB par t<>te. Cette comparaison peut fournir un crit<69>re d'<27>valuation du mod<6F>le.
|
||
Si on se rend compte que les r<>alisations effectives d'une variable se situent syst<73>matiquement dans les queues de la
|
||
densit<EFBFBD> pr<70>dictive, alors on peut conclure que le mod<6F>le est mal sp<73>cifi<66> vis-<2D>-vis de cette variable.}
|
||
|
||
\subsection{Le choix des croyances \textit{a priori}}\label{sec:1:2}
|
||
|
||
\par{On comprend d<>j<EFBFBD> que le choix des croyances \textit{a priori} est essentiel, dans la mesure o<>
|
||
il d<>termine partiellement les r<>sultats (surtout pour un <20>chantillon de taille r<>duite comme
|
||
nous le verrons par la suite). La subjectivit<69> de l'<27>conom<6F>tre ne peut
|
||
intervenir que dans la premi<6D>re <20>tape d'<27>licitation de l'\textit{a priori}, les <20>tapes (l'<27>valuation
|
||
de la vraisemblance,...) suivantes sont automatiques et n<>cessairement
|
||
objectives. La question du choix des croyances \textit{a priori} est donc crucial,
|
||
d'autant plus qu'il s'agit du point qui engendre le plus de m<>fiance parmi les <20>conomistes, de
|
||
formation -- tr<74>s g<>n<EFBFBD>ralement -- classique. Il est donc important de bien comprendre le r<>le de la
|
||
densit<EFBFBD> \textit{a priori} dans les r<>sultats, par exemple en menant des exercices de sensibilit<69> aux
|
||
croyances \textit{a priori}. Ces exp<78>riences, en donnant une id<69>e du r<>le des priors, d<>voilent implicitement la forme
|
||
de la vraisemblance. L'exp<78>rience la plus extr<74>me\footnote{Une exp<78>rience moins extr<74>me serait de consid<69>rer des
|
||
densit<EFBFBD>s \textit{a priori} plus g<>n<EFBFBD>rales. Supposons que notre \textit{a priori} sur un
|
||
param<EFBFBD>tre $\mu$ soit caract<63>ris<69> par une loi normale centr<74>e en $\mu_0$ et de variance $\sigma_0^2$. Nous pourrions
|
||
<EFBFBD>valuer la sensibilit<69> des r<>sultats <20> ce choix en reprenant l'estimation avec une densit<69> \textit{a priori} de student~:
|
||
\[
|
||
p_0(\mu) \propto \left(\nu s+(x-\mu_0)^2\right)^{-\frac{\nu+1}{2}}
|
||
\]
|
||
L'esp<73>rance \textit{a priori} serait alors $\mu_0$ mais la variance \textit{a priori} serait $\frac{\nu}{\nu-2}s$
|
||
(pour $\nu$ strictement sup<75>rieur <20> 2). En faisant varier le nombre de degr<67> de libert<72> $\nu$ on s'<27>carte ou se
|
||
rapproche du prior gaussien.} est de consid<69>rer un \textit{a priori} non informatif, c'est-<2D>-dire
|
||
le cas o<> nous n'avons aucune croyance \textit{a priori} sur la
|
||
param<EFBFBD>trisation du mod<6F>le. De fa<66>on assez surprenante,
|
||
les statisticiens bay<61>siens ne parviennent pas <20> s'accorder sur une chose aussi essentielle
|
||
que la caract<63>risation du non savoir.}\newline
|
||
|
||
\par{Dans la section \ref{sec:1:1} nous avons examin<69> le cas d'un \textit{a priori} informatif sur le param<61>tre
|
||
de Calvo d<>finissant le degr<67> de rigidit<69> de l'inflation. Dans ce cas notre connaissance \textit{a priori}
|
||
provient de l'observation de donn<6E>es micro<72>conomiques, diff<66>rentes de celles utilis<69>es pour l'estimation
|
||
du mod<6F>le. Lorsque l'information \textit{a priori} est bas<61>e sur des donn<6E>es, celles-ci doivent <20>tre diff<66>rentes
|
||
des donn<6E>es utilis<69>es pour identifier le mod<6F>le. Dans le cas contraire la d<>marcation entre vraisemblance et densit<69>
|
||
\textit{a priori} devient plus ambigu<67>, ce qui para<72>t inacceptable pour de nombreux statisticiens. Notons n<>anmoins que
|
||
de non moins nombreux statisticiens utilisent l'<27>chantillon pour d<>finir les croyances \textit{a priori}. Par exemple
|
||
quand il s'agit de sp<73>cifier la densit<69> \textit{a priori} de fa<66>on <20> optimiser les capacit<69>s pr<70>dictives d'un
|
||
mod<EFBFBD>le (voir plus loin la section \ref{sec:1:4:pratique}). Les croyances \textit{a priori} peuvent aussi <20>tre bas<61>es
|
||
sur des consid<69>rations purement th<74>oriques (voir la section \ref{sec:bvardsge}). Dans la litt<74>rature concern<72>e par
|
||
l'estimation des mod<6F>les DSGE (et aussi des VAR), les croyances \textit{a priori}, ind<6E>pendamment de l'origine de ces
|
||
croyances, sont g<>n<EFBFBD>ralement repr<70>sent<6E>es par des densit<69> param<61>tr<74>es (distribution gaussienne, gamma,...). Dans
|
||
certains cas, on parle alors d'\textit{a priori} conjugu<67>s, elles sont choisies de fa<66>on que la densit<69>
|
||
\textit{a posteriori} soit de la m<>me famille param<61>trique (voir l'exemple du mod<6F>le VAR plus loin). La motivation est
|
||
essentiellement technique, l'utilisation de formulations conjugu<67>es ou plus g<>n<EFBFBD>ralement param<61>tr<74>es des
|
||
\textit{a priori} est un h<>ritage du pass<73>. Aujourd'hui, la technologie ne nous emp<6D>che pas d'adopter une formulation
|
||
non param<61>trique plus g<>n<EFBFBD>rale. Par exemple nous pourrions caract<63>riser nos croyances \textit{a priori} sur chaque
|
||
param<EFBFBD>tre en sp<73>cifiant les quantiles de chaque distribution. Il est vrai que nos croyances sont rarement aussi
|
||
pr<EFBFBD>cises.}\newline
|
||
|
||
\par{Dans certaines situations nos connaissances \textit{a priori} sont faibles ou nous d<>sirons faire comme si c'<27>tait
|
||
le cas (par exemple pour <20>valuer la sensibilit<69> des r<>sultats aux \textit{a priori}). Malheureusement la caract<63>risation
|
||
de l'ignorance est toujours sujet <20> d<>bat. Un exemple frappant est donn<6E> par \citet{SimsUhlig91} puis
|
||
\citet{PhillipsJAE91a}, \citet{PhillipsJAE91b} et \citet{SimsJAE91}, qui d<>batent de la caract<63>risation de
|
||
l'ignorance dans un mod<6F>le autor<6F>gressif d'ordre un et des
|
||
cons<EFBFBD>quences sur la d<>tection de racines unitaires.\newline Une premi<6D>re approche est de consid<69>rer un prior plat. Pour
|
||
un param<61>tre $\mu$ qui peut prendre des valeurs entre $-\infty$ et $\infty$, \citet{JeffreyBook61} propose d'adopter une
|
||
distribution uniforme entre $-\infty$ et $\infty$~:
|
||
\[
|
||
p_0(\mu) \propto \mathrm 1
|
||
\]
|
||
<EFBFBD>videmment cette densit<69> est impropre dans le sens o<> $\int p_0(\mu)\mathrm d\mu$ est ind<6E>fini.
|
||
Mais c'est pr<70>cis<69>ment cette propri<72>t<EFBFBD> qui, pour \citeauthor{JeffreyBook61}, rend ce prior non informatif.
|
||
En effet, pour tout $a<b<c<d$ on ne peut pas dire que $\mu \in [a,b]$ soit \textit{a priori} plus probable que
|
||
$\mu \in [c,d]$, puisque les probabilit<69>s de ces <20>v<EFBFBD>nements sont nulles. Pour un param<61>tre $\sigma$, par exemple
|
||
un <20>cart-type, qui peut prendre des valeurs entre 0 et $\infty$, \citeauthor{JeffreyBook61} propose d'adopter
|
||
une distribution uniforme pour le logarithme de $\sigma$ entre $-\infty$ et $\infty$~:
|
||
\[
|
||
\begin{split}
|
||
p_0(\log \sigma) &\propto 1\\
|
||
\Leftrightarrow p_0(\sigma) &\propto \frac{1}{\sigma}
|
||
\end{split}
|
||
\]
|
||
Comme dans le cas pr<70>c<EFBFBD>dent l'int<6E>grale de cette densit<69> est
|
||
impropre. En particulier, on ne peut d<>finir $\int_0^c
|
||
p_0(\sigma)\mathrm d \sigma$ et $\int_c^{\infty} p_0(\sigma)\mathrm
|
||
d \sigma$, nous ne pouvons dire s'il est plus probable que $\sigma$
|
||
soit sup<75>rieur ou inf<6E>rieur <20> $c$\footnote{Cette propri<72>t<EFBFBD> est
|
||
indispensable pour repr<70>senter l'ignorance. Dans la litt<74>rature
|
||
DSGE, la distribution inverse-gamma avec un moment d'ordre deux
|
||
infini est souvent utilis<69>e pour repr<70>senter le peu d'information
|
||
dont nous disposons sur la variance des chocs structurels (voir par
|
||
exemple \citet{SmetsWouters2004}). Cette distribution est
|
||
informative dans le sens o<>, m<>me si le moment d'ordre deux n'est
|
||
pas d<>fini, il est possible de comparer les probabilit<69>s qu'une
|
||
variance soit sup<75>rieure ou inf<6E>rieure <20> $c>0$.}. On note en passant
|
||
que cette densit<69> a l'heureuse propri<72>t<EFBFBD> d'<27>tre invariante <20> une
|
||
transformation puissance\footnote{Si le logarithme de $\sigma$ est
|
||
uniform<EFBFBD>ment distribu<62> sur $]-\infty,\infty[$ alors le logarithme de
|
||
$\sigma^a$ (avec $a>0$) est aussi uniform<72>ment distribu<62> sur
|
||
$]-\infty,\infty[$ car $\log \sigma^a = a\log\sigma$.}, si le prior
|
||
est non informatif sur l'<27>cart type, il en va de m<>me pour la
|
||
variance ($\sigma^2$).\newline Plus tard, Jeffrey g<>n<EFBFBD>ralisa ce
|
||
r<EFBFBD>sultat d'invariance et proposa un prior non informatif (le plus
|
||
souvent impropre) plus g<>n<EFBFBD>ral bas<61> sur la matrice d'information de
|
||
Fisher~:
|
||
\[
|
||
p_0(\theta) \propto |I(\theta)|^{\frac{1}{2}}
|
||
\]
|
||
avec
|
||
\[
|
||
I(\theta) = \mathbb E \left[\left(\frac{\partial p(\sample|\theta)}{\partial \theta}\right)
|
||
\left(\frac{\partial p(\sample|\theta)}{\partial \theta}\right)'\right]
|
||
\]
|
||
La matrice d'information de Fisher quantifie l'information amen<65>e par le mod<6F>le et les donn<6E>es sur
|
||
le param<61>tre $\theta$. En favorisant les valeurs de $\theta$ pour lesquelles l'information de Fisher
|
||
est plus grande, on diminue l'influence de la loi \textit{a priori} puisque l'information v<>hicul<75>e
|
||
par celle-ci est peu diff<66>rente de l'information provenant de la vraisemblance. La d<>finition de la densit<69> \textit{a
|
||
priori} est donc li<6C>e <20> la courbure de la vraisemblance. Cette densit<69> \textit{a priori} est invariante <20> toute
|
||
reparam<EFBFBD>trisation (continue) du mod<6F>le (voir \citet[annexe du chapitre 2]{ZellnerBook} pour une description plus
|
||
d<EFBFBD>taill<EFBFBD>e des propri<72>t<EFBFBD>s d'invariance).}\newline
|
||
|
||
\par{L'utilisation d'un prior plat ou d'un prior d<>riv<69> de la matrice
|
||
d'information de Fisher pour caract<63>riser l'absence d'information affecte g<>n<EFBFBD>ralement l'inf<6E>rence. Par exemple, dans
|
||
un mod<6F>le AR(1), voir \citet{PhillipsJAE91a}, un prior bas<61> sur l'information de Fisher n'est pas <20>quivalent <20>
|
||
un prior uniforme (plat). En effet, dans un mod<6F>le dynamique, la quantit<69> d'information v<>hicul<75>e par les donn<6E>es
|
||
(\textit{ie} la vraisemblance) d<>pend de la valeur du param<61>tre autor<6F>gressif ($\rho$). Si le param<61>tre est proche de
|
||
l'unit<69>, voire <20>gal ou sup<75>rieur <20> un, les donn<6E>es sont plus informatives. Ainsi, pour \citeauthor{PhillipsJAE91a},
|
||
l'utilisation d'un prior plat, <20> l'instar de \citet{ZellnerBook} ou \citet{SimsUhlig91}, biaise la distribution
|
||
post<EFBFBD>rieure de $\rho$ en faveur de la stationnarit<69>. En donnant autant de poids aux valeurs explosives de $\rho$
|
||
qu'aux valeurs stationnaires, le prior plat ne prend pas en compte le fait que des donn<6E>es g<>n<EFBFBD>r<EFBFBD>es par un mod<6F>le
|
||
<EFBFBD> racine unitaire ou explosif sont plus informatives. Il existe d'autres approches pour caract<63>riser l'ignorance, on
|
||
peut lire le chapitre 3 de \citet{RobertBook} et plus sp<73>cialement la section 5.}\newline
|
||
|
||
\par{Le choix d'une densit<69> \textit{a priori} et ses cons<6E>quences sur l'inf<6E>rence sont l'objet de toutes les
|
||
critiques de la part des statisticiens ou <20>conomistes classiques. Il ne faudrait pourtant pas oublier que
|
||
le paradigme classique n'est pas plus exempt de choix aux cons<6E>quences non n<>gligeables sur l'inf<6E>rence. Par exemple,
|
||
le choix d'une m<>trique (minimiser la somme des carr<72>s des r<>sidus ou la somme des valeurs absolues des r<>sidus), le
|
||
choix des variables instrumentales, mod<6F>les auxiliaires ou des conditions de moments, sont rarement discut<75>s m<>me s'ils
|
||
d<EFBFBD>terminent les r<>sultats. Dans une certaine mesure, nous n'avons m<>me plus conscience des choix effectu<74>s. L'approche
|
||
bay<EFBFBD>sienne est de ce point de vu bien plus transparente.}\newline
|
||
|
||
|
||
\subsection{Comportement asymptotique et approximations} \label{sec:1:3}
|
||
|
||
\par{M<EFBFBD>me si l'approche bay<61>sienne ne repose pas sur des arguments asymptotiques, comme g<>n<EFBFBD>ralement
|
||
l'approche classique, il est utile de s'interroger sur le comportement asymptotique de ses estimateurs.
|
||
Le r<>sultat rassurant est que si les conditions de normalit<69> asymptotique de l'estimateur du maximum de
|
||
vraisemblance sont r<>unies\footnote{Se reporter <20> \citet[chapitre 7]{GourierouxMonfortStatBook1}.}, alors
|
||
la distribution post<73>rieure tend vers une gaussienne multivari<72>e. Asymptotiquement, la distribution
|
||
post<EFBFBD>rieure est centr<74>e sur l'estimateur du maximum de vraisemblance. Ce r<>sultat, avanc<6E> par Laplace,
|
||
est intuitif puisque lorsque la taille de l'<27>chantillon tend vers l'infini, le poids de l'information \textit{a priori}
|
||
relativement <20> l'information contenue dans l'<27>chantillon devient marginal.}\newline
|
||
|
||
\par{Plus formellement, si on note $\theta^*$ l'unique mode de la distribution post<73>rieure obtenu en maximisant
|
||
le noyau post<73>rieur $\mathcal{K}(\theta) \equiv \mathcal K \left(\theta_{\mathcal A} | \sample,{\mathcal A}
|
||
\right)$, et s'il est possible d'<27>crire une approximation de Taylor <20> l'ordre deux du noyau post<73>rieur autour
|
||
de $\theta^*$, alors nous avons~:
|
||
\[
|
||
\begin{split}
|
||
\log \mathcal{K}(\theta) = \log \mathcal{K}(\theta^*)
|
||
&+ (\theta-\theta^*)'\left.\frac{\partial \log \mathcal{K}(\theta) }{\partial \theta}\right|_{\theta = \theta^*}\\
|
||
&+ \frac{1}{2}(\theta-\theta^*)'\left.\frac{\partial^2 \log \mathcal{K}(\theta) }
|
||
{\partial \theta\partial \theta'}\right|_{\theta = \theta^*}(\theta-\theta^*) + \mathcal O (||\theta-\theta^*||^3)
|
||
\end{split}
|
||
\]
|
||
Puisque les d<>riv<69>es premi<6D>res sont, par d<>finition, nulles en $\theta^*$, nous avons de fa<66>on <20>quivalente~:
|
||
\[
|
||
\log \mathcal{K}(\theta) = \log \mathcal{K}(\theta^*)
|
||
- \frac{1}{2}(\theta-\theta^*)'[\mathcal H(\theta^*)]^{-1}(\theta-\theta^*) + \mathcal O (||\theta-\theta^*||^3)
|
||
\]
|
||
o<EFBFBD> $\mathcal H(\theta^*)$ est l'oppos<6F> de l'inverse de la matrice hessienne <20>valu<6C>e au mode. Ainsi, en ne consid<69>rant
|
||
que le terme quadratique, le noyau post<73>rieur peut <20>tre approxim<69> par~:
|
||
\[
|
||
\mathcal{K}(\theta)\ \dot{=}\ \mathcal{K}(\theta^*)e^{-\frac{1}{2}(\theta-\theta^*)'[\mathcal H(\theta^*)]^{-1}(\theta-\theta^*)}
|
||
\]
|
||
on reconna<6E>t, <20> une constante d'int<6E>gration pr<70>s\footnote{Notons $c$ cette constante d'int<6E>gration, c'est-<2D>-dire la
|
||
constante telle que $\int c^{-1}\mathcal K (\theta)\mathrm d \theta = 1$. Cette constante (voir les <20>quations
|
||
(\ref{equ:bayes:posterior}) et (\ref{equ:bayes:marginaldensity})) est une approximation de la densit<69> marginale,
|
||
$p(\sample)$. Par d<>finition de la densit<69> d'une loi normale, on a~:
|
||
\[
|
||
c = \mathcal{K}(\theta^*)(2\pi)^{\frac{q}{2}}
|
||
|\mathcal H(\theta^*)|^{\frac{1}{2}}
|
||
\]
|
||
On dit que $c$ est l'approximation de Laplace de la densit<69> marginale.
|
||
L'erreur d'approximation est d'ordre $\mathcal O (T^{-1})$.} la densit<69> d'une loi normale multivari<72>e. En compl<70>tant pour la
|
||
constante d'int<6E>gration, nous obtenons finalement une approximation de la densit<69> post<73>rieure $p_1(\theta)\equiv p_1\left(\theta_{\mathcal A}|\sample,\mathcal A\right)$~:
|
||
\begin{equation}
|
||
p_1\left(\theta\right)\ \dot{=}\ (2\pi)^{-\frac{q}{2}}|\mathcal H(\theta^*)|^{-\frac{1}{2}}
|
||
e^{-\frac{1}{2}(\theta-\theta^*)'[\mathcal H(\theta^*)]^{-1}(\theta-\theta^*)}
|
||
\end{equation}
|
||
G<EFBFBD>n<EFBFBD>ralement, la matrice hessienne est d'ordre $\mathcal O(T)$,
|
||
lorsque la taille de l'<27>chantillon augmente la distribution
|
||
post<EFBFBD>rieure se concentre autour du mode. \`{A} partir de cette
|
||
approximation asymptotique on peut alors tr<74>s facilement calculer,
|
||
par exemple, des moments post<73>rieurs ou approximer les densit<69>s
|
||
pr<EFBFBD>dictives. Par exemple, l'esp<73>rance post<73>rieure de $\varphi
|
||
(\theta)$ est d<>finie par~:
|
||
\[
|
||
\mathbb E\left[\varphi (\theta)\right] = \frac{\int_{\Theta}\varphi(\theta)p(\sample|\theta)p_0(\theta)\mathrm d\theta}
|
||
{\int_{\Theta}p(\sample|\theta)p_0(\theta)\mathrm d\theta}
|
||
\]
|
||
\citet{TierneyKadane1986} montrent que si l'on approxime <20> l'ordre
|
||
deux le num<75>rateur autour du mode de
|
||
$\varphi(\theta)p(\sample|\theta)p_0(\theta)$ et le d<>nominateur
|
||
autour du mode de $p(\sample|\theta)p_0(\theta)$, alors l'erreur
|
||
d'approximation de l'esp<73>rance est d'ordre $\mathcal O (T^{-2})$.
|
||
Les erreurs d'approximation du num<75>rateur et du d<>nominateur, qui
|
||
sont d'ordre $\mathcal O(T^{-1})$, se compensent favorablement.
|
||
L'approche de \citeauthor{TierneyKadane1986} ne va pas sans poser certains probl<62>mes.
|
||
Si on cherche <20> calculer $\mathbb E\left[\varphi (\theta)\right]$ pour diff<66>rentes
|
||
fonctions $\varphi$, alors il est n<>cessaire de recourir <20> une nouvelle maximisation pour
|
||
chaque param<61>tre et chaque fonction $\varphi$. Par exemple, si on
|
||
d<EFBFBD>sire calculer les esp<73>rances et <20>cart-types \emph{a posteriori}
|
||
pour chacun des $k$ param<61>tres, il faut recourir <20> $2k+1$ maximisations, auxquelles il faut rajouter le calcul des
|
||
matrices hessiennes. Il est alors <20>vident que si $k$ est <20>lev<65>, une
|
||
telle approximation peut devenir co<63>teuse en temps de calculs.
|
||
\cite{TierneyKassKadane89} propose diff<66>rentes m<>thodes pour
|
||
pallier cette difficult<6C>\footnote{Pour plus de d<>tails, voir
|
||
\cite{CarlinLouis00}, \cite{Poirier95}, et
|
||
\cite{TierneyKadane1986}.}. Notons n<>anmoins qu'une approche bas<61>e sur des simulations
|
||
(voir la section \ref{sec:dsge}) devient aussi plus co<63>teuse lorsque le nombre de param<61>tres
|
||
augmente.}
|
||
|
||
|
||
\subsection{Un mod<6F>le lin<69>aire : le mod<6F>le VAR}\label{sec:1:4}
|
||
|
||
\par{Dans cette section, nous consid<69>rons un exemple o<> les r<>sultats
|
||
peuvent <20>tre obtenus analytiquement. Le mod<6F>le VAR gaussien se
|
||
pr<EFBFBD>te, comme tout mod<6F>le lin<69>aire gaussien, <20> cet exercice et a l'avantage d'<27>tre un outil
|
||
couramment utilis<69> en macro<72>conomie (voir par exemple la contribution de
|
||
Fabrice Collard et Patrick F<>ve dans ce num<75>ro).}\newline
|
||
|
||
\par{Nous consid<69>rons un mod<6F>le VAR($p$) pour caract<63>riser le vecteur $1
|
||
\times m$ de variables endog<6F>nes $y^*_t$ observ<72>es~:
|
||
\[
|
||
y^*_t = \sum_{i=1}^p y^*_{t-i} \mathbf{A}_i + \varepsilon_t
|
||
\]
|
||
o<EFBFBD> $\{\mathbf{A}_i\}$ est une suite de matrice $m\times m$ et
|
||
$\varepsilon_t$ est un bruit blanc gaussien, de dimension $1\times
|
||
m$ d'esp<73>rance nulle et de variance
|
||
$\mathbb{V}\left[\varepsilon_t\right]=\Sigma$. Nous pourrions
|
||
compl<EFBFBD>ter le mod<6F>le avec des variables exog<6F>nes, une constante par
|
||
exemple, mais nous allons <20> l'essentiel en omettant cette
|
||
possibilit<EFBFBD>.}\newline
|
||
|
||
\par{On note $\sample \equiv \{y^*_t\}_{t=-p+1}^T$ les donn<6E>es <20> notre
|
||
disposition et on note $z_t$ la concat<61>nation horizontale des
|
||
vecteurs lignes $y^*_{t-1}$, $y^*_{t-2}$, ..., $y^*_{t-p}$. En concat<61>nant
|
||
verticalement les vecteurs lignes $y^*_t$, $z_t$ et $\varepsilon_t$,
|
||
pour $t=1,\dots,T$, on obtient la repr<70>sentation matricielle
|
||
suivante du mod<6F>le VAR($p$)~:
|
||
\[
|
||
Y = Z \mathcal{A} + E
|
||
\]
|
||
o<EFBFBD> $Y$ et $E$ sont des matrices $T\times m$, $Z$ est une matrice
|
||
$T\times(mp)$ et $\mathcal A = \left(\mathbf{A}_1',\mathbf{A}_2',\dots,\mathbf{A}_p'\right)'$
|
||
%\[
|
||
%\mathcal{A} = \left(%
|
||
%\begin{array}{c}
|
||
% \mathbf{A}_1 \\ \mathbf{A}_2 \\ \vdots \\ \mathbf{A}_p \\
|
||
%\end{array}%
|
||
%\right)
|
||
%\]
|
||
la matrice $k\times m$ (avec $k = mp$) regroupant les coefficients
|
||
auto-r<>gressifs. La vraisemblance associ<63>e <20> ce mod<6F>le
|
||
lin<EFBFBD>aire gaussien est donn<6E>e par~:
|
||
\[
|
||
\begin{split}
|
||
\mathcal L(\mathcal{A},\Sigma;\sample) =
|
||
&(2\pi)^{-\frac{mT}{2}}\left|\Sigma \right|^{-\frac{T}{2}}\\
|
||
&\times
|
||
e^{-\frac{1}{2}\trace\{(Y-Z\mathcal{A})\Sigma^{-1}(Y-Z\mathcal{A})'\}}
|
||
\end{split}
|
||
\]
|
||
L'estimateur du maximum de vraisemblance (MCO) est d<>fini par~:
|
||
\[
|
||
\widehat{\mathcal{A}} = (Z'Z)^{-1}Z'Y
|
||
\]
|
||
et
|
||
\[
|
||
\widehat{\Sigma} =
|
||
T^{-1}(Y-Z\widehat{\mathcal{A}})'(Y-Z\widehat{\mathcal{A}})
|
||
\]
|
||
Nous verrons plus loin qu'il est profitable de r<><72>crire la
|
||
vraisemblance en faisant appara<72>tre l'estimateur des MCO~:
|
||
\[
|
||
\begin{split}
|
||
\mathcal L(\mathcal{A},\Sigma;\sample) &=
|
||
(2\pi)^{-\frac{mT}{2}}\\\times &\left|\Sigma \right|^{-\frac{k}{2}}
|
||
e^{-\frac{1}{2}\trace
|
||
\left\{\Sigma^{-1}(\mathcal{A}-\widehat{\mathcal{A}})'Z'Z(\mathcal{A}-\widehat{\mathcal{A}})\right\}}\\
|
||
\times &\left|\Sigma \right|^{-\frac{T-k}{2}} e^{-\frac{1}{2}\trace
|
||
\left\{\Sigma^{-1}(Y-Z\widehat{\mathcal{A}})'(Y-Z\widehat{\mathcal{A}})\right\}}.\\
|
||
\end{split}
|
||
\]
|
||
Aux constantes d'int<6E>gration pr<70>s on reconna<6E>t ici les fonctions de
|
||
densit<EFBFBD> de probabilit<69> d'une gaussienne matricielle et d'une inverse
|
||
Wishart (voir l'annexe \ref{annex:A}). La vraisemblance se r<><72>crit
|
||
donc sous la forme suivante~:
|
||
\[
|
||
\begin{split}
|
||
\mathcal L(\mathcal{A},\Sigma;\sample) =
|
||
&(2\pi)^{-\frac{mT}{2}}\times
|
||
(2\pi)^{\frac{km}{2}}\left|Z'Z\right|^{-\frac{m}{2}}\\
|
||
&\times f_{MN_{k,m}}(\mathcal{A};\widehat{\mathcal{A}},(Z'Z)^{-1},\Sigma)\\
|
||
&\times \frac{2^{\frac{\nu m}{2}}\pi^{\frac{m(m-1)}{4}}\prod_{i=1}^m
|
||
\Gamma
|
||
\left(\frac{\nu+1-i}{2}\right)}{|\widehat{S}|^{\frac{\nu}{2}}}\\&\times
|
||
f_{i\mathcal{W}_{m}}(\Sigma;\widehat{S},\nu)
|
||
\end{split}
|
||
\]
|
||
avec $\nu = T-k-m-1$ les degr<67>s de libert<72> et $\widehat{S} =
|
||
T\widehat{\Sigma}$. Cette <20>criture nous apprend que la vraisemblance
|
||
du VAR($p$) est proportionnelle au produit de la densit<69> d'une
|
||
normale matricielle et d'une loi inverse Wishart~:
|
||
\begin{equation}\label{equ:var:likprop}
|
||
\begin{split}
|
||
\mathcal L(\mathcal{A},\Sigma;\sample) &\propto
|
||
f_{MN_{k,m}}(\mathcal{A};\widehat{\mathcal{A}},(Z'Z)^{-1},\Sigma)\\
|
||
\times &
|
||
f_{i\mathcal{W}_{m}}(\Sigma;\widehat{S},\nu)
|
||
\end{split}
|
||
\end{equation}
|
||
Cette propri<72>t<EFBFBD> va nous aider <20> poser une forme de la densit<69>
|
||
\textit{a priori} telle que nous puissions obtenir une expression analytique
|
||
de la densit<69> post<73>rieure.}
|
||
|
||
\subsubsection{A priori non informatif}\label{sec:1:4:noninf}
|
||
\par{ Dans cette section nous supposons
|
||
que nos croyances sont non informatives en adoptant un \textit{a priori} plat <20> la Jeffrey~:
|
||
\begin{equation}\label{equ:var:jeffrey}
|
||
p_0\left(\mathcal A,\Sigma\right) = \left|\Sigma\right|^{-\frac{m+1}{2}}
|
||
\end{equation}
|
||
On note que dans le cas scalaire, $m=1$, on retrouve le prior sugg<67>r<EFBFBD> par Jeffrey ($1/\sigma^2$) d<>crit plus haut.
|
||
La densit<69> \textit{a posteriori} satisfait donc~:
|
||
\[
|
||
p\left(\mathcal{A},\Sigma|\sample\right) \propto \left|\Sigma\right|^{-\frac{m+1}{2}}
|
||
\times\mathcal L(\mathcal{A},\Sigma;\sample)
|
||
\]
|
||
La densit<69> jointe post<73>rieure est donc proportionnelle au produit
|
||
d'une loi normale multivari<72>e et d'une loi inverse Wishart~:
|
||
\begin{equation}\label{equ:var:jeffrey:post1}
|
||
\begin{split}
|
||
p(\mathcal{A},\Sigma;\sample) &\propto
|
||
f_{MN_{k,m}}(\mathcal{A};\widehat{\mathcal{A}},(Z'Z)^{-1},\Sigma)\\
|
||
\times &
|
||
f_{i\mathcal{W}_{m}}(\Sigma;\widehat{S},\tilde{\nu})
|
||
\end{split}
|
||
\end{equation}
|
||
avec $\tilde{\nu} = T-k$. Ainsi, la densit<69> post<73>rieure s'<27>crit sous
|
||
la forme suivante~:
|
||
\begin{equation}\label{equ:var:jeffrey:post2}
|
||
\begin{split}
|
||
\mathcal{A}|\Sigma,\sample &\sim MN_{k,m}\left(\widehat{\mathcal{A}},\Sigma,(Z'Z)^{-1}\right)\\
|
||
\Sigma|\sample &\sim i\mathcal{W}_m\left(\widehat{S},\tilde{\nu}\right)
|
||
\end{split}
|
||
\end{equation}
|
||
Il n'est pas surprenant de constater que la distribution post<73>rieure de $\mathcal A$ (conditionnelle
|
||
<EFBFBD> la matrice de variance covariance) est centr<74>e sur l'estimateur du maximum de vraisemblance, puisque notre
|
||
\textit{a priori} est non informatif. Nous pourrions montrer, en int<6E>grant par rapport <20> $\Sigma$, que la
|
||
distribution post<73>rieure (marginale) de $\mathcal A$ est une version matricielle de la loi de Student
|
||
(voir \cite[chapitre 8]{ZellnerBook}). L'\textit{a priori} de Jeffrey n'affecte que le nombre de degr<67> de
|
||
libert<EFBFBD> de la distribution post<73>rieure de $\mathcal A$. On obtient la densit<69> marginale post<73>rieure de $\sample$
|
||
en int<6E>grant le noyau post<73>rieur successivement par rapport <20> $\Sigma$ et $\mathcal{A}$~:
|
||
\begin{equation}\label{equ:var:jeffrey:marginaldensity}
|
||
\begin{split}
|
||
p\left(\sample\right) =
|
||
&(2\pi)^{-\frac{mT}{2}}\times
|
||
(2\pi)^{\frac{km}{2}}\left|Z'Z\right|^{-\frac{m}{2}}|\widehat{S}|^{-\frac{\tilde{\nu}}{2}}\\
|
||
&\times 2^{\frac{\tilde{\nu} m}{2}}\pi^{\frac{m(m-1)}{4}}\prod_{i=1}^m
|
||
\Gamma
|
||
\left(\frac{\tilde{\nu}+1-i}{2}\right).\\
|
||
\end{split}
|
||
\end{equation}
|
||
Cette quantit<69> nous renseigne sur la qualit<69> d'ajustement du mod<6F>le
|
||
VAR($p$). On note que la densit<69> marginale de $\sample$ est une
|
||
fonction d<>croissante de la taille des erreurs ($|\hat{S}|$). Dans
|
||
cet exemple, nous pouvons caract<63>riser la distribution post<73>rieure
|
||
analytiquement. Notons n<>anmoins que m<>me si nous connaissons
|
||
l'expression analytique de la distribution de $\mathcal A$ et
|
||
$\Sigma$, la construction des densit<69>s pr<70>dictives n<>cessite une
|
||
approche par simulations\footnote{Se reporter, par exemple, <20>
|
||
\cite{KadiyalaKarlsson1997} qui comparent diff<66>rentes sp<73>cifications
|
||
des croyances \textit{a priori} et <20>tudient les cons<6E>quences sur les
|
||
pr<EFBFBD>visions.}, puisque les pr<70>visions sont des fonctions non
|
||
lin<EFBFBD>aires des matrices auto-r<>gressives (dont nous connaissons la
|
||
distribution post<73>rieure). L'int<6E>r<EFBFBD>t pratique de l'approche
|
||
bay<EFBFBD>sienne peut para<72>tre faible dans ce cas, dans la mesure o<>
|
||
l'esp<73>rance post<73>rieure n'est pas diff<66>rente de l'estimateur du
|
||
maximum de vraisemblance.}
|
||
|
||
\subsubsection{Un exemple d'a priori informatif}\label{sec:1:4:inf}
|
||
|
||
\par{Nous consid<69>rons maintenant un prior plus informatif qui va <20>carter l'esp<73>rance
|
||
de la distribution \textit{a posteriori} de l'estimateur du maximum de vraisemblance~;
|
||
dans un mod<6F>le lin<69>aire gaussien, l'esp<73>rance \textit{a posteriori} est une combinaison convexe de l'estimateur
|
||
du maximum de vraisemblance et de l'esp<73>rance \textit{a priori}. Afin d'aller <20> l'essentiel\footnote{Nous
|
||
pourrions choisir un prior conjugu<67>, c'est-<2D>-dire une densit<69> \textit{a priori} qui confront<6E>e aux donn<6E>es
|
||
via la vraisemblance induit une densit<69> post<73>rieure de la m<>me forme. Les propri<72>t<EFBFBD>s des densit<69>s gaussienne
|
||
et Wishart, ainsi que l'<27>quation
|
||
\equaref{equ:var:likprop}, sugg<67>rent la densit<69> jointe \textit{a priori} conjugu<67>e suivante~:
|
||
\[
|
||
\left\{%
|
||
\begin{array}{ll}
|
||
\mathcal{A}|\Sigma &\sim MN_{k,m}\left(\mathcal{A}_0,\Sigma,M_0^{-1}\right)\\
|
||
\Sigma &\sim i\mathcal{W}_m\left(S_0,\nu_0\right)\\
|
||
\end{array}
|
||
\right.
|
||
\]
|
||
o<EFBFBD> $A_0$ est une matrice r<>elle de m<>me dimension que $\mathcal A$, $\Sigma$ et $M_0$ sont des matrices sym<79>triques
|
||
d<EFBFBD>finies postives respectivement de dimensions $m \times m$ et $p\times p$, $S_0$ est une matrice sym<79>trique d<>finie
|
||
positive. On montre alors facilement que la densit<69> post<73>rieure est encore Normale-Wishart. Ce r<>sultat est direct si
|
||
on couple le prior non informatif de la section \ref{sec:1:4:noninf} et un pr<70>-<2D>chantillon pour former le prior normal
|
||
Wishart, voir \cite{TiaoZellner1964a} et la section \ref{sec:bvardsge:theil}.}, nous adoptons une
|
||
densit<EFBFBD> \textit{a priori} d<>g<EFBFBD>n<EFBFBD>r<EFBFBD>e
|
||
pour la matrice de variance-covariance des erreurs, en supposant que la matrice $\Sigma$ est connue
|
||
(on posera $\Sigma = \widehat{\Sigma}$). Enfin nous sp<73>cifions le prior sur $\mathcal A$ de la fa<66>on suivante~:
|
||
\begin{equation}\label{equ:var:gaussian:prior}
|
||
p_0(\VEC\ \mathcal A) \sim \normal{a_0}{\Omega_0}
|
||
\end{equation}
|
||
o<EFBFBD> $\Omega_0$ est une matrice sym<79>trique d<>finie positive de dimension $mp \times mp$. En multipliant la
|
||
vraisemblance par (\ref{equ:var:gaussian:prior}), on <20>tablit facilement que le noyau post<73>rieur est~:
|
||
\begin{subequations}\label{equ:var:gaussian:posterior}
|
||
\begin{equation}\label{equ:var:gaussian:posterior:kernel}
|
||
\begin{split}
|
||
\mathcal K (\mathcal A|\sample) &= \exp\left\{ -\frac{1}{2}(a-a_1)'\Omega_1^{-1}(a-a_1)\right\}\\
|
||
&\times \exp\left\{ -\frac{1}{2}\left[a_0'\Omega_0^{-1}a_0 + \widehat{a}' \left(\Sigma^{-1}\otimes Z'Z\right) \widehat{a}
|
||
-a_1'\Omega_1^{-1}a_1 \right]\right\}\\
|
||
&\times(2\pi)^{-\frac{km}{2}}|\Omega_0|^{-\frac{1}{2}}(2\pi)^{-\frac{mT}{2}}|\Sigma|^{-\frac{T}{2}}e^{-\frac{1}{2}\trace \Sigma^{-1}\widehat{S}}
|
||
\end{split}
|
||
%\begin{split}
|
||
%\mathcal K\left(\mathcal A\right|\sample ) = (2\pi)^{-\frac{T+k}{2}m}\left|\Omega_0\right|^{-\frac{1}{2}}
|
||
%\left|\Sigma\right|^{-\frac{T}{2}}&\times e^{-\frac{1}{2}\trace\ \left\{\Sigma^{-1}\widehat{S}\right\}}\\
|
||
%&\times e^{-\frac{1}{2}(\VEC\ \mathcal A - a_1)'\Omega_1^{-1}(\VEC\ \mathcal A - a_1)}
|
||
%\end{split}
|
||
\end{equation}
|
||
\begin{equation}\label{equ:var:gaussian:posterior:variance}
|
||
\Omega_1 = \left(\Omega_0^{-1} + \Sigma^{-1} \otimes Z'Z\right)^{-1}
|
||
\end{equation}
|
||
\begin{equation}\label{equ:var:gaussian:posterior:expectation}
|
||
a_1 = \Omega_1 \left[\Omega_0^{-1}a_0 + \left(\Sigma^{-1} \otimes Z'Z\right) \VEC \widehat{\mathcal A}\right]
|
||
\end{equation}
|
||
\end{subequations}
|
||
La distribution post<73>rieure de $\mathcal A$ est donc gaussienne
|
||
$\normal{a_1}{\Omega_1}$, son interpr<70>tation est imm<6D>diate.
|
||
L'inverse de la variance post<73>rieure ($\Omega_1^{-1}$, que l'on peut
|
||
interpr<EFBFBD>ter comme une quantification de l'information \textit{a
|
||
posteriori}) est <20>gale <20> la somme de l'inverse de la variance
|
||
\textit{a priori} ($\Omega_0^{-1}$, l'information \textit{a priori})
|
||
et de l'inverse de la variance de l'estimateur du maximum de
|
||
vraisemblance de $\mathcal A$ ($\Sigma^{-1} \otimes Z'Z$,
|
||
l'information apport<72>e par les donn<6E>es). \textit{Ceteris paribus},
|
||
quand l'information \textit{a priori} est importante, la matrice de
|
||
variance-covariance $\Omega_0$ est petite, la variance \textit{a
|
||
posteriori} est faible. L'esp<73>rance post<73>rieure est une combinaison
|
||
lin<EFBFBD>aire convexe de l'esp<73>rance \textit{a priori}, $a_0$, et de
|
||
l'estimateur du maximum de vraisemblance, $\VEC\ \widehat{\mathcal
|
||
A}$. Les pond<6E>rations respectives sont d<>finies par le contenu
|
||
informatif des croyances \textit{a priori} et de l'<27>chantillon.
|
||
Lorsque l'information \textit{a priori} tend vers l'infini,
|
||
\textit{ie} $\Omega_0 \rightarrow 0$, l'esp<73>rance post<73>rieure tend
|
||
vers l'esp<73>rance \textit{a priori}. Lorsque l'information amen<65>e par
|
||
les donn<6E>es tend vers l'infini, \textit{ie} $\Sigma^{-1}\otimes Z'Z
|
||
\rightarrow 0$, l'esp<73>rance \textit{a posteriori} tend vers
|
||
l'estimateur du maximum de vraisemblance. On peut donc interpr<70>ter
|
||
le paradigme bay<61>sien comme un pont entre la calibration et
|
||
l'estimation par le maximum de vraisemblance. En notant que $Z'Z$
|
||
est g<>n<EFBFBD>ralement, si le mod<6F>le est stationnaire\footnote{La pr<70>sence
|
||
d'une racine unitaire ne ferait qu'accro<72>tre l'ordre de divergence,
|
||
ce qui ne change pas qualitativement la conclusion.}, d'ordre
|
||
$\mathcal O(T)$, on retrouve un r<>sultat conforme aux consid<69>rations
|
||
asymptotiques introduites dans la section \ref{sec:1:3}~:
|
||
l'esp<73>rance post<73>rieure tend vers l'estimateur du maximum de
|
||
vraisemblance lorsque $T$ tend vers l'infini.}\newline
|
||
|
||
\par{\`A nouveau, en int<6E>grant le noyau post<73>rieur ~(\ref{equ:var:gaussian:posterior}) par rapport aux param<61>tres
|
||
auto-r<>gressifs, on obtient une expression analytique de la densit<69> marginale post<73>rieure~:
|
||
\begin{equation}\label{equ:var:gaussian:posterior:marginaldensity}
|
||
\begin{split}
|
||
p(\sample) &= (2\pi)^{\frac{km}{2}}|\Omega_1|^{\frac{1}{2}}\\
|
||
&\times \exp\left\{ -\frac{1}{2}\left[a_0'\Omega_0^{-1}a_0 + \widehat{a}' \left(\Sigma^{-1}\otimes Z'Z\right) \widehat{a}
|
||
-a_1'\Omega_1^{-1}a_1 \right]\right\}\\
|
||
&\times(2\pi)^{-\frac{km}{2}}|\Omega_0|^{-\frac{1}{2}}(2\pi)^{-\frac{mT}{2}}|\Sigma|^{-\frac{T}{2}}e^{-\frac{1}{2}\trace \Sigma^{-1}\widehat{S}}
|
||
\end{split}
|
||
\end{equation}
|
||
qui mesure la qualit<69> d'ajustement du mod<6F>le et permet de comparer le VAR <20> d'autres mod<6F>les estim<69>s <20> l'aide du
|
||
m<EFBFBD>me <20>chantillon.}
|
||
|
||
\subsubsection{La pratique}\label{sec:1:4:pratique}
|
||
|
||
\par{L'int<6E>r<EFBFBD>t pratique de l'approche bay<61>sienne des mod<6F>les VAR s'explique par l'<27>quation
|
||
(\ref{equ:var:gaussian:posterior:variance}). Celle-ci <20>tablit que la variance post<73>rieure de $\mathcal A$ est
|
||
inf<EFBFBD>rieure <20> la variance de l'estimateur du maximum de vraisemblance, $\widehat{\mathcal A}$, d<>s lors que l'on
|
||
apporte de l'information \textit{a priori}. L'estimation des mod<6F>les VAR sur des donn<6E>es macro<72>conomiques pose
|
||
souvent des probl<62>mes de pr<70>cision. En effet, un mod<6F>le avec cinq variables et quatre retards demande l'estimation
|
||
de vingt param<61>tres alors que les <20>chantillons sont habituellement de l'ordre de la centaine d'observations.
|
||
En incorporant de l'information <20> l'aide d'une densit<69> \textit{a priori} tout se passe comme si nous augmentions
|
||
le nombre de degr<67>s de libert<72>. Ce gain en variance sur les param<61>tres du mod<6F>le, permettra d'obtenir des
|
||
pr<EFBFBD>visions ou des fonctions de r<>ponses plus pr<70>cises.}\newline
|
||
|
||
\par{On peut faire l'analogie avec l'incorporation de contraintes sur les param<61>tres
|
||
d'un mod<6F>le estim<69> dans le paradigme classique. Par exemple, si nous pensons que $\mathcal A$ doit satisfaire
|
||
les contraintes lin<69>aires d<>finies par $R\times\VEC\mathcal A = b$ (o<> $R$ est une matrice $
|
||
r\times mp$, $b$ est un vecteur $r\times 1$ et $r$ le nombre de restrictions lin<69>aires), l'incorporation de
|
||
ces contraintes lors de l'estimation, \textit{ie} l'utilisation de moindres carr<72>s contraints, permet de r<>duire
|
||
la variance des estimateurs et aussi l'erreur quadratique moyenne (dans la mesure o<> la contrainte n'est pas
|
||
en contradiction avec le processus g<>n<EFBFBD>rateur des donn<6E>es)
|
||
\footnote{Voir \citet[pages 52-54]{JudgeGriffithsHillLutkepohlLeeBook} la
|
||
section 3.2.1 intitul<75>e << Exact Nonsample Information >>.}. Le paradigme bay<61>sien est plus souple, dans le
|
||
sens o<> il ne pose pas des contraintes d<>terministes. Dans certains cas\footnote{Se reporter <20>
|
||
\citet[pages 670-673]{TheilBook}}, nous verrons une application dans la
|
||
section \ref{sec:bvardsge:theil}, la d<>finition de croyances \textit{a priori} revient <20> poser une contrainte
|
||
probabiliste de la forme $R\times\VEC\mathcal A - b = \epsilon$, o<> $\epsilon$ est une variable al<61>atoire gaussienne.
|
||
Plus la variance de $\epsilon$ est importante, moins la contrainte sur $\VEC \mathcal A$ est forte
|
||
(plus l'information \textit{a priori} est floue).}\newline
|
||
|
||
\par{La formalisation de l'information \textit{a priori} ne se limite pas au choix de la forme d'une distribution.
|
||
Dans le cas du mod<6F>le BVAR de la section pr<70>c<EFBFBD>dente, nous devons
|
||
aussi choisir les param<61>tres $a_0$ et $\Omega_0$. Dans cette
|
||
perspective, un prior qui s'est montr<74> particuli<6C>rement efficace
|
||
quand on cherche <20> mod<6F>liser des s<>ries macro<72>conomiques est le
|
||
prior de Minnesota\footnote{Voir, par exemple, \citet{Litterman1986}
|
||
ou \citet{KadiyalaKarlsson1997}. Pour d'autres priors on peut se
|
||
reporter <20> \citeauthor{KadiyalaKarlsson1997}.}. Celui-ci correspond
|
||
<EFBFBD> la croyance \textit{a priori} que les s<>ries observ<72>es sont des
|
||
marches al<61>atoires ind<6E>pendantes. L'esp<73>rance \textit{a priori} de
|
||
$\VEC \mathcal A$ est alors telle que $\mathbb E \left[\mathbf
|
||
A_1\right] = I_m$ et $\mathbb E \left[\mathbf A_i\right] = 0_m$
|
||
pour $i=2,\dots,p$. La variance \textit{a priori} de $\VEC \mathcal
|
||
A$ est suppos<6F>e diagonale. En notant $\omega_{i,j,k}$
|
||
($i,j=1,\dots,m$, $k=1,\dots,p$) la variance associ<63>e au param<61>tre
|
||
correspondant <20> la variable $j$ dans l'<27>quation $i$ au retard $k$,
|
||
la variance \textit{a priori} est d<>finie par~:
|
||
\[
|
||
\begin{split}
|
||
\omega_{i,i,k} &= \frac{\pi_1}{k^{\pi_3}}\quad i=1,\dots,m\text{ et }k=1,\dots,p \\
|
||
\omega_{i,j,k} &= \frac{\pi_2}{k^{\pi_3}}\frac{\sigma_i}{\sigma_j}\quad i=1,\dots,m\quad j\neq i\text{ et }k=1,\dots,p
|
||
\end{split}
|
||
\]
|
||
o<EFBFBD> les hyperparam<61>tres $\pi_h$ pour $h=1,2,3$ sont positifs,
|
||
$\{\sigma_i^2\}$ est l'estimateur de la variance des r<>sidus dans
|
||
l'estimation d'un AR(p) pour la variable $i$. Le ratio des
|
||
<EFBFBD>carts-types permet de prendre en compte les diff<66>rences
|
||
d'<27>chelles entre les diff<66>rentes variables composant le vecteur
|
||
des observables. La variance \textit{a priori} d<>cro<72>t lorsque le
|
||
retard $k$ augmente, ce qui traduit l'id<69>e que plus le retard est
|
||
important plus nous croyons que la matrice $\mathbf A_k$ est
|
||
nulle. L'hyperparam<61>tre $\pi_3$ indique <20> quelle vitesse la
|
||
variance \textit{a priori} tend vers z<>ro. Des valeurs fr<66>quemment
|
||
utilis<EFBFBD>es pour $\pi_1$ et $\pi_2$ sont respectivement 0,05 et
|
||
0,005. Cela revient <20> dire, dans la mesure o<> $\sigma_i$ et
|
||
$\sigma_j$ sont proches, que nos croyances \textit{a priori} sont
|
||
plus fortes sur la nullit<69> des termes hors des diagnonales de
|
||
$\mathbf A_k$ ($k=1,\dots,p$), c'est-<2D>-dire sur l'absence de
|
||
causalit<EFBFBD>\footnote{Nous devons aussi poser un \textit{a priori}
|
||
sur la matrice de variance-covariance de l'innovation du VAR,
|
||
$\Sigma$. \cite{Litterman1986} consid<69>re que celle-ci est
|
||
diagonale et donn<6E>e (variance \textit{a priori} nulle). Cela ne
|
||
correspond pas <20> notre hypoth<74>se de la section \ref{sec:1:4:inf},
|
||
o<EFBFBD> nous avons suppos<6F> que cette matrice <20>tait pleine (<28>gale <20>
|
||
l'estimateur du maximum de vraisemblance). Nous pourrions, sans
|
||
changer qualitativement les r<>sultats, adopter une matrice
|
||
diagonale dans la section \ref{sec:1:4:inf}. Nous choisissons de
|
||
poursuivre avec une matrice pleine, comme \cite{Phillips1996},
|
||
mais notre prior ne correspondra plus <20> des marches al<61>atoires
|
||
ind<EFBFBD>pendantes. En fait la motivation principale de
|
||
\citeauthor{Litterman1986} <20>tait de justifier une estimation
|
||
<EFBFBD>quation par <20>quation, car <20> l'<27>poque l'estimation d'un syst<73>me
|
||
<EFBFBD>tait trop co<63>teuse num<75>riquement, et ne reposait pas sur la
|
||
croyance que les s<>ries macro<72>conomiques sont r<>ellement
|
||
ind<EFBFBD>pendantes.}. Notons que l'\textit{a priori} de Minnesota
|
||
suppose l'absence de relations de coint<6E>gration entre les
|
||
variables, il y a, \textit{a priori}, autant de racines unitaires
|
||
que de variables. N<>anmoins rien n'emp<6D>che l'apparition de
|
||
relations de long terme dans la distribution post<73>rieure.}\newline
|
||
|
||
\par{Il nous reste <20> choisir les valeurs des hyperparam<61>tres du prior de Minnesota. Cette <20>tape est importante
|
||
car l'exp<78>rience montre que l'inf<6E>rence post<73>rieure, en particulier l'<27>valuation de la densit<69> marginale qui nous
|
||
permet d'<27>valuer le mod<6F>le, est tr<74>s sensible <20> ce choix. Si, comme souvent dans la litt<74>rature (voir par exemple
|
||
\cite{SmetsWouters2004} ou \cite{VillaverdeRubio}), l'estimation d'un BVAR ne sert qu'<27> titre de comparaison
|
||
afin d'<27>valuer la qualit<69> d'ajustement d'un mod<6F>le DSGE, le choix des hyperparam<61>tres devient crucial. Ce point n'est
|
||
malheureusement jamais abord<72> dans la litt<74>rature. Le con\-tenu <20>conomique d'un mod<6F>le VAR <20>tant faible, il para<72>t
|
||
difficile de recourir <20> la th<74>orie pour sp<73>cifier la densit<69> \textit{a priori}. Un crit<69>re objectif <20> notre
|
||
disposition est de choisir les hyperparam<61>tres ($\pi_1,\pi_2$ et $\pi_3$) qui maximisent les performances en
|
||
pr<EFBFBD>visions du mod<6F>le BVAR. En sp<73>cifiant ainsi les priors de notre BVAR, nous savons au moins que nous ne comparons
|
||
par notre DSGE avec un BVAR aux performances pr<70>dictives m<>diocres. Dans cet esprit \citet{Phillips1996} propose
|
||
le crit<69>re PIC (\textit{Posterior Information Criterion}) que l'on peut minimiser par rapport aux
|
||
hyperparam<EFBFBD>tres. Ce crit<69>re peut <20>tre vu comme une g<>n<EFBFBD>ralisation, au cas non stationnaire, du bien connu
|
||
crit<EFBFBD>re BIC\footnote{Voir \cite{Kim1998}.}. Dans le cas du mod<6F>le consid<69>r<EFBFBD> dans la section \ref{sec:1:4:inf}
|
||
on choisit les hyperparam<61>tres de la fa<66>on suivante~:
|
||
\begin{equation}
|
||
(\pi^*_1,\pi^*_2,\pi^*_3 ) = \arg\underset{\pi_1,\pi_2,\pi_3}{\min} \quad \log |\tilde{\Sigma}|
|
||
+\frac{1}{T}\log\frac{|\Omega_0^{-1}+\tilde{\Sigma}^{-1}\otimes Z'Z|}
|
||
{|\Omega_0^{-1}+\tilde{\Sigma}^{-1}_{T_0}\otimes Z_{T_0}'Z_{T_0}^{ }|}
|
||
\end{equation}
|
||
o<EFBFBD> $\tilde{\Sigma}$ est la matrice de variance covariance des
|
||
innovations au mode post<73>rieur, les matrices indic<69>es par $T_0$ sont
|
||
obtenues <20> partir du sous <20>chantillon $1,\dots,T_0$ (o<> $T_0$ est
|
||
sup<EFBFBD>rieur au nombre de param<61>tres estim<69>s). Ici nous avons consid<69>r<EFBFBD>
|
||
le nombre de retards comme une donn<6E>e, mais nous pourrions aussi
|
||
optimiser par rapport <20> $p$ le crit<69>re PIC (voir
|
||
\cite{Phillips1996}). <20> notre connaissance, l'utilisation
|
||
d'\textit{a priori} objectif pour les mod<6F>les BVAR, tel que
|
||
l'optimisation du crit<69>re PIC propos<6F> par \citet{Phillips1996},
|
||
demeure inappliqu<71> dans la litt<74>rature. On peut donc l<>gitimement
|
||
douter de la pertinence des comparaisons entre BVAR et DSGE
|
||
effectu<EFBFBD>es jusqu'<27> pr<70>sent\footnote{Quand
|
||
\citeauthor*{SmetsWouters2004} <20>tablissent que leur mod<6F>le DSGE
|
||
surpasse \textit{un} mod<6F>le BVAR en terme de densit<69> marginale de
|
||
l'<27>chantillon, on ne peut v<>ritablement conclure <20> la bonne la
|
||
qualit<EFBFBD> du DSGE puisque nous n'avons aucune id<69>e des performances du
|
||
mod<EFBFBD>le BVAR.}.}
|
||
|
||
|
||
|
||
\section{Mod<EFBFBD>les DSGE}\label{sec:dsge}
|
||
|
||
\par{Dans cette section nous pr<70>sentons de fa<66>on g<>n<EFBFBD>rale les
|
||
mod<EFBFBD>les DSGE, puis soulignons les probl<62>mes que peut poser
|
||
l'estimation. En particulier, nous expliquons pourquoi, <20> la
|
||
diff<EFBFBD>rence des BVAR, il n'est pas possible d'obtenir une expression
|
||
analytique de la distribution post<73>rieure. Nous terminons en
|
||
pr<EFBFBD>sentant les m<>thodes de Monte Carlo utilis<69>es pour caract<63>riser
|
||
les croyances post<73>rieures.}
|
||
|
||
\subsection{R<EFBFBD>solution et vraisemblance}\label{sec:dsge:1}
|
||
|
||
\par{Nous limitons notre attention aux mod<6F>les \textsc{dsge} que nous
|
||
pouvons <20>crire sous la forme suivante~:
|
||
\begin{equation}\label{equ:dsge:def}
|
||
\mathbb E_t \left[\mathcal
|
||
F_{\theta}(y_{t+1},y_{t},y_{t-1},\varepsilon_t)\right] = 0
|
||
\end{equation}
|
||
avec $\varepsilon_t \sim \iid{0}{\Sigma}$, une variable al<61>atoire
|
||
dans $ \mathbb R^r $, les innovations structurelles, $ y_t \in
|
||
\Lambda\subseteq\mathbb R^n $ un vecteur regroupant les variables endog<6F>nes,
|
||
$\mathcal F: \Lambda^{3} \times \mathbb R^r \rightarrow \Lambda$ une
|
||
fonction r<>elle dans $\mathcal C^2$ param<61>tr<74>e par un vecteur r<>el
|
||
$\theta \in \Theta \subseteq \mathbb R^q$ regroupant l'ensemble des
|
||
param<EFBFBD>tres structurels du mod<6F>le. La fonction $\mathcal F$ est
|
||
simplement l'ensemble des <20>quations qui d<>finissent un mod<6F>le~; on a
|
||
autant d'<27>quations que de variables endog<6F>nes. Le vecteur des
|
||
variables endog<6F>nes, $y_t$, inclut des variables d'<27>tat (endog<6F>nes
|
||
ou exog<6F>nes), des variables de choix et des variables statiques
|
||
\footnote{La premi<6D>re cat<61>gorie correspond aux variables pr<70>d<EFBFBD>termin<69>es, les suivantes
|
||
aux variables non pr<70>d<EFBFBD>termin<69>es.}. On supposera qu'il est possible d'exhiber une unique
|
||
solution stable et invariante au mod<6F>le d<>crit par l'<27>quation \equaref{equ:dsge:def}~:
|
||
\begin{equation}\label{equ:dsge:sol}
|
||
y_t = \mathcal H_{\theta} \left(y_{t-1},\varepsilon_t\right)
|
||
\end{equation}
|
||
qui exprime les variables endog<6F>nes en fonction du pass<73> et des chocs structurels
|
||
contemporains. La fonction param<61>tr<74>e $\mathcal H_{\theta}$ regroupe les \textit{policy rules} et
|
||
les <20>quations de transition (voir la contribution de Michel Juillard et Tarek Ocaktan dans ce num<75>ro). La
|
||
solution \equaref{equ:dsge:sol}, en d<>crivant une r<>currence stochastique non
|
||
lin<EFBFBD>aire, d<>finit la distribution jointe d'un ensemble de variables.}\newline
|
||
|
||
\par{Pour estimer les param<61>tres $\theta$ du mod<6F>le, ou d'un sous ensemble des param<61>tres,
|
||
nous devons <20>valuer la vraisemblance associ<63>e au mod<6F>le
|
||
\equaref{equ:dsge:def} ou <20> sa forme r<>duite \equaref{equ:dsge:sol}. M<>me si la fonction
|
||
$\mathcal H_{\theta}$ est lin<69>aire en $y_{t-1}$ et $\varepsilon_t$, cette <20>valuation ne peut <20>tre
|
||
directe comme dans le cas du mod<6F>le VAR examin<69> plus haut. En effet, l'<27>quation \equaref{equ:dsge:sol}
|
||
d<EFBFBD>crit la distribution jointe d'un ensemble de variables qui ne sont pas toutes observ<72>es.
|
||
Afin d'amener le mod<6F>le aux donn<6E>es on peut l'<27>crire sous une forme <20>tat-mesure~:
|
||
\begin{subequations}\label{equ:dsge:sol:ss}
|
||
\begin{equation}\label{equ:dsge:sol:measure}
|
||
y^*_t = Z y_t + \eta_t
|
||
\end{equation}
|
||
\begin{equation}\label{equ:dsge:sol:state}
|
||
y_t = \mathcal H_{\theta} \left(y_{t-1},\varepsilon_t\right)
|
||
\end{equation}
|
||
\end{subequations}
|
||
o<EFBFBD> $y^*_t$ est un vecteur $m \times 1$, avec $r \leq m < n$, regroupant les variables observ<72>es et
|
||
$Z$ est une matrice de s<>lection $m \times n$. On peut <20>ventuellement augmenter l'<27>quation
|
||
de mesure d'un bruit blanc multivari<72>, $\eta_t$, repr<70>sentant l'inad<61>quation des variables
|
||
th<EFBFBD>oriques avec les variables observ<72>es, ou plus simplement une erreur de mesure. On note $\mathcal
|
||
Y_T^* = \left\{y_t^*\right\}_{t=1}^T$ l'<27>chantillon <20> notre disposition et
|
||
$\psi\in\Psi\subseteq \mathbb R^{q+\frac{n(n+1)}{2}+\frac{r(r+1)}{2}}$ le vecteur des param<61>tres
|
||
du mod<6F>le <20>tat-mesure ($\theta$, $\Sigma$ et <20>ventuellement la matrice de variance-covariance de
|
||
$\eta_t$). La vraisemblance est la densit<69> de l'<27>chantillon, conditionnellement aux param<61>tres $\psi$ et
|
||
au mod<6F>le d<>fini par \equaref{equ:dsge:sol:ss}~:
|
||
\begin{equation}\label{equ:dsge:likelihood}
|
||
\mathcal L(\psi ; \sample) = p\left(\sample | \psi\right) = \prod_{t=1}^T
|
||
p\left(y_t^*|\samplet{t-1},\psi \right)
|
||
\end{equation}
|
||
L'<27>valuation de la densit<69> de $y_t^*$ conditionnellement <20> $\samplet{t-1}$ n'est g<>n<EFBFBD>ralement pas
|
||
directe, %Nous pourrions imaginer un cas o<> $y_t^*$ regroupe l'ensemble des variables
|
||
%d'<27>tat du mod<6F>le \equaref{equ:dsge:def}, dans ce cas il ne serait pas n<>cessaire d'avoir des id<69>es
|
||
%sur la distribution des variables latentes.
|
||
dans la mesure o<> $y_t^*$ d<>pend de variables endog<6F>nes inobservables. Nous pouvons n<>anmoins
|
||
utiliser la relation suivante~:
|
||
\begin{equation}\label{equ:prediction}
|
||
p\left(y_t^*|\samplet{t-1},\psi \right) = \int_{\Lambda} p\left(y_t^* | y_t , \psi \right)p(y_t
|
||
| \samplet{t-1},\psi) \mathrm d y_t
|
||
\end{equation}
|
||
La densit<69> de $y_t^*$ conditionnellement <20> $\samplet{t-1}$ est obtenue comme la moyenne de la densit<69>
|
||
de $y^*_t$ sachant $y_t$, pond<6E>r<EFBFBD>e par la densit<69> de $y_t$ sachant $\samplet{t-1}$. La premi<6D>re
|
||
densit<EFBFBD> sous l'int<6E>grale est specifi<66>e par l'<27>quation de mesure (\ref{equ:dsge:sol:measure}).
|
||
L'<27>valuation de la densit<69> de la pr<70>vision des variables latentes, conditionnellement l'information disponible
|
||
en $t-1$, est moins directe, et on doit utiliser un filtre de Kalman. Il s'agit d'une proc<6F>dure
|
||
r<EFBFBD>cursive. <20> chaque date (entre 1 et T) on forme une pr<70>vision des variables latentes ($y_t$
|
||
sachant $\samplet{t-1}$), en utilisant l'<27>quation d'<27>tat ($y_{t}$ sachant $y_{t-1}$,
|
||
<EFBFBD>quation \ref{equ:dsge:sol:state}) et une estimation initiale des variables latentes ($y_{t-1}$
|
||
sachant $\samplet{t-1}$), puis on corrige cette pr<70>vision quand une nouvelle observation ($y^*_t$)
|
||
augmente l'ensemble d'information. On peut interpr<70>ter cette d<>marche comme une estimation r<>cursive
|
||
bay<EFBFBD>sienne du vecteur des variables latentes. En initialisant les variables latentes avec la densit<69>
|
||
associ<EFBFBD>e <20> la distribution ergodique des variables latentes d<>finie par l'<27>quation d'<27>tat
|
||
(\ref{equ:dsge:sol:state}),
|
||
$p\left(y_0|\samplet{0},\psi\right)=p\left(y_0|\psi\right)=p\left(y_{\infty}|\psi\right)$, la
|
||
r<EFBFBD>cursion s'<27>crit de la fa<66>on suivante~:
|
||
\begin{subequations}\label{equ:kalman}
|
||
\begin{equation}\label{equ:kalman:prediction}
|
||
p\left(y_t|\samplet{t-1},\psi\right) = \int_{\Lambda}
|
||
p\left(y_t|y_{t-1},\psi\right)p\left(y_{t-1}|\samplet{t-1},\psi\right)\mathrm d y_{t-1}
|
||
\end{equation}
|
||
\begin{equation}\label{equ:kalman:update}
|
||
p\left(y_t|\samplet{t},\psi\right) =
|
||
\frac{p\left(y^*_t|y_t,\psi\right)p\left(y_t|\samplet{t-1},\psi\right)}
|
||
{\int_{\Lambda} p\left(y^*_t|y_t,\psi\right)p\left(y_t|\samplet{t-1},\psi\right)\mathrm d
|
||
y_t}
|
||
\end{equation}
|
||
\end{subequations}
|
||
L'interpr<70>tation de l'<27>quation de pr<70>diction (\ref{equ:kalman:prediction}) est directe~: la densit<69>
|
||
de la pr<70>diction des variables latentes en $t$ est la moyenne de la densit<69> de
|
||
$y_t$ sachant $y_{t-1}$, d<>finie par l'<27>quation d'<27>tat (\ref{equ:dsge:sol:state}), pond<6E>r<EFBFBD>e par la
|
||
densit<EFBFBD> de $y_{t-1}$ sachant $\samplet{t-1}$. Cette derni<6E>re densit<69> est d<>finie par l'<27>quation de
|
||
mise <20> jour (\ref{equ:kalman:update}) ou la condition initiale. L'<27>quation de mise <20> jour
|
||
(\ref{equ:kalman:update}) est, <20> l'instar de l'<27>quation (\ref{equ:bayes:posterior}), une application
|
||
directe du th<74>or<6F>me de Bayes. Le premier terme au num<75>rateur, $p\left(y_t|\samplet{t-1}\right)$, est
|
||
la densit<69> \textit{a priori} du vecteur des variables latentes. Le second terme,
|
||
$p\left(y^*_t|y_t\right)$, la densit<69> de l'observation sachant l'<27>tat obtenu via l'<27>quation de
|
||
mesure (\ref{equ:dsge:sol:measure}), est la vraisemblance. Le d<>nominateur est la densit<69> marginale
|
||
de la nouvelle observation.}\newline
|
||
|
||
\par{Puisque nous pouvons, au moins th<74>oriquement, <20>valuer la vraisemblance associ<63>e au mod<6F>le
|
||
DSGE, nous devrions <20>tre capable d'estimer ses param<61>tres.
|
||
Malheureusement, les <20>quations (\ref{equ:prediction}) et
|
||
(\ref{equ:kalman}) n<>cessitent l'<27>valuation
|
||
d'int<6E>grales\footnote{Plusieurs approches sont envisageables~:
|
||
quadrature, Monte Carlo, quasi Monte Carlo... voir \cite{JuddBook}.}
|
||
dans l'espace des variables d'<27>tat. Quand le nombre de variables
|
||
latentes agmente il devient tr<74>s co<63>teux d'<27>valuer ces int<6E>grales
|
||
(on parle de \textit{curse of dimensionality}). La d<>rivation de la
|
||
forme r<>duite du mod<6F>le (\ref{equ:dsge:sol}) n<>cessite <20>galement
|
||
l'<27>valuation d'int<6E>grales. En pratique, m<>me pour des mod<6F>les de
|
||
dimensions modestes, l'<27>valuation de la vraisemblance est difficile.
|
||
Nous devons donc approximer celle-ci. Dans le cas o<> le mod<6F>le
|
||
<EFBFBD>tat-mesure (\ref{equ:dsge:sol:ss}) est lin<69>aire et gaussien,
|
||
l'<27>valuation des int<6E>grales devient tr<74>s simple car les variables
|
||
latentes et observ<72>es sont normalement distribu<62>es <20> chaque date.
|
||
Ainsi la dynamique de la distribution des variables latentes est
|
||
compl<EFBFBD>tement caract<63>ris<69>e par la dynamique de l'esp<73>rance et de la
|
||
variance des variables latentes. On peut trouver une pr<70>sentation du
|
||
filtre de Kalman dans ce cas simple dans \citet[chapitre
|
||
13]{GourierouxMonfortStatBook1}, \citet[chapitre 3]{HarveyBook} ou
|
||
encore dans la contribution de Fabrice Collard et Patrick F<>ve <20> ce
|
||
m<EFBFBD>me num<75>ro. Ceci explique pourquoi les mod<6F>les DSGE estim<69>s sont
|
||
g<EFBFBD>n<EFBFBD>ralement (log-) lin<69>aris<69>s autour de l'<27>tat
|
||
stationnaire.}\newline
|
||
|
||
\par{Malgr<EFBFBD> l'approximation (log-) lin<69>aire de la forme r<>duite du mod<6F>le ($\mathcal
|
||
H_{\theta}$) l'<27>valuation de la vraisemblance est num<75>rique. Nous ne
|
||
disposons pas d'une expression analytique, comme dans le cas du
|
||
mod<EFBFBD>le VAR, et ne pouvons donc <20>crire formellement la densit<69>
|
||
post<EFBFBD>rieure ou les moments post<73>rieurs. Deux possibilit<69>s s'offrent
|
||
<EFBFBD> nous.\newline La premi<6D>re est de consid<69>rer une approximation
|
||
asymptotique de la densit<69> post<73>rieure. Il est alors possible
|
||
d'approximer, voir la section \ref{sec:1:3} et
|
||
\citet{TierneyKadane1986}, tout moment \textit{a posteriori} ou la
|
||
densit<EFBFBD> marginale. Nous avons vu que l'erreur d'approximation des
|
||
moments est d'ordre $\mathcal O(T^{-2})$ et que l'erreur
|
||
d'approximation de la densit<69> marginale est d'ordre $\mathcal
|
||
O(T^{-1})$. L'exp<78>rience sugg<67>re, pour les dimensions d'<27>chantillon,
|
||
$T$, g<>n<EFBFBD>ralement consid<69>r<EFBFBD>es dans la litt<74>rature, que
|
||
l'approximation de Laplace de la densit<69> marginale est
|
||
satisfaisante\footnote{Par exemple, \citet[tableau
|
||
2]{SmetsWouters2004} estiment la densit<69> marginale de leur mod<6F>le
|
||
DSGE <20> l'aide de l'approximation de Laplace et d'une m<>thode <<
|
||
exacte >> (dans le sens o<> elle ne repose pas sur une
|
||
approximation asymptotique, voir plus bas) bas<61>es sur des
|
||
simulations. Avec l'approximation de Laplace ils obtiennent (en
|
||
logarithme) -269,59 <20> comparer au -269,20 obtenu avec un exercice de
|
||
Monte-Carlo. Ces deux <20>valuations sont tr<74>s proches, on retrouve
|
||
g<EFBFBD>n<EFBFBD>ralement cette proximit<69> d<>s lors que l'<27>chantillon est assez
|
||
grand.}.\newline La deuxi<78>me possibilit<69> est d'<27>valuer les moments
|
||
en recourant <20> des simulations par Monte-Carlo. L'intuition de cette
|
||
approche repose sur la loi des grands nombres. Supposons, par
|
||
exemple, que nous souhaitions <20>valuer l'esp<73>rance d'une variable
|
||
al<EFBFBD>atoire $X$ de distribution $\mathcal G$. Si l'on g<>n<EFBFBD>re une
|
||
suite de variables al<61>atoires $X_1, X_2, \dots, X_n$ ind<6E>pendantes
|
||
et distribu<62>es selon $\mathcal{G}$, alors une approximation de
|
||
l'esp<73>rance est donn<6E>e par la moyenne empirique de ces
|
||
variables\footnote{En fait on peut montrer, dans certains cas, qu'il
|
||
s'agit d'un estimateur du maximum de vraisemblance.}~; la loi des
|
||
grands nombres assure que l'erreur d'approximation tend vers z<>ro
|
||
presque s<>rement lorsque le nombre de tirages $n$ tend vers
|
||
l'infini. Si on admet de plus que le moment du second ordre existe,
|
||
la vitesse de convergence est $\mathcal{O}(n^{1/2})$ par application
|
||
du th<74>or<6F>me \textit{central limit}. En pratique nous pouvons <20>tre
|
||
int<EFBFBD>ress<EFBFBD>s par les moments post<73>rieurs de $\theta$. En notant que~:
|
||
\begin{equation}\label{equ:dsge:postmom}
|
||
\mathbb E \left[ \varphi(\theta) \right] = \int_{\Theta} \varphi (\theta) p_1(\theta|\sample)\mathrm d\theta
|
||
\end{equation}
|
||
il semble alors naturel d'utiliser la moyenne empirique de
|
||
$\left(\varphi(\theta^{(1)}),\varphi(\theta^{(2)}),\dots,\varphi(\theta^{(n)})\right)$,
|
||
o<EFBFBD> les $\theta^{(i)}$ sont des tirages ind<6E>pendants dans la
|
||
distribution post<73>rieure, pour <20>valuer l'esp<73>rance de $\varphi
|
||
(\theta)$. L'erreur d'approximation tend vers z<>ro lorsque le
|
||
nombre de simulations ($n$) tend vers l'infini. il convient de
|
||
noter que $p_1$ est g<>n<EFBFBD>ralement d'une forme inconnue et que l'on
|
||
ne peut donc pas d<>finir un g<>n<EFBFBD>rateur pseudo-al<61>atoire
|
||
reproduisant la distribution \emph{a posteriori}. Comme nous le
|
||
verrons par la suite, la m<>thode de Monte Carlo dite de fonction
|
||
d'importance permet de rem<65>dier <20> cette difficult<6C> sous certaines
|
||
conditions. Ce principe de Monte Carlo se g<>n<EFBFBD>ralise au cas o<> les
|
||
variables simul<75>es ne sont pas ind<6E>pendantes. Il est ainsi
|
||
possible dans certains cas de construire, moyennant certaines
|
||
conditions, une cha<68>ne de Markov $\theta^{(1)},
|
||
\theta^{(2)},\dots, \theta^{(n)}$ de loi stationnaire (ergodique)
|
||
$p_1$ telle que la moyenne empirique des $\varphi(\theta^{(j)})$
|
||
($\varphi$ est la statistique d'int<6E>r<EFBFBD>t) converge presque s<>rement
|
||
vers la quantit<69> d'int<6E>r<EFBFBD>t comme dans le cas des tirages
|
||
ind<EFBFBD>pendants. Tout l'art de l'exercice est alors de d<>terminer une
|
||
cha<EFBFBD>ne de Markov (et plus pr<70>cis<69>ment son noyau de transition)
|
||
telle que sa loi ergodique corresponde <20> la loi a posteriori
|
||
d<EFBFBD>sir<EFBFBD>e et d'<27>valuer le temps d'arr<72>t des simulations, \textit{ie}
|
||
de diagnostiquer la convergence de la cha<68>ne de
|
||
Markov\footnote{Dans ce qui suit, nous omettons les m<>thodes
|
||
d'<27>chantillonnage de Gibbs. Cette m<>thode consiste <20> g<>n<EFBFBD>rer
|
||
chaque param<61>tre conditionnellement <20> tous les autres param<61>tres.
|
||
Il est donc n<>cessaire de pouvoir <20>crire toutes les distributions
|
||
conditionnelles. C'est pourquoi cette m<>thode n'est g<>n<EFBFBD>ralement
|
||
pas priviligi<67>e pour l'estimation des mod<6F>les DSGE. Cependant, il
|
||
est <20> noter que les algorithmes de Metropolis-Hasting et
|
||
d'<27>chantillonnage de Gibbs peuvent <20>tre combin<69>s, on parle alors
|
||
d'algorithme \emph{Metroplis-Within-Gibbs}.}.}
|
||
|
||
|
||
\subsection{L'<27>chantillonnage bay<61>sien par fonction d'importance}
|
||
|
||
\par{Id<EFBFBD>alement, on souhaiterait g<>n<EFBFBD>rer les param<61>tres d'int<6E>r<EFBFBD>t suivant la distribution \emph{a
|
||
posteriori}. Cependant, <20> l'exception de rares mod<6F>les, ceci n'est pas possible. On peut n<>anmoins exploiter le
|
||
fait qu'il n'est pas n<>cessaire de g<>n<EFBFBD>rer une suite de tirage $\{\theta^{(s)}\}$, suivant la distribution
|
||
\emph{a posteriori}, pour obtenir une <20>valuation correcte des moments post<73>rieurs. En effet, sous certaines conditions
|
||
de r<>gularit<69>, on peut utiliser une densit<69> de probabilit<69> $h$, d<>finie sur le m<>me espace et appel<65>e fonction
|
||
d'importance, suffisamment proche de $p_1$ (dans un sens <20> pr<70>ciser) et <20>chantillonner <20> partir de cette derni<6E>re. Il
|
||
est alors possible de montrer par la loi des grands nombres que l'int<6E>grale (\ref{equ:dsge:postmom}) d<>finissant le
|
||
moment post<73>rieur est approch<63>e par~:
|
||
\[
|
||
\mathbb E\left[\varphi(\theta) \right] \approx \frac{\sum_{s=1}^n
|
||
\varphi(\theta^{(s)})w(\theta^{(s)})}{\sum_{s=1}^n w(\theta^{(s)})}.
|
||
\]
|
||
avec
|
||
\begin{equation}\label{equ:dsge:weight}
|
||
w(\theta^{(s)}) = \frac{p(\mathcal{Y}^*_T \mid
|
||
\theta^{(s)})p_0(\theta^{(s)})}{h(\theta^{(s)})}
|
||
\end{equation}
|
||
Le choix de la fonction d'importance est crucial~: elle doit <20>tre suffisamment proche de la loi \emph{a posteriori},
|
||
ce qui n'est pas toujours simple en pratique. En effet, si $h$ est une mauvaise approximation de $p_1$, alors les
|
||
poids sont g<>n<EFBFBD>ralement faibles pour la plupart des valeurs <20>chantillonn<6E>es de $\theta$, la somme est alors domin<69>e
|
||
par quelques termes dont les poids sont tr<74>s <20>lev<65>s. Il en r<>sulte une estimation peu fiable, voir
|
||
\cite{CasellaRobertBook} pour plus de d<>tails. L'algorithme se r<>sume comme suit :
|
||
\begin{algorithm}
|
||
|
||
\item[(1)] Maximiser le noyau post<73>rieur par rapport <20> $\theta$. On obtient le mode de la densit<69> post<73>rieure,
|
||
$\theta^m$, et le hessien au mode qui caract<63>rise la courbure de la densit<69> post<73>rieure au mode et dont l'inverse de
|
||
l'oppos<6F>, not<6F> $\Sigma(\theta^m)$, approxime la variance post<73>rieure.
|
||
|
||
\item[(2)] G<>n<EFBFBD>rer $\theta^{(s)}$, suivant une fonction d'importance,$h$, dont les moments du premier
|
||
et second ordre d<>pendent de $\theta^{m}$ et $ \Sigma(\theta^{m})$
|
||
|
||
\item[(3)] D<>terminer les poids $w(\theta^{(s)})$ selon (\ref{equ:dsge:weight}).
|
||
|
||
\item[(4)] Reprendre (2-3) pour $s=1,\dots,n$.
|
||
|
||
\item[(5)] Calculer~:
|
||
\[
|
||
\frac{\sum_{s=1}^n \varphi(\theta^{(s)})w(\theta^{(s)})}{\sum_{s=1}^n w(\theta^{(s)})}
|
||
\]
|
||
|
||
\end{algorithm}
|
||
La premi<6D>re <20>tape n'est pas sp<73>cifique <20> l'algorithme par fonction d'importance~: il s'agit
|
||
de calculer les moments associ<63>s <20> la fonction d'importance, $h$. Cette << calibration >>
|
||
des moments de la fonction d'importance est g<>n<EFBFBD>ralement faite <20> partir de la maximisation du logarithme du noyau
|
||
\emph{a posteriori}. <20>tant donn<6E>es les propri<72>t<EFBFBD>s asymptotiques de la distribution post<73>rieure, ces choix sur les
|
||
moments d'ordre un et deux associ<63>s <20> $h$ sont d'autant plus satisfaisants que la taille de l'<27>chantillon est
|
||
importante.}\newline
|
||
|
||
\par{Bien que tr<74>s populaire en statistique, cette m<>thode est peu utilis<69>e dans le cadre de l'estimation de mod<6F>les
|
||
DSGE. A titre d'exemples, \cite{DeJongIngramWhiteman00} estiment
|
||
avec cette m<>thode un mod<6F>le de croissance stochastique
|
||
lin<EFBFBD>aris<EFBFBD>e. An et Schorfheide (2007) comparent l'algorithme
|
||
d'importance avec celui de Metropolis (<28> pas al<61>atoire) dans une
|
||
version simplifi<66>e du mod<6F>le de \citet{SmetsWouters2004}. Pour ce
|
||
faire, ils retiennent comme fonction d'importance une distribution
|
||
de Student multivari<72>e.}
|
||
|
||
\subsection{Les m<>thodes de Monte-Carlo <20> cha<68>nes de Markov}\label{sec:dsge:simul:MCMC}
|
||
|
||
\par{Cette seconde classe d'algorithmes permet de g<>n<EFBFBD>rer des variables al<61>atoires suivant approximativement
|
||
la loi \emph{a posteriori}, lorsque cette derni<6E>re n'est pas disponible. Elle <20>vite donc l'appel <20> une fonction
|
||
d'importance, $h$, souvent difficile <20> d<>terminer pour les mod<6F>les DSGE\footnote{Nous verrons par la suite qu'un
|
||
algorithme <20> cha<68>nes de Markov ind<6E>pendantes peut s'interp<72>ter comme un algorithme par fonction
|
||
d'importance. Par ailleurs, les m<>thodes de Monte-Carlo <20> cha<68>nes de Markov n<>cessitent de d<>terminer le noyau de
|
||
transition de la cha<68>ne de Markov, dont on sait seulement qu'il v<>rifie certaines propri<72>t<EFBFBD>s d'ergodicit<69>, etc.
|
||
Le choix de la fonction d<>finissant les changements d'<27>tat peut <20>tre assimil<69>e, \emph{toutes choses <20>gales par ailleurs},
|
||
<EFBFBD> celui de la fonction d'importance.}. On cherche ainsi <20> d<>finir une cha<68>ne de Markov dont la distribution
|
||
ergodique est approximativement le noyau \emph{a posteriori}. Si cette cha<68>ne existe, la m<>thode d'<27>chantillonnage est
|
||
grossi<EFBFBD>rement d<>finie comme suit. Dans un premier temps, on initialise (arbitrairement) la cha<68>ne de Markov. Dans
|
||
un second temps, on g<>n<EFBFBD>re les $\theta^{(s)}$ <20> partir de cette cha<68>ne. A l'issue d'un certain nombre de tirages
|
||
(disons $n_0$), on dispose de r<>alisations de variables al<61>atoires $\{\theta^{(s)}, s =n_0, \cdots, n\}$ approximativement
|
||
distribu<EFBFBD>es comme la distribution \emph{a posteriori}.}
|
||
|
||
\subsubsection{Cha<EFBFBD>nes de Markov}\label{sec:dsge:simul:MCMC:CM}
|
||
\par{Une cha<68>ne de Markov est une suite de variables al<61>atoires continues <20> valeurs dans $\Theta$,
|
||
$\left(\theta^{(0)}, \dots,\theta^{(n)}\right)$, g<>n<EFBFBD>r<EFBFBD>e par un
|
||
processus de Markov. Une suite de variables al<61>atoires est g<>n<EFBFBD>r<EFBFBD>e
|
||
par un processus de Markov (d'ordre 1) si la distribution de
|
||
$\theta^{(s)}$ ne d<>pend que de $\theta^{(s-1)}$. Une cha<68>ne de
|
||
Markov est caract<63>ris<69>e par un noyau de transition qui sp<73>cifie la
|
||
probabilit<EFBFBD> de passer de $\eta \in \Theta$ <20> $S \subseteq \Theta$.
|
||
Nous noterons $P(\eta,S)$ le noyau de transition, il v<>rifie
|
||
$P(\eta,\Theta) = 1$ pour tout $\eta$ dans $\Theta$. Si la cha<68>ne de
|
||
Markov d<>finie par le noyau $P$ converge vers une distribution
|
||
invariante $\pi$, alors le noyau doit satisfaire l'identit<69>
|
||
suivante~:
|
||
\[
|
||
\pi(S) = \int_{\Theta} P(\eta,S)\pi\left(\mathrm d\eta\right)
|
||
\]
|
||
pour tout sous ensemble mesurable $S$ de $\Theta$. Plus g<>n<EFBFBD>ralement, avant d'atteindre la distribution ergodique $\pi$,
|
||
si nous notons $P^{(s)}(\eta,S)$ la probabilit<69> que $\theta^{(s)}$ soit dans $S$ sachant que $\theta^{(s-1)} = \eta$, nous
|
||
avons~:
|
||
\[
|
||
P^{(s)}(\eta,S) = \int_{\Theta} P(\nu,S)P^{(s-1)}\left(\eta,\mathrm d\nu\right)
|
||
\]
|
||
la distribution de $\theta$ s'ajuste d'it<69>ration en it<69>ration puis rejoint la distribution ergodique,
|
||
$\lim_{s\rightarrow\infty}P^{(s)}(\eta,S) = \pi(S)$. L'id<69>e est alors de choisir le noyau de transition qui nous am<61>nera
|
||
vers la distribution invariante d<>sir<69>e.}\newline
|
||
|
||
\par{D<EFBFBD>finissons $p(\eta,\nu)$ et $\tilde{\pi}$ les densit<69>s associ<63>es au noyau $P$ et <20> la distribution
|
||
$\pi$\footnote{\label{note:mc:dens}Le noyau $P(\eta,S)$ sp<73>cifie la probabilit<69> d'aller de $\eta$ <20> $S$. Dans un
|
||
cas favorable,
|
||
$\theta$ est en $S$ <20> l'it<69>ration suivante, nous pouvons envisager deux possibilit<69>s~: (\textit{i}) $\theta$
|
||
se d<>place effectivement et rejoint la r<>gion $S$ <20> l'it<69>ration suivante, (\textit{ii}) $\theta$ ne se d<>place pas
|
||
mais $\eta$ est d<>j<EFBFBD> dans $S$. La densit<69> associ<63>e au noyau est donc une densit<69> continue - discr<63>te,
|
||
\citeauthor{Tierney1994} adopte la d<>finition suivante~:
|
||
\[
|
||
P(\eta,\mathrm d \nu) = p(\eta,\nu)\mathrm d\nu + (1-r(\eta))\delta_{\eta}(\mathrm d \nu)
|
||
\]
|
||
o<EFBFBD> $p(\eta,\nu)\equiv p(\nu|\eta)$ est la densit<69> associ<63>e <20> la
|
||
transition de $\eta$ <20> $\nu$, $r(\eta) = \int p(\eta,\nu)d\nu < 1$,
|
||
$1-r(\eta)$ s'interpr<70>te comme la probabilit<69> de ne pas quitter la
|
||
position $\theta = \eta$, $\delta_{\eta}(S)$ est une fonction
|
||
indicatrice <20>gale <20> un si et seulement si $\eta \in S$.}.
|
||
\citet{Tierney1994} montre que si la densit<69> $p(\eta,\mu)$ v<>rifie
|
||
la condition de r<>versibilit<69>\footnote{Il ne s'agit pas <20> proprement
|
||
parler de la condition de r<>versibilit<69>, mais d'une implication de
|
||
la propri<72>t<EFBFBD> de r<>versibilit<69>.}~:
|
||
\[
|
||
\tilde{\pi}(\eta)p(\eta,\nu) = \tilde{\pi}(\nu)p(\nu,\eta)
|
||
\]
|
||
alors $\pi$ est la distribution invariante associ<63>e au noyau $P$\footnote{(Suite de la note \ref{note:mc:dens})
|
||
Techniquement, il suffit de substituer la d<>finition du noyau dans $\int_{\Theta} P(\eta,S)
|
||
\pi(\eta)\mathrm d \eta$ qui, si la cha<68>ne est r<>versible, se r<>duit alors <20> $\pi(S)$.}. De fa<66>on <20>quivalente~:
|
||
\[
|
||
\frac{\tilde{\pi}(\eta)}{\tilde{\pi}(\nu)} = \frac{p(\nu,\eta)}{p(\eta,\nu)} >1
|
||
\]
|
||
Cette condition nous dit simplement que si la densit<69> de $\theta = \eta$,
|
||
$\tilde{\pi}(\eta)$, domine la densit<69> associ<63>e <20> $\theta = \nu$, $\tilde{\pi}(\nu)$, alors il doit <20>tre plus
|
||
<< facile >> de passer de $\nu$ <20> $\eta$ que de $\eta$ <20> $\nu$.}\newline
|
||
|
||
\par{Cette propri<72>t<EFBFBD> nous aidera <20> construire une cha<68>ne de Markov dont la distribution invariante est la distribution
|
||
post<EFBFBD>rieure des param<61>tres $\theta$ dans le mod<6F>le DSGE. On comprend bien que le noyau de cette cha<68>ne est difficile
|
||
<EFBFBD> d<>finir. Supposons que l'on puisse choisir un noyau de transition $Q(\eta,S)$~; alors il est presque s<>r que la
|
||
condition de r<>versibilit<69> ne sera pas v<>rifi<66>e, c'est-<2D>-dire que nous aurons
|
||
$p_1\left(\eta|\sample\right)q(\eta,\nu) \neq p_1\left(\nu|\sample\right)q(\nu,\eta)$. L'algorithme de
|
||
Metropolis-Hastings est une approche g<>n<EFBFBD>rale qui permet de << corriger >> ce noyau, de fa<66>on <20> respecter
|
||
la condition de r<>versibilit<69>.}
|
||
|
||
|
||
\subsubsection{L'algorithme de M<>tropolis-Hasting}\label{sec:dsge:simul:MCMC:MH}
|
||
|
||
\par{Supposons que l'on puisse d<>finir une densit<69> instrumentale, qui permette d'approcher le noyau
|
||
de transition de la cha<68>ne de Markov dont la densit<69> ergodique est la loi \emph{a posteriori} de notre mod<6F>le.
|
||
Cette densit<69> est d<>finie par $q(\eta,\nu) \equiv q(\nu \mid \eta)$.}
|
||
|
||
\begin{algorithm}[Metropolis-Hastings]
|
||
|
||
\item[(1)] Se donner une condition initiale $\theta^{(0)}$ telle que $\mathcal K\left(\theta^{(0)}|\sample\right)>0$ et
|
||
poser $s=1$.
|
||
|
||
\item[(2)] G<>n<EFBFBD>rer un candidat (une proposition) $\theta^*$ <20> partir d'une densit<69> $q(\theta^{(s-1)}, \theta^*)$.
|
||
|
||
\item[(3)] G<>n<EFBFBD>rer $u$ dans une loi uniforme entre $[0,1]$
|
||
|
||
\item[(4)] Appliquer la r<>gle suivante~:
|
||
\[
|
||
\theta^{(s)} =
|
||
\begin{cases}
|
||
\theta^* &\text{ si } \alpha\left(\theta^{(s-1)},\theta^*\right) > u\\
|
||
\theta^{(s-1)}&\text{ sinon.}
|
||
\end{cases}
|
||
\]
|
||
o<EFBFBD>
|
||
\[
|
||
\alpha(\theta^{(s-1)},\theta^*) = \min \left\{1,
|
||
\frac{\mathcal K\left(\theta^* \mid \sample\right)}{\mathcal K\left(\theta^{(s-1)} \mid \sample\right)}
|
||
\frac{q\left(\theta^{(s-1)} \mid \theta^*\right)}{q\left(\theta^* \mid \theta^{(s-1)}\right)} \right\}
|
||
\]
|
||
|
||
\item[(5)] Reprendre (2-4) pour $s=2,\dots,n$.
|
||
|
||
\end{algorithm}
|
||
\par{\noindent Notons qu'il suffit de pouvoir <20>valuer le noyau post<73>rieur pour mettre en oeuvre cet algorithme~; la
|
||
connaissance de la densit<69> post<73>rieure <20> une constante pr<70>s est suffisante. L'algorithme de Metropolis-Hasting
|
||
requiert le choix d'une fonction instrumentale $q$ <20> partir de laquelle on g<>n<EFBFBD>re des transitions dans l'espace des
|
||
param<EFBFBD>tres. La densit<69> conditionnelle $q$ permet de g<>n<EFBFBD>rer un vecteur candidat $\theta^{*}$. Puisqu'elle n'est
|
||
pas n<>cessairement la densit<69> conditionnelle associ<63>e au noyau de transition dont la distribution ergodique est la
|
||
distribution \emph{a posteriori} recherch<63>e, la condition de r<>versibilit<69> n'est pas v<>rifi<66>e\footnote{Le noyau
|
||
de transition du MH, $Q(\eta,S)$, est d<>fini de la m<>me fa<66>on que $P$ dans la section \ref{sec:dsge:simul:MCMC:CM}
|
||
et la note \ref{note:mc:dens}.}. L'algorithme de MH corrige cette erreur\footnote{Par exemple, nous pourrions avoir~:
|
||
\[
|
||
\mathcal K \left(\eta \mid \sample \right)
|
||
q(\eta,\nu) > \mathcal K\left(\nu \mid
|
||
\sample \right) q(\nu , \eta)
|
||
\]
|
||
Dans ce cas, l'<27>chantillonage <20> partir de $q$ ne propose pas assez souvent des transitions de $\theta=\nu$ <20>
|
||
$\theta=\eta$ ou trop souvent des mouvements de $\theta=\eta$ <20> $\theta=\nu$. L'algorithme de MH corrige cette
|
||
erreur en n'acceptant pas syst<73>matiquement les propositions de $q$. En introduisant une probabilit<69> d'acceptation
|
||
de la transition propos<6F>e, $\alpha$, <20>lev<65>e (faible) quand il s'agit de rejoindre une r<>gion o<> la densit<69>
|
||
\emph{a posteriori} est <20>lev<65>e (faible), on peut r<>tablir l'<27>quilibre et finalement v<>rifier la condition de
|
||
r<EFBFBD>versibilit<EFBFBD>. Dans notre exemple, la probabilit<69> d'acceptation de la transition de $\nu$ <20> $\eta$ devrait <20>tre la
|
||
plus grande possible puisque $q$ ne propose pas assez souvent cette transition, nous poserons donc
|
||
$\alpha(\nu,\eta) = 1$. <20> l'inverse la densit<69> conditionnelle $q$ propose trop de transitions de $\eta$ vers $\nu$,
|
||
la probabilit<69> d'acceptation associ<63>e <20> cette proposition, $\alpha(\eta,\nu)$, doit donc <20>tre inf<6E>rieure <20> 1. Pour
|
||
<EFBFBD>quilibrer les deux transitions, elle doit <20>tre telle que~:
|
||
\[
|
||
\mathcal K \left(\eta | \sample \right)
|
||
q(\eta,\nu)\alpha(\eta,\nu) = \mathcal K\left(\nu |
|
||
\sample \right)q(\nu,\eta) \alpha(\nu , \eta)
|
||
\]
|
||
soit, puisque $\alpha(\nu,\eta) = 1$, de fa<66>on <20>quivalente~:
|
||
\[
|
||
\alpha(\eta,\nu) = \frac{\mathcal K\left(\nu |
|
||
\sample \right)}{\mathcal K \left(\eta | \sample \right)} \frac{q(\nu,\eta)}{q(\eta,\nu)}
|
||
\]
|
||
On ne rejette donc pas syst<73>matiquement la transition propos<6F>e par $q$. En consid<69>rant l'exemple en renversant
|
||
l'in<69>galit<69>, on comprend la r<>gle donn<6E>e dans l'<27>tape 4 de l'algorithme 2.} en n'acceptant pas syst<73>matiquement les
|
||
propositions de $q$. En introduisant une probabilit<69> d'acceptation de la transition propos<6F>e, $\alpha$, on peut
|
||
finalement v<>rifier la condition de r<>versibilit<69>. Pour cela, la probabilit<69> d'acceptation doit <20>tre telle que~:
|
||
\[
|
||
\mathcal K \left(\eta | \sample \right)
|
||
q(\eta,\nu)\alpha(\eta,\nu) = \mathcal K\left(\nu |
|
||
\sample \right)q(\nu,\eta) \alpha(\nu , \eta)
|
||
\]
|
||
soit
|
||
\[
|
||
\alpha(\eta,\nu) = \min \left\{1,\frac{\mathcal K\left(\nu |
|
||
\sample \right)}{\mathcal K \left(\eta | \sample \right)} \frac{q(\nu,\eta)}{q(\eta,\nu)}\right\}
|
||
\]
|
||
Il nous reste <20> d<>terminer (\textit{i}) comment nous devons
|
||
initialiser la cha<68>ne et (\textit{ii}) la longueur de la cha<68>ne.
|
||
Nous reviendrons par la suite, lors de la pr<70>sentation de
|
||
l'algorithme de Metropolis <20> pas al<61>atoires, sur le premier point.
|
||
Nous aborderons la question du nombre de simulations n<>cessaires,
|
||
c'est-<2D>-dire de la longueur de la cha<68>ne, dans la section 3.3.4.
|
||
Nous reviendrons plus loin sur cette question, pour l'instant nous
|
||
supposerons que pour tout $s>n_0$ les $\theta^{(s)}$ sont tir<69>s dans
|
||
la distribution cibl<62>e. Afin de s'assurer que les r<>sultats sont
|
||
ind<EFBFBD>pendants des conditions initiales, on ne consid<69>re pas les
|
||
simulations indic<69>es par $s=0,\dots,n_0$. Ainsi, pour <20>valuer
|
||
$\mathbb E [\varphi(\theta)]$ nous calculons~:
|
||
$(n-n_0)^{-1}\sum_{s=n_0+1}^n\varphi(\theta^{(s)})$ qui converge
|
||
vers le moment post<73>rieur recherch<63> lorsque le nombre de
|
||
simulations, $n$, tend vers l'infini.}
|
||
|
||
\subsubsection{Deux variantes de l'algorithme MH}
|
||
|
||
\par{\noindent\textbf{L'algorithme de MH <20> pas al<61>atoires.} Comme nous l'avons expliqu<71> plus haut, l'utilisation
|
||
de l'algorithme de Metropolis-Hastings repose sur le fait qu'il est ais<69> d'<27>chantillonner <20> partir de la densit<69>
|
||
instrumentale $q$. L'inconv<6E>nient est que cette derni<6E>re n'est pas toujours facile <20> d<>terminer. Dans cette
|
||
perspective, l'algorithme de Metropolis <20> pas al<61>atoires est utile lorsqu'il est difficile d'obtenir une
|
||
bonne approximation de la densit<69> \emph{a posteriori}. Une proposition <20> l'it<69>ration $s$ est d<>finie par~:
|
||
\[
|
||
\theta^{*} = \theta^{(s-1)}+z
|
||
\]
|
||
o<EFBFBD> $z$ est le pas al<61>atoire. Le choix de la densit<69> de $z$ d<>termine la forme pr<70>cise de la densit<69>
|
||
instrumentrale, $q$. Un choix standard est la distribution gaussienne multivari<72>e~: $z\sim \normal{0}{\Sigma}$. Ainsi
|
||
la densit<69> de $\theta^{*}$ conditionnel <20> $\theta^{(s-1)}$ est gaussienne~:
|
||
\[
|
||
q\left(\theta^{(s-1)},\theta^*\right) \equiv q\left(\theta^* \left| \theta^{(s-1)}\right.\right) \sim
|
||
\normal{\theta^{(s-1)}}{ \Sigma}
|
||
\]
|
||
Par sym<79>trie de la loi normale, la densit<69> instrumentale v<>rifie $q(\eta,\nu) = q(\nu,\eta)$, ainsi la probabilit<69>
|
||
d'acceptation ne d<>pend que du noyau post<73>rieur~:
|
||
\[
|
||
\alpha(\eta,\nu) = \min \left\{1,\frac{\mathcal K(\nu|\sample)}{\mathcal K (\eta|\sample)} \right\}
|
||
\]
|
||
Autrement dit, si $\mathcal K(\theta^* |\sample) \geq \mathcal K(\theta^{(s-1)} |\sample)$, la cha<68>ne de Markov se
|
||
d<EFBFBD>place en $\theta^*$. Si ce n'est pas le cas, la cha<68>ne se d<>place avec une probabilit<69> <20>gale au rapport des densit<69>s
|
||
\emph{a posteriori}. On accepte avec une probabilit<69> unitaire la proposition dans une phase ascendante
|
||
(c'est-<2D>-dire lorsque la probabilit<69> \emph{a posteriori} cro<72>t) et avec une probabilit<69> non nulle la proposition dans
|
||
une phase descendante (si nous d<>cidions de rejeter syst<73>matiquement ces propositions d<>favorables la cha<68>ne ne Markov
|
||
ne visiterait pas compl<70>tement l'espace des param<61>tres et \textit{a fortiori} elle ne pourrait converger vers la
|
||
distribution post<73>rieure recherch<63>e).}\newline
|
||
|
||
|
||
\par{La probabilit<69> d'acceptation peut <20>tre ajust<73>e <20> partir de la matrice de variance-covariance $\Sigma$. En effet, si
|
||
celle-ci est << grande >> alors il y a de fortes chances pour que la transition propos<6F>e nous am<61>ne dans les queues
|
||
de la distribution \textit{a posteriori} c'est <20> dire dans une r<>gion o<> la densit<69> est faible et o<> donc la probabilit<69>
|
||
d'acceptation est proche de z<>ro (si on vient d'une zone plus dense). Si la matrice $\Sigma$ est << petite >> alors
|
||
les transitions propos<6F>es ne seront que des petits pas, dans ce cas il n'y aura pas de grandes variations de la densit<69>
|
||
post<EFBFBD>rieure et donc la probabilit<69> d'acceptation sera proche de un. Nous <20>crivons $\Sigma$ sous la forme $c \Omega$ o<>
|
||
$\Omega$ est une estimation de la matrice de variance-covariance \emph{a posteriori} et $c$ est un param<61>tre
|
||
d'<27>chelle qui permet de jouer sur le caract<63>re plus ou moins diffus de la matrice de variance-covariance et donc
|
||
d'ajuster le taux d'acceptation. On peut exp<78>rimenter diff<66>rentes valeurs de $c$ afin de d<>terminer une probabilit<69>
|
||
d'acceptation raisonnable\footnote{Il n'existe pas une r<>gle universelle. Un taux d'acceptation de l'ordre de 0.25-0.40
|
||
est g<>n<EFBFBD>ralement consid<69>r<EFBFBD> comme appropri<72>. Dans le m<>me temps, il est important de noter que ce n'est pas tant le taux
|
||
d'acceptation qui est crucial mais plut<75>t la garantie que la cha<68>ne de Markov a effectivement converg<72>. Le taux
|
||
d'acceptation peut n<>anmoins influencer le temps qu'il faudra <20> la cha<68>ne de Markov pour rejoindre sa distribution
|
||
invariante.}.}\newline
|
||
|
||
\par{Cette version de l'algorithme de MH est g<>n<EFBFBD>ralement utilis<69>e dans la litt<74>rature concern<72>e par l'estimation
|
||
bay<EFBFBD>sienne des mod<6F>les DSGE.}
|
||
|
||
\begin{algorithm}
|
||
|
||
\item[(1)] Maximiser le noyau post<73>rieur par rapport <20> $\theta$. On obtient le mode de la densit<69> post<73>rieure,
|
||
$\theta^m$, et le hessien au mode qui caract<63>rise la courbure de la densit<69> post<73>rieure au mode et dont l'inverse de
|
||
l'oppos<6F>, not<6F> $\omega(\theta^m)$, approxime la variance post<73>rieure. On pose $\Sigma = c \Omega(\theta^m)$ avec $c>0$,
|
||
$s = 1$ et $\theta^{(0)} = \theta^m$.
|
||
|
||
\item[(2)] G<>n<EFBFBD>rer $\theta^{*}$ <20> partir d'une gaussienne d'esp<73>rance $\theta^{(s-1)}$ et de variance $\Sigma$
|
||
|
||
\item[(3)] G<>n<EFBFBD>rer $u$ dans une loi uniforme entre $[0,1]$
|
||
|
||
\item[(4)] Appliquer la r<>gle suivante~:
|
||
\[
|
||
\theta^{(s)} =
|
||
\begin{cases}
|
||
\theta^* &\text{ si } \alpha\left(\theta^{(s-1)},\theta^*\right) > u\\
|
||
\theta^{(s-1)}&\text{ sinon.}
|
||
\end{cases}
|
||
\]
|
||
o<EFBFBD>
|
||
\[
|
||
\alpha(\theta^{(s-1)},\theta^*) = \min \left\{1,
|
||
\frac{\mathcal K\left(\theta^* | \sample\right)}{\mathcal K\left(\theta^{(s-1)} | \sample\right)}
|
||
\right\}
|
||
\]
|
||
|
||
\item[(5)] Reprendre (2-4) pour $s=2,\dots,n$.
|
||
|
||
\end{algorithm}
|
||
|
||
|
||
\par{\noindent\textbf{L'algorithme <20> cha<68>nes ind<6E>pendantes.} Si la proposition est ind<6E>pendante de l'<27>tat
|
||
courant, l'algorithme est dit <20> chaines ind<6E>pendantes (\citet{Tierney1994}). La probabilit<69> d'acceptation se
|
||
simplifie alors comme suit~:
|
||
\[
|
||
\alpha(\theta^{(s-1)},\theta^{*}) = \min \left\{1,
|
||
\frac{\mathcal K (\theta^* | \sample}{\mathcal K (\theta^{(s-1)} | \sample)}
|
||
\frac{q(\theta^{(s-1)})}{q(\theta^*)} \right\}.
|
||
\]
|
||
Cet algorithme est particuli<6C>rement adapt<70> au cas o<>
|
||
il existe une approximation naturelle de la densit<69> \emph{a
|
||
posteriori}. En effet, l'algorithme <20> cha<68>nes ind<6E>pendantes est
|
||
alors similaire <20> l'algorithme par fonction d'importance. Pour
|
||
s'en convaincre, il suffit de remarquer que l'on peut d<>finir des
|
||
poids analogues <20> ceux vus pr<70>c<EFBFBD>demment comme suit~:
|
||
\[
|
||
w\left(\theta\right) = \frac{p_1(\theta^* \mid \mathcal{Y}_T,
|
||
\mathcal{A})}{q(\theta)}.
|
||
\]
|
||
La probabilit<69> d'acceptation est alors donn<6E>e par
|
||
$\alpha(\theta^{(s-1)},\theta^{(s)}) = min \left\{1,
|
||
w(\theta^*)/w(\theta^{(s-1)})\right\}$. Autrement dit, il s'agit du
|
||
ratio des poids d'<27>chantillonnage par importance entre le vecteur
|
||
candidat et le vecteur pr<70>c<EFBFBD>dent.}
|
||
|
||
\subsubsection{Les diagnostics de convergence}\label{sec:mh:conv}
|
||
|
||
\par{Un certain nombre de r<>sultats th<74>oriques sont disponibles pour l'<27>tude de la convergence des
|
||
cha<EFBFBD>nes de Markov. Il est cependant extr<74>mement compliqu<71> d'<27>noncer des r<>gles pratiques. Ainsi, il n'existe
|
||
aucune r<>ponse simple <20> la question~: Quel est le nombre optimal de simulations pour garantir la convergence de la cha<68>ne
|
||
de Markov vers la distribution ergodique~? Nous discutons bri<72>vement quelques diagnostics de convergence. Le lecteur
|
||
int<EFBFBD>ress<EFBFBD> pourra consulter, par exemple, \citet[chapitre 12]{CasellaRobertBook}.}\newline
|
||
|
||
\par{La litt<74>rature bay<61>sienne distingue g<>n<EFBFBD>ralement trois types de convergence : (\textit{i}) la convergence vers la
|
||
distribution stationnaire, (\textit{ii}) la convergence des moments empiriques (ou approch<63>s) vers les moments
|
||
th<EFBFBD>oriques et (\textit{iii}) la convergence vers un <20>chantillonage i.i.d.. Nous nous int<6E>ressons ici aux deux
|
||
derni<EFBFBD>res formes de convergence\footnote{Pour plus de d<>tails sur la convergence vers
|
||
la distribution stationnaire et l'hypoth<74>se de stationnarit<69>, voir \cite{GelfandSmith90}, \cite{Roberts92}, et
|
||
\cite{Liu92} }. Quelle que soit la convergence <20>tudi<64>e, les r<>sultats reposent soit sur des m<>thodes d'<27>valuation
|
||
graphiques dont il est difficile d'en d<>duire des r<>gles g<>n<EFBFBD>rales, soit des tests statistiques formels.
|
||
Avant de pr<70>senter certaines de ces m<>thodes, il convient de noter qu'il est important de distinguer les m<>thodes
|
||
qui font appel <20> $M$ cha<68>nes de Markov parall<6C>les et ind<6E>pendantes et celles bas<61>es sur une seule cha<68>ne
|
||
(\emph{on-line Markov chain}). L'utilisation de plusieurs cha<68>nes est co<63>teuse en temps mais elle r<>duit la
|
||
d<EFBFBD>pendance aux conditions initiales et accro<72>t la possibilit<69> de parcourir efficacement l'espace des param<61>tres,
|
||
$\Theta$. En particulier, si une cha<68>ne de Markov est m<>langeante au sens faible --- elle reste coinc<6E>e dans
|
||
des r<>gions (de mesure domin<69>e) de l'espace des param<61>tres --- une explication possible est la pr<70>sence d'une
|
||
distribution \emph{a posteriori} multimodale (notamment lorsque les densit<69>s \emph{a priori} sont en conflit
|
||
avec la vraisemblance du mod<6F>le). Dans ce cas, la mise en oeuvre de cha<68>nes de Markov en parall<6C>le et ind<6E>pendantes,
|
||
tr<EFBFBD>s dispers<72>es, peut permettre de r<>soudre cette difficult<6C>. L'argument des cha<68>nes multiples est aussi avanc<6E>
|
||
pour s'assurer de la convergence. Si on se donne plusieurs vecteurs initiaux de param<61>tres, suffisamment dispers<72>s,
|
||
et que l'on obtient les m<>mes r<>sultats, la convergence serait assur<75>e. L'argument est valide si et seulement
|
||
si on a bien v<>rifi<66> que chaque cha<68>ne a converg<72>e. Nous revoil<69> donc au point de d<>part... Il existe une
|
||
litt<EFBFBD>rature abondante discutant des avantages et inconv<6E>nients respectifs de chaque
|
||
m<EFBFBD>thode\footnote{Pour plus de d<>tails, voir \cite{RafteryLewis1996}, \cite{CowlesCarlin96}, et
|
||
\cite{BrooksRoberts98}.}.}\newline
|
||
|
||
|
||
\par{La convergence des moments empiriques ou approch<63>s vers les moments th<74>oriques peut
|
||
s'appr<70>hender <20> partir de m<>thodes graphiques. \cite{YuMykland94}
|
||
se basent sur les sommes cumulatives des moments d'int<6E>r<EFBFBD>t dans le
|
||
cas d'une seule cha<68>ne de Markov. Au contraire,
|
||
\cite{GelmanRubin92} proposent un test formel qui repose sur des
|
||
m<EFBFBD>thodes de cha<68>nes de Markov en parall<6C>le. La convergence est
|
||
diagnostiqu<EFBFBD>e si les diff<66>rences entre $J$ des $M$ chaines de
|
||
Markov restent dans un intervalle raisonnable.
|
||
\citeauthor{GelmanRubin92} formalisent cette id<69>e en
|
||
recourant <20> des statistiques de type ANOVA. Pour chaque
|
||
statistique d'int<6E>r<EFBFBD>t $\phi$, ils d<>terminent la variance intra et
|
||
inter-cha<68>nes. L'intuition du test est alors la suivante. Si
|
||
l'effet des valeurs initiales de chaque cha<68>ne de Markov a <20>t<EFBFBD>
|
||
supprim<EFBFBD>, les cha<68>nes en parall<6C>le doivent <20>tre relativement
|
||
proches. En d'autres termes, la variance inter-cha<68>ne ne devrait
|
||
pas <20>tre trop grande par rapport <20> la variance
|
||
intra-cha<68>ne\footnote{Plus formellement, notons
|
||
$\hat{\phi}_{n_1}^{(i)}$ l'estimateur de
|
||
$\mathbb{E}\left[\phi(\theta)\right]$ obtenu <20> partir du vecteur
|
||
initial $\theta^{i}$ lorsque les $n_1 \equiv n-n_0$ derni<6E>res
|
||
valeurs de la cha<68>ne sont prises en compte. La variance intra
|
||
d'une cha<68>ne, obtenue <20> partir du vecteur initial $\theta^{i}$,
|
||
est d<>finie par $s_i= \frac{1}{n_1-1}\sum_{s=n_0+1}^{n}
|
||
\left[\phi\left(\theta^{(s,i)}\right)-\hat{\phi}_{S_1}^{(i)}
|
||
\right]^2$. La moyenne des variance-intra est alors donn<6E>e par $W
|
||
= \frac{1}{m}\sum_{i=1}^m s_i^2$ o<> $m$ est le nombre de cha<68>nes
|
||
en parall<6C>le ou de vecteurs initiaux. De la m<>me mani<6E>re, on peut
|
||
montrer que la variance-inter est estim<69>e par $B =
|
||
\frac{n_1}{m-1}\sum_{i=1}^m \left(\hat{\phi}_{n_1}^{(i)} -
|
||
\hat{\phi}\right)^2$ o<> $\hat{\phi}$ est donn<6E>e par $\hat{g}=
|
||
\frac{1}{m}\sum_{i=1}^m \hat{\phi}_{n_1}^{(i)}$. Un estimateur de
|
||
la variance a posteriori de $\phi$ est alors d<>finie comme
|
||
$\frac{n_1-1}{n_1}W+\frac{1}{n_1}B$.}. La statistique de test est
|
||
alors d<>finie <20> partir d'un estimateur de la variance \textit{a
|
||
posteriori} de $\phi$. Plus pr<70>cis<69>ment, ce dernier est une
|
||
moyenne pond<6E>r<EFBFBD>e de la variance intra-cha<68>ne et de la variance
|
||
inter-cha<68>ne. Le crit<69>re de convergence est ainsi le rapport de
|
||
cet estimateur <20> la variance intra-cha<68>ne. En utilisant une
|
||
approximation de ce crit<69>re, les auteurs montrent que si sa valeur
|
||
exc<EFBFBD>de 1.2, on peut en conclure qu'il n'y a pas convergence. Dans
|
||
une autre optique, \cite{Geweke92} propose de comparer la moyenne
|
||
de deux sous-<2D>chantillons disjoints, $\mathcal S_1$ et $\mathcal
|
||
S_3$, d'une cha<68>ne de Markov (apr<70>s avoir <20>limin<69> les $n_0$
|
||
premi<EFBFBD>res valeurs). On choisit $\mathcal S_1$ (resp. $\mathcal
|
||
S_3$) au d<>but (resp. <20> la fin) de la cha<68>ne de Markov. Si la
|
||
cha<EFBFBD>ne de Markov a atteint la distribution stationnaire, la
|
||
moyenne des deux sous-<2D>chantillons doit <20>tre <20>gale. Une version
|
||
modifi<EFBFBD>e de la statistique $z$ est alors <20>labor<6F>e par
|
||
Geweke\footnote{Plus formellement, supposons que l'on dispose
|
||
d'une cha<68>ne de Markov $\left(\theta^{s}\right)_{s=1,\cdots,n}$ et
|
||
que l'on subdivise cette cha<68>ne en sous-ensembles, $\mathcal{S}_0
|
||
= \left(\theta^{s}, s=1, \cdots, n_0 \right)$, $\mathcal{S}_1 =
|
||
\left(\theta^{s}, s=n_0+1, \cdots, n_0 + n_a \right)$,
|
||
$\mathcal{S}_2 = \left(\theta^{s}, s=n_0+n_a + 1, \cdots, n_0 +
|
||
n_a + n_b\right)$ et $\mathcal{S}_3 = \left(\theta^{s},
|
||
s=n_0+n_a+n_b+1, \cdots, n_0 + n_a + n_b + n_c\right)$. On choisit
|
||
g<EFBFBD>n<EFBFBD>ralement, $n_a = 0.1n_1$, $n_b = 0.5n_1$ et $n_c = 0.4n_1$, o<>
|
||
$n_1 \equiv n-n_0$. Le test de Geweke revient <20> d<>terminer la
|
||
variance a posteriori de $\phi$, $\hat{s}_{1}$ et $\hat{s}_{3}$,
|
||
pour les sous-ensembles $\mathcal{S}_1$ et $\mathcal{S}_3$ et <20>
|
||
<EFBFBD>valuer $\hat{\phi}_{\mathcal{S}_1}$ et
|
||
$\hat{\phi}_{\mathcal{S}_3}$. La statistique de test est alors
|
||
d<EFBFBD>finie par
|
||
$\frac{\hat{\phi}_{\mathcal{S}_1}-\hat{\phi}_{\mathcal{S}_3}}{\frac{\hat{s}_{1}}{\sqrt{n_a}}+\frac{\hat{s}_{3}}{\sqrt{n_c}}}$
|
||
.}. Une valeur de la statistique de test sup<75>rieure <20> 2 indique
|
||
qu'un nombre plus <20>lev<65> d'it<69>rations est sans doute n<>cessaire. Le
|
||
test de \cite{RafteryLewis92a} (voir aussi \cite{RafteryLewis92b})
|
||
est plus informatif. Il se base sur les quantiles de la
|
||
statistique d'int<6E>r<EFBFBD>t. L'id<69>e est de construire une cha<68>ne de
|
||
Markov <20> deux <20>tats <20> partir d'un quantile (par exemple, 2,5\% et
|
||
97,5\%) qui permette d'estimer les probabilit<69>s de transition et
|
||
ainsi d'estimer le nombre de simulations n<>cessaires pour
|
||
approcher la stationnarit<69>.}\newline
|
||
|
||
\par{Finalement, les m<>thodes de Monte-Carlo pr<70>sent<6E>es dans les sections pr<70>c<EFBFBD>dentes
|
||
ne sont valides que si les <20>l<EFBFBD>ments de la cha<68>ne de Markov sont
|
||
i.i.d. Or, l'intuition sugg<67>re que les valeurs adjacentes d'une
|
||
cha<EFBFBD>ne de Markov devraient <20>tre corr<72>l<EFBFBD>es positivement. De mani<6E>re
|
||
plus g<>n<EFBFBD>rale, le fait que des autocorr<72>lations d'ordre <20>lev<65>
|
||
puissent subsister est probl<62>matique si la taille de la cha<68>ne de
|
||
Markov n'est pas suffisamment grande. Dans cette perspective, il
|
||
est n<>cessaire de v<>rifier cette propri<72>t<EFBFBD> ou tout du moins
|
||
d'<27>viter une corr<72>lation trop <20>lev<65>e de la cha<68>ne de Markov <20>
|
||
partir de laquelle on d<>duit les quantit<69>s ou statistiques
|
||
d'int<6E>r<EFBFBD>t. Plusieurs proc<6F>dures ont <20>t<EFBFBD> sugg<67>r<EFBFBD>es dans la
|
||
litt<EFBFBD>rature. Nous mentionnons ici deux strat<61>gies. La premi<6D>re
|
||
repose sur un facteur correctif <20> appliquer <20> la dimension de la
|
||
cha<EFBFBD>ne de Markov en pr<70>sence d'un degr<67> observ<72> $k$
|
||
d'autocorr<72>lations\footnote{L'intuition repose sur un th<74>or<6F>me
|
||
fondamental de l'analyse des s<>ries temporelles qui nous indique
|
||
que si les $\theta^{(s)}$ sont <20>chantillonn<6E>es <20> partir d'un
|
||
processus stationnaire et corr<72>l<EFBFBD>, les r<>alisations des tirages
|
||
(qui sont donc corr<72>l<EFBFBD>s) fournissent encore une information non
|
||
biais<EFBFBD>e de la distribution si la taille de l'<27>chantillon est
|
||
suffisamment grande.}. Une autre strat<61>gie est de conserver
|
||
seulement chaque $k^{\text{i<EFBFBD>me}}$ <20>l<EFBFBD>ment de la cha<68>ne de Markov
|
||
(apr<70>s avoir supprim<69> les $n_0$ premiers <20>l<EFBFBD>ments de la chaine de
|
||
Markov). Cette technique est connue sous le nom de
|
||
sous-<2D>chantillonnage, voir \cite{Schmeiser89},
|
||
\cite{RafteryLewis92a} ou \cite{RafteryLewis92b}.}
|
||
|
||
\subsection{Estimation de la densit<69> marginale}
|
||
|
||
\par{Nous disposons d'une suite de vecteurs de param<61>tres $\{\theta^{(s)}\}_{s=n_0+1,\dots,n}$ o<> chaque $\theta^{(s)}$
|
||
est extrait de la distribution post<73>rieure. <20> partir de cette suite nous pouvons estimer les moments post<73>rieurs,
|
||
les densit<69>s pr<70>dictives, et finalement la densit<69> marginale de l'<27>chantillon, $p(\sample)$. Cette
|
||
densit<EFBFBD> marginale, comme nous l'avons vu en section \ref{sec:1:1}, pemet de quantifier la capacit<69> du mod<6F>le <20>
|
||
expliquer l'<27>chantillon <20> notre disposition et <20>ventuellement de comparer diff<66>rents mod<6F>les. Par exemple,
|
||
\citet{RabanalRubioramirez2005} <20>valuent diff<66>rentes sp<73>cifications des rigidit<69>s nominales sur les salaires et
|
||
les prix dans le cadre d'un mod<6F>le DSGE, en comparant des densit<69>s marginales. Il existe de nombreuses m<>thodes pour
|
||
estimer $p(\sample)$. Dans cette section nous pr<70>sentons la m<>thode
|
||
g<EFBFBD>n<EFBFBD>ralement utilis<69>e pour les mod<6F>les DSGE.}\newline
|
||
|
||
\par{L'estimateur par la moyenne harmonique est motiv<69> par
|
||
la propri<72>t<EFBFBD> suivante de l'esp<73>rance post<73>rieure~:
|
||
\[
|
||
\mathbb E\left[\frac{f(\theta)}{p_0(\theta)p(\sample|\theta)}\right]
|
||
= \int_{\Theta}
|
||
\frac{f(\theta)p_1(\theta|\sample)}{p_0(\theta)p(\sample|\theta)}\mathrm d\theta
|
||
\]
|
||
o<> $f$ est une fonction de densit<69> quelconque et $\mathbb E$ est l'esp<73>rance post<73>rieure. Le membre de droite de
|
||
l'<27>galit<69>, en utilisant la d<>finition de la densit<69> post<73>rieure,
|
||
s'<27>crit alternativement~:
|
||
\[
|
||
\int_{\Theta}
|
||
\frac{f(\theta)}{p_0(\theta)p(\sample|\theta)}\frac{p_0(\theta)p(\sample|\theta)}
|
||
{\int_{\Theta}p_0(\theta)p(\sample|\theta)\mathrm d\theta}\mathrm d\theta
|
||
\]
|
||
On obtient donc~:
|
||
\[
|
||
\mathbb E \left[\frac{f(\theta)}{p_0(\theta)p(\sample|\theta)}\right]
|
||
=
|
||
\frac{\int_{\Theta}f(\theta)\mathrm d\theta}{\int_{\Theta}p_0(\theta)
|
||
p(\sample|\theta)\mathrm d\theta}
|
||
\]
|
||
Puisque l'int<6E>grale de $f$ somme <20> un, nous obtenons finalement~:
|
||
\[
|
||
\mathbb E \left[\frac{f(\theta)}{p_0(\theta)p(\sample|\theta)}\right]
|
||
=
|
||
\frac{1}{\int_{\Theta}p_0(\theta)
|
||
p(\sample|\theta)\mathrm d\theta}
|
||
\]
|
||
Ainsi, un estimateur de la densit<69> marginale (l'int<6E>grale du noyau post<73>rieur qui appara<72>t au d<>nominateur du
|
||
second membre), est l'inverse de l'esp<73>rance post<73>rieure de $f(\theta)/\mathcal K(\theta|\sample)$. Ceci sugg<67>re
|
||
l'estimateur suivant de la densit<69> marginale~:
|
||
\[
|
||
\hat{p}\left(\sample\right) = \frac{1}{n-n_0}\sum_{s=n_0+1}^n \frac{f\left(\theta^{(s)}\right)}
|
||
{\mathcal K\left(\theta^{(s)}|\sample\right)}
|
||
\]
|
||
Ce r<>sultat est valable pour toute densit<69> $f$. \citet{Geweke92} propose d'utiliser une gaussienne tronqu<71>e centr<74>e
|
||
sur l'esp<73>rance post<73>rieure. L'id<69>e est d'accorder moins de poids, voire d'<27>liminer, les simulations <20>loign<67>es
|
||
du centre de la distribution post<73>rieure. Cela permet de diminuer la variance de l'estimateur de la densit<69>
|
||
marginale.}\newline
|
||
|
||
|
||
\section{Un DSGE pour le B du VAR}\label{sec:bvardsge}
|
||
|
||
\par{Dans cette section, nous illustrons en quoi les mod<6F>les VAR et DSGE sont des outils compl<70>mentaires que l'on
|
||
ne doit pas n<>cessairement chercher <20> opposer. Nous avons vu dans la
|
||
section \ref{sec:1:4} que la sp<73>cification des croyances \textit{a
|
||
priori} sur la param<61>trisation d'un VAR ne va pas de soi. En effet,
|
||
dans la mesure o<> le contenu <20>conomique d'un mod<6F>le VAR est t<>nu,
|
||
l'interpr<70>tation des param<61>tres du VAR est d<>licate, ce qui rend
|
||
l'<27>licitation des priors ardue. \cite{IngramWhiteman1994} proposent
|
||
d'utiliser un mod<6F>le DSGE afin de construire le prior d'un mod<6F>le
|
||
VAR. Ils montrent qu'en utilisant les restrictions d<>finies par un
|
||
mod<EFBFBD>le RBC pour d<>finir le prior d'un mod<6F>le VAR, on peut produire
|
||
avec ce dernier des pr<70>visions comparables, en termes de pr<70>cision,
|
||
<EFBFBD> celles que nous obtiendrions avec un prior Minnesota. Ce r<>sultat
|
||
est remarquable, car m<>me si le mod<6F>le RBC canonique est mal
|
||
sp<EFBFBD>cifi<EFBFBD> dans de nombreuses directions, il impose des restrictions
|
||
utiles pour am<61>liorer les pr<70>visions du VAR.}\newline
|
||
|
||
\par{Plus r<>cemment, \cite{DelNegroSchorfheide2004} ont repris cette id<69>e sous une forme plus simple <20> mettre en
|
||
oeuvre. Leur approche permet d'estimer simultan<61>ment les param<61>tres structurels du DSGE et les param<61>tres du mod<6F>le
|
||
VAR. Nous pr<70>sentons leur approche dans cette section.}\newline
|
||
|
||
\subsection{Les r<>gressions mixtes}\label{sec:bvardsge:theil}
|
||
|
||
\par{Dans la section \ref{sec:1:4:pratique} nous avons not<6F>, au moins dans le cadre d'un mod<6F>le lin<69>aire gaussien,
|
||
une analogie entre les priors du paradigme bay<61>sien et les contraintes lin<69>aires sur les param<61>tres de l'approche
|
||
classique. \citeauthor{DelNegroSchorfheide2004} utilisent cette analogie (voir \citet{TheilGoldberger1961},
|
||
\citet{TiaoZellner1964a} et \citet{TheilBook}) pour mettre en oeuvre le prior DSGE. Dans le mod<6F>le VAR, on peut
|
||
d<EFBFBD>finir un prior sur $\mathcal A$ en utilisant des observations artificielles, coh<6F>rentes avec nos croyances, et
|
||
un prior diffus <20> la Jeffrey. Par exemple, si ces observations artificielles sont g<>n<EFBFBD>r<EFBFBD>es par un mod<6F>le DSGE, alors
|
||
l'estimation sur la base de l'<27>chantillon augment<6E> sera attir<69>e vers la projection du DSGE dans l'espace des VAR.}\newline
|
||
|
||
\par{Plus formellement supposons que nous disposions des observations artificielles
|
||
$(\check Y(\eta),\check Z(\eta))$, o<> $\eta$ est un vecteur de param<61>tres qui d<>finit le processus g<>n<EFBFBD>rateur
|
||
des donn<6E>es artificielles (\textit{ie} les croyances \textit{a priori}). Comme l'<27>chantillon artificiel est
|
||
ind<EFBFBD>pendant de $\sample$, la vraisemblance de l'<27>chantillon augment<6E> s'<27>crit de la fa<66>on suivante~:
|
||
\begin{equation}\label{equ:bvardsge:lik}
|
||
p\left(\check Y(\eta),\sample|\mathcal A, \Sigma\right)
|
||
= p\left(\check Y(\eta)|\mathcal A, \Sigma\right)\times
|
||
p\left(\sample|\mathcal A, \Sigma\right)
|
||
\end{equation}
|
||
Le premier terme du membre de droite, si l'<27>chantillon artificiel est de dimension $[\lambda T]$ o<>
|
||
$\lambda\in\mathbb R$, s'<27>crit~:
|
||
\begin{equation}\label{equ:bvardsge:lik:simulateddata}
|
||
p\left(\check Y(\eta)|\mathcal A,\Sigma\right) \propto |\Sigma|^{-\frac{[\lambda T]}{2}}
|
||
e^{-\frac{1}{2}\trace \left[\Sigma^{-1}
|
||
\left(\check Y' \check Y - \mathcal A' \check Z' \check Y - \check Y' \check X \mathcal A +
|
||
\mathcal A' \check Z'\check Z \mathcal A \right)\right]}
|
||
\end{equation}
|
||
et, <20> la lumi<6D>re de l'avant derni<6E>re <20>quation, s'interpr<70>te comme un prior pour $\mathcal A$ et $\Sigma$. La
|
||
croyance \textit{a priori} est d'autant plus informative que l'<27>chantillon artificiel est de grande taille. Quand
|
||
$\lambda$ tend vers l'infini, le poids de la vraisemblance (le second terme sur le membre de droite de
|
||
(\ref{equ:bvardsge:lik})) devient n<>gligeable par rapport au prior (le premier terme sur le membre de droite de
|
||
(\ref{equ:bvardsge:lik})). En compl<70>tant le prior, d<>fini avec les donn<6E>es artificielles, par un prior diffus (ou plat)
|
||
<EFBFBD> la Jeffrey~:
|
||
\[
|
||
p_0(\mathcal A,\Sigma) \propto |\Sigma|^{-\frac{m+1}{2}}
|
||
\]
|
||
le prior est au final de type normal-Wishart, le prior conjugu<67> dans un mod<6F>le lin<69>aire
|
||
gaussien. En particulier, $\mathcal A$ est \textit{a priori} normalement distribu<62>~:
|
||
\[
|
||
\VEC \mathcal A | \Sigma \sim \normal{\VEC \tilde{\mathcal A}(\eta)}{\Sigma\otimes (\check Z'\check Z)^{-1}}
|
||
\]
|
||
o<EFBFBD> $\tilde{\mathcal A}(\eta) = (\check Z'\check Z)^{-1}\check Z'\check Y$, est l'estimateur des MCO (MV) des param<61>tres
|
||
autor<EFBFBD>gressifs pour l'<27>chantillon artifiel.}\newline
|
||
|
||
\par{On voit imm<6D>diatement, en consid<69>rant la vraisemblance de l'<27>chantillon augment<6E> (\ref{equ:bvardsge:lik}),
|
||
le prior diffus <20> la Jeffrey et les r<>sultats de la section \ref{sec:1:4:noninf}, que la distribution
|
||
\textit{a posteriori} est de type normale-Wishart~:
|
||
\begin{equation}\label{equ:var:mixed:post}
|
||
\begin{split}
|
||
\mathcal{A}|\Sigma,\sample,\check Y (\eta) &\sim MN_{k,m}\left(\widehat{\mathcal{A}}(\eta),\Sigma,(Z'Z+
|
||
\check Z'\check Z)^{-1}\right)\\
|
||
\Sigma|\sample,\check Y (\eta) &\sim i\mathcal{W}_m\left(\widehat{S}(\eta),\tilde{\nu}\right)
|
||
\end{split}
|
||
\end{equation}
|
||
o<EFBFBD> $\widehat{\mathcal{A}}(\eta)$ et $\widehat{S}(\eta)$ sont respectivement les estimateurs du maximum de vraisemblance
|
||
de $\mathcal A$ et $(T+[\lambda T])\Sigma$, pour l'<27>chantillon augment<6E> des donn<6E>es artificielles, $\tilde \nu =
|
||
[(1+\lambda)T]-k$. En int<6E>grant la densit<69> jointe post<73>rieure par rapport <20> $\Sigma$, on montre que la distribution
|
||
post<EFBFBD>rieure marginale de $\mathcal A$ est une distribution de student matricielle, centr<74>e en
|
||
$\widehat{\mathcal{A}}(\eta)$. Lorsque $\lambda$ augmente, $\widehat{\mathcal{A}}(\eta)$ se rapproche de
|
||
$\tilde{\mathcal{A}}(\eta)$, en effet, on <20>tablit facilement que~:
|
||
\[
|
||
\widehat{\mathcal{A}}(\eta) = (\check Z'\check Z + Z'Z)^{-1}\left(\check Z'\check Z \tilde{\mathcal A}(\eta)+ Z'Z \widehat{\mathcal A}\right)
|
||
\]
|
||
Ainsi, lorsque le poids du prior augmente, la distribution post<73>rieure du VAR se rapproche de la projection
|
||
dans l'espace des VAR du mod<6F>le g<>n<EFBFBD>rateur des donn<6E>es coh<6F>rent avec nos croyances \textit{a priori}.}\newline
|
||
|
||
|
||
\subsection{Le mod<6F>le BVAR-DSGE}
|
||
|
||
\par{\cite{DelNegroSchorfheide2004} proposent, <20> la suite de \cite{IngramWhiteman1994}, d'utiliser un mod<6F>le
|
||
DSGE pour sp<73>cifier le prior d'un mod<6F>le VAR. Contrairement <20> ces derniers, \citeauthor{DelNegroSchorfheide2004}
|
||
utilisent les r<>gressions mixtes d<>crites dans la section \ref{sec:bvardsge:theil}, m<>me si en pratique ils ne
|
||
simulent pas des donn<6E>es. Afin d'<27>viter que les r<>sultats puissent varier, <20> cause des simulations, ils pr<70>f<EFBFBD>rent
|
||
remplacer les moments empiriques dans (\ref{equ:bvardsge:lik:simulateddata}) par des moments th<74>oriques calcul<75>s
|
||
<EFBFBD> partir d'une approximation de Taylor d'ordre un de la forme r<>duite (\ref{equ:dsge:sol}) du mod<6F>le DSGE. Par
|
||
exemple ils remplacent $\check Y' \check Y$ par la matrice de variance-covariance des endog<6F>nes observ<72>es,
|
||
c'est-<2D>-dire une sous matrice de $\Gamma_{yy}(\theta) = \mathbb E \left[(y_t-\mathbb E y_t)'(y_t-\mathbb E y_t)\right]$,
|
||
multipli<EFBFBD>e par la taille de l'<27>chantillon artificiel, $[\lambda T]$. Pour tout vecteur de param<61>tres structurels,
|
||
$\theta \in \Theta$, la d<>finition du prior du VAR est pratiquement imm<6D>diate, il suffit d'<27>crire la forme r<>duite
|
||
du mod<6F>le DSGE et de calculer ses moments asymptotiques. \citeauthor{DelNegroSchorfheide2004} ne se contentent pas
|
||
d'estimer les param<61>tres du VAR, ils estiment simultan<61>ment les param<61>tres du mod<6F>le DSGE. Ils sp<73>cifient donc un
|
||
prior joint sur les param<61>tres du mod<6F>le VAR et les param<61>tres structurels du mod<6F>le DSGE:
|
||
\[
|
||
p_0\left(\mathcal A, \Sigma, \theta | \lambda\right) = p_0(\mathcal A, \Sigma | \theta,\lambda)
|
||
\times p_0\left(\theta\right)
|
||
\]
|
||
Le prior est conditionnel au param<61>tre $\lambda$ qui sp<73>cifie la taille de l'<27>chantillon artificiel relativement
|
||
<EFBFBD> l'<27>chantillon d'origine, c'est-<2D>-dire la quantit<69> relative d'information structurelle \textit{a priori}. On peut
|
||
alors utiliser l'algorithme de Metropolis-Hastings pour obtenir la distribution post<73>rieure de $\theta$ (et
|
||
indirectement de $\mathcal A$ et $\Sigma$) en utilisant la densit<69> post<73>rieure du mod<6F>le BVAR sp<73>cifi<66>e par
|
||
(\ref{equ:var:mixed:post}). Ici, la vraisemblance du mod<6F>le DSGE n'a pas <20> <20>tre calcul<75>e, ce qui simplifie
|
||
consid<EFBFBD>rablement l'estimation puisque le filtre de Kalman n'est plus n<>cessaire. Les param<61>tres du mod<6F>le DSGE
|
||
sont identifi<66>s gr<67>ce <20> la vraisemblance, plus exactement la densit<69> post<73>rieure, de son approximation VAR. Le mod<6F>le
|
||
VAR joue ici en quelque sorte le m<>me r<>le qu'un mod<6F>le auxiliaire en inf<6E>rence indirecte (voir
|
||
\citet{GourierouxMonfortSimulation}).}\newline
|
||
|
||
\par{L'estimation de $\theta$ (et donc de $\mathcal A$ et $\Sigma$) est conditionnelle aux choix de $p$, le nombre de
|
||
retards dans le VAR, et $\lambda$, la quantit<69> relative d'information structurelle \textit{a priori} dans le VAR. Il
|
||
convient de choisir un nombre de retard assez grand pour que le mod<6F>le VAR puisse <20>tre une approximation acceptable
|
||
du mod<6F>le DSGE. En effet la forme r<>duite (\ref{equ:dsge:sol}) approxim<69>e du mod<6F>le DSGE n'appartient pas <20> la
|
||
famille des mod<6F>les VAR, il faudrait un nombre de retard infini pour approximer au mieux le mod<6F>le
|
||
DSGE\footnote{Par exemple, \cite{Campbell1994}
|
||
<EFBFBD>tablit, en <20>crivant analytiquement la forme r<>duite du mod<6F>le RBC lin<69>aris<69>, que le produit par t<>te est un processus
|
||
ARMA(2,1). Ce mod<6F>le pr<70>dit donc que le produit par t<>te est un AR($\infty$) que l'on pourrait approximer avec
|
||
un AR($p$) pour un nombre de retards, $p$, assez grand.}. \citeauthor{DelNegroSchorfheide2004} estiment un VAR d<>crivant
|
||
l'inflation, le taux d'int<6E>r<EFBFBD>t et le taux de croissance du produit. Ils affirment qu'un VAR(4) permet une approximation
|
||
satisfaisante de leur mod<6F>le DSGE. Le choix de $\lambda$ est plus d<>licat, en variant ce param<61>tre de z<>ro <20> l'infini,
|
||
on passe d'un prior diffus (l'esp<73>rance post<73>rieure de $\mathcal A$ est alors l'estimateur du MV) <20> un prior tr<74>s
|
||
informatif (l'esp<73>rance post<73>rieur de $\mathcal A$ tend vers $\Gamma_{zz}(\theta)^{-1}\Gamma_{yz}(\theta)$ les contraintes
|
||
DSGE sur les param<61>tres du mod<6F>le VAR). \citeauthor{DelNegroSchorfheide2004} proposent d'estimer plusieurs mod<6F>les
|
||
pour une grille de valeurs de $\lambda$. Ils choisissent alors le mod<6F>le, c'est-<2D>-dire la valeur de $\lambda$, qui
|
||
maximise la densit<69> marginale. Ils s<>lectionnent le mod<6F>le dont la qualit<69> d'ajustement est la meilleure.
|
||
\cite{DelNegroSchorfheideSmetsWouters2004} utilisent le BVAR-DSGE pour estimer le mod<6F>le de \cite{SmetsWouters2004}, ils
|
||
obtiennent $\lambda=0,75$. Ils montrent ainsi que les restrictions apport<72>es par le mod<6F>le de Smets et Wouters
|
||
sont utiles pour am<61>liorer les performances du mod<6F>le VAR. Cette proc<6F>dure est relativement compliqu<71>e <20> mettre en
|
||
oeuvre. Pour chaque valeur de $\lambda$ il faut s'assurer de la convergence de l'algorithme de Metropolis-Hastings,
|
||
afin d'estimer la densit<69> marginale\footnote{On pourrait se contenter de l'estimation du mode post<73>rieur et d'une
|
||
approximation de Laplace, mais cette possibilit<69> n'est pas <20>voqu<71>e par \citeauthor{DelNegroSchorfheide2004}.}. Plus
|
||
haut nous avons not<6F> l'analogie entre le choix d'un mod<6F>le dans une collection de mod<6F>les et l'estimation d'un
|
||
param<EFBFBD>tre dont les valeurs seraient discr<63>tes. Une approche plus directe est d'associer une distribution
|
||
\textit{a priori} <20> $\lambda$ puis d'estimer ce param<61>tre (avec les param<61>tres structurelles $\theta$). Il faut alors
|
||
d<EFBFBD>finir un prior joint sur $\mathcal A$, $\Sigma$, $\theta$ et $\lambda$~:
|
||
\[
|
||
p_0(\mathcal,\Sigma,\theta,\lambda) = p_0(\mathcal A, \Sigma | \theta,\lambda)
|
||
\times p_0\left(\theta\right) \times p_0(\lambda)
|
||
\]
|
||
\cite{AdjemianDarracqPariesTwoCountry} estiment une version deux pays du mod<6F>le de \citeauthor{SmetsWouters2004}, avec
|
||
le mod<6F>le BVAR-DSGE, en posant un prior uniforme (entre 0 et 10) pour le param<61>tre $\lambda$. Ils obtiennent une
|
||
distribution post<73>rieure de $\lambda$ centr<74>e sur $2,5$. Il n'est pas surprenant d'obtenir dans ce cas une valeur de
|
||
$\lambda$ largement sup<75>rieure. La version deux pays du mod<6F>le de Smets et Wouters est estim<69>e avec un VAR comprenant
|
||
dix-huit variables observables, alors que \citet{DelNegroSchorfheideSmetsWouters2004}, pour la version un pays, ne
|
||
consid<EFBFBD>rent que sept variables. Avec dix-huit variables, les restrictions structurelles deviennent plus n<>cessaires, m<>me
|
||
si le mod<6F>le n'est pas mieux sp<73>cifi<66>.}
|
||
|
||
\subsection{Usages et avantages du BVAR-DSGE}
|
||
|
||
\par{\citet{DelNegroSchorfheide2004} et surtout \citet{DelNegroSchorfheideSmetsWouters2004} pr<70>sentent le mod<6F>le
|
||
BVAR-DSGE comme un outil d'<27>valuation de la qualit<69> d'ajustement d'un mod<6F>le DSGE. Pour ces derniers la valeur
|
||
de $\lambda$, le poids du prior structurel, donne une id<69>e de l'int<6E>r<EFBFBD>t empirique du mod<6F>le. Si les restrictions
|
||
structurelles d<>finies par le mod<6F>le DSGE sont pertinentes, alors la proc<6F>dure s<>lectionne une valeur <20>lev<65>e de
|
||
$\lambda$. Si le mod<6F>le apporte des informations totalement incoh<6F>rentes avec les donn<6E>es alors la proc<6F>dure
|
||
s<EFBFBD>lectionne une valeur proche de z<>ro. Malheureusement cette mesure n'a pas d'<27>chelle et nous ne savons pas <20>
|
||
partir de quelle valeur de $\lambda$ on peut dire que le mod<6F>le apporte des informations pertinentes. Un autre
|
||
probl<EFBFBD>me est que ce param<61>tre ne mesure pas la qualit<69> d'ajustement du mod<6F>le DSGE, il nous donne la quantit<69>
|
||
optimale, au sens du \textit{fit} du mod<6F>le BVAR, d'information DSGE qu'il faut incorporer dans le prior du VAR.
|
||
\citet{DelNegroSchorfheideSmetsWouters2004} utilisent le BVAR-DSGE afin de d<>voiler les <20>ventuelles mauvaises,
|
||
sp<EFBFBD>cifications d'un mod<6F>le DSGE. Or le niveau optimal de $\lambda$ ou la densit<69> marginale, $p(\sample)$, du mod<6F>le
|
||
DSGE ne sauraient donner une id<69>e pr<70>cise des directions dans lesquels le mod<6F>le est insatisfaisant puisque ces deux
|
||
indicateurs donnent des informations trop agr<67>g<EFBFBD>es. Les quatre auteurs recherchent les directions dans lesquels le
|
||
mod<EFBFBD>le DSGE est mal sp<73>cifi<66> en comparant les fonctions de r<>ponses (IRF) du mod<6F>le BVAR-DSGE avec celles du mod<6F>le
|
||
DSGE. Ils identifient les chocs structurels dans le mod<6F>le BVAR-DSGE en se fondant sur le mod<6F>le DSGE
|
||
(\ref{equ:dsge:def}). <20> partir de la forme r<>duite (\ref{equ:dsge:sol}) il est possible de calculer l'impact instantann<6E>
|
||
de chaque choc structurel sur les variables observables~:
|
||
\[
|
||
Z\frac{\partial \mathcal H_{\theta}}{\partial \varepsilon}
|
||
\]
|
||
o<EFBFBD> $Z$ est une matrice de s<>lection d<>finie dans l'<27>quation de
|
||
mesure (\ref{equ:dsge:sol:measure}).
|
||
\citeauthor{DelNegroSchorfheide2004} utilisent cette information
|
||
pour indentifier les innovations structurelles dans le mod<6F>le BVAR
|
||
(se reporter <20> \cite{DelNegroSchorfheide2004} pour les d<>tails).
|
||
M<EFBFBD>me si le BVAR-DSGE est construit sur la base (au moins
|
||
partiellement) d'une information structurelle provenant du DSGE, ce
|
||
mod<EFBFBD>le est moins contraint que le mod<6F>le DSGE. Ainsi, l'observation
|
||
d'une diff<66>rence significative entre les IRFs du BVAR-DSGE et celles
|
||
du mod<6F>le DSGE conduit \citet{DelNegroSchorfheideSmetsWouters2004} <20>
|
||
identifer les directions dans lesquelles le mod<6F>le DSGE est mal
|
||
sp<EFBFBD>cifi<EFBFBD>. Par exemple, les quatre auteurs observent que les r<>ponses
|
||
du produit, de la consommation et des heures face <20> un choc de
|
||
pr<EFBFBD>f<EFBFBD>rence (sur la d<>sutilit<69> du travail) sont plus persistentes
|
||
dans le BVAR-DSGE que dans le DSGE. Ils concluent alors que le
|
||
mod<EFBFBD>le DSGE manque de m<>canismes de propagation des chocs sur
|
||
l'offre de travail. Cet exercice de comparaison entre BVAR-DSGE et
|
||
DSGE peut <20>tre mis en oeuvre en utilisant des statistiques autres
|
||
que des fonctions de r<>ponse~: d<>compositions de variance des
|
||
variables observ<72>es, moments th<74>oriques des variables observ<72>es,...
|
||
La limite de l'exercice est que les conditions d'identification des
|
||
chocs dans le BVAR sont directement d<>riv<69>es du mod<6F>le DSGE. Si nous
|
||
n'observons pas de grandes diff<66>rences entre les IRFs du BVAR-DSGE
|
||
et celles du DSGE c'est peut <20>tre parce que nous utilisons les m<>mes
|
||
conditions d'identifications. Ce probl<62>me ne se pose pas si on
|
||
compare des statistiques qui ne reposent pas sur des conditions
|
||
d'identification, par exemple si on compare des moments (variances,
|
||
fonction d'autocorr<72>lation,...).}\newline
|
||
|
||
\par{L'avantage du mod<6F>le BVAR-DSGE est plus <20>vident en termes de pr<70>visions. Tout mod<6F>le est, par nature, mal sp<73>cifi<66>
|
||
dans une multitude de directions. Malgr<67> cette limite intrins<6E>que les mod<6F>les apportent souvent des informations
|
||
utiles et pertinentes. L'exp<78>rience de \cite{IngramWhiteman1994} est, <20> cet <20>gard, des plus <20>clairantes. Ils montrent
|
||
que m<>me le plus stylis<69> des mod<6F>les DSGE (le mod<6F>le de cycle r<>el canonique) est suffisament riche pour aider un
|
||
BVAR <20> produire des pr<70>visions plus pr<70>cises et moins biais<69>es. Un mod<6F>le que personne ne voudrait
|
||
utiliser pour produire des pr<70>visions peut aider un mod<6F>le a-th<74>orique (plus souple) <20> produire de meilleures
|
||
pr<EFBFBD>visions. Cette id<69>e pourrait <20>tre d<>velopp<70>e dans de nombreuses directions. Nous pourrions par exemple utiliser
|
||
plusieurs mod<6F>les DSGE pour construire le prior d'un mod<6F>le VAR (ou de tout autre mod<6F>le a-th<74>orique, par exemple
|
||
un mod<6F>le <20> facteurs communs) et optimiser les parts de chaque mod<6F>le dans le prior du VAR.}
|
||
|
||
|
||
|
||
\end{spacing}
|
||
|
||
\bibliography{ecoprev3}
|
||
%% <20> d<>cocher pour <20>co et prev
|
||
%\theendnotes
|
||
|
||
|
||
\appendix
|
||
|
||
\section{Densit<EFBFBD>s pour le mod<6F>le BVAR}\label{annex:A}
|
||
|
||
\subsection{Distribution normale matricielle}
|
||
|
||
\begin{definition}
|
||
La matrice $p \times q$ al<61>atoire $\mathbf{X}$ est distribu<62>e
|
||
conform<EFBFBD>ment <20> une loi normale matricielle
|
||
\[
|
||
\mathbf{X} \sim MN_{p,q} (\mathbf{M},\mathbf{Q},\mathbf{P})
|
||
\]
|
||
o<EFBFBD> $\mathbf{M}$ est une matrice $p \times q$, $\mathbf{Q}$ et
|
||
$\mathbf{P}$ sont respectivement des matrices $q\times q $ et $p\times p$
|
||
sym<EFBFBD>triques et d<>finies positives, si et seulement si
|
||
$vec (\mathbf{X})$ est distribu<62> comme une v.a. normale multivari<72>e
|
||
\[
|
||
vec (\mathbf{X}) \sim \mathcal{N}_{pq}
|
||
(vec(\mathbf{M}),\mathbf{Q}\otimes\mathbf{P})
|
||
\]
|
||
\end{definition}
|
||
\noindent Ainsi, la fonction de densit<69> associ<63>e <20> $\mathbf{X}$ est
|
||
donn<EFBFBD>e par~:
|
||
\[
|
||
\begin{split}
|
||
f_{MN_{p,q}}(X;\mathbf{M},\mathbf{P},\mathbf{Q}) =&
|
||
(2\pi)^{-\frac{pq}{2}}|\mathbf{Q}|^{-\frac{p}{2}}|\mathbf{P}|^{-\frac{q}{2}}\\&e^{-\frac{1}{2}\trace
|
||
\left\{\mathbf{Q}^{-1}(X-\mathbf{M})'\mathbf{P}^{-1}(X-\mathbf{M})\right\}}
|
||
\end{split}
|
||
\]
|
||
|
||
\subsection{Distributions de Wishart}
|
||
La loi de Wishart est une version multivari<72>e de la loi du $\chi^2$. Soit $\{X_i\}_{i=1}^{\nu}$ une suite de variables al<61>atoires gaussiennes ind<6E>pendantes et identiquement distribu<62>es $\mathcal N(0,Q)$, avec $Q$ une matrice sym<79>trique d<>finie positive $q\times q$. Par d<>finition $Y = \sum_{i=1}^{\nu} X_iX_i'$ est distribu<62> selon une loi de Wishart. Les d<>finitions suivantes caract<63>risent cette loi et la densit<69> de l'inverse d'une v.a. de Wishart.
|
||
\begin{definition}
|
||
La matrice al<61>atoire, de dimension $q \times q$, sym<79>trique et semi
|
||
d<EFBFBD>finie positive $\mathbf{Y}$ est distribu<62>e selon une loi de
|
||
Wishart, $\mathbf{Y} \sim \mathcal{W}_q (\mathbf{Q},\nu)$, si et
|
||
seulement si sa densit<69> est donn<6E>e par
|
||
\[
|
||
f(Y;\mathbf{Q},\nu) =
|
||
\frac{|\mathbf{Q}|^{-\frac{\nu}{2}}|Y|^{\frac{\nu-q-1}{2}}}{2^{\frac{\nu
|
||
q}{2}}\pi^{\frac{q(q-1)}{4}}\prod_{i=1}^q \Gamma
|
||
\left(\frac{\nu+1-i}{2}\right)}e^{-\frac{1}{2}\trace
|
||
\left\{Y\mathbf{Q}^{-1}\right\}}
|
||
\]
|
||
pour $\mathbf{Q}$ une matrice sym<79>trique semie d<>finie positive, et
|
||
$\nu \leq q$ le degr<67> de libert<72>.
|
||
\end{definition}
|
||
|
||
\begin{definition}
|
||
Une matrice al<61>atoire, de dimension $q \times q$, $\mathbf{X}$ est
|
||
distribu<EFBFBD>e selon une loi inverse Wishart,
|
||
\[
|
||
\mathbf{X} \sim i\mathcal{W}_q (\mathbf{Q},\nu)
|
||
\]
|
||
si et seulement si $\mathbf{X}^{-1} \sim \mathcal{W}_q
|
||
(\mathbf{Q}^{-1},\nu)$.
|
||
\end{definition}
|
||
\noindent Ainsi la fonction de densit<69> associ<63>e <20> $\mathbf{X}$ est
|
||
d<EFBFBD>finie par~:
|
||
\[
|
||
f_{i\mathcal{W}_{q}}(X;\mathbf{Q},\nu) =
|
||
\frac{|\mathbf{Q}|^{\frac{\nu}{2}}|X|^{-\frac{\nu+q+1}{2}}}{2^{\frac{\nu
|
||
q}{2}}\pi^{\frac{q(q-1)}{4}}\prod_{i=1}^q \Gamma
|
||
\left(\frac{\nu+1-i}{2}\right)}e^{-\frac{1}{2}\trace
|
||
\left\{X^{-1}\mathbf{Q}\right\}}
|
||
\]
|
||
|
||
\end{document}
|