stephane-adjemian.fr/assets/papers/malgrange/EcoPrev2007Bayes/article.tex

2144 lines
128 KiB
TeX
Raw Blame History

% stephane.adjemian@ens.fr
% florian.pelgrin@unil.ch
\documentclass[10pt,subeqn]{article}
\usepackage[latin1]{inputenc}
\usepackage[T1]{fontenc}
\usepackage{palatino}
\usepackage{natbib}
\bibliographystyle{mystyle}
%\usepackage{float}
%\usepackage{graphicx}
%\usepackage{dcolumn}
\usepackage{hyperref}
\usepackage[francais]{babel}
\usepackage{setspace}
\usepackage[active]{srcltx}
\usepackage{amssymb}
\usepackage[centertags]{amsmath}
\usepackage{amstext}
\usepackage{amsbsy}
\usepackage{amsopn}
\usepackage{amscd}
\usepackage{amsxtra}
\usepackage{amsthm}
%\usepackage{ae,aeguill}
%\usepackage{endnotes}
\newtheorem{theorem}{Theorem}%[section]
\newtheorem{algorithm}[theorem]{Algorithme}
\newtheorem{axiom}[theorem]{Axiome}
\newtheorem{case}[theorem]{Cas}
\newtheorem{conclusion}[theorem]{Conclusion}
\newtheorem{condition}[theorem]{Condition}
\newtheorem{conjecture}[theorem]{Conjecture}
\newtheorem{corollary}[theorem]{Corollaire}
\newtheorem{criterion}[theorem]{Crit\`{e}re}
\newtheorem{definition}[theorem]{D\'{e}finition}
\newtheorem{example}[theorem]{Exemple}
\newtheorem{lemma}[theorem]{Lemme}
\newtheorem{notation}[theorem]{Notation}
\newtheorem{problem}[theorem]{Probl\`{e}me}
\newtheorem{proposition}[theorem]{Proposition}
\newtheorem{remark}[theorem]{Remarque}
\newtheorem{summary}[theorem]{R\'{e}sum\'{e}}
%\newcolumntype{d}{D{,}{,}{-1}}
\newcommand{\norm}[1]{\left\Vert#1\right\Vert}
\newcommand{\abs}[1]{\left\vert#1\right\vert}
\newcommand{\set}[1]{\left\{#1\right\}}
\newcommand{\croc}[1]{\left[#1\right]}
\newcommand{\parent}[1]{\left(#1\right)}
\newcommand{\Real}{\mathbb R}
\newcommand{\sample}{\mathcal Y_T^*}
\newcommand{\samplet}[1]{\mathcal Y_{#1}^*}
\newcommand{\eps}{\varepsilon}
\newcommand{\trace}{\mathrm{tr}}
\newcommand{\To}{\longrightarrow}
\newcommand{\BX}{\mathbf{B}(X)}
\newcommand{\normal}[2]{ \mathcal{N}\left(#1,#2\right) }
\newcommand{\iid}[2]{ \text{iid}\left(#1,#2\right) }
\newcommand{\boxref}[1]{[\ref{#1}]}
\newcommand{\equaref}[1]{(\ref{#1})}
\newcommand{\fullref}[1]{[\ref{#1}, en page \pageref{#1}]}
\newcommand{\VEC}{\mathrm{vec}}
\setlength{\hoffset}{-18pt}
\setlength{\oddsidemargin}{10pt} % Marge gauche sur pages impaires
\setlength{\evensidemargin}{9pt} % Marge gauche sur pages paires
\setlength{\marginparwidth}{54pt} % Largeur de note dans la marge
\setlength{\textwidth}{481pt} % Largeur de la zone de texte (17cm)
\setlength{\voffset}{-18pt} % Bon pour DOS
\setlength{\marginparsep}{7pt} % S<>paration de la marge
\setlength{\topmargin}{0pt} % Pas de marge en haut
\setlength{\headheight}{7pt}%13pt} % Haut de page
\setlength{\headsep}{10pt} % Entre le haut de page et le texte
\setlength{\footskip}{27pt} % Bas de page + s<>paration
\setlength{\textheight}{22cm}%708pt} % Hauteur de la zone de texte (25cm)
%% <20> d<>cocher pour <20>co et prev
%\renewcommand{\footnote}{\endnote}
%\renewcommand{\enotesize}{\normalsize}
\begin{document}
\title{Un regard Bay<61>sien sur les Mod<6F>les Dynamiques de la Macro<72>conomie}
\author{\texttt{St<EFBFBD>phane Adjemian\footnote{stephane.adjemian@ens.fr}}\\\texttt{Universit<EFBFBD> du Maine, \textsc{gains} et \textsc{cepremap}} \and
\texttt{Florian Pelgrin\footnote{florian.pelgrin@unil.ch}}\\ \texttt{Universit<EFBFBD> de Lausanne - \textsc{hec}, \textsc{iems} et \textsc{cirano}}}
\date{\today}
\maketitle
\begin{abstract}
L'objet de cette contribution est de pr<70>senter l'approche bay<61>sienne
des mod<6F>les dynamiques les plus consid<69>r<EFBFBD>s en macro<72>conomie~: les
mod<EFBFBD>les DSGE (\textit{Dynamic Stochastic General Equilibrium}) et
les mod<6F>les VAR.
\medskip
\noindent \textbf{Classification JEL :} C3, C5, E3
\noindent \textbf{Mots-Clefs :} \'<EFBFBD>conom<EFBFBD>trie Bay<61>sienne, Mod<6F>les
VAR, Mod<6F>les DSGE.
\end{abstract}
\bigskip
\bigskip
\begin{spacing}{1.3}
\section{Introduction}\label{intro}
\par{Ces derni<6E>res ann<6E>es, l'analyse des fluctuations <20>conomiques s'est
d<EFBFBD>velopp<EFBFBD>e autour des Mod<6F>les d'\'{E}quilibre G<>n<EFBFBD>ral Intertemporels
Stochastiques (DSGE). Pour autant, jusqu'<27> tr<74>s r<>cemment, l'engouement
pour l'approche DSGE comme outil d'analyse de la politique <20>conomique est demeur<75> relativement
faible, et l'approche des mod<6F>les Vectoriels Autor<6F>gressif (VAR) a
<EFBFBD>t<EFBFBD> (est) souvent privil<69>gi<67>e. Plusieurs raisons expliquent cette
pr<EFBFBD>f<EFBFBD>rence. D'une part, la mod<6F>lisation VAR de la dynamique des
variables macro-<2D>conomiques impose un nombre tr<74>s restreint de
contraintes et offre une qualit<69> d'ajustement aux donn<6E>es (et des
pr<EFBFBD>visions) relativement bonne. Au contraire, en augmentant le
nombre de contraintes sur les donn<6E>es, encourant ainsi le risque
d'une mauvaise sp<73>cification, les mod<6F>les DSGE de la premi<6D>re
g<EFBFBD>n<EFBFBD>ration (les mod<6F>les de la th<74>orie des cycles r<>els) se sont
traduits par des performances d'ajustement et de pr<70>visions tr<74>s
pauvres. D'autre part, l'<27>mergence d'une approche plus structurelle
des mod<6F>les VAR (par rapport <20> l'approche a-th<74>orique, \cite{Sims80}
)--- autorisant des proc<6F>dures d'identification des chocs <20> partir
de restrictions contemporaines, de court terme (\cite{Sims86};
\cite{Bernanke86}) ou de long terme (\cite{BlanchardQuah89})---ont
conduit <20> exiger que tout mod<6F>le th<74>orique puisse reproduire les
fonctions de r<>ponse des variables macro-<2D>conomiques <20> des chocs
structurels identifi<66>s dans les mod<6F>les VAR
(\cite{RotembergWoodford97}, \cite{ChristianoEichenbaumEvans03}).
Finalement, l'absence d'un traitement <20>conom<6F>trique convaincant n'a
fait que renforcer la recommandation de
\cite{KydlandPrescott82}---l'<27>talonnage est pr<70>f<EFBFBD>rable.}\newline
\par{Cependant, on a constat<61> un regain d'int<6E>r<EFBFBD>t des mod<6F>les DSGE et cela essentiellement pour deux
raisons~: (\textit{i}) les avanc<6E>es th<74>oriques et notamment la prise
en compte de fondements micro-<2D>conomiques des rigidit<69>s nominales
et/ou r<>elles (\textit{ii}) les progr<67>s dans l'estimation et
l'<27>valuation des mod<6F>les sur la base de m<>thodes statistiques
formelles\footnote{Voir les travaux de \cite{Smith93},
\cite{Canova94}, \cite{DejongIngramWhiteman96}, \cite{Geweke99},
\cite{DridiGuayRenault07} et \cite{Bierens05}.}. Dans cette
perspective, l'id<69>e suivant laquelle de tels mod<6F>les sont utiles
pour la pr<70>vision et l'analyse de la politique <20>conomique s'est
r<EFBFBD>pandue dans le milieu acad<61>mique ainsi qu'aupr<70>s des institutions
internationales et des banques centrales. Parmi toutes ces approches
<EFBFBD>conom<EFBFBD>triques, la litt<74>rature privil<69>gie, pour de << bonnes >>
et << mauvaises >> raisons, la statistique bay<61>sienne. Parmi les
<< bonnes >> raisons, nous pourrions souligner le fait que la
fonction de vraisemblance d'un mod<6F>le de dimension <20>lev<65>e (de
nombreux param<61>tres <20> estimer) est souvent << plate >> dans
certaines directions. En d'autres termes, les donn<6E>es peuvent ne pas <20>tre
suffisamment informatives pour identifier (avec pr<70>cision) les
param<EFBFBD>tres structurels. En d<>formant la fonction de vraisemblance <20> l'aide
d'informations \textit{a priori} sur les param<61>tres, c'est-<2D>-dire en
privil<EFBFBD>giant une approche bay<61>sienne, l'identification devient
possible. Il est n<>anmoins trop souvent ignor<6F> que la mise en oeuvre
et l'interpr<70>tation des r<>sultats de l'estimation bay<61>sienne
requi<EFBFBD>rent un certain nombre d'hypoth<74>ses et de conditions de
validit<EFBFBD>, ou que nombre de probl<62>mes rencontr<74>s en <20>conom<6F>trie
classique ont leur contrepartie en <20>conom<6F>trie bay<61>sienne. Toujours
est-il que l'approche bay<61>sienne a consid<69>rablement favoris<69> le
d<EFBFBD>veloppement des mod<6F>les DSGE comme outil d'analyse et de pr<70>vision
de la politique mon<6F>taire. Dans le m<>me temps, il n'en demeure pas
moins que les mod<6F>les DSGE et VAR continuent <20> <20>tre oppos<6F>s et que
nombre de papiers cherchent g<>n<EFBFBD>ralement <20> l<>gitimer leurs r<>sultats
en comparant, par exemple, les pr<70>visions (ou tout autre statistique
ou quantit<69> d'int<6E>r<EFBFBD>t) de leur(s) mod<6F>le(s) avec ceux d'un VAR
(\cite{SmetsWouters2004}).}\newline
\par{L'objet de ce papier est de pr<70>senter l'approche bay<61>sienne des mod<6F>les VAR et DSGE en mettant en avant les
principaux concepts, leur mise en oeuvre pratique et les limites
sous-jacentes. Nous montrons en quoi les mod<6F>les DSGE et VAR sont
des outils compl<70>mentaires que l'on ne doit pas n<>cessairement
chercher <20> opposer. Nous n'abordons pas ici certains probl<62>mes
importants, comme l'estimation non lin<69>aire des mod<6F>les
DSGE\footnote{Le lecteur int<6E>ress<73> trouvera une introduction
int<EFBFBD>ressante pour l'estimation des mod<6F>les nonlin<69>aires dans
\cite{AndrieuDoucetRobert04}, \cite{Arulampalam02}, et
\cite{Andrieu04}, ainsi que dans les contributions de
\cite{Gordon93} et \cite{Kitagawa96}. Pour des applications en
<EFBFBD>conomie, voir \cite{ChopinPelgrin04}, \cite{VillaverdeRamirez05}
et \cite{AnSchorfheide07}.}}.\newline
\par{L'article est organis<69> comme suit. Dans une premi<6D>re section, nous pr<70>sentons les principaux
concepts de l'analyse bay<61>sienne et montrons comment les appliquer dans le cadre des mod<6F>les VAR. Une
attention particuli<6C>re est attach<63>e <20> la nature (informative, non
informative, empirique) des croyances \textit{a priori}. Dans une deuxi<78>me
section, nous abordons les sp<73>cificit<69>s de l'approche bay<61>sienne des
mod<EFBFBD>les DSGE. Contrairement aux mod<6F>les VAR, il n'est
plus possible d'obtenir une expression analytique de la distribution
\textit{a posteriori}. Pour rem<65>dier <20> cette difficult<6C>,
il est n<>cessaire de recourir <20> des m<>thodes de Monte-Carlo et
notamment <20> la th<74>orie des cha<68>nes de Markov. Dans cette
perspective, apr<70>s avoir d<>riv<69> de mani<6E>re g<>n<EFBFBD>rale la densit<69> a
posteriori d'un mod<6F>le DSGE, nous expliquons les principaux
algorithmes d'estimation (algorithme de Metropolis-Hasting, par
fonction d'importance). Dans une troisi<73>me section, nous illustrons comment peuvent se combiner les
approches VAR et DSGE.}
\section{L'approche Bay<61>sienne}\label{sec:1}
\subsection{G<EFBFBD>n<EFBFBD>ralit<EFBFBD>s}\label{sec:1:1}
\par{L'approche bay<61>sienne propose un cadre rigoureux pour (\emph{i})
formaliser nos croyances\footnote{Le mot << croyance >> sugg<67>re
une dimension subjective de l'information \textit{a priori}. Il
convient n<>anmoins de signaler que parmi les
<EFBFBD>conom<EFBFBD>tres bay<61>siens il n'y a pas de consensus sur l'interpr<70>tation
subjective ou objective des probabilit<69>s. Par exemple, l'approche
bay<EFBFBD>sienne empirique utilise l'<27>chantillon pour d<>finir l'information
\textit{a priori} (voir par exemple le prior Minnesota de la section
\ref{sec:1:4:pratique}).} \textit{a priori} et (\emph{ii})
d<EFBFBD>terminer comment celles-ci doivent <20>tre mises <20> jour une fois
que les donn<6E>es sont observ<72>es. Les croyances, \textit{a priori} ou
\textit{a posteriori}, sont repr<70>sent<6E>es <20> l'aide
d'une densit<69> de probabilit<69> jointe sur les param<61>tres d'un mod<6F>le.
Cette densit<69> jointe caract<63>rise l'incertitude quant au
processus g<>n<EFBFBD>rateur des donn<6E>es (DGP, pour \textit{Data Generating
Process}), en d<>crivant une famille (un continuum) de mod<6F>les.}\newline
\par{Imaginons que nous souhaitions caract<63>riser nos croyances
sur le param<61>tre de Calvo d'une courbe de Phillips. Ce param<61>tre, $\xi_p$, est la probabilit<69>
pour une firme, en concurrence monopolistique, de ne pas pouvoir
ajuster son prix de fa<66>on optimale <20> une date quelconque. Ainsi,
nous savons d<>j<EFBFBD> que ce param<61>tre doit appartenir <20> l'intervalle
[0,1]. Nous pourrions donc utiliser une distribution
b<EFBFBD>ta\footnote{Pour une pr<70>sentation des principales distributions
utilis<EFBFBD>es dans cette litt<74>rature, le lecteur peut se reporter aux
annexes de \cite{ZellnerBook}. La distribution uniforme est un cas
particulier de la b<>ta.} d<>finie sur cet intervalle. A partir de la
probabilit<EFBFBD> $\xi_p$, nous pouvons d<>finir le temps moyen pendant
lequel une firme ne pourra pas ajuster son prix de fa<66>on optimale~:
$\zeta_p\equiv\frac{1}{1-\xi_p}$. Si par ailleurs, <20> l'aide
d'enqu<71>tes micro<72>conomiques, nous savons que le temps moyen
durant lequel une firme ne r<>ajuste pas son prix de fa<66>on
<< optimale >> est de quatre trimestres, nous pouvons d<>duire qu'une
valeur pertinente de la probabilit<69> $\xi_p$ est trois quarts.
L'<27>conomiste bay<61>sien pourra donc formaliser son \textit{a priori}
sur le param<61>tre $\xi_p$ en s<>lectionnant une distribution b<>ta
ayant pour mode $3/4$ et en sp<73>cifiant une variance mesurant son
incertitude sur le param<61>tre d'int<6E>r<EFBFBD>t. Il choisira une variance
d'autant plus grande qu'il est incertain des <20>valuations
micro<EFBFBD>conomiques dont il dispose\footnote{Cette incertitude peut
s'expliquer par une ad<61>quation imparfaite entre le concept th<74>orique
et l'enqu<71>te micro<72>conomique.}. Notons qu'il pourrait directement
poser son \textit{a priori} sur le d<>lai moyen d'attente avant qu'il
ne puisse optimalement ajuster son prix, $\zeta_p$~;
ceci r<>sultera en une distribution diff<66>rente pour le param<61>tre
$\xi_p$. Si $\xi_p$ est le seul param<61>tre du mod<6F>le pour lequel nous sommes incertain,
\textit{ie} si les autres param<61>tres ont des variances \textit{a priori} nulles, la densit<69>
a priori sur ce param<61>tre d<>crit une famille de DGP, index<65>e par $\xi_p$~:
chaque valeur possible de $\xi_p$ correspond <20> un DGP.}\newline
\par{Plus g<>n<EFBFBD>ralement, nous noterons l'\textit{a priori} sur un vecteur
de param<61>tres $\theta_{\mathcal M}$ associ<63> <20> un mod<6F>le param<61>trique
$\mathcal M$, $\theta_{\mathcal M} \equiv \left(\theta_1^{\mathcal
M},\dots,\theta_{q_{\mathcal M}}^{\mathcal M}\right)$, de la fa<66>on
suivante~:
\begin{equation}\label{equ:bayes:prior}
p_0(\theta_{\mathcal M}|\mathcal M)
\end{equation}
Cette densit<69> jointe d<>finit notre incertitude quant aux param<61>tres $\theta_{\mathcal M}$
avant que nous ayons port<72> attention aux donn<6E>es. Il convient de noter
que nous raisonnons conditionnellement <20> un mod<6F>le. En toute
g<EFBFBD>n<EFBFBD>ralit<EFBFBD> l'incertitude pourrait aussi porter sur la forme du mod<6F>le
param<EFBFBD>trique $\mathcal M$. Plus loin nous omettrons g<>n<EFBFBD>ralement le conditionnement (ainsi que l'indexation)
par le mod<6F>le pour simplifier les notations.}\newline
\par{Nous observons un <20>chantillon $\sample = \left\{y_t^*
\right\}_{t=1}^T$ o<> $y_t^*$ est un vecteur de $m$ variables. Nous
nous limiterons au cas o<> l'indice $t$ repr<70>sente le temps. La
vraisemblance est la densit<69> de l'<27>chantillon conditionnellement au
mod<EFBFBD>le et ses param<61>tres~; on notera~:
\begin{equation}\label{equ:bayes:lik}
\mathcal L \left(\theta_{\mathcal M};\sample,\mathcal M\right)
\equiv p(\sample| \theta_{\mathcal M},\mathcal M)
\end{equation}
L'estimateur du maximum de vraisemblance (MV) des param<61>tres
$\theta_{\mathcal M}$ d'un mod<6F>le $\mathcal M$ est la valeur des
param<EFBFBD>tres qui rend le plus << probable>> l'occurrence de
l'<27>chantillon <20> notre disposition. Autrement dit, l'estimateur du
MV s<>lectionne le param<61>tre $\theta_{\mathcal M}$ d<>finissant le
DGP qui a le plus probablement g<>n<EFBFBD>r<EFBFBD> les donn<6E>es. La d<>marche
statistique, classique ou bay<61>sienne, est une d<>marche d'inversion
--- il s'agit de remonter des observations aux param<61>tres du DGP.
Un mod<6F>le (la vraisemblance) d<>finit la densit<69> d'un ensemble de
variables conditionnellement <20> des param<61>tres inconnus.
L'observation de l'<27>chantillon donne en retour de l'information
sur les param<61>tres. La notation d<>finie par l'<27>quation
(\ref{equ:bayes:lik}) r<>sume le principe de l'inf<6E>rence~; la
vraisemblance est la densit<69> de l'<27>chantillon $\sample$ sachant
les param<61>tres $\theta$ mais nous <20>crivons habituellement la
vraisemblance comme une fonction des param<61>tres, \textit{ie.}
formellement nous <20>changeons les r<>les de $\sample$ et
$\theta$.}\newline
\par{Nous disposons des densit<69>s $p_0(\theta_{\mathcal M}|\mathcal M)$, qui caract<63>rise
l'information postul<75>e \textit{a priori}, et $p(\sample
|\theta_{\mathcal M},\mathcal M)$, qui caract<63>rise l'information amen<65>e par les donn<6E>es. On croise
ces deux sources d'informations orthogonales, en utilisant le th<74>or<6F>me de
Bayes, pour obtenir la densit<69> de $\theta_M$ sachant les donn<6E>es
$\sample$, \textit{ie} la densit<69> post<73>rieure~:
\begin{equation}\label{equ:bayes:posterior}
p_1\left(\theta_{\mathcal M}|\sample,\mathcal M\right) =
\frac{p_0\left(\theta_{\mathcal M} | \mathcal M\right)
p(\sample|\theta_{\mathcal M},\mathcal M)}{p(\sample | \mathcal M)}
\end{equation}
avec
\begin{equation}\label{equ:bayes:marginaldensity}
p\left(\sample | \mathcal M\right) = \int_{\Theta_{\mathcal M}}
p_0\left(\theta_{\mathcal M} | \mathcal M\right)
p(\sample|\theta_{\mathcal M},\mathcal M)\mathrm d \theta_{\mathcal
M}
\end{equation}
la densit<69> marginale. Ainsi, la densit<69> post<73>rieure est
proportionnelle <20> la densit<69> \textit{a priori} multipli<6C>e par la
vraisemblance~:
\[
\begin{split}
p_1\left(\theta_{\mathcal M}|\sample,\mathcal M\right) & \propto
p_0\left(\theta_{\mathcal M} | \mathcal M\right)
p\left(\sample|\theta_{\mathcal M},\mathcal M\right)\\
& \equiv \mathcal K \left(\theta_{\mathcal M} | \sample,{\mathcal M}
\right)
\end{split}
\]
Puisque le d<>nominateur dans \equaref{equ:bayes:posterior}, la
densit<EFBFBD> marginale, ne d<>pend pas de $\theta_{\mathcal M}$,
l'inf<6E>rence sur les param<61>tres, par exemple l'<27>valuation de
l'esp<73>rance post<73>rieure, peut <20>tre mise en oeuvre <20> l'aide du seul
noyau post<73>rieur, $\mathcal K \left(\theta_{\mathcal M} |
\sample,{\mathcal M} \right)$. On repr<70>sente nos croyances \textit{a
posteriori} en exhibant les propri<72>t<EFBFBD>s de la distribution \textit{a
posteriori}. Nous pouvons repr<70>senter graphiquement la densit<69>
post<EFBFBD>rieure marginale de chaque param<61>tre $\theta$, construire des
intervalles contenant $\alpha \%$ de la distribution post<73>rieure, ou
encore calculer des moments \textit{a posteriori}. Par exemple, la
comparaison des variances \textit{a priori} et \textit{a posteriori}
peut nous renseigner sur l'information apport<72>e par les donn<6E>es,
relativement <20> celle contenue dans nos croyances \textit{a priori}.
Les variances de chaque param<61>tre sont d<>finies <20> partir des
<EFBFBD>l<EFBFBD>ments diagonaux des matrice suivantes~:
\[
\mathbb V_0[\theta] = \int_{\Theta} \theta\theta'p_0(\theta)\mathrm d\theta -
\left(\int_{\Theta} \theta p_0(\theta)\mathrm d\theta\right)\left(\int_{\Theta} \theta p_0(\theta)\mathrm d\theta\right)'
\]
et
\[
\mathbb V_1[\theta] = \int_{\Theta} \theta\theta'p_1(\theta|\sample)\mathrm d\theta -
\left(\int_{\Theta} \theta p_1(\theta|\sample)\mathrm d\theta\right)\left(\int_{\Theta} \theta p_1(\theta|\sample)\mathrm d\theta\right)'
\]
Si la variance post<73>rieure d'un param<61>tre est plus faible que sa
variance \textit{a priori} cela signifie que les donn<6E>es apportent
une information suppl<70>mentaire sur ce param<61>tre, relativement <20>
l'information \textit{a priori}. Dans certains cas, il est possible
d'obtenir analytiquement la densit<69> post<73>rieure et ses
moments\footnote{Une condition n<>cessaire est que nous disposions
d'une expression analytique de la vraisemblance.}~; nous verrons un
exemple dans la section suivante. Plus g<>n<EFBFBD>ralement, il est
n<EFBFBD>cessaire de recourir <20> des algorithmes num<75>riques, pour
caract<EFBFBD>riser la distribution post<73>rieure, \textit{ie} pour <20>valuer
les int<6E>grales n<>cessaires au calcul des moments.}\newline
\par{Pour communiquer nos croyances \textit{a posteriori} on d<>sire souvent recourir <20> un m<>dia plus synth<74>tique en
r<EFBFBD>sumant, <20> l'image de l'approche classique, la distribution post<73>rieure par un point. On parle alors d'estimation
ponctuelle. R<>duire la distribution post<73>rieure <20> un point s'apparente <20> un choix en univers incertain. Il est donc
naturel de construire une estimation ponctuelle en minimisant l'esp<73>rance post<73>rieure d'une fonction de perte~:
\begin{equation}\label{equ:bayes:pointestimate}
\hat{\theta} = \arg\underset{a}{\min}\int_{\Theta} p_1(\theta|\sample,\mathcal M)L(a,\theta)\mathrm d\theta
\end{equation}
o<EFBFBD> $L(a,\theta)$ est une fonction associant une perte au choix $a$ si la vraie valeur du param<61>tre est $\theta$. Si,
par exemple, la fonction de perte est quadratique\footnote{Nous supposons un instant qu'il n'y a qu'un param<61>tre
dans le mod<6F>le.}~:
\[
L(a,\theta) = (a-\theta)^2
\]
alors on montre \cite[page 24]{ZellnerBook} que l'estimation ponctuelle doit <20>tre l'esp<73>rance post<73>rieure de
$\theta$. D'autres fonctions de perte aboutiront <20> d'autres estimations ponctuelles. La m<>diane post<73>rieure
peut <20>tre rationnalis<69>e en consid<69>rant la fonction de perte $L(a,\theta) = |a-\theta|$~; plus g<>n<EFBFBD>ralement on
peut exhiber une fonction de perte pour justifier l'utilisation de chaque quantile de la distribution comme une
estimation ponctuelle.}\newline
\par{Tant que l'inf<6E>rence porte sur les param<61>tres d'un mod<6F>le, nous
pouvons mettre de c<>t<EFBFBD> la constante d'int<6E>gration, $p(\mathcal
Y_T^{\ast}|\mathcal M)$. Cependant, la densit<69> marginale
con\-tient une information pertinente si nous d<>sirons comparer
diff<EFBFBD>rents mod<6F>les. En effet, celle-ci nous renseigne sur la
densit<EFBFBD> de l'<27>chantillon conditionnellement au mod<6F>le.
L'interpr<70>tation de sa d<>finition
(\ref{equ:bayes:marginaldensity}) est directe~: la densit<69>
marginale est une moyenne des vraisemblances, obtenues pour
diff<EFBFBD>rentes valeurs des param<61>tres, pond<6E>r<EFBFBD>es par nos croyances
\textit{a priori} sur les valeurs de ces param<61>tres. Comme cette
quantit<EFBFBD> ne d<>pend pas des param<61>tres, puis\-que nous avons
int<EFBFBD>gr<EFBFBD> le noyau post<73>rieur par rapport aux param<61>tres pour
l'obtenir, elle autorise facilement la comparaison de mod<6F>les non
embo<EFBFBD>t<EFBFBD>s\footnote{La comparaison est moins simple dans le cas de
l'inf<6E>rence classique.}. Par exemple, si nous disposons de deux
mod<EFBFBD>les alternatifs, $\mathcal A$ et $\mathcal B$, pour expliquer
les donn<6E>es et si nous obtenons $p(\mathcal Y_T^{\ast}|\mathcal
A)>p(\mathcal Y_T^{\ast}|\mathcal B)$, alors cela signifie que les
donn<EFBFBD>es <20> notre disposition ont plus probablement <20>t<EFBFBD> g<>n<EFBFBD>r<EFBFBD>es par
le mod<6F>le $\mathcal A$ que par le mod<6F>le $\mathcal B$. Cette
approche ne fournit pas un test formel, pour prendre une d<>cision
il faut sp<73>cifier un crit<69>re de perte\footnote{Se reporter <20>
Zellner \cite[chapitre 10]{ZellnerBook}, en particulier la
premi<EFBFBD>re section pages 292 <20> 298. Le choix d'un mod<6F>le parmi une
collection de mod<6F>les s'apparente <20> l'estimation d'un param<61>tre
dont la distribution est discr<63>te. Il y a donc une analogie entre
le choix d'un mod<6F>le et l'estimation ponctuelle de $\theta$.}.
Ici, nous supposons implicitement que nous n'avons pas de <<
pr<EFBFBD>f<EFBFBD>rence >> \textit{a priori} pour un des deux mod<6F>les. En
toute g<>n<EFBFBD>ralit<69> nous pourrions d<>finir une densit<69> de probabilit<69>
(discr<63>te) \textit{a priori} pour les mod<6F>les $\mathcal I =
\mathcal A,\mathcal B$. Par exemple, nous pourrions supposer que
$p_0(\mathcal A)>p_0(\mathcal B)$ \textit{a priori}. Par le
th<EFBFBD>or<EFBFBD>me de Bayes, nous obtenons la probabilit<69> \textit{a
posteriori} du mod<6F>le $\mathcal I$~:
\[
p_1(\mathcal I|\sample) = \frac{p_0(\mathcal I)p(\sample|\mathcal
I)}{\sum_{\mathcal I} p_0(\mathcal I)p(\sample|\mathcal I)}
\]
L'interpr<70>tation est directe, il s'agit d'une version discr<63>te des
<EFBFBD>quations (\ref{equ:bayes:posterior}) et
(\ref{equ:bayes:predictivedensity}). Si nous devons s<>lectionner
un mod<6F>le, notre pr<70>f<EFBFBD>rence ira au mod<6F>le qui maximise la densit<69>
post<EFBFBD>rieure. L'<27>licitation d'une densit<69> de probabilit<69> \textit{a
priori} sur la collection de mod<6F>les n'est pas une chose ais<69>e~;
on ne peut associer une probabilit<69> <20> un mod<6F>le de la m<>me fa<66>on
que l'on pose une densit<69> \textit{a priori} sur le param<61>tre de
Calvo d'une courbe de Phillips. C'est pourquoi une densit<69> de
probabilit<EFBFBD> uniforme est souvent utilis<69>e dans la litt<74>rature
concern<EFBFBD>e par l'estimation des mod<6F>les DSGE. Pour une revue des
enjeux de la comparaison de mod<6F>les, on peut lire \citet[chapitre
7]{RobertBook} ou \citet{Sims2003}. Enfin, notons que la comparaison de diff<66>rents
mod<EFBFBD>les, par l'interm<72>diaire de leurs densit<69>s marginales, ne doit
pas n<>cessairement aboutir <20> un choix. Dans certaines situations,
il peut <20>tre souhaitable de combiner plusieurs mod<6F>les, en les
pond<EFBFBD>rant par leurs densit<69>s marginales respectives\footnote{Pour
une description des m<>thodes \emph{Bayesian Model Averaging}, voir
\cite{BookKoop03}, chapitre 11.}.}\newline
\par{Apr<EFBFBD>s l'estimation, le mod<6F>le peut <20>tre utilis<69> pour construire des pr<70>visions et des fonctions
de r<>ponse. <20> l'image de l'estimation des param<61>tres, le paradigme bay<61>sien ne fournit pas en premier lieu
des pr<70>visions ponctuelles mais des densit<69>s pr<70>dictives. Supposons que nous souhaitions <20>tablir des
pr<EFBFBD>dictions sur $y_{T+1}^*$, un vecteur d'endog<6F>nes non encore observ<72>es, le but est de construire la
densit<EFBFBD> (pr<70>dictive) de ce vecteur. Cette densit<69> peut <20>tre obtenue en int<6E>grant par rapport <20> $\theta$
la densit<69> post<73>rieure jointe de $y_{T+1}^*$ et $\theta$~:
\[
p\left(y_{T+1}^*|\sample\right) = \int_{\Theta}p\left(y_{T+1}^*,\theta|\sample\right)\mathrm d \theta
\]
o<EFBFBD> la densit<69> sous l'int<6E>grale est d<>finie par~:
\[
p\left(y_{T+1}^*,\theta|\sample\right) = p\left(y_{T+1}^*|\theta,\sample\right)p_1\left(\theta|\sample\right)
\]
par le th<74>or<6F>me de Bayes. La densit<69> jointe de $y_{T+1}^*$ et $\theta$ est le produit de la densit<69>
post<EFBFBD>rieure de $\theta$ et de la densit<69> de $y_{T+1}^*$ conditionnelle <20> $\theta$. Cette derni<6E>re
densit<EFBFBD> est directement obtenue <20> partir de la d<>finition du
mod<EFBFBD>le.\newline Donnons un exemple dans le cas scalaire. Si le
mod<EFBFBD>le est un processus autor<6F>gressif d'ordre un~: $y^*_t = \theta y^*_{t-1} + \varepsilon_t$ avec $t=1,\dots,T$,
$\varepsilon_t \underset{iid}{\sim}\normal{0}{\sigma^2}$ et $\sigma^2$, la variance de l'innovation, connue.
La distribution de $y_{T+1}^*$ conditionnellement <20> $\theta$ et
$\sample$\footnote{Dans le cas du mod<6F>le AR(1) l'information
apport<EFBFBD>e par l'<27>chantillon est r<>sum<75>e par la derni<6E>re observation
$y^*_{T}$.} est gaussienne~: $y_{T+1}|
\sample,\theta\sim\normal{\theta y^*_T}{\sigma^2}$. La densit<69>
pr<EFBFBD>dictive s'<27>crit finalement~:
\begin{equation}\label{equ:bayes:predictivedensity}
p\left(y_{T+1}^*|\sample\right) = \int_{\Theta} p\left(y_{T+1}^*|\theta,\sample\right)
p_1\left(\theta|\sample\right)\mathrm d \theta
\end{equation}
et s'interpr<70>te comme une moyenne des densit<69>s conditionnelles de $y_{T+1}^*$ sachant $\theta$, pond<6E>r<EFBFBD>es par la
densit<EFBFBD> post<73>rieure de $\theta$.\newline <20> partir de cette densit<69> pr<70>dictive, on peut construire une pr<70>diction
ponctuelle des variables en se donnant une fonction de perte, repr<70>senter un intervalle contenant $\alpha\%$ de
la distribution de $y_{T+1}^*$, ou encore repr<70>senter la densit<69> pr<70>dictive (marginale) de chaque variable
composant le vecteur des observables. En confrontant la densit<69> pr<70>dictive aux r<>alisations effectives des
variables, on peut alors <20>valuer dans quelle mesure notre mod<6F>le tend <20> sur-estimer ou sous-estimer, par exemple, le
taux de croissance <20> un trimestre du PIB par t<>te. Cette comparaison peut fournir un crit<69>re d'<27>valuation du mod<6F>le.
Si on se rend compte que les r<>alisations effectives d'une variable se situent syst<73>matiquement dans les queues de la
densit<EFBFBD> pr<70>dictive, alors on peut conclure que le mod<6F>le est mal sp<73>cifi<66> vis-<2D>-vis de cette variable.}
\subsection{Le choix des croyances \textit{a priori}}\label{sec:1:2}
\par{On comprend d<>j<EFBFBD> que le choix des croyances \textit{a priori} est essentiel, dans la mesure o<>
il d<>termine partiellement les r<>sultats (surtout pour un <20>chantillon de taille r<>duite comme
nous le verrons par la suite). La subjectivit<69> de l'<27>conom<6F>tre ne peut
intervenir que dans la premi<6D>re <20>tape d'<27>licitation de l'\textit{a priori}, les <20>tapes (l'<27>valuation
de la vraisemblance,...) suivantes sont automatiques et n<>cessairement
objectives. La question du choix des croyances \textit{a priori} est donc crucial,
d'autant plus qu'il s'agit du point qui engendre le plus de m<>fiance parmi les <20>conomistes, de
formation -- tr<74>s g<>n<EFBFBD>ralement -- classique. Il est donc important de bien comprendre le r<>le de la
densit<EFBFBD> \textit{a priori} dans les r<>sultats, par exemple en menant des exercices de sensibilit<69> aux
croyances \textit{a priori}. Ces exp<78>riences, en donnant une id<69>e du r<>le des priors, d<>voilent implicitement la forme
de la vraisemblance. L'exp<78>rience la plus extr<74>me\footnote{Une exp<78>rience moins extr<74>me serait de consid<69>rer des
densit<EFBFBD>s \textit{a priori} plus g<>n<EFBFBD>rales. Supposons que notre \textit{a priori} sur un
param<EFBFBD>tre $\mu$ soit caract<63>ris<69> par une loi normale centr<74>e en $\mu_0$ et de variance $\sigma_0^2$. Nous pourrions
<EFBFBD>valuer la sensibilit<69> des r<>sultats <20> ce choix en reprenant l'estimation avec une densit<69> \textit{a priori} de student~:
\[
p_0(\mu) \propto \left(\nu s+(x-\mu_0)^2\right)^{-\frac{\nu+1}{2}}
\]
L'esp<73>rance \textit{a priori} serait alors $\mu_0$ mais la variance \textit{a priori} serait $\frac{\nu}{\nu-2}s$
(pour $\nu$ strictement sup<75>rieur <20> 2). En faisant varier le nombre de degr<67> de libert<72> $\nu$ on s'<27>carte ou se
rapproche du prior gaussien.} est de consid<69>rer un \textit{a priori} non informatif, c'est-<2D>-dire
le cas o<> nous n'avons aucune croyance \textit{a priori} sur la
param<EFBFBD>trisation du mod<6F>le. De fa<66>on assez surprenante,
les statisticiens bay<61>siens ne parviennent pas <20> s'accorder sur une chose aussi essentielle
que la caract<63>risation du non savoir.}\newline
\par{Dans la section \ref{sec:1:1} nous avons examin<69> le cas d'un \textit{a priori} informatif sur le param<61>tre
de Calvo d<>finissant le degr<67> de rigidit<69> de l'inflation. Dans ce cas notre connaissance \textit{a priori}
provient de l'observation de donn<6E>es micro<72>conomiques, diff<66>rentes de celles utilis<69>es pour l'estimation
du mod<6F>le. Lorsque l'information \textit{a priori} est bas<61>e sur des donn<6E>es, celles-ci doivent <20>tre diff<66>rentes
des donn<6E>es utilis<69>es pour identifier le mod<6F>le. Dans le cas contraire la d<>marcation entre vraisemblance et densit<69>
\textit{a priori} devient plus ambigu<67>, ce qui para<72>t inacceptable pour de nombreux statisticiens. Notons n<>anmoins que
de non moins nombreux statisticiens utilisent l'<27>chantillon pour d<>finir les croyances \textit{a priori}. Par exemple
quand il s'agit de sp<73>cifier la densit<69> \textit{a priori} de fa<66>on <20> optimiser les capacit<69>s pr<70>dictives d'un
mod<EFBFBD>le (voir plus loin la section \ref{sec:1:4:pratique}). Les croyances \textit{a priori} peuvent aussi <20>tre bas<61>es
sur des consid<69>rations purement th<74>oriques (voir la section \ref{sec:bvardsge}). Dans la litt<74>rature concern<72>e par
l'estimation des mod<6F>les DSGE (et aussi des VAR), les croyances \textit{a priori}, ind<6E>pendamment de l'origine de ces
croyances, sont g<>n<EFBFBD>ralement repr<70>sent<6E>es par des densit<69> param<61>tr<74>es (distribution gaussienne, gamma,...). Dans
certains cas, on parle alors d'\textit{a priori} conjugu<67>s, elles sont choisies de fa<66>on que la densit<69>
\textit{a posteriori} soit de la m<>me famille param<61>trique (voir l'exemple du mod<6F>le VAR plus loin). La motivation est
essentiellement technique, l'utilisation de formulations conjugu<67>es ou plus g<>n<EFBFBD>ralement param<61>tr<74>es des
\textit{a priori} est un h<>ritage du pass<73>. Aujourd'hui, la technologie ne nous emp<6D>che pas d'adopter une formulation
non param<61>trique plus g<>n<EFBFBD>rale. Par exemple nous pourrions caract<63>riser nos croyances \textit{a priori} sur chaque
param<EFBFBD>tre en sp<73>cifiant les quantiles de chaque distribution. Il est vrai que nos croyances sont rarement aussi
pr<EFBFBD>cises.}\newline
\par{Dans certaines situations nos connaissances \textit{a priori} sont faibles ou nous d<>sirons faire comme si c'<27>tait
le cas (par exemple pour <20>valuer la sensibilit<69> des r<>sultats aux \textit{a priori}). Malheureusement la caract<63>risation
de l'ignorance est toujours sujet <20> d<>bat. Un exemple frappant est donn<6E> par \citet{SimsUhlig91} puis
\citet{PhillipsJAE91a}, \citet{PhillipsJAE91b} et \citet{SimsJAE91}, qui d<>batent de la caract<63>risation de
l'ignorance dans un mod<6F>le autor<6F>gressif d'ordre un et des
cons<EFBFBD>quences sur la d<>tection de racines unitaires.\newline Une premi<6D>re approche est de consid<69>rer un prior plat. Pour
un param<61>tre $\mu$ qui peut prendre des valeurs entre $-\infty$ et $\infty$, \citet{JeffreyBook61} propose d'adopter une
distribution uniforme entre $-\infty$ et $\infty$~:
\[
p_0(\mu) \propto \mathrm 1
\]
<EFBFBD>videmment cette densit<69> est impropre dans le sens o<> $\int p_0(\mu)\mathrm d\mu$ est ind<6E>fini.
Mais c'est pr<70>cis<69>ment cette propri<72>t<EFBFBD> qui, pour \citeauthor{JeffreyBook61}, rend ce prior non informatif.
En effet, pour tout $a<b<c<d$ on ne peut pas dire que $\mu \in [a,b]$ soit \textit{a priori} plus probable que
$\mu \in [c,d]$, puisque les probabilit<69>s de ces <20>v<EFBFBD>nements sont nulles. Pour un param<61>tre $\sigma$, par exemple
un <20>cart-type, qui peut prendre des valeurs entre 0 et $\infty$, \citeauthor{JeffreyBook61} propose d'adopter
une distribution uniforme pour le logarithme de $\sigma$ entre $-\infty$ et $\infty$~:
\[
\begin{split}
p_0(\log \sigma) &\propto 1\\
\Leftrightarrow p_0(\sigma) &\propto \frac{1}{\sigma}
\end{split}
\]
Comme dans le cas pr<70>c<EFBFBD>dent l'int<6E>grale de cette densit<69> est
impropre. En particulier, on ne peut d<>finir $\int_0^c
p_0(\sigma)\mathrm d \sigma$ et $\int_c^{\infty} p_0(\sigma)\mathrm
d \sigma$, nous ne pouvons dire s'il est plus probable que $\sigma$
soit sup<75>rieur ou inf<6E>rieur <20> $c$\footnote{Cette propri<72>t<EFBFBD> est
indispensable pour repr<70>senter l'ignorance. Dans la litt<74>rature
DSGE, la distribution inverse-gamma avec un moment d'ordre deux
infini est souvent utilis<69>e pour repr<70>senter le peu d'information
dont nous disposons sur la variance des chocs structurels (voir par
exemple \citet{SmetsWouters2004}). Cette distribution est
informative dans le sens o<>, m<>me si le moment d'ordre deux n'est
pas d<>fini, il est possible de comparer les probabilit<69>s qu'une
variance soit sup<75>rieure ou inf<6E>rieure <20> $c>0$.}. On note en passant
que cette densit<69> a l'heureuse propri<72>t<EFBFBD> d'<27>tre invariante <20> une
transformation puissance\footnote{Si le logarithme de $\sigma$ est
uniform<EFBFBD>ment distribu<62> sur $]-\infty,\infty[$ alors le logarithme de
$\sigma^a$ (avec $a>0$) est aussi uniform<72>ment distribu<62> sur
$]-\infty,\infty[$ car $\log \sigma^a = a\log\sigma$.}, si le prior
est non informatif sur l'<27>cart type, il en va de m<>me pour la
variance ($\sigma^2$).\newline Plus tard, Jeffrey g<>n<EFBFBD>ralisa ce
r<EFBFBD>sultat d'invariance et proposa un prior non informatif (le plus
souvent impropre) plus g<>n<EFBFBD>ral bas<61> sur la matrice d'information de
Fisher~:
\[
p_0(\theta) \propto |I(\theta)|^{\frac{1}{2}}
\]
avec
\[
I(\theta) = \mathbb E \left[\left(\frac{\partial p(\sample|\theta)}{\partial \theta}\right)
\left(\frac{\partial p(\sample|\theta)}{\partial \theta}\right)'\right]
\]
La matrice d'information de Fisher quantifie l'information amen<65>e par le mod<6F>le et les donn<6E>es sur
le param<61>tre $\theta$. En favorisant les valeurs de $\theta$ pour lesquelles l'information de Fisher
est plus grande, on diminue l'influence de la loi \textit{a priori} puisque l'information v<>hicul<75>e
par celle-ci est peu diff<66>rente de l'information provenant de la vraisemblance. La d<>finition de la densit<69> \textit{a
priori} est donc li<6C>e <20> la courbure de la vraisemblance. Cette densit<69> \textit{a priori} est invariante <20> toute
reparam<EFBFBD>trisation (continue) du mod<6F>le (voir \citet[annexe du chapitre 2]{ZellnerBook} pour une description plus
d<EFBFBD>taill<EFBFBD>e des propri<72>t<EFBFBD>s d'invariance).}\newline
\par{L'utilisation d'un prior plat ou d'un prior d<>riv<69> de la matrice
d'information de Fisher pour caract<63>riser l'absence d'information affecte g<>n<EFBFBD>ralement l'inf<6E>rence. Par exemple, dans
un mod<6F>le AR(1), voir \citet{PhillipsJAE91a}, un prior bas<61> sur l'information de Fisher n'est pas <20>quivalent <20>
un prior uniforme (plat). En effet, dans un mod<6F>le dynamique, la quantit<69> d'information v<>hicul<75>e par les donn<6E>es
(\textit{ie} la vraisemblance) d<>pend de la valeur du param<61>tre autor<6F>gressif ($\rho$). Si le param<61>tre est proche de
l'unit<69>, voire <20>gal ou sup<75>rieur <20> un, les donn<6E>es sont plus informatives. Ainsi, pour \citeauthor{PhillipsJAE91a},
l'utilisation d'un prior plat, <20> l'instar de \citet{ZellnerBook} ou \citet{SimsUhlig91}, biaise la distribution
post<EFBFBD>rieure de $\rho$ en faveur de la stationnarit<69>. En donnant autant de poids aux valeurs explosives de $\rho$
qu'aux valeurs stationnaires, le prior plat ne prend pas en compte le fait que des donn<6E>es g<>n<EFBFBD>r<EFBFBD>es par un mod<6F>le
<EFBFBD> racine unitaire ou explosif sont plus informatives. Il existe d'autres approches pour caract<63>riser l'ignorance, on
peut lire le chapitre 3 de \citet{RobertBook} et plus sp<73>cialement la section 5.}\newline
\par{Le choix d'une densit<69> \textit{a priori} et ses cons<6E>quences sur l'inf<6E>rence sont l'objet de toutes les
critiques de la part des statisticiens ou <20>conomistes classiques. Il ne faudrait pourtant pas oublier que
le paradigme classique n'est pas plus exempt de choix aux cons<6E>quences non n<>gligeables sur l'inf<6E>rence. Par exemple,
le choix d'une m<>trique (minimiser la somme des carr<72>s des r<>sidus ou la somme des valeurs absolues des r<>sidus), le
choix des variables instrumentales, mod<6F>les auxiliaires ou des conditions de moments, sont rarement discut<75>s m<>me s'ils
d<EFBFBD>terminent les r<>sultats. Dans une certaine mesure, nous n'avons m<>me plus conscience des choix effectu<74>s. L'approche
bay<EFBFBD>sienne est de ce point de vu bien plus transparente.}\newline
\subsection{Comportement asymptotique et approximations} \label{sec:1:3}
\par{M<EFBFBD>me si l'approche bay<61>sienne ne repose pas sur des arguments asymptotiques, comme g<>n<EFBFBD>ralement
l'approche classique, il est utile de s'interroger sur le comportement asymptotique de ses estimateurs.
Le r<>sultat rassurant est que si les conditions de normalit<69> asymptotique de l'estimateur du maximum de
vraisemblance sont r<>unies\footnote{Se reporter <20> \citet[chapitre 7]{GourierouxMonfortStatBook1}.}, alors
la distribution post<73>rieure tend vers une gaussienne multivari<72>e. Asymptotiquement, la distribution
post<EFBFBD>rieure est centr<74>e sur l'estimateur du maximum de vraisemblance. Ce r<>sultat, avanc<6E> par Laplace,
est intuitif puisque lorsque la taille de l'<27>chantillon tend vers l'infini, le poids de l'information \textit{a priori}
relativement <20> l'information contenue dans l'<27>chantillon devient marginal.}\newline
\par{Plus formellement, si on note $\theta^*$ l'unique mode de la distribution post<73>rieure obtenu en maximisant
le noyau post<73>rieur $\mathcal{K}(\theta) \equiv \mathcal K \left(\theta_{\mathcal A} | \sample,{\mathcal A}
\right)$, et s'il est possible d'<27>crire une approximation de Taylor <20> l'ordre deux du noyau post<73>rieur autour
de $\theta^*$, alors nous avons~:
\[
\begin{split}
\log \mathcal{K}(\theta) = \log \mathcal{K}(\theta^*)
&+ (\theta-\theta^*)'\left.\frac{\partial \log \mathcal{K}(\theta) }{\partial \theta}\right|_{\theta = \theta^*}\\
&+ \frac{1}{2}(\theta-\theta^*)'\left.\frac{\partial^2 \log \mathcal{K}(\theta) }
{\partial \theta\partial \theta'}\right|_{\theta = \theta^*}(\theta-\theta^*) + \mathcal O (||\theta-\theta^*||^3)
\end{split}
\]
Puisque les d<>riv<69>es premi<6D>res sont, par d<>finition, nulles en $\theta^*$, nous avons de fa<66>on <20>quivalente~:
\[
\log \mathcal{K}(\theta) = \log \mathcal{K}(\theta^*)
- \frac{1}{2}(\theta-\theta^*)'[\mathcal H(\theta^*)]^{-1}(\theta-\theta^*) + \mathcal O (||\theta-\theta^*||^3)
\]
o<EFBFBD> $\mathcal H(\theta^*)$ est l'oppos<6F> de l'inverse de la matrice hessienne <20>valu<6C>e au mode. Ainsi, en ne consid<69>rant
que le terme quadratique, le noyau post<73>rieur peut <20>tre approxim<69> par~:
\[
\mathcal{K}(\theta)\ \dot{=}\ \mathcal{K}(\theta^*)e^{-\frac{1}{2}(\theta-\theta^*)'[\mathcal H(\theta^*)]^{-1}(\theta-\theta^*)}
\]
on reconna<6E>t, <20> une constante d'int<6E>gration pr<70>s\footnote{Notons $c$ cette constante d'int<6E>gration, c'est-<2D>-dire la
constante telle que $\int c^{-1}\mathcal K (\theta)\mathrm d \theta = 1$. Cette constante (voir les <20>quations
(\ref{equ:bayes:posterior}) et (\ref{equ:bayes:marginaldensity})) est une approximation de la densit<69> marginale,
$p(\sample)$. Par d<>finition de la densit<69> d'une loi normale, on a~:
\[
c = \mathcal{K}(\theta^*)(2\pi)^{\frac{q}{2}}
|\mathcal H(\theta^*)|^{\frac{1}{2}}
\]
On dit que $c$ est l'approximation de Laplace de la densit<69> marginale.
L'erreur d'approximation est d'ordre $\mathcal O (T^{-1})$.} la densit<69> d'une loi normale multivari<72>e. En compl<70>tant pour la
constante d'int<6E>gration, nous obtenons finalement une approximation de la densit<69> post<73>rieure $p_1(\theta)\equiv p_1\left(\theta_{\mathcal A}|\sample,\mathcal A\right)$~:
\begin{equation}
p_1\left(\theta\right)\ \dot{=}\ (2\pi)^{-\frac{q}{2}}|\mathcal H(\theta^*)|^{-\frac{1}{2}}
e^{-\frac{1}{2}(\theta-\theta^*)'[\mathcal H(\theta^*)]^{-1}(\theta-\theta^*)}
\end{equation}
G<EFBFBD>n<EFBFBD>ralement, la matrice hessienne est d'ordre $\mathcal O(T)$,
lorsque la taille de l'<27>chantillon augmente la distribution
post<EFBFBD>rieure se concentre autour du mode. \`{A} partir de cette
approximation asymptotique on peut alors tr<74>s facilement calculer,
par exemple, des moments post<73>rieurs ou approximer les densit<69>s
pr<EFBFBD>dictives. Par exemple, l'esp<73>rance post<73>rieure de $\varphi
(\theta)$ est d<>finie par~:
\[
\mathbb E\left[\varphi (\theta)\right] = \frac{\int_{\Theta}\varphi(\theta)p(\sample|\theta)p_0(\theta)\mathrm d\theta}
{\int_{\Theta}p(\sample|\theta)p_0(\theta)\mathrm d\theta}
\]
\citet{TierneyKadane1986} montrent que si l'on approxime <20> l'ordre
deux le num<75>rateur autour du mode de
$\varphi(\theta)p(\sample|\theta)p_0(\theta)$ et le d<>nominateur
autour du mode de $p(\sample|\theta)p_0(\theta)$, alors l'erreur
d'approximation de l'esp<73>rance est d'ordre $\mathcal O (T^{-2})$.
Les erreurs d'approximation du num<75>rateur et du d<>nominateur, qui
sont d'ordre $\mathcal O(T^{-1})$, se compensent favorablement.
L'approche de \citeauthor{TierneyKadane1986} ne va pas sans poser certains probl<62>mes.
Si on cherche <20> calculer $\mathbb E\left[\varphi (\theta)\right]$ pour diff<66>rentes
fonctions $\varphi$, alors il est n<>cessaire de recourir <20> une nouvelle maximisation pour
chaque param<61>tre et chaque fonction $\varphi$. Par exemple, si on
d<EFBFBD>sire calculer les esp<73>rances et <20>cart-types \emph{a posteriori}
pour chacun des $k$ param<61>tres, il faut recourir <20> $2k+1$ maximisations, auxquelles il faut rajouter le calcul des
matrices hessiennes. Il est alors <20>vident que si $k$ est <20>lev<65>, une
telle approximation peut devenir co<63>teuse en temps de calculs.
\cite{TierneyKassKadane89} propose diff<66>rentes m<>thodes pour
pallier cette difficult<6C>\footnote{Pour plus de d<>tails, voir
\cite{CarlinLouis00}, \cite{Poirier95}, et
\cite{TierneyKadane1986}.}. Notons n<>anmoins qu'une approche bas<61>e sur des simulations
(voir la section \ref{sec:dsge}) devient aussi plus co<63>teuse lorsque le nombre de param<61>tres
augmente.}
\subsection{Un mod<6F>le lin<69>aire : le mod<6F>le VAR}\label{sec:1:4}
\par{Dans cette section, nous consid<69>rons un exemple o<> les r<>sultats
peuvent <20>tre obtenus analytiquement. Le mod<6F>le VAR gaussien se
pr<EFBFBD>te, comme tout mod<6F>le lin<69>aire gaussien, <20> cet exercice et a l'avantage d'<27>tre un outil
couramment utilis<69> en macro<72>conomie (voir par exemple la contribution de
Fabrice Collard et Patrick F<>ve dans ce num<75>ro).}\newline
\par{Nous consid<69>rons un mod<6F>le VAR($p$) pour caract<63>riser le vecteur $1
\times m$ de variables endog<6F>nes $y^*_t$ observ<72>es~:
\[
y^*_t = \sum_{i=1}^p y^*_{t-i} \mathbf{A}_i + \varepsilon_t
\]
o<EFBFBD> $\{\mathbf{A}_i\}$ est une suite de matrice $m\times m$ et
$\varepsilon_t$ est un bruit blanc gaussien, de dimension $1\times
m$ d'esp<73>rance nulle et de variance
$\mathbb{V}\left[\varepsilon_t\right]=\Sigma$. Nous pourrions
compl<EFBFBD>ter le mod<6F>le avec des variables exog<6F>nes, une constante par
exemple, mais nous allons <20> l'essentiel en omettant cette
possibilit<EFBFBD>.}\newline
\par{On note $\sample \equiv \{y^*_t\}_{t=-p+1}^T$ les donn<6E>es <20> notre
disposition et on note $z_t$ la concat<61>nation horizontale des
vecteurs lignes $y^*_{t-1}$, $y^*_{t-2}$, ..., $y^*_{t-p}$. En concat<61>nant
verticalement les vecteurs lignes $y^*_t$, $z_t$ et $\varepsilon_t$,
pour $t=1,\dots,T$, on obtient la repr<70>sentation matricielle
suivante du mod<6F>le VAR($p$)~:
\[
Y = Z \mathcal{A} + E
\]
o<EFBFBD> $Y$ et $E$ sont des matrices $T\times m$, $Z$ est une matrice
$T\times(mp)$ et $\mathcal A = \left(\mathbf{A}_1',\mathbf{A}_2',\dots,\mathbf{A}_p'\right)'$
%\[
%\mathcal{A} = \left(%
%\begin{array}{c}
% \mathbf{A}_1 \\ \mathbf{A}_2 \\ \vdots \\ \mathbf{A}_p \\
%\end{array}%
%\right)
%\]
la matrice $k\times m$ (avec $k = mp$) regroupant les coefficients
auto-r<>gressifs. La vraisemblance associ<63>e <20> ce mod<6F>le
lin<EFBFBD>aire gaussien est donn<6E>e par~:
\[
\begin{split}
\mathcal L(\mathcal{A},\Sigma;\sample) =
&(2\pi)^{-\frac{mT}{2}}\left|\Sigma \right|^{-\frac{T}{2}}\\
&\times
e^{-\frac{1}{2}\trace\{(Y-Z\mathcal{A})\Sigma^{-1}(Y-Z\mathcal{A})'\}}
\end{split}
\]
L'estimateur du maximum de vraisemblance (MCO) est d<>fini par~:
\[
\widehat{\mathcal{A}} = (Z'Z)^{-1}Z'Y
\]
et
\[
\widehat{\Sigma} =
T^{-1}(Y-Z\widehat{\mathcal{A}})'(Y-Z\widehat{\mathcal{A}})
\]
Nous verrons plus loin qu'il est profitable de r<><72>crire la
vraisemblance en faisant appara<72>tre l'estimateur des MCO~:
\[
\begin{split}
\mathcal L(\mathcal{A},\Sigma;\sample) &=
(2\pi)^{-\frac{mT}{2}}\\\times &\left|\Sigma \right|^{-\frac{k}{2}}
e^{-\frac{1}{2}\trace
\left\{\Sigma^{-1}(\mathcal{A}-\widehat{\mathcal{A}})'Z'Z(\mathcal{A}-\widehat{\mathcal{A}})\right\}}\\
\times &\left|\Sigma \right|^{-\frac{T-k}{2}} e^{-\frac{1}{2}\trace
\left\{\Sigma^{-1}(Y-Z\widehat{\mathcal{A}})'(Y-Z\widehat{\mathcal{A}})\right\}}.\\
\end{split}
\]
Aux constantes d'int<6E>gration pr<70>s on reconna<6E>t ici les fonctions de
densit<EFBFBD> de probabilit<69> d'une gaussienne matricielle et d'une inverse
Wishart (voir l'annexe \ref{annex:A}). La vraisemblance se r<><72>crit
donc sous la forme suivante~:
\[
\begin{split}
\mathcal L(\mathcal{A},\Sigma;\sample) =
&(2\pi)^{-\frac{mT}{2}}\times
(2\pi)^{\frac{km}{2}}\left|Z'Z\right|^{-\frac{m}{2}}\\
&\times f_{MN_{k,m}}(\mathcal{A};\widehat{\mathcal{A}},(Z'Z)^{-1},\Sigma)\\
&\times \frac{2^{\frac{\nu m}{2}}\pi^{\frac{m(m-1)}{4}}\prod_{i=1}^m
\Gamma
\left(\frac{\nu+1-i}{2}\right)}{|\widehat{S}|^{\frac{\nu}{2}}}\\&\times
f_{i\mathcal{W}_{m}}(\Sigma;\widehat{S},\nu)
\end{split}
\]
avec $\nu = T-k-m-1$ les degr<67>s de libert<72> et $\widehat{S} =
T\widehat{\Sigma}$. Cette <20>criture nous apprend que la vraisemblance
du VAR($p$) est proportionnelle au produit de la densit<69> d'une
normale matricielle et d'une loi inverse Wishart~:
\begin{equation}\label{equ:var:likprop}
\begin{split}
\mathcal L(\mathcal{A},\Sigma;\sample) &\propto
f_{MN_{k,m}}(\mathcal{A};\widehat{\mathcal{A}},(Z'Z)^{-1},\Sigma)\\
\times &
f_{i\mathcal{W}_{m}}(\Sigma;\widehat{S},\nu)
\end{split}
\end{equation}
Cette propri<72>t<EFBFBD> va nous aider <20> poser une forme de la densit<69>
\textit{a priori} telle que nous puissions obtenir une expression analytique
de la densit<69> post<73>rieure.}
\subsubsection{A priori non informatif}\label{sec:1:4:noninf}
\par{ Dans cette section nous supposons
que nos croyances sont non informatives en adoptant un \textit{a priori} plat <20> la Jeffrey~:
\begin{equation}\label{equ:var:jeffrey}
p_0\left(\mathcal A,\Sigma\right) = \left|\Sigma\right|^{-\frac{m+1}{2}}
\end{equation}
On note que dans le cas scalaire, $m=1$, on retrouve le prior sugg<67>r<EFBFBD> par Jeffrey ($1/\sigma^2$) d<>crit plus haut.
La densit<69> \textit{a posteriori} satisfait donc~:
\[
p\left(\mathcal{A},\Sigma|\sample\right) \propto \left|\Sigma\right|^{-\frac{m+1}{2}}
\times\mathcal L(\mathcal{A},\Sigma;\sample)
\]
La densit<69> jointe post<73>rieure est donc proportionnelle au produit
d'une loi normale multivari<72>e et d'une loi inverse Wishart~:
\begin{equation}\label{equ:var:jeffrey:post1}
\begin{split}
p(\mathcal{A},\Sigma;\sample) &\propto
f_{MN_{k,m}}(\mathcal{A};\widehat{\mathcal{A}},(Z'Z)^{-1},\Sigma)\\
\times &
f_{i\mathcal{W}_{m}}(\Sigma;\widehat{S},\tilde{\nu})
\end{split}
\end{equation}
avec $\tilde{\nu} = T-k$. Ainsi, la densit<69> post<73>rieure s'<27>crit sous
la forme suivante~:
\begin{equation}\label{equ:var:jeffrey:post2}
\begin{split}
\mathcal{A}|\Sigma,\sample &\sim MN_{k,m}\left(\widehat{\mathcal{A}},\Sigma,(Z'Z)^{-1}\right)\\
\Sigma|\sample &\sim i\mathcal{W}_m\left(\widehat{S},\tilde{\nu}\right)
\end{split}
\end{equation}
Il n'est pas surprenant de constater que la distribution post<73>rieure de $\mathcal A$ (conditionnelle
<EFBFBD> la matrice de variance covariance) est centr<74>e sur l'estimateur du maximum de vraisemblance, puisque notre
\textit{a priori} est non informatif. Nous pourrions montrer, en int<6E>grant par rapport <20> $\Sigma$, que la
distribution post<73>rieure (marginale) de $\mathcal A$ est une version matricielle de la loi de Student
(voir \cite[chapitre 8]{ZellnerBook}). L'\textit{a priori} de Jeffrey n'affecte que le nombre de degr<67> de
libert<EFBFBD> de la distribution post<73>rieure de $\mathcal A$. On obtient la densit<69> marginale post<73>rieure de $\sample$
en int<6E>grant le noyau post<73>rieur successivement par rapport <20> $\Sigma$ et $\mathcal{A}$~:
\begin{equation}\label{equ:var:jeffrey:marginaldensity}
\begin{split}
p\left(\sample\right) =
&(2\pi)^{-\frac{mT}{2}}\times
(2\pi)^{\frac{km}{2}}\left|Z'Z\right|^{-\frac{m}{2}}|\widehat{S}|^{-\frac{\tilde{\nu}}{2}}\\
&\times 2^{\frac{\tilde{\nu} m}{2}}\pi^{\frac{m(m-1)}{4}}\prod_{i=1}^m
\Gamma
\left(\frac{\tilde{\nu}+1-i}{2}\right).\\
\end{split}
\end{equation}
Cette quantit<69> nous renseigne sur la qualit<69> d'ajustement du mod<6F>le
VAR($p$). On note que la densit<69> marginale de $\sample$ est une
fonction d<>croissante de la taille des erreurs ($|\hat{S}|$). Dans
cet exemple, nous pouvons caract<63>riser la distribution post<73>rieure
analytiquement. Notons n<>anmoins que m<>me si nous connaissons
l'expression analytique de la distribution de $\mathcal A$ et
$\Sigma$, la construction des densit<69>s pr<70>dictives n<>cessite une
approche par simulations\footnote{Se reporter, par exemple, <20>
\cite{KadiyalaKarlsson1997} qui comparent diff<66>rentes sp<73>cifications
des croyances \textit{a priori} et <20>tudient les cons<6E>quences sur les
pr<EFBFBD>visions.}, puisque les pr<70>visions sont des fonctions non
lin<EFBFBD>aires des matrices auto-r<>gressives (dont nous connaissons la
distribution post<73>rieure). L'int<6E>r<EFBFBD>t pratique de l'approche
bay<EFBFBD>sienne peut para<72>tre faible dans ce cas, dans la mesure o<>
l'esp<73>rance post<73>rieure n'est pas diff<66>rente de l'estimateur du
maximum de vraisemblance.}
\subsubsection{Un exemple d'a priori informatif}\label{sec:1:4:inf}
\par{Nous consid<69>rons maintenant un prior plus informatif qui va <20>carter l'esp<73>rance
de la distribution \textit{a posteriori} de l'estimateur du maximum de vraisemblance~;
dans un mod<6F>le lin<69>aire gaussien, l'esp<73>rance \textit{a posteriori} est une combinaison convexe de l'estimateur
du maximum de vraisemblance et de l'esp<73>rance \textit{a priori}. Afin d'aller <20> l'essentiel\footnote{Nous
pourrions choisir un prior conjugu<67>, c'est-<2D>-dire une densit<69> \textit{a priori} qui confront<6E>e aux donn<6E>es
via la vraisemblance induit une densit<69> post<73>rieure de la m<>me forme. Les propri<72>t<EFBFBD>s des densit<69>s gaussienne
et Wishart, ainsi que l'<27>quation
\equaref{equ:var:likprop}, sugg<67>rent la densit<69> jointe \textit{a priori} conjugu<67>e suivante~:
\[
\left\{%
\begin{array}{ll}
\mathcal{A}|\Sigma &\sim MN_{k,m}\left(\mathcal{A}_0,\Sigma,M_0^{-1}\right)\\
\Sigma &\sim i\mathcal{W}_m\left(S_0,\nu_0\right)\\
\end{array}
\right.
\]
o<EFBFBD> $A_0$ est une matrice r<>elle de m<>me dimension que $\mathcal A$, $\Sigma$ et $M_0$ sont des matrices sym<79>triques
d<EFBFBD>finies postives respectivement de dimensions $m \times m$ et $p\times p$, $S_0$ est une matrice sym<79>trique d<>finie
positive. On montre alors facilement que la densit<69> post<73>rieure est encore Normale-Wishart. Ce r<>sultat est direct si
on couple le prior non informatif de la section \ref{sec:1:4:noninf} et un pr<70>-<2D>chantillon pour former le prior normal
Wishart, voir \cite{TiaoZellner1964a} et la section \ref{sec:bvardsge:theil}.}, nous adoptons une
densit<EFBFBD> \textit{a priori} d<>g<EFBFBD>n<EFBFBD>r<EFBFBD>e
pour la matrice de variance-covariance des erreurs, en supposant que la matrice $\Sigma$ est connue
(on posera $\Sigma = \widehat{\Sigma}$). Enfin nous sp<73>cifions le prior sur $\mathcal A$ de la fa<66>on suivante~:
\begin{equation}\label{equ:var:gaussian:prior}
p_0(\VEC\ \mathcal A) \sim \normal{a_0}{\Omega_0}
\end{equation}
o<EFBFBD> $\Omega_0$ est une matrice sym<79>trique d<>finie positive de dimension $mp \times mp$. En multipliant la
vraisemblance par (\ref{equ:var:gaussian:prior}), on <20>tablit facilement que le noyau post<73>rieur est~:
\begin{subequations}\label{equ:var:gaussian:posterior}
\begin{equation}\label{equ:var:gaussian:posterior:kernel}
\begin{split}
\mathcal K (\mathcal A|\sample) &= \exp\left\{ -\frac{1}{2}(a-a_1)'\Omega_1^{-1}(a-a_1)\right\}\\
&\times \exp\left\{ -\frac{1}{2}\left[a_0'\Omega_0^{-1}a_0 + \widehat{a}' \left(\Sigma^{-1}\otimes Z'Z\right) \widehat{a}
-a_1'\Omega_1^{-1}a_1 \right]\right\}\\
&\times(2\pi)^{-\frac{km}{2}}|\Omega_0|^{-\frac{1}{2}}(2\pi)^{-\frac{mT}{2}}|\Sigma|^{-\frac{T}{2}}e^{-\frac{1}{2}\trace \Sigma^{-1}\widehat{S}}
\end{split}
%\begin{split}
%\mathcal K\left(\mathcal A\right|\sample ) = (2\pi)^{-\frac{T+k}{2}m}\left|\Omega_0\right|^{-\frac{1}{2}}
%\left|\Sigma\right|^{-\frac{T}{2}}&\times e^{-\frac{1}{2}\trace\ \left\{\Sigma^{-1}\widehat{S}\right\}}\\
%&\times e^{-\frac{1}{2}(\VEC\ \mathcal A - a_1)'\Omega_1^{-1}(\VEC\ \mathcal A - a_1)}
%\end{split}
\end{equation}
\begin{equation}\label{equ:var:gaussian:posterior:variance}
\Omega_1 = \left(\Omega_0^{-1} + \Sigma^{-1} \otimes Z'Z\right)^{-1}
\end{equation}
\begin{equation}\label{equ:var:gaussian:posterior:expectation}
a_1 = \Omega_1 \left[\Omega_0^{-1}a_0 + \left(\Sigma^{-1} \otimes Z'Z\right) \VEC \widehat{\mathcal A}\right]
\end{equation}
\end{subequations}
La distribution post<73>rieure de $\mathcal A$ est donc gaussienne
$\normal{a_1}{\Omega_1}$, son interpr<70>tation est imm<6D>diate.
L'inverse de la variance post<73>rieure ($\Omega_1^{-1}$, que l'on peut
interpr<EFBFBD>ter comme une quantification de l'information \textit{a
posteriori}) est <20>gale <20> la somme de l'inverse de la variance
\textit{a priori} ($\Omega_0^{-1}$, l'information \textit{a priori})
et de l'inverse de la variance de l'estimateur du maximum de
vraisemblance de $\mathcal A$ ($\Sigma^{-1} \otimes Z'Z$,
l'information apport<72>e par les donn<6E>es). \textit{Ceteris paribus},
quand l'information \textit{a priori} est importante, la matrice de
variance-covariance $\Omega_0$ est petite, la variance \textit{a
posteriori} est faible. L'esp<73>rance post<73>rieure est une combinaison
lin<EFBFBD>aire convexe de l'esp<73>rance \textit{a priori}, $a_0$, et de
l'estimateur du maximum de vraisemblance, $\VEC\ \widehat{\mathcal
A}$. Les pond<6E>rations respectives sont d<>finies par le contenu
informatif des croyances \textit{a priori} et de l'<27>chantillon.
Lorsque l'information \textit{a priori} tend vers l'infini,
\textit{ie} $\Omega_0 \rightarrow 0$, l'esp<73>rance post<73>rieure tend
vers l'esp<73>rance \textit{a priori}. Lorsque l'information amen<65>e par
les donn<6E>es tend vers l'infini, \textit{ie} $\Sigma^{-1}\otimes Z'Z
\rightarrow 0$, l'esp<73>rance \textit{a posteriori} tend vers
l'estimateur du maximum de vraisemblance. On peut donc interpr<70>ter
le paradigme bay<61>sien comme un pont entre la calibration et
l'estimation par le maximum de vraisemblance. En notant que $Z'Z$
est g<>n<EFBFBD>ralement, si le mod<6F>le est stationnaire\footnote{La pr<70>sence
d'une racine unitaire ne ferait qu'accro<72>tre l'ordre de divergence,
ce qui ne change pas qualitativement la conclusion.}, d'ordre
$\mathcal O(T)$, on retrouve un r<>sultat conforme aux consid<69>rations
asymptotiques introduites dans la section \ref{sec:1:3}~:
l'esp<73>rance post<73>rieure tend vers l'estimateur du maximum de
vraisemblance lorsque $T$ tend vers l'infini.}\newline
\par{\`A nouveau, en int<6E>grant le noyau post<73>rieur ~(\ref{equ:var:gaussian:posterior}) par rapport aux param<61>tres
auto-r<>gressifs, on obtient une expression analytique de la densit<69> marginale post<73>rieure~:
\begin{equation}\label{equ:var:gaussian:posterior:marginaldensity}
\begin{split}
p(\sample) &= (2\pi)^{\frac{km}{2}}|\Omega_1|^{\frac{1}{2}}\\
&\times \exp\left\{ -\frac{1}{2}\left[a_0'\Omega_0^{-1}a_0 + \widehat{a}' \left(\Sigma^{-1}\otimes Z'Z\right) \widehat{a}
-a_1'\Omega_1^{-1}a_1 \right]\right\}\\
&\times(2\pi)^{-\frac{km}{2}}|\Omega_0|^{-\frac{1}{2}}(2\pi)^{-\frac{mT}{2}}|\Sigma|^{-\frac{T}{2}}e^{-\frac{1}{2}\trace \Sigma^{-1}\widehat{S}}
\end{split}
\end{equation}
qui mesure la qualit<69> d'ajustement du mod<6F>le et permet de comparer le VAR <20> d'autres mod<6F>les estim<69>s <20> l'aide du
m<EFBFBD>me <20>chantillon.}
\subsubsection{La pratique}\label{sec:1:4:pratique}
\par{L'int<6E>r<EFBFBD>t pratique de l'approche bay<61>sienne des mod<6F>les VAR s'explique par l'<27>quation
(\ref{equ:var:gaussian:posterior:variance}). Celle-ci <20>tablit que la variance post<73>rieure de $\mathcal A$ est
inf<EFBFBD>rieure <20> la variance de l'estimateur du maximum de vraisemblance, $\widehat{\mathcal A}$, d<>s lors que l'on
apporte de l'information \textit{a priori}. L'estimation des mod<6F>les VAR sur des donn<6E>es macro<72>conomiques pose
souvent des probl<62>mes de pr<70>cision. En effet, un mod<6F>le avec cinq variables et quatre retards demande l'estimation
de vingt param<61>tres alors que les <20>chantillons sont habituellement de l'ordre de la centaine d'observations.
En incorporant de l'information <20> l'aide d'une densit<69> \textit{a priori} tout se passe comme si nous augmentions
le nombre de degr<67>s de libert<72>. Ce gain en variance sur les param<61>tres du mod<6F>le, permettra d'obtenir des
pr<EFBFBD>visions ou des fonctions de r<>ponses plus pr<70>cises.}\newline
\par{On peut faire l'analogie avec l'incorporation de contraintes sur les param<61>tres
d'un mod<6F>le estim<69> dans le paradigme classique. Par exemple, si nous pensons que $\mathcal A$ doit satisfaire
les contraintes lin<69>aires d<>finies par $R\times\VEC\mathcal A = b$ (o<> $R$ est une matrice $
r\times mp$, $b$ est un vecteur $r\times 1$ et $r$ le nombre de restrictions lin<69>aires), l'incorporation de
ces contraintes lors de l'estimation, \textit{ie} l'utilisation de moindres carr<72>s contraints, permet de r<>duire
la variance des estimateurs et aussi l'erreur quadratique moyenne (dans la mesure o<> la contrainte n'est pas
en contradiction avec le processus g<>n<EFBFBD>rateur des donn<6E>es)
\footnote{Voir \citet[pages 52-54]{JudgeGriffithsHillLutkepohlLeeBook} la
section 3.2.1 intitul<75>e << Exact Nonsample Information >>.}. Le paradigme bay<61>sien est plus souple, dans le
sens o<> il ne pose pas des contraintes d<>terministes. Dans certains cas\footnote{Se reporter <20>
\citet[pages 670-673]{TheilBook}}, nous verrons une application dans la
section \ref{sec:bvardsge:theil}, la d<>finition de croyances \textit{a priori} revient <20> poser une contrainte
probabiliste de la forme $R\times\VEC\mathcal A - b = \epsilon$, o<> $\epsilon$ est une variable al<61>atoire gaussienne.
Plus la variance de $\epsilon$ est importante, moins la contrainte sur $\VEC \mathcal A$ est forte
(plus l'information \textit{a priori} est floue).}\newline
\par{La formalisation de l'information \textit{a priori} ne se limite pas au choix de la forme d'une distribution.
Dans le cas du mod<6F>le BVAR de la section pr<70>c<EFBFBD>dente, nous devons
aussi choisir les param<61>tres $a_0$ et $\Omega_0$. Dans cette
perspective, un prior qui s'est montr<74> particuli<6C>rement efficace
quand on cherche <20> mod<6F>liser des s<>ries macro<72>conomiques est le
prior de Minnesota\footnote{Voir, par exemple, \citet{Litterman1986}
ou \citet{KadiyalaKarlsson1997}. Pour d'autres priors on peut se
reporter <20> \citeauthor{KadiyalaKarlsson1997}.}. Celui-ci correspond
<EFBFBD> la croyance \textit{a priori} que les s<>ries observ<72>es sont des
marches al<61>atoires ind<6E>pendantes. L'esp<73>rance \textit{a priori} de
$\VEC \mathcal A$ est alors telle que $\mathbb E \left[\mathbf
A_1\right] = I_m$ et $\mathbb E \left[\mathbf A_i\right] = 0_m$
pour $i=2,\dots,p$. La variance \textit{a priori} de $\VEC \mathcal
A$ est suppos<6F>e diagonale. En notant $\omega_{i,j,k}$
($i,j=1,\dots,m$, $k=1,\dots,p$) la variance associ<63>e au param<61>tre
correspondant <20> la variable $j$ dans l'<27>quation $i$ au retard $k$,
la variance \textit{a priori} est d<>finie par~:
\[
\begin{split}
\omega_{i,i,k} &= \frac{\pi_1}{k^{\pi_3}}\quad i=1,\dots,m\text{ et }k=1,\dots,p \\
\omega_{i,j,k} &= \frac{\pi_2}{k^{\pi_3}}\frac{\sigma_i}{\sigma_j}\quad i=1,\dots,m\quad j\neq i\text{ et }k=1,\dots,p
\end{split}
\]
o<EFBFBD> les hyperparam<61>tres $\pi_h$ pour $h=1,2,3$ sont positifs,
$\{\sigma_i^2\}$ est l'estimateur de la variance des r<>sidus dans
l'estimation d'un AR(p) pour la variable $i$. Le ratio des
<EFBFBD>carts-types permet de prendre en compte les diff<66>rences
d'<27>chelles entre les diff<66>rentes variables composant le vecteur
des observables. La variance \textit{a priori} d<>cro<72>t lorsque le
retard $k$ augmente, ce qui traduit l'id<69>e que plus le retard est
important plus nous croyons que la matrice $\mathbf A_k$ est
nulle. L'hyperparam<61>tre $\pi_3$ indique <20> quelle vitesse la
variance \textit{a priori} tend vers z<>ro. Des valeurs fr<66>quemment
utilis<EFBFBD>es pour $\pi_1$ et $\pi_2$ sont respectivement 0,05 et
0,005. Cela revient <20> dire, dans la mesure o<> $\sigma_i$ et
$\sigma_j$ sont proches, que nos croyances \textit{a priori} sont
plus fortes sur la nullit<69> des termes hors des diagnonales de
$\mathbf A_k$ ($k=1,\dots,p$), c'est-<2D>-dire sur l'absence de
causalit<EFBFBD>\footnote{Nous devons aussi poser un \textit{a priori}
sur la matrice de variance-covariance de l'innovation du VAR,
$\Sigma$. \cite{Litterman1986} consid<69>re que celle-ci est
diagonale et donn<6E>e (variance \textit{a priori} nulle). Cela ne
correspond pas <20> notre hypoth<74>se de la section \ref{sec:1:4:inf},
o<EFBFBD> nous avons suppos<6F> que cette matrice <20>tait pleine (<28>gale <20>
l'estimateur du maximum de vraisemblance). Nous pourrions, sans
changer qualitativement les r<>sultats, adopter une matrice
diagonale dans la section \ref{sec:1:4:inf}. Nous choisissons de
poursuivre avec une matrice pleine, comme \cite{Phillips1996},
mais notre prior ne correspondra plus <20> des marches al<61>atoires
ind<EFBFBD>pendantes. En fait la motivation principale de
\citeauthor{Litterman1986} <20>tait de justifier une estimation
<EFBFBD>quation par <20>quation, car <20> l'<27>poque l'estimation d'un syst<73>me
<EFBFBD>tait trop co<63>teuse num<75>riquement, et ne reposait pas sur la
croyance que les s<>ries macro<72>conomiques sont r<>ellement
ind<EFBFBD>pendantes.}. Notons que l'\textit{a priori} de Minnesota
suppose l'absence de relations de coint<6E>gration entre les
variables, il y a, \textit{a priori}, autant de racines unitaires
que de variables. N<>anmoins rien n'emp<6D>che l'apparition de
relations de long terme dans la distribution post<73>rieure.}\newline
\par{Il nous reste <20> choisir les valeurs des hyperparam<61>tres du prior de Minnesota. Cette <20>tape est importante
car l'exp<78>rience montre que l'inf<6E>rence post<73>rieure, en particulier l'<27>valuation de la densit<69> marginale qui nous
permet d'<27>valuer le mod<6F>le, est tr<74>s sensible <20> ce choix. Si, comme souvent dans la litt<74>rature (voir par exemple
\cite{SmetsWouters2004} ou \cite{VillaverdeRubio}), l'estimation d'un BVAR ne sert qu'<27> titre de comparaison
afin d'<27>valuer la qualit<69> d'ajustement d'un mod<6F>le DSGE, le choix des hyperparam<61>tres devient crucial. Ce point n'est
malheureusement jamais abord<72> dans la litt<74>rature. Le con\-tenu <20>conomique d'un mod<6F>le VAR <20>tant faible, il para<72>t
difficile de recourir <20> la th<74>orie pour sp<73>cifier la densit<69> \textit{a priori}. Un crit<69>re objectif <20> notre
disposition est de choisir les hyperparam<61>tres ($\pi_1,\pi_2$ et $\pi_3$) qui maximisent les performances en
pr<EFBFBD>visions du mod<6F>le BVAR. En sp<73>cifiant ainsi les priors de notre BVAR, nous savons au moins que nous ne comparons
par notre DSGE avec un BVAR aux performances pr<70>dictives m<>diocres. Dans cet esprit \citet{Phillips1996} propose
le crit<69>re PIC (\textit{Posterior Information Criterion}) que l'on peut minimiser par rapport aux
hyperparam<EFBFBD>tres. Ce crit<69>re peut <20>tre vu comme une g<>n<EFBFBD>ralisation, au cas non stationnaire, du bien connu
crit<EFBFBD>re BIC\footnote{Voir \cite{Kim1998}.}. Dans le cas du mod<6F>le consid<69>r<EFBFBD> dans la section \ref{sec:1:4:inf}
on choisit les hyperparam<61>tres de la fa<66>on suivante~:
\begin{equation}
(\pi^*_1,\pi^*_2,\pi^*_3 ) = \arg\underset{\pi_1,\pi_2,\pi_3}{\min} \quad \log |\tilde{\Sigma}|
+\frac{1}{T}\log\frac{|\Omega_0^{-1}+\tilde{\Sigma}^{-1}\otimes Z'Z|}
{|\Omega_0^{-1}+\tilde{\Sigma}^{-1}_{T_0}\otimes Z_{T_0}'Z_{T_0}^{ }|}
\end{equation}
o<EFBFBD> $\tilde{\Sigma}$ est la matrice de variance covariance des
innovations au mode post<73>rieur, les matrices indic<69>es par $T_0$ sont
obtenues <20> partir du sous <20>chantillon $1,\dots,T_0$ (o<> $T_0$ est
sup<EFBFBD>rieur au nombre de param<61>tres estim<69>s). Ici nous avons consid<69>r<EFBFBD>
le nombre de retards comme une donn<6E>e, mais nous pourrions aussi
optimiser par rapport <20> $p$ le crit<69>re PIC (voir
\cite{Phillips1996}). <20> notre connaissance, l'utilisation
d'\textit{a priori} objectif pour les mod<6F>les BVAR, tel que
l'optimisation du crit<69>re PIC propos<6F> par \citet{Phillips1996},
demeure inappliqu<71> dans la litt<74>rature. On peut donc l<>gitimement
douter de la pertinence des comparaisons entre BVAR et DSGE
effectu<EFBFBD>es jusqu'<27> pr<70>sent\footnote{Quand
\citeauthor*{SmetsWouters2004} <20>tablissent que leur mod<6F>le DSGE
surpasse \textit{un} mod<6F>le BVAR en terme de densit<69> marginale de
l'<27>chantillon, on ne peut v<>ritablement conclure <20> la bonne la
qualit<EFBFBD> du DSGE puisque nous n'avons aucune id<69>e des performances du
mod<EFBFBD>le BVAR.}.}
\section{Mod<EFBFBD>les DSGE}\label{sec:dsge}
\par{Dans cette section nous pr<70>sentons de fa<66>on g<>n<EFBFBD>rale les
mod<EFBFBD>les DSGE, puis soulignons les probl<62>mes que peut poser
l'estimation. En particulier, nous expliquons pourquoi, <20> la
diff<EFBFBD>rence des BVAR, il n'est pas possible d'obtenir une expression
analytique de la distribution post<73>rieure. Nous terminons en
pr<EFBFBD>sentant les m<>thodes de Monte Carlo utilis<69>es pour caract<63>riser
les croyances post<73>rieures.}
\subsection{R<EFBFBD>solution et vraisemblance}\label{sec:dsge:1}
\par{Nous limitons notre attention aux mod<6F>les \textsc{dsge} que nous
pouvons <20>crire sous la forme suivante~:
\begin{equation}\label{equ:dsge:def}
\mathbb E_t \left[\mathcal
F_{\theta}(y_{t+1},y_{t},y_{t-1},\varepsilon_t)\right] = 0
\end{equation}
avec $\varepsilon_t \sim \iid{0}{\Sigma}$, une variable al<61>atoire
dans $ \mathbb R^r $, les innovations structurelles, $ y_t \in
\Lambda\subseteq\mathbb R^n $ un vecteur regroupant les variables endog<6F>nes,
$\mathcal F: \Lambda^{3} \times \mathbb R^r \rightarrow \Lambda$ une
fonction r<>elle dans $\mathcal C^2$ param<61>tr<74>e par un vecteur r<>el
$\theta \in \Theta \subseteq \mathbb R^q$ regroupant l'ensemble des
param<EFBFBD>tres structurels du mod<6F>le. La fonction $\mathcal F$ est
simplement l'ensemble des <20>quations qui d<>finissent un mod<6F>le~; on a
autant d'<27>quations que de variables endog<6F>nes. Le vecteur des
variables endog<6F>nes, $y_t$, inclut des variables d'<27>tat (endog<6F>nes
ou exog<6F>nes), des variables de choix et des variables statiques
\footnote{La premi<6D>re cat<61>gorie correspond aux variables pr<70>d<EFBFBD>termin<69>es, les suivantes
aux variables non pr<70>d<EFBFBD>termin<69>es.}. On supposera qu'il est possible d'exhiber une unique
solution stable et invariante au mod<6F>le d<>crit par l'<27>quation \equaref{equ:dsge:def}~:
\begin{equation}\label{equ:dsge:sol}
y_t = \mathcal H_{\theta} \left(y_{t-1},\varepsilon_t\right)
\end{equation}
qui exprime les variables endog<6F>nes en fonction du pass<73> et des chocs structurels
contemporains. La fonction param<61>tr<74>e $\mathcal H_{\theta}$ regroupe les \textit{policy rules} et
les <20>quations de transition (voir la contribution de Michel Juillard et Tarek Ocaktan dans ce num<75>ro). La
solution \equaref{equ:dsge:sol}, en d<>crivant une r<>currence stochastique non
lin<EFBFBD>aire, d<>finit la distribution jointe d'un ensemble de variables.}\newline
\par{Pour estimer les param<61>tres $\theta$ du mod<6F>le, ou d'un sous ensemble des param<61>tres,
nous devons <20>valuer la vraisemblance associ<63>e au mod<6F>le
\equaref{equ:dsge:def} ou <20> sa forme r<>duite \equaref{equ:dsge:sol}. M<>me si la fonction
$\mathcal H_{\theta}$ est lin<69>aire en $y_{t-1}$ et $\varepsilon_t$, cette <20>valuation ne peut <20>tre
directe comme dans le cas du mod<6F>le VAR examin<69> plus haut. En effet, l'<27>quation \equaref{equ:dsge:sol}
d<EFBFBD>crit la distribution jointe d'un ensemble de variables qui ne sont pas toutes observ<72>es.
Afin d'amener le mod<6F>le aux donn<6E>es on peut l'<27>crire sous une forme <20>tat-mesure~:
\begin{subequations}\label{equ:dsge:sol:ss}
\begin{equation}\label{equ:dsge:sol:measure}
y^*_t = Z y_t + \eta_t
\end{equation}
\begin{equation}\label{equ:dsge:sol:state}
y_t = \mathcal H_{\theta} \left(y_{t-1},\varepsilon_t\right)
\end{equation}
\end{subequations}
o<EFBFBD> $y^*_t$ est un vecteur $m \times 1$, avec $r \leq m < n$, regroupant les variables observ<72>es et
$Z$ est une matrice de s<>lection $m \times n$. On peut <20>ventuellement augmenter l'<27>quation
de mesure d'un bruit blanc multivari<72>, $\eta_t$, repr<70>sentant l'inad<61>quation des variables
th<EFBFBD>oriques avec les variables observ<72>es, ou plus simplement une erreur de mesure. On note $\mathcal
Y_T^* = \left\{y_t^*\right\}_{t=1}^T$ l'<27>chantillon <20> notre disposition et
$\psi\in\Psi\subseteq \mathbb R^{q+\frac{n(n+1)}{2}+\frac{r(r+1)}{2}}$ le vecteur des param<61>tres
du mod<6F>le <20>tat-mesure ($\theta$, $\Sigma$ et <20>ventuellement la matrice de variance-covariance de
$\eta_t$). La vraisemblance est la densit<69> de l'<27>chantillon, conditionnellement aux param<61>tres $\psi$ et
au mod<6F>le d<>fini par \equaref{equ:dsge:sol:ss}~:
\begin{equation}\label{equ:dsge:likelihood}
\mathcal L(\psi ; \sample) = p\left(\sample | \psi\right) = \prod_{t=1}^T
p\left(y_t^*|\samplet{t-1},\psi \right)
\end{equation}
L'<27>valuation de la densit<69> de $y_t^*$ conditionnellement <20> $\samplet{t-1}$ n'est g<>n<EFBFBD>ralement pas
directe, %Nous pourrions imaginer un cas o<> $y_t^*$ regroupe l'ensemble des variables
%d'<27>tat du mod<6F>le \equaref{equ:dsge:def}, dans ce cas il ne serait pas n<>cessaire d'avoir des id<69>es
%sur la distribution des variables latentes.
dans la mesure o<> $y_t^*$ d<>pend de variables endog<6F>nes inobservables. Nous pouvons n<>anmoins
utiliser la relation suivante~:
\begin{equation}\label{equ:prediction}
p\left(y_t^*|\samplet{t-1},\psi \right) = \int_{\Lambda} p\left(y_t^* | y_t , \psi \right)p(y_t
| \samplet{t-1},\psi) \mathrm d y_t
\end{equation}
La densit<69> de $y_t^*$ conditionnellement <20> $\samplet{t-1}$ est obtenue comme la moyenne de la densit<69>
de $y^*_t$ sachant $y_t$, pond<6E>r<EFBFBD>e par la densit<69> de $y_t$ sachant $\samplet{t-1}$. La premi<6D>re
densit<EFBFBD> sous l'int<6E>grale est specifi<66>e par l'<27>quation de mesure (\ref{equ:dsge:sol:measure}).
L'<27>valuation de la densit<69> de la pr<70>vision des variables latentes, conditionnellement l'information disponible
en $t-1$, est moins directe, et on doit utiliser un filtre de Kalman. Il s'agit d'une proc<6F>dure
r<EFBFBD>cursive. <20> chaque date (entre 1 et T) on forme une pr<70>vision des variables latentes ($y_t$
sachant $\samplet{t-1}$), en utilisant l'<27>quation d'<27>tat ($y_{t}$ sachant $y_{t-1}$,
<EFBFBD>quation \ref{equ:dsge:sol:state}) et une estimation initiale des variables latentes ($y_{t-1}$
sachant $\samplet{t-1}$), puis on corrige cette pr<70>vision quand une nouvelle observation ($y^*_t$)
augmente l'ensemble d'information. On peut interpr<70>ter cette d<>marche comme une estimation r<>cursive
bay<EFBFBD>sienne du vecteur des variables latentes. En initialisant les variables latentes avec la densit<69>
associ<EFBFBD>e <20> la distribution ergodique des variables latentes d<>finie par l'<27>quation d'<27>tat
(\ref{equ:dsge:sol:state}),
$p\left(y_0|\samplet{0},\psi\right)=p\left(y_0|\psi\right)=p\left(y_{\infty}|\psi\right)$, la
r<EFBFBD>cursion s'<27>crit de la fa<66>on suivante~:
\begin{subequations}\label{equ:kalman}
\begin{equation}\label{equ:kalman:prediction}
p\left(y_t|\samplet{t-1},\psi\right) = \int_{\Lambda}
p\left(y_t|y_{t-1},\psi\right)p\left(y_{t-1}|\samplet{t-1},\psi\right)\mathrm d y_{t-1}
\end{equation}
\begin{equation}\label{equ:kalman:update}
p\left(y_t|\samplet{t},\psi\right) =
\frac{p\left(y^*_t|y_t,\psi\right)p\left(y_t|\samplet{t-1},\psi\right)}
{\int_{\Lambda} p\left(y^*_t|y_t,\psi\right)p\left(y_t|\samplet{t-1},\psi\right)\mathrm d
y_t}
\end{equation}
\end{subequations}
L'interpr<70>tation de l'<27>quation de pr<70>diction (\ref{equ:kalman:prediction}) est directe~: la densit<69>
de la pr<70>diction des variables latentes en $t$ est la moyenne de la densit<69> de
$y_t$ sachant $y_{t-1}$, d<>finie par l'<27>quation d'<27>tat (\ref{equ:dsge:sol:state}), pond<6E>r<EFBFBD>e par la
densit<EFBFBD> de $y_{t-1}$ sachant $\samplet{t-1}$. Cette derni<6E>re densit<69> est d<>finie par l'<27>quation de
mise <20> jour (\ref{equ:kalman:update}) ou la condition initiale. L'<27>quation de mise <20> jour
(\ref{equ:kalman:update}) est, <20> l'instar de l'<27>quation (\ref{equ:bayes:posterior}), une application
directe du th<74>or<6F>me de Bayes. Le premier terme au num<75>rateur, $p\left(y_t|\samplet{t-1}\right)$, est
la densit<69> \textit{a priori} du vecteur des variables latentes. Le second terme,
$p\left(y^*_t|y_t\right)$, la densit<69> de l'observation sachant l'<27>tat obtenu via l'<27>quation de
mesure (\ref{equ:dsge:sol:measure}), est la vraisemblance. Le d<>nominateur est la densit<69> marginale
de la nouvelle observation.}\newline
\par{Puisque nous pouvons, au moins th<74>oriquement, <20>valuer la vraisemblance associ<63>e au mod<6F>le
DSGE, nous devrions <20>tre capable d'estimer ses param<61>tres.
Malheureusement, les <20>quations (\ref{equ:prediction}) et
(\ref{equ:kalman}) n<>cessitent l'<27>valuation
d'int<6E>grales\footnote{Plusieurs approches sont envisageables~:
quadrature, Monte Carlo, quasi Monte Carlo... voir \cite{JuddBook}.}
dans l'espace des variables d'<27>tat. Quand le nombre de variables
latentes agmente il devient tr<74>s co<63>teux d'<27>valuer ces int<6E>grales
(on parle de \textit{curse of dimensionality}). La d<>rivation de la
forme r<>duite du mod<6F>le (\ref{equ:dsge:sol}) n<>cessite <20>galement
l'<27>valuation d'int<6E>grales. En pratique, m<>me pour des mod<6F>les de
dimensions modestes, l'<27>valuation de la vraisemblance est difficile.
Nous devons donc approximer celle-ci. Dans le cas o<> le mod<6F>le
<EFBFBD>tat-mesure (\ref{equ:dsge:sol:ss}) est lin<69>aire et gaussien,
l'<27>valuation des int<6E>grales devient tr<74>s simple car les variables
latentes et observ<72>es sont normalement distribu<62>es <20> chaque date.
Ainsi la dynamique de la distribution des variables latentes est
compl<EFBFBD>tement caract<63>ris<69>e par la dynamique de l'esp<73>rance et de la
variance des variables latentes. On peut trouver une pr<70>sentation du
filtre de Kalman dans ce cas simple dans \citet[chapitre
13]{GourierouxMonfortStatBook1}, \citet[chapitre 3]{HarveyBook} ou
encore dans la contribution de Fabrice Collard et Patrick F<>ve <20> ce
m<EFBFBD>me num<75>ro. Ceci explique pourquoi les mod<6F>les DSGE estim<69>s sont
g<EFBFBD>n<EFBFBD>ralement (log-) lin<69>aris<69>s autour de l'<27>tat
stationnaire.}\newline
\par{Malgr<EFBFBD> l'approximation (log-) lin<69>aire de la forme r<>duite du mod<6F>le ($\mathcal
H_{\theta}$) l'<27>valuation de la vraisemblance est num<75>rique. Nous ne
disposons pas d'une expression analytique, comme dans le cas du
mod<EFBFBD>le VAR, et ne pouvons donc <20>crire formellement la densit<69>
post<EFBFBD>rieure ou les moments post<73>rieurs. Deux possibilit<69>s s'offrent
<EFBFBD> nous.\newline La premi<6D>re est de consid<69>rer une approximation
asymptotique de la densit<69> post<73>rieure. Il est alors possible
d'approximer, voir la section \ref{sec:1:3} et
\citet{TierneyKadane1986}, tout moment \textit{a posteriori} ou la
densit<EFBFBD> marginale. Nous avons vu que l'erreur d'approximation des
moments est d'ordre $\mathcal O(T^{-2})$ et que l'erreur
d'approximation de la densit<69> marginale est d'ordre $\mathcal
O(T^{-1})$. L'exp<78>rience sugg<67>re, pour les dimensions d'<27>chantillon,
$T$, g<>n<EFBFBD>ralement consid<69>r<EFBFBD>es dans la litt<74>rature, que
l'approximation de Laplace de la densit<69> marginale est
satisfaisante\footnote{Par exemple, \citet[tableau
2]{SmetsWouters2004} estiment la densit<69> marginale de leur mod<6F>le
DSGE <20> l'aide de l'approximation de Laplace et d'une m<>thode <<
exacte >> (dans le sens o<> elle ne repose pas sur une
approximation asymptotique, voir plus bas) bas<61>es sur des
simulations. Avec l'approximation de Laplace ils obtiennent (en
logarithme) -269,59 <20> comparer au -269,20 obtenu avec un exercice de
Monte-Carlo. Ces deux <20>valuations sont tr<74>s proches, on retrouve
g<EFBFBD>n<EFBFBD>ralement cette proximit<69> d<>s lors que l'<27>chantillon est assez
grand.}.\newline La deuxi<78>me possibilit<69> est d'<27>valuer les moments
en recourant <20> des simulations par Monte-Carlo. L'intuition de cette
approche repose sur la loi des grands nombres. Supposons, par
exemple, que nous souhaitions <20>valuer l'esp<73>rance d'une variable
al<EFBFBD>atoire $X$ de distribution $\mathcal G$. Si l'on g<>n<EFBFBD>re une
suite de variables al<61>atoires $X_1, X_2, \dots, X_n$ ind<6E>pendantes
et distribu<62>es selon $\mathcal{G}$, alors une approximation de
l'esp<73>rance est donn<6E>e par la moyenne empirique de ces
variables\footnote{En fait on peut montrer, dans certains cas, qu'il
s'agit d'un estimateur du maximum de vraisemblance.}~; la loi des
grands nombres assure que l'erreur d'approximation tend vers z<>ro
presque s<>rement lorsque le nombre de tirages $n$ tend vers
l'infini. Si on admet de plus que le moment du second ordre existe,
la vitesse de convergence est $\mathcal{O}(n^{1/2})$ par application
du th<74>or<6F>me \textit{central limit}. En pratique nous pouvons <20>tre
int<EFBFBD>ress<EFBFBD>s par les moments post<73>rieurs de $\theta$. En notant que~:
\begin{equation}\label{equ:dsge:postmom}
\mathbb E \left[ \varphi(\theta) \right] = \int_{\Theta} \varphi (\theta) p_1(\theta|\sample)\mathrm d\theta
\end{equation}
il semble alors naturel d'utiliser la moyenne empirique de
$\left(\varphi(\theta^{(1)}),\varphi(\theta^{(2)}),\dots,\varphi(\theta^{(n)})\right)$,
o<EFBFBD> les $\theta^{(i)}$ sont des tirages ind<6E>pendants dans la
distribution post<73>rieure, pour <20>valuer l'esp<73>rance de $\varphi
(\theta)$. L'erreur d'approximation tend vers z<>ro lorsque le
nombre de simulations ($n$) tend vers l'infini. il convient de
noter que $p_1$ est g<>n<EFBFBD>ralement d'une forme inconnue et que l'on
ne peut donc pas d<>finir un g<>n<EFBFBD>rateur pseudo-al<61>atoire
reproduisant la distribution \emph{a posteriori}. Comme nous le
verrons par la suite, la m<>thode de Monte Carlo dite de fonction
d'importance permet de rem<65>dier <20> cette difficult<6C> sous certaines
conditions. Ce principe de Monte Carlo se g<>n<EFBFBD>ralise au cas o<> les
variables simul<75>es ne sont pas ind<6E>pendantes. Il est ainsi
possible dans certains cas de construire, moyennant certaines
conditions, une cha<68>ne de Markov $\theta^{(1)},
\theta^{(2)},\dots, \theta^{(n)}$ de loi stationnaire (ergodique)
$p_1$ telle que la moyenne empirique des $\varphi(\theta^{(j)})$
($\varphi$ est la statistique d'int<6E>r<EFBFBD>t) converge presque s<>rement
vers la quantit<69> d'int<6E>r<EFBFBD>t comme dans le cas des tirages
ind<EFBFBD>pendants. Tout l'art de l'exercice est alors de d<>terminer une
cha<EFBFBD>ne de Markov (et plus pr<70>cis<69>ment son noyau de transition)
telle que sa loi ergodique corresponde <20> la loi a posteriori
d<EFBFBD>sir<EFBFBD>e et d'<27>valuer le temps d'arr<72>t des simulations, \textit{ie}
de diagnostiquer la convergence de la cha<68>ne de
Markov\footnote{Dans ce qui suit, nous omettons les m<>thodes
d'<27>chantillonnage de Gibbs. Cette m<>thode consiste <20> g<>n<EFBFBD>rer
chaque param<61>tre conditionnellement <20> tous les autres param<61>tres.
Il est donc n<>cessaire de pouvoir <20>crire toutes les distributions
conditionnelles. C'est pourquoi cette m<>thode n'est g<>n<EFBFBD>ralement
pas priviligi<67>e pour l'estimation des mod<6F>les DSGE. Cependant, il
est <20> noter que les algorithmes de Metropolis-Hasting et
d'<27>chantillonnage de Gibbs peuvent <20>tre combin<69>s, on parle alors
d'algorithme \emph{Metroplis-Within-Gibbs}.}.}
\subsection{L'<27>chantillonnage bay<61>sien par fonction d'importance}
\par{Id<EFBFBD>alement, on souhaiterait g<>n<EFBFBD>rer les param<61>tres d'int<6E>r<EFBFBD>t suivant la distribution \emph{a
posteriori}. Cependant, <20> l'exception de rares mod<6F>les, ceci n'est pas possible. On peut n<>anmoins exploiter le
fait qu'il n'est pas n<>cessaire de g<>n<EFBFBD>rer une suite de tirage $\{\theta^{(s)}\}$, suivant la distribution
\emph{a posteriori}, pour obtenir une <20>valuation correcte des moments post<73>rieurs. En effet, sous certaines conditions
de r<>gularit<69>, on peut utiliser une densit<69> de probabilit<69> $h$, d<>finie sur le m<>me espace et appel<65>e fonction
d'importance, suffisamment proche de $p_1$ (dans un sens <20> pr<70>ciser) et <20>chantillonner <20> partir de cette derni<6E>re. Il
est alors possible de montrer par la loi des grands nombres que l'int<6E>grale (\ref{equ:dsge:postmom}) d<>finissant le
moment post<73>rieur est approch<63>e par~:
\[
\mathbb E\left[\varphi(\theta) \right] \approx \frac{\sum_{s=1}^n
\varphi(\theta^{(s)})w(\theta^{(s)})}{\sum_{s=1}^n w(\theta^{(s)})}.
\]
avec
\begin{equation}\label{equ:dsge:weight}
w(\theta^{(s)}) = \frac{p(\mathcal{Y}^*_T \mid
\theta^{(s)})p_0(\theta^{(s)})}{h(\theta^{(s)})}
\end{equation}
Le choix de la fonction d'importance est crucial~: elle doit <20>tre suffisamment proche de la loi \emph{a posteriori},
ce qui n'est pas toujours simple en pratique. En effet, si $h$ est une mauvaise approximation de $p_1$, alors les
poids sont g<>n<EFBFBD>ralement faibles pour la plupart des valeurs <20>chantillonn<6E>es de $\theta$, la somme est alors domin<69>e
par quelques termes dont les poids sont tr<74>s <20>lev<65>s. Il en r<>sulte une estimation peu fiable, voir
\cite{CasellaRobertBook} pour plus de d<>tails. L'algorithme se r<>sume comme suit :
\begin{algorithm}
\item[(1)] Maximiser le noyau post<73>rieur par rapport <20> $\theta$. On obtient le mode de la densit<69> post<73>rieure,
$\theta^m$, et le hessien au mode qui caract<63>rise la courbure de la densit<69> post<73>rieure au mode et dont l'inverse de
l'oppos<6F>, not<6F> $\Sigma(\theta^m)$, approxime la variance post<73>rieure.
\item[(2)] G<>n<EFBFBD>rer $\theta^{(s)}$, suivant une fonction d'importance,$h$, dont les moments du premier
et second ordre d<>pendent de $\theta^{m}$ et $ \Sigma(\theta^{m})$
\item[(3)] D<>terminer les poids $w(\theta^{(s)})$ selon (\ref{equ:dsge:weight}).
\item[(4)] Reprendre (2-3) pour $s=1,\dots,n$.
\item[(5)] Calculer~:
\[
\frac{\sum_{s=1}^n \varphi(\theta^{(s)})w(\theta^{(s)})}{\sum_{s=1}^n w(\theta^{(s)})}
\]
\end{algorithm}
La premi<6D>re <20>tape n'est pas sp<73>cifique <20> l'algorithme par fonction d'importance~: il s'agit
de calculer les moments associ<63>s <20> la fonction d'importance, $h$. Cette << calibration >>
des moments de la fonction d'importance est g<>n<EFBFBD>ralement faite <20> partir de la maximisation du logarithme du noyau
\emph{a posteriori}. <20>tant donn<6E>es les propri<72>t<EFBFBD>s asymptotiques de la distribution post<73>rieure, ces choix sur les
moments d'ordre un et deux associ<63>s <20> $h$ sont d'autant plus satisfaisants que la taille de l'<27>chantillon est
importante.}\newline
\par{Bien que tr<74>s populaire en statistique, cette m<>thode est peu utilis<69>e dans le cadre de l'estimation de mod<6F>les
DSGE. A titre d'exemples, \cite{DeJongIngramWhiteman00} estiment
avec cette m<>thode un mod<6F>le de croissance stochastique
lin<EFBFBD>aris<EFBFBD>e. An et Schorfheide (2007) comparent l'algorithme
d'importance avec celui de Metropolis (<28> pas al<61>atoire) dans une
version simplifi<66>e du mod<6F>le de \citet{SmetsWouters2004}. Pour ce
faire, ils retiennent comme fonction d'importance une distribution
de Student multivari<72>e.}
\subsection{Les m<>thodes de Monte-Carlo <20> cha<68>nes de Markov}\label{sec:dsge:simul:MCMC}
\par{Cette seconde classe d'algorithmes permet de g<>n<EFBFBD>rer des variables al<61>atoires suivant approximativement
la loi \emph{a posteriori}, lorsque cette derni<6E>re n'est pas disponible. Elle <20>vite donc l'appel <20> une fonction
d'importance, $h$, souvent difficile <20> d<>terminer pour les mod<6F>les DSGE\footnote{Nous verrons par la suite qu'un
algorithme <20> cha<68>nes de Markov ind<6E>pendantes peut s'interp<72>ter comme un algorithme par fonction
d'importance. Par ailleurs, les m<>thodes de Monte-Carlo <20> cha<68>nes de Markov n<>cessitent de d<>terminer le noyau de
transition de la cha<68>ne de Markov, dont on sait seulement qu'il v<>rifie certaines propri<72>t<EFBFBD>s d'ergodicit<69>, etc.
Le choix de la fonction d<>finissant les changements d'<27>tat peut <20>tre assimil<69>e, \emph{toutes choses <20>gales par ailleurs},
<EFBFBD> celui de la fonction d'importance.}. On cherche ainsi <20> d<>finir une cha<68>ne de Markov dont la distribution
ergodique est approximativement le noyau \emph{a posteriori}. Si cette cha<68>ne existe, la m<>thode d'<27>chantillonnage est
grossi<EFBFBD>rement d<>finie comme suit. Dans un premier temps, on initialise (arbitrairement) la cha<68>ne de Markov. Dans
un second temps, on g<>n<EFBFBD>re les $\theta^{(s)}$ <20> partir de cette cha<68>ne. A l'issue d'un certain nombre de tirages
(disons $n_0$), on dispose de r<>alisations de variables al<61>atoires $\{\theta^{(s)}, s =n_0, \cdots, n\}$ approximativement
distribu<EFBFBD>es comme la distribution \emph{a posteriori}.}
\subsubsection{Cha<EFBFBD>nes de Markov}\label{sec:dsge:simul:MCMC:CM}
\par{Une cha<68>ne de Markov est une suite de variables al<61>atoires continues <20> valeurs dans $\Theta$,
$\left(\theta^{(0)}, \dots,\theta^{(n)}\right)$, g<>n<EFBFBD>r<EFBFBD>e par un
processus de Markov. Une suite de variables al<61>atoires est g<>n<EFBFBD>r<EFBFBD>e
par un processus de Markov (d'ordre 1) si la distribution de
$\theta^{(s)}$ ne d<>pend que de $\theta^{(s-1)}$. Une cha<68>ne de
Markov est caract<63>ris<69>e par un noyau de transition qui sp<73>cifie la
probabilit<EFBFBD> de passer de $\eta \in \Theta$ <20> $S \subseteq \Theta$.
Nous noterons $P(\eta,S)$ le noyau de transition, il v<>rifie
$P(\eta,\Theta) = 1$ pour tout $\eta$ dans $\Theta$. Si la cha<68>ne de
Markov d<>finie par le noyau $P$ converge vers une distribution
invariante $\pi$, alors le noyau doit satisfaire l'identit<69>
suivante~:
\[
\pi(S) = \int_{\Theta} P(\eta,S)\pi\left(\mathrm d\eta\right)
\]
pour tout sous ensemble mesurable $S$ de $\Theta$. Plus g<>n<EFBFBD>ralement, avant d'atteindre la distribution ergodique $\pi$,
si nous notons $P^{(s)}(\eta,S)$ la probabilit<69> que $\theta^{(s)}$ soit dans $S$ sachant que $\theta^{(s-1)} = \eta$, nous
avons~:
\[
P^{(s)}(\eta,S) = \int_{\Theta} P(\nu,S)P^{(s-1)}\left(\eta,\mathrm d\nu\right)
\]
la distribution de $\theta$ s'ajuste d'it<69>ration en it<69>ration puis rejoint la distribution ergodique,
$\lim_{s\rightarrow\infty}P^{(s)}(\eta,S) = \pi(S)$. L'id<69>e est alors de choisir le noyau de transition qui nous am<61>nera
vers la distribution invariante d<>sir<69>e.}\newline
\par{D<EFBFBD>finissons $p(\eta,\nu)$ et $\tilde{\pi}$ les densit<69>s associ<63>es au noyau $P$ et <20> la distribution
$\pi$\footnote{\label{note:mc:dens}Le noyau $P(\eta,S)$ sp<73>cifie la probabilit<69> d'aller de $\eta$ <20> $S$. Dans un
cas favorable,
$\theta$ est en $S$ <20> l'it<69>ration suivante, nous pouvons envisager deux possibilit<69>s~: (\textit{i}) $\theta$
se d<>place effectivement et rejoint la r<>gion $S$ <20> l'it<69>ration suivante, (\textit{ii}) $\theta$ ne se d<>place pas
mais $\eta$ est d<>j<EFBFBD> dans $S$. La densit<69> associ<63>e au noyau est donc une densit<69> continue - discr<63>te,
\citeauthor{Tierney1994} adopte la d<>finition suivante~:
\[
P(\eta,\mathrm d \nu) = p(\eta,\nu)\mathrm d\nu + (1-r(\eta))\delta_{\eta}(\mathrm d \nu)
\]
o<EFBFBD> $p(\eta,\nu)\equiv p(\nu|\eta)$ est la densit<69> associ<63>e <20> la
transition de $\eta$ <20> $\nu$, $r(\eta) = \int p(\eta,\nu)d\nu < 1$,
$1-r(\eta)$ s'interpr<70>te comme la probabilit<69> de ne pas quitter la
position $\theta = \eta$, $\delta_{\eta}(S)$ est une fonction
indicatrice <20>gale <20> un si et seulement si $\eta \in S$.}.
\citet{Tierney1994} montre que si la densit<69> $p(\eta,\mu)$ v<>rifie
la condition de r<>versibilit<69>\footnote{Il ne s'agit pas <20> proprement
parler de la condition de r<>versibilit<69>, mais d'une implication de
la propri<72>t<EFBFBD> de r<>versibilit<69>.}~:
\[
\tilde{\pi}(\eta)p(\eta,\nu) = \tilde{\pi}(\nu)p(\nu,\eta)
\]
alors $\pi$ est la distribution invariante associ<63>e au noyau $P$\footnote{(Suite de la note \ref{note:mc:dens})
Techniquement, il suffit de substituer la d<>finition du noyau dans $\int_{\Theta} P(\eta,S)
\pi(\eta)\mathrm d \eta$ qui, si la cha<68>ne est r<>versible, se r<>duit alors <20> $\pi(S)$.}. De fa<66>on <20>quivalente~:
\[
\frac{\tilde{\pi}(\eta)}{\tilde{\pi}(\nu)} = \frac{p(\nu,\eta)}{p(\eta,\nu)} >1
\]
Cette condition nous dit simplement que si la densit<69> de $\theta = \eta$,
$\tilde{\pi}(\eta)$, domine la densit<69> associ<63>e <20> $\theta = \nu$, $\tilde{\pi}(\nu)$, alors il doit <20>tre plus
<< facile >> de passer de $\nu$ <20> $\eta$ que de $\eta$ <20> $\nu$.}\newline
\par{Cette propri<72>t<EFBFBD> nous aidera <20> construire une cha<68>ne de Markov dont la distribution invariante est la distribution
post<EFBFBD>rieure des param<61>tres $\theta$ dans le mod<6F>le DSGE. On comprend bien que le noyau de cette cha<68>ne est difficile
<EFBFBD> d<>finir. Supposons que l'on puisse choisir un noyau de transition $Q(\eta,S)$~; alors il est presque s<>r que la
condition de r<>versibilit<69> ne sera pas v<>rifi<66>e, c'est-<2D>-dire que nous aurons
$p_1\left(\eta|\sample\right)q(\eta,\nu) \neq p_1\left(\nu|\sample\right)q(\nu,\eta)$. L'algorithme de
Metropolis-Hastings est une approche g<>n<EFBFBD>rale qui permet de << corriger >> ce noyau, de fa<66>on <20> respecter
la condition de r<>versibilit<69>.}
\subsubsection{L'algorithme de M<>tropolis-Hasting}\label{sec:dsge:simul:MCMC:MH}
\par{Supposons que l'on puisse d<>finir une densit<69> instrumentale, qui permette d'approcher le noyau
de transition de la cha<68>ne de Markov dont la densit<69> ergodique est la loi \emph{a posteriori} de notre mod<6F>le.
Cette densit<69> est d<>finie par $q(\eta,\nu) \equiv q(\nu \mid \eta)$.}
\begin{algorithm}[Metropolis-Hastings]
\item[(1)] Se donner une condition initiale $\theta^{(0)}$ telle que $\mathcal K\left(\theta^{(0)}|\sample\right)>0$ et
poser $s=1$.
\item[(2)] G<>n<EFBFBD>rer un candidat (une proposition) $\theta^*$ <20> partir d'une densit<69> $q(\theta^{(s-1)}, \theta^*)$.
\item[(3)] G<>n<EFBFBD>rer $u$ dans une loi uniforme entre $[0,1]$
\item[(4)] Appliquer la r<>gle suivante~:
\[
\theta^{(s)} =
\begin{cases}
\theta^* &\text{ si } \alpha\left(\theta^{(s-1)},\theta^*\right) > u\\
\theta^{(s-1)}&\text{ sinon.}
\end{cases}
\]
o<EFBFBD>
\[
\alpha(\theta^{(s-1)},\theta^*) = \min \left\{1,
\frac{\mathcal K\left(\theta^* \mid \sample\right)}{\mathcal K\left(\theta^{(s-1)} \mid \sample\right)}
\frac{q\left(\theta^{(s-1)} \mid \theta^*\right)}{q\left(\theta^* \mid \theta^{(s-1)}\right)} \right\}
\]
\item[(5)] Reprendre (2-4) pour $s=2,\dots,n$.
\end{algorithm}
\par{\noindent Notons qu'il suffit de pouvoir <20>valuer le noyau post<73>rieur pour mettre en oeuvre cet algorithme~; la
connaissance de la densit<69> post<73>rieure <20> une constante pr<70>s est suffisante. L'algorithme de Metropolis-Hasting
requiert le choix d'une fonction instrumentale $q$ <20> partir de laquelle on g<>n<EFBFBD>re des transitions dans l'espace des
param<EFBFBD>tres. La densit<69> conditionnelle $q$ permet de g<>n<EFBFBD>rer un vecteur candidat $\theta^{*}$. Puisqu'elle n'est
pas n<>cessairement la densit<69> conditionnelle associ<63>e au noyau de transition dont la distribution ergodique est la
distribution \emph{a posteriori} recherch<63>e, la condition de r<>versibilit<69> n'est pas v<>rifi<66>e\footnote{Le noyau
de transition du MH, $Q(\eta,S)$, est d<>fini de la m<>me fa<66>on que $P$ dans la section \ref{sec:dsge:simul:MCMC:CM}
et la note \ref{note:mc:dens}.}. L'algorithme de MH corrige cette erreur\footnote{Par exemple, nous pourrions avoir~:
\[
\mathcal K \left(\eta \mid \sample \right)
q(\eta,\nu) > \mathcal K\left(\nu \mid
\sample \right) q(\nu , \eta)
\]
Dans ce cas, l'<27>chantillonage <20> partir de $q$ ne propose pas assez souvent des transitions de $\theta=\nu$ <20>
$\theta=\eta$ ou trop souvent des mouvements de $\theta=\eta$ <20> $\theta=\nu$. L'algorithme de MH corrige cette
erreur en n'acceptant pas syst<73>matiquement les propositions de $q$. En introduisant une probabilit<69> d'acceptation
de la transition propos<6F>e, $\alpha$, <20>lev<65>e (faible) quand il s'agit de rejoindre une r<>gion o<> la densit<69>
\emph{a posteriori} est <20>lev<65>e (faible), on peut r<>tablir l'<27>quilibre et finalement v<>rifier la condition de
r<EFBFBD>versibilit<EFBFBD>. Dans notre exemple, la probabilit<69> d'acceptation de la transition de $\nu$ <20> $\eta$ devrait <20>tre la
plus grande possible puisque $q$ ne propose pas assez souvent cette transition, nous poserons donc
$\alpha(\nu,\eta) = 1$. <20> l'inverse la densit<69> conditionnelle $q$ propose trop de transitions de $\eta$ vers $\nu$,
la probabilit<69> d'acceptation associ<63>e <20> cette proposition, $\alpha(\eta,\nu)$, doit donc <20>tre inf<6E>rieure <20> 1. Pour
<EFBFBD>quilibrer les deux transitions, elle doit <20>tre telle que~:
\[
\mathcal K \left(\eta | \sample \right)
q(\eta,\nu)\alpha(\eta,\nu) = \mathcal K\left(\nu |
\sample \right)q(\nu,\eta) \alpha(\nu , \eta)
\]
soit, puisque $\alpha(\nu,\eta) = 1$, de fa<66>on <20>quivalente~:
\[
\alpha(\eta,\nu) = \frac{\mathcal K\left(\nu |
\sample \right)}{\mathcal K \left(\eta | \sample \right)} \frac{q(\nu,\eta)}{q(\eta,\nu)}
\]
On ne rejette donc pas syst<73>matiquement la transition propos<6F>e par $q$. En consid<69>rant l'exemple en renversant
l'in<69>galit<69>, on comprend la r<>gle donn<6E>e dans l'<27>tape 4 de l'algorithme 2.} en n'acceptant pas syst<73>matiquement les
propositions de $q$. En introduisant une probabilit<69> d'acceptation de la transition propos<6F>e, $\alpha$, on peut
finalement v<>rifier la condition de r<>versibilit<69>. Pour cela, la probabilit<69> d'acceptation doit <20>tre telle que~:
\[
\mathcal K \left(\eta | \sample \right)
q(\eta,\nu)\alpha(\eta,\nu) = \mathcal K\left(\nu |
\sample \right)q(\nu,\eta) \alpha(\nu , \eta)
\]
soit
\[
\alpha(\eta,\nu) = \min \left\{1,\frac{\mathcal K\left(\nu |
\sample \right)}{\mathcal K \left(\eta | \sample \right)} \frac{q(\nu,\eta)}{q(\eta,\nu)}\right\}
\]
Il nous reste <20> d<>terminer (\textit{i}) comment nous devons
initialiser la cha<68>ne et (\textit{ii}) la longueur de la cha<68>ne.
Nous reviendrons par la suite, lors de la pr<70>sentation de
l'algorithme de Metropolis <20> pas al<61>atoires, sur le premier point.
Nous aborderons la question du nombre de simulations n<>cessaires,
c'est-<2D>-dire de la longueur de la cha<68>ne, dans la section 3.3.4.
Nous reviendrons plus loin sur cette question, pour l'instant nous
supposerons que pour tout $s>n_0$ les $\theta^{(s)}$ sont tir<69>s dans
la distribution cibl<62>e. Afin de s'assurer que les r<>sultats sont
ind<EFBFBD>pendants des conditions initiales, on ne consid<69>re pas les
simulations indic<69>es par $s=0,\dots,n_0$. Ainsi, pour <20>valuer
$\mathbb E [\varphi(\theta)]$ nous calculons~:
$(n-n_0)^{-1}\sum_{s=n_0+1}^n\varphi(\theta^{(s)})$ qui converge
vers le moment post<73>rieur recherch<63> lorsque le nombre de
simulations, $n$, tend vers l'infini.}
\subsubsection{Deux variantes de l'algorithme MH}
\par{\noindent\textbf{L'algorithme de MH <20> pas al<61>atoires.} Comme nous l'avons expliqu<71> plus haut, l'utilisation
de l'algorithme de Metropolis-Hastings repose sur le fait qu'il est ais<69> d'<27>chantillonner <20> partir de la densit<69>
instrumentale $q$. L'inconv<6E>nient est que cette derni<6E>re n'est pas toujours facile <20> d<>terminer. Dans cette
perspective, l'algorithme de Metropolis <20> pas al<61>atoires est utile lorsqu'il est difficile d'obtenir une
bonne approximation de la densit<69> \emph{a posteriori}. Une proposition <20> l'it<69>ration $s$ est d<>finie par~:
\[
\theta^{*} = \theta^{(s-1)}+z
\]
o<EFBFBD> $z$ est le pas al<61>atoire. Le choix de la densit<69> de $z$ d<>termine la forme pr<70>cise de la densit<69>
instrumentrale, $q$. Un choix standard est la distribution gaussienne multivari<72>e~: $z\sim \normal{0}{\Sigma}$. Ainsi
la densit<69> de $\theta^{*}$ conditionnel <20> $\theta^{(s-1)}$ est gaussienne~:
\[
q\left(\theta^{(s-1)},\theta^*\right) \equiv q\left(\theta^* \left| \theta^{(s-1)}\right.\right) \sim
\normal{\theta^{(s-1)}}{ \Sigma}
\]
Par sym<79>trie de la loi normale, la densit<69> instrumentale v<>rifie $q(\eta,\nu) = q(\nu,\eta)$, ainsi la probabilit<69>
d'acceptation ne d<>pend que du noyau post<73>rieur~:
\[
\alpha(\eta,\nu) = \min \left\{1,\frac{\mathcal K(\nu|\sample)}{\mathcal K (\eta|\sample)} \right\}
\]
Autrement dit, si $\mathcal K(\theta^* |\sample) \geq \mathcal K(\theta^{(s-1)} |\sample)$, la cha<68>ne de Markov se
d<EFBFBD>place en $\theta^*$. Si ce n'est pas le cas, la cha<68>ne se d<>place avec une probabilit<69> <20>gale au rapport des densit<69>s
\emph{a posteriori}. On accepte avec une probabilit<69> unitaire la proposition dans une phase ascendante
(c'est-<2D>-dire lorsque la probabilit<69> \emph{a posteriori} cro<72>t) et avec une probabilit<69> non nulle la proposition dans
une phase descendante (si nous d<>cidions de rejeter syst<73>matiquement ces propositions d<>favorables la cha<68>ne ne Markov
ne visiterait pas compl<70>tement l'espace des param<61>tres et \textit{a fortiori} elle ne pourrait converger vers la
distribution post<73>rieure recherch<63>e).}\newline
\par{La probabilit<69> d'acceptation peut <20>tre ajust<73>e <20> partir de la matrice de variance-covariance $\Sigma$. En effet, si
celle-ci est << grande >> alors il y a de fortes chances pour que la transition propos<6F>e nous am<61>ne dans les queues
de la distribution \textit{a posteriori} c'est <20> dire dans une r<>gion o<> la densit<69> est faible et o<> donc la probabilit<69>
d'acceptation est proche de z<>ro (si on vient d'une zone plus dense). Si la matrice $\Sigma$ est << petite >> alors
les transitions propos<6F>es ne seront que des petits pas, dans ce cas il n'y aura pas de grandes variations de la densit<69>
post<EFBFBD>rieure et donc la probabilit<69> d'acceptation sera proche de un. Nous <20>crivons $\Sigma$ sous la forme $c \Omega$ o<>
$\Omega$ est une estimation de la matrice de variance-covariance \emph{a posteriori} et $c$ est un param<61>tre
d'<27>chelle qui permet de jouer sur le caract<63>re plus ou moins diffus de la matrice de variance-covariance et donc
d'ajuster le taux d'acceptation. On peut exp<78>rimenter diff<66>rentes valeurs de $c$ afin de d<>terminer une probabilit<69>
d'acceptation raisonnable\footnote{Il n'existe pas une r<>gle universelle. Un taux d'acceptation de l'ordre de 0.25-0.40
est g<>n<EFBFBD>ralement consid<69>r<EFBFBD> comme appropri<72>. Dans le m<>me temps, il est important de noter que ce n'est pas tant le taux
d'acceptation qui est crucial mais plut<75>t la garantie que la cha<68>ne de Markov a effectivement converg<72>. Le taux
d'acceptation peut n<>anmoins influencer le temps qu'il faudra <20> la cha<68>ne de Markov pour rejoindre sa distribution
invariante.}.}\newline
\par{Cette version de l'algorithme de MH est g<>n<EFBFBD>ralement utilis<69>e dans la litt<74>rature concern<72>e par l'estimation
bay<EFBFBD>sienne des mod<6F>les DSGE.}
\begin{algorithm}
\item[(1)] Maximiser le noyau post<73>rieur par rapport <20> $\theta$. On obtient le mode de la densit<69> post<73>rieure,
$\theta^m$, et le hessien au mode qui caract<63>rise la courbure de la densit<69> post<73>rieure au mode et dont l'inverse de
l'oppos<6F>, not<6F> $\omega(\theta^m)$, approxime la variance post<73>rieure. On pose $\Sigma = c \Omega(\theta^m)$ avec $c>0$,
$s = 1$ et $\theta^{(0)} = \theta^m$.
\item[(2)] G<>n<EFBFBD>rer $\theta^{*}$ <20> partir d'une gaussienne d'esp<73>rance $\theta^{(s-1)}$ et de variance $\Sigma$
\item[(3)] G<>n<EFBFBD>rer $u$ dans une loi uniforme entre $[0,1]$
\item[(4)] Appliquer la r<>gle suivante~:
\[
\theta^{(s)} =
\begin{cases}
\theta^* &\text{ si } \alpha\left(\theta^{(s-1)},\theta^*\right) > u\\
\theta^{(s-1)}&\text{ sinon.}
\end{cases}
\]
o<EFBFBD>
\[
\alpha(\theta^{(s-1)},\theta^*) = \min \left\{1,
\frac{\mathcal K\left(\theta^* | \sample\right)}{\mathcal K\left(\theta^{(s-1)} | \sample\right)}
\right\}
\]
\item[(5)] Reprendre (2-4) pour $s=2,\dots,n$.
\end{algorithm}
\par{\noindent\textbf{L'algorithme <20> cha<68>nes ind<6E>pendantes.} Si la proposition est ind<6E>pendante de l'<27>tat
courant, l'algorithme est dit <20> chaines ind<6E>pendantes (\citet{Tierney1994}). La probabilit<69> d'acceptation se
simplifie alors comme suit~:
\[
\alpha(\theta^{(s-1)},\theta^{*}) = \min \left\{1,
\frac{\mathcal K (\theta^* | \sample}{\mathcal K (\theta^{(s-1)} | \sample)}
\frac{q(\theta^{(s-1)})}{q(\theta^*)} \right\}.
\]
Cet algorithme est particuli<6C>rement adapt<70> au cas o<>
il existe une approximation naturelle de la densit<69> \emph{a
posteriori}. En effet, l'algorithme <20> cha<68>nes ind<6E>pendantes est
alors similaire <20> l'algorithme par fonction d'importance. Pour
s'en convaincre, il suffit de remarquer que l'on peut d<>finir des
poids analogues <20> ceux vus pr<70>c<EFBFBD>demment comme suit~:
\[
w\left(\theta\right) = \frac{p_1(\theta^* \mid \mathcal{Y}_T,
\mathcal{A})}{q(\theta)}.
\]
La probabilit<69> d'acceptation est alors donn<6E>e par
$\alpha(\theta^{(s-1)},\theta^{(s)}) = min \left\{1,
w(\theta^*)/w(\theta^{(s-1)})\right\}$. Autrement dit, il s'agit du
ratio des poids d'<27>chantillonnage par importance entre le vecteur
candidat et le vecteur pr<70>c<EFBFBD>dent.}
\subsubsection{Les diagnostics de convergence}\label{sec:mh:conv}
\par{Un certain nombre de r<>sultats th<74>oriques sont disponibles pour l'<27>tude de la convergence des
cha<EFBFBD>nes de Markov. Il est cependant extr<74>mement compliqu<71> d'<27>noncer des r<>gles pratiques. Ainsi, il n'existe
aucune r<>ponse simple <20> la question~: Quel est le nombre optimal de simulations pour garantir la convergence de la cha<68>ne
de Markov vers la distribution ergodique~? Nous discutons bri<72>vement quelques diagnostics de convergence. Le lecteur
int<EFBFBD>ress<EFBFBD> pourra consulter, par exemple, \citet[chapitre 12]{CasellaRobertBook}.}\newline
\par{La litt<74>rature bay<61>sienne distingue g<>n<EFBFBD>ralement trois types de convergence : (\textit{i}) la convergence vers la
distribution stationnaire, (\textit{ii}) la convergence des moments empiriques (ou approch<63>s) vers les moments
th<EFBFBD>oriques et (\textit{iii}) la convergence vers un <20>chantillonage i.i.d.. Nous nous int<6E>ressons ici aux deux
derni<EFBFBD>res formes de convergence\footnote{Pour plus de d<>tails sur la convergence vers
la distribution stationnaire et l'hypoth<74>se de stationnarit<69>, voir \cite{GelfandSmith90}, \cite{Roberts92}, et
\cite{Liu92} }. Quelle que soit la convergence <20>tudi<64>e, les r<>sultats reposent soit sur des m<>thodes d'<27>valuation
graphiques dont il est difficile d'en d<>duire des r<>gles g<>n<EFBFBD>rales, soit des tests statistiques formels.
Avant de pr<70>senter certaines de ces m<>thodes, il convient de noter qu'il est important de distinguer les m<>thodes
qui font appel <20> $M$ cha<68>nes de Markov parall<6C>les et ind<6E>pendantes et celles bas<61>es sur une seule cha<68>ne
(\emph{on-line Markov chain}). L'utilisation de plusieurs cha<68>nes est co<63>teuse en temps mais elle r<>duit la
d<EFBFBD>pendance aux conditions initiales et accro<72>t la possibilit<69> de parcourir efficacement l'espace des param<61>tres,
$\Theta$. En particulier, si une cha<68>ne de Markov est m<>langeante au sens faible --- elle reste coinc<6E>e dans
des r<>gions (de mesure domin<69>e) de l'espace des param<61>tres --- une explication possible est la pr<70>sence d'une
distribution \emph{a posteriori} multimodale (notamment lorsque les densit<69>s \emph{a priori} sont en conflit
avec la vraisemblance du mod<6F>le). Dans ce cas, la mise en oeuvre de cha<68>nes de Markov en parall<6C>le et ind<6E>pendantes,
tr<EFBFBD>s dispers<72>es, peut permettre de r<>soudre cette difficult<6C>. L'argument des cha<68>nes multiples est aussi avanc<6E>
pour s'assurer de la convergence. Si on se donne plusieurs vecteurs initiaux de param<61>tres, suffisamment dispers<72>s,
et que l'on obtient les m<>mes r<>sultats, la convergence serait assur<75>e. L'argument est valide si et seulement
si on a bien v<>rifi<66> que chaque cha<68>ne a converg<72>e. Nous revoil<69> donc au point de d<>part... Il existe une
litt<EFBFBD>rature abondante discutant des avantages et inconv<6E>nients respectifs de chaque
m<EFBFBD>thode\footnote{Pour plus de d<>tails, voir \cite{RafteryLewis1996}, \cite{CowlesCarlin96}, et
\cite{BrooksRoberts98}.}.}\newline
\par{La convergence des moments empiriques ou approch<63>s vers les moments th<74>oriques peut
s'appr<70>hender <20> partir de m<>thodes graphiques. \cite{YuMykland94}
se basent sur les sommes cumulatives des moments d'int<6E>r<EFBFBD>t dans le
cas d'une seule cha<68>ne de Markov. Au contraire,
\cite{GelmanRubin92} proposent un test formel qui repose sur des
m<EFBFBD>thodes de cha<68>nes de Markov en parall<6C>le. La convergence est
diagnostiqu<EFBFBD>e si les diff<66>rences entre $J$ des $M$ chaines de
Markov restent dans un intervalle raisonnable.
\citeauthor{GelmanRubin92} formalisent cette id<69>e en
recourant <20> des statistiques de type ANOVA. Pour chaque
statistique d'int<6E>r<EFBFBD>t $\phi$, ils d<>terminent la variance intra et
inter-cha<68>nes. L'intuition du test est alors la suivante. Si
l'effet des valeurs initiales de chaque cha<68>ne de Markov a <20>t<EFBFBD>
supprim<EFBFBD>, les cha<68>nes en parall<6C>le doivent <20>tre relativement
proches. En d'autres termes, la variance inter-cha<68>ne ne devrait
pas <20>tre trop grande par rapport <20> la variance
intra-cha<68>ne\footnote{Plus formellement, notons
$\hat{\phi}_{n_1}^{(i)}$ l'estimateur de
$\mathbb{E}\left[\phi(\theta)\right]$ obtenu <20> partir du vecteur
initial $\theta^{i}$ lorsque les $n_1 \equiv n-n_0$ derni<6E>res
valeurs de la cha<68>ne sont prises en compte. La variance intra
d'une cha<68>ne, obtenue <20> partir du vecteur initial $\theta^{i}$,
est d<>finie par $s_i= \frac{1}{n_1-1}\sum_{s=n_0+1}^{n}
\left[\phi\left(\theta^{(s,i)}\right)-\hat{\phi}_{S_1}^{(i)}
\right]^2$. La moyenne des variance-intra est alors donn<6E>e par $W
= \frac{1}{m}\sum_{i=1}^m s_i^2$ o<> $m$ est le nombre de cha<68>nes
en parall<6C>le ou de vecteurs initiaux. De la m<>me mani<6E>re, on peut
montrer que la variance-inter est estim<69>e par $B =
\frac{n_1}{m-1}\sum_{i=1}^m \left(\hat{\phi}_{n_1}^{(i)} -
\hat{\phi}\right)^2$ o<> $\hat{\phi}$ est donn<6E>e par $\hat{g}=
\frac{1}{m}\sum_{i=1}^m \hat{\phi}_{n_1}^{(i)}$. Un estimateur de
la variance a posteriori de $\phi$ est alors d<>finie comme
$\frac{n_1-1}{n_1}W+\frac{1}{n_1}B$.}. La statistique de test est
alors d<>finie <20> partir d'un estimateur de la variance \textit{a
posteriori} de $\phi$. Plus pr<70>cis<69>ment, ce dernier est une
moyenne pond<6E>r<EFBFBD>e de la variance intra-cha<68>ne et de la variance
inter-cha<68>ne. Le crit<69>re de convergence est ainsi le rapport de
cet estimateur <20> la variance intra-cha<68>ne. En utilisant une
approximation de ce crit<69>re, les auteurs montrent que si sa valeur
exc<EFBFBD>de 1.2, on peut en conclure qu'il n'y a pas convergence. Dans
une autre optique, \cite{Geweke92} propose de comparer la moyenne
de deux sous-<2D>chantillons disjoints, $\mathcal S_1$ et $\mathcal
S_3$, d'une cha<68>ne de Markov (apr<70>s avoir <20>limin<69> les $n_0$
premi<EFBFBD>res valeurs). On choisit $\mathcal S_1$ (resp. $\mathcal
S_3$) au d<>but (resp. <20> la fin) de la cha<68>ne de Markov. Si la
cha<EFBFBD>ne de Markov a atteint la distribution stationnaire, la
moyenne des deux sous-<2D>chantillons doit <20>tre <20>gale. Une version
modifi<EFBFBD>e de la statistique $z$ est alors <20>labor<6F>e par
Geweke\footnote{Plus formellement, supposons que l'on dispose
d'une cha<68>ne de Markov $\left(\theta^{s}\right)_{s=1,\cdots,n}$ et
que l'on subdivise cette cha<68>ne en sous-ensembles, $\mathcal{S}_0
= \left(\theta^{s}, s=1, \cdots, n_0 \right)$, $\mathcal{S}_1 =
\left(\theta^{s}, s=n_0+1, \cdots, n_0 + n_a \right)$,
$\mathcal{S}_2 = \left(\theta^{s}, s=n_0+n_a + 1, \cdots, n_0 +
n_a + n_b\right)$ et $\mathcal{S}_3 = \left(\theta^{s},
s=n_0+n_a+n_b+1, \cdots, n_0 + n_a + n_b + n_c\right)$. On choisit
g<EFBFBD>n<EFBFBD>ralement, $n_a = 0.1n_1$, $n_b = 0.5n_1$ et $n_c = 0.4n_1$, o<>
$n_1 \equiv n-n_0$. Le test de Geweke revient <20> d<>terminer la
variance a posteriori de $\phi$, $\hat{s}_{1}$ et $\hat{s}_{3}$,
pour les sous-ensembles $\mathcal{S}_1$ et $\mathcal{S}_3$ et <20>
<EFBFBD>valuer $\hat{\phi}_{\mathcal{S}_1}$ et
$\hat{\phi}_{\mathcal{S}_3}$. La statistique de test est alors
d<EFBFBD>finie par
$\frac{\hat{\phi}_{\mathcal{S}_1}-\hat{\phi}_{\mathcal{S}_3}}{\frac{\hat{s}_{1}}{\sqrt{n_a}}+\frac{\hat{s}_{3}}{\sqrt{n_c}}}$
.}. Une valeur de la statistique de test sup<75>rieure <20> 2 indique
qu'un nombre plus <20>lev<65> d'it<69>rations est sans doute n<>cessaire. Le
test de \cite{RafteryLewis92a} (voir aussi \cite{RafteryLewis92b})
est plus informatif. Il se base sur les quantiles de la
statistique d'int<6E>r<EFBFBD>t. L'id<69>e est de construire une cha<68>ne de
Markov <20> deux <20>tats <20> partir d'un quantile (par exemple, 2,5\% et
97,5\%) qui permette d'estimer les probabilit<69>s de transition et
ainsi d'estimer le nombre de simulations n<>cessaires pour
approcher la stationnarit<69>.}\newline
\par{Finalement, les m<>thodes de Monte-Carlo pr<70>sent<6E>es dans les sections pr<70>c<EFBFBD>dentes
ne sont valides que si les <20>l<EFBFBD>ments de la cha<68>ne de Markov sont
i.i.d. Or, l'intuition sugg<67>re que les valeurs adjacentes d'une
cha<EFBFBD>ne de Markov devraient <20>tre corr<72>l<EFBFBD>es positivement. De mani<6E>re
plus g<>n<EFBFBD>rale, le fait que des autocorr<72>lations d'ordre <20>lev<65>
puissent subsister est probl<62>matique si la taille de la cha<68>ne de
Markov n'est pas suffisamment grande. Dans cette perspective, il
est n<>cessaire de v<>rifier cette propri<72>t<EFBFBD> ou tout du moins
d'<27>viter une corr<72>lation trop <20>lev<65>e de la cha<68>ne de Markov <20>
partir de laquelle on d<>duit les quantit<69>s ou statistiques
d'int<6E>r<EFBFBD>t. Plusieurs proc<6F>dures ont <20>t<EFBFBD> sugg<67>r<EFBFBD>es dans la
litt<EFBFBD>rature. Nous mentionnons ici deux strat<61>gies. La premi<6D>re
repose sur un facteur correctif <20> appliquer <20> la dimension de la
cha<EFBFBD>ne de Markov en pr<70>sence d'un degr<67> observ<72> $k$
d'autocorr<72>lations\footnote{L'intuition repose sur un th<74>or<6F>me
fondamental de l'analyse des s<>ries temporelles qui nous indique
que si les $\theta^{(s)}$ sont <20>chantillonn<6E>es <20> partir d'un
processus stationnaire et corr<72>l<EFBFBD>, les r<>alisations des tirages
(qui sont donc corr<72>l<EFBFBD>s) fournissent encore une information non
biais<EFBFBD>e de la distribution si la taille de l'<27>chantillon est
suffisamment grande.}. Une autre strat<61>gie est de conserver
seulement chaque $k^{\text{i<EFBFBD>me}}$ <20>l<EFBFBD>ment de la cha<68>ne de Markov
(apr<70>s avoir supprim<69> les $n_0$ premiers <20>l<EFBFBD>ments de la chaine de
Markov). Cette technique est connue sous le nom de
sous-<2D>chantillonnage, voir \cite{Schmeiser89},
\cite{RafteryLewis92a} ou \cite{RafteryLewis92b}.}
\subsection{Estimation de la densit<69> marginale}
\par{Nous disposons d'une suite de vecteurs de param<61>tres $\{\theta^{(s)}\}_{s=n_0+1,\dots,n}$ o<> chaque $\theta^{(s)}$
est extrait de la distribution post<73>rieure. <20> partir de cette suite nous pouvons estimer les moments post<73>rieurs,
les densit<69>s pr<70>dictives, et finalement la densit<69> marginale de l'<27>chantillon, $p(\sample)$. Cette
densit<EFBFBD> marginale, comme nous l'avons vu en section \ref{sec:1:1}, pemet de quantifier la capacit<69> du mod<6F>le <20>
expliquer l'<27>chantillon <20> notre disposition et <20>ventuellement de comparer diff<66>rents mod<6F>les. Par exemple,
\citet{RabanalRubioramirez2005} <20>valuent diff<66>rentes sp<73>cifications des rigidit<69>s nominales sur les salaires et
les prix dans le cadre d'un mod<6F>le DSGE, en comparant des densit<69>s marginales. Il existe de nombreuses m<>thodes pour
estimer $p(\sample)$. Dans cette section nous pr<70>sentons la m<>thode
g<EFBFBD>n<EFBFBD>ralement utilis<69>e pour les mod<6F>les DSGE.}\newline
\par{L'estimateur par la moyenne harmonique est motiv<69> par
la propri<72>t<EFBFBD> suivante de l'esp<73>rance post<73>rieure~:
\[
\mathbb E\left[\frac{f(\theta)}{p_0(\theta)p(\sample|\theta)}\right]
= \int_{\Theta}
\frac{f(\theta)p_1(\theta|\sample)}{p_0(\theta)p(\sample|\theta)}\mathrm d\theta
\]
o<> $f$ est une fonction de densit<69> quelconque et $\mathbb E$ est l'esp<73>rance post<73>rieure. Le membre de droite de
l'<27>galit<69>, en utilisant la d<>finition de la densit<69> post<73>rieure,
s'<27>crit alternativement~:
\[
\int_{\Theta}
\frac{f(\theta)}{p_0(\theta)p(\sample|\theta)}\frac{p_0(\theta)p(\sample|\theta)}
{\int_{\Theta}p_0(\theta)p(\sample|\theta)\mathrm d\theta}\mathrm d\theta
\]
On obtient donc~:
\[
\mathbb E \left[\frac{f(\theta)}{p_0(\theta)p(\sample|\theta)}\right]
=
\frac{\int_{\Theta}f(\theta)\mathrm d\theta}{\int_{\Theta}p_0(\theta)
p(\sample|\theta)\mathrm d\theta}
\]
Puisque l'int<6E>grale de $f$ somme <20> un, nous obtenons finalement~:
\[
\mathbb E \left[\frac{f(\theta)}{p_0(\theta)p(\sample|\theta)}\right]
=
\frac{1}{\int_{\Theta}p_0(\theta)
p(\sample|\theta)\mathrm d\theta}
\]
Ainsi, un estimateur de la densit<69> marginale (l'int<6E>grale du noyau post<73>rieur qui appara<72>t au d<>nominateur du
second membre), est l'inverse de l'esp<73>rance post<73>rieure de $f(\theta)/\mathcal K(\theta|\sample)$. Ceci sugg<67>re
l'estimateur suivant de la densit<69> marginale~:
\[
\hat{p}\left(\sample\right) = \frac{1}{n-n_0}\sum_{s=n_0+1}^n \frac{f\left(\theta^{(s)}\right)}
{\mathcal K\left(\theta^{(s)}|\sample\right)}
\]
Ce r<>sultat est valable pour toute densit<69> $f$. \citet{Geweke92} propose d'utiliser une gaussienne tronqu<71>e centr<74>e
sur l'esp<73>rance post<73>rieure. L'id<69>e est d'accorder moins de poids, voire d'<27>liminer, les simulations <20>loign<67>es
du centre de la distribution post<73>rieure. Cela permet de diminuer la variance de l'estimateur de la densit<69>
marginale.}\newline
\section{Un DSGE pour le B du VAR}\label{sec:bvardsge}
\par{Dans cette section, nous illustrons en quoi les mod<6F>les VAR et DSGE sont des outils compl<70>mentaires que l'on
ne doit pas n<>cessairement chercher <20> opposer. Nous avons vu dans la
section \ref{sec:1:4} que la sp<73>cification des croyances \textit{a
priori} sur la param<61>trisation d'un VAR ne va pas de soi. En effet,
dans la mesure o<> le contenu <20>conomique d'un mod<6F>le VAR est t<>nu,
l'interpr<70>tation des param<61>tres du VAR est d<>licate, ce qui rend
l'<27>licitation des priors ardue. \cite{IngramWhiteman1994} proposent
d'utiliser un mod<6F>le DSGE afin de construire le prior d'un mod<6F>le
VAR. Ils montrent qu'en utilisant les restrictions d<>finies par un
mod<EFBFBD>le RBC pour d<>finir le prior d'un mod<6F>le VAR, on peut produire
avec ce dernier des pr<70>visions comparables, en termes de pr<70>cision,
<EFBFBD> celles que nous obtiendrions avec un prior Minnesota. Ce r<>sultat
est remarquable, car m<>me si le mod<6F>le RBC canonique est mal
sp<EFBFBD>cifi<EFBFBD> dans de nombreuses directions, il impose des restrictions
utiles pour am<61>liorer les pr<70>visions du VAR.}\newline
\par{Plus r<>cemment, \cite{DelNegroSchorfheide2004} ont repris cette id<69>e sous une forme plus simple <20> mettre en
oeuvre. Leur approche permet d'estimer simultan<61>ment les param<61>tres structurels du DSGE et les param<61>tres du mod<6F>le
VAR. Nous pr<70>sentons leur approche dans cette section.}\newline
\subsection{Les r<>gressions mixtes}\label{sec:bvardsge:theil}
\par{Dans la section \ref{sec:1:4:pratique} nous avons not<6F>, au moins dans le cadre d'un mod<6F>le lin<69>aire gaussien,
une analogie entre les priors du paradigme bay<61>sien et les contraintes lin<69>aires sur les param<61>tres de l'approche
classique. \citeauthor{DelNegroSchorfheide2004} utilisent cette analogie (voir \citet{TheilGoldberger1961},
\citet{TiaoZellner1964a} et \citet{TheilBook}) pour mettre en oeuvre le prior DSGE. Dans le mod<6F>le VAR, on peut
d<EFBFBD>finir un prior sur $\mathcal A$ en utilisant des observations artificielles, coh<6F>rentes avec nos croyances, et
un prior diffus <20> la Jeffrey. Par exemple, si ces observations artificielles sont g<>n<EFBFBD>r<EFBFBD>es par un mod<6F>le DSGE, alors
l'estimation sur la base de l'<27>chantillon augment<6E> sera attir<69>e vers la projection du DSGE dans l'espace des VAR.}\newline
\par{Plus formellement supposons que nous disposions des observations artificielles
$(\check Y(\eta),\check Z(\eta))$, o<> $\eta$ est un vecteur de param<61>tres qui d<>finit le processus g<>n<EFBFBD>rateur
des donn<6E>es artificielles (\textit{ie} les croyances \textit{a priori}). Comme l'<27>chantillon artificiel est
ind<EFBFBD>pendant de $\sample$, la vraisemblance de l'<27>chantillon augment<6E> s'<27>crit de la fa<66>on suivante~:
\begin{equation}\label{equ:bvardsge:lik}
p\left(\check Y(\eta),\sample|\mathcal A, \Sigma\right)
= p\left(\check Y(\eta)|\mathcal A, \Sigma\right)\times
p\left(\sample|\mathcal A, \Sigma\right)
\end{equation}
Le premier terme du membre de droite, si l'<27>chantillon artificiel est de dimension $[\lambda T]$ o<>
$\lambda\in\mathbb R$, s'<27>crit~:
\begin{equation}\label{equ:bvardsge:lik:simulateddata}
p\left(\check Y(\eta)|\mathcal A,\Sigma\right) \propto |\Sigma|^{-\frac{[\lambda T]}{2}}
e^{-\frac{1}{2}\trace \left[\Sigma^{-1}
\left(\check Y' \check Y - \mathcal A' \check Z' \check Y - \check Y' \check X \mathcal A +
\mathcal A' \check Z'\check Z \mathcal A \right)\right]}
\end{equation}
et, <20> la lumi<6D>re de l'avant derni<6E>re <20>quation, s'interpr<70>te comme un prior pour $\mathcal A$ et $\Sigma$. La
croyance \textit{a priori} est d'autant plus informative que l'<27>chantillon artificiel est de grande taille. Quand
$\lambda$ tend vers l'infini, le poids de la vraisemblance (le second terme sur le membre de droite de
(\ref{equ:bvardsge:lik})) devient n<>gligeable par rapport au prior (le premier terme sur le membre de droite de
(\ref{equ:bvardsge:lik})). En compl<70>tant le prior, d<>fini avec les donn<6E>es artificielles, par un prior diffus (ou plat)
<EFBFBD> la Jeffrey~:
\[
p_0(\mathcal A,\Sigma) \propto |\Sigma|^{-\frac{m+1}{2}}
\]
le prior est au final de type normal-Wishart, le prior conjugu<67> dans un mod<6F>le lin<69>aire
gaussien. En particulier, $\mathcal A$ est \textit{a priori} normalement distribu<62>~:
\[
\VEC \mathcal A | \Sigma \sim \normal{\VEC \tilde{\mathcal A}(\eta)}{\Sigma\otimes (\check Z'\check Z)^{-1}}
\]
o<EFBFBD> $\tilde{\mathcal A}(\eta) = (\check Z'\check Z)^{-1}\check Z'\check Y$, est l'estimateur des MCO (MV) des param<61>tres
autor<EFBFBD>gressifs pour l'<27>chantillon artifiel.}\newline
\par{On voit imm<6D>diatement, en consid<69>rant la vraisemblance de l'<27>chantillon augment<6E> (\ref{equ:bvardsge:lik}),
le prior diffus <20> la Jeffrey et les r<>sultats de la section \ref{sec:1:4:noninf}, que la distribution
\textit{a posteriori} est de type normale-Wishart~:
\begin{equation}\label{equ:var:mixed:post}
\begin{split}
\mathcal{A}|\Sigma,\sample,\check Y (\eta) &\sim MN_{k,m}\left(\widehat{\mathcal{A}}(\eta),\Sigma,(Z'Z+
\check Z'\check Z)^{-1}\right)\\
\Sigma|\sample,\check Y (\eta) &\sim i\mathcal{W}_m\left(\widehat{S}(\eta),\tilde{\nu}\right)
\end{split}
\end{equation}
o<EFBFBD> $\widehat{\mathcal{A}}(\eta)$ et $\widehat{S}(\eta)$ sont respectivement les estimateurs du maximum de vraisemblance
de $\mathcal A$ et $(T+[\lambda T])\Sigma$, pour l'<27>chantillon augment<6E> des donn<6E>es artificielles, $\tilde \nu =
[(1+\lambda)T]-k$. En int<6E>grant la densit<69> jointe post<73>rieure par rapport <20> $\Sigma$, on montre que la distribution
post<EFBFBD>rieure marginale de $\mathcal A$ est une distribution de student matricielle, centr<74>e en
$\widehat{\mathcal{A}}(\eta)$. Lorsque $\lambda$ augmente, $\widehat{\mathcal{A}}(\eta)$ se rapproche de
$\tilde{\mathcal{A}}(\eta)$, en effet, on <20>tablit facilement que~:
\[
\widehat{\mathcal{A}}(\eta) = (\check Z'\check Z + Z'Z)^{-1}\left(\check Z'\check Z \tilde{\mathcal A}(\eta)+ Z'Z \widehat{\mathcal A}\right)
\]
Ainsi, lorsque le poids du prior augmente, la distribution post<73>rieure du VAR se rapproche de la projection
dans l'espace des VAR du mod<6F>le g<>n<EFBFBD>rateur des donn<6E>es coh<6F>rent avec nos croyances \textit{a priori}.}\newline
\subsection{Le mod<6F>le BVAR-DSGE}
\par{\cite{DelNegroSchorfheide2004} proposent, <20> la suite de \cite{IngramWhiteman1994}, d'utiliser un mod<6F>le
DSGE pour sp<73>cifier le prior d'un mod<6F>le VAR. Contrairement <20> ces derniers, \citeauthor{DelNegroSchorfheide2004}
utilisent les r<>gressions mixtes d<>crites dans la section \ref{sec:bvardsge:theil}, m<>me si en pratique ils ne
simulent pas des donn<6E>es. Afin d'<27>viter que les r<>sultats puissent varier, <20> cause des simulations, ils pr<70>f<EFBFBD>rent
remplacer les moments empiriques dans (\ref{equ:bvardsge:lik:simulateddata}) par des moments th<74>oriques calcul<75>s
<EFBFBD> partir d'une approximation de Taylor d'ordre un de la forme r<>duite (\ref{equ:dsge:sol}) du mod<6F>le DSGE. Par
exemple ils remplacent $\check Y' \check Y$ par la matrice de variance-covariance des endog<6F>nes observ<72>es,
c'est-<2D>-dire une sous matrice de $\Gamma_{yy}(\theta) = \mathbb E \left[(y_t-\mathbb E y_t)'(y_t-\mathbb E y_t)\right]$,
multipli<EFBFBD>e par la taille de l'<27>chantillon artificiel, $[\lambda T]$. Pour tout vecteur de param<61>tres structurels,
$\theta \in \Theta$, la d<>finition du prior du VAR est pratiquement imm<6D>diate, il suffit d'<27>crire la forme r<>duite
du mod<6F>le DSGE et de calculer ses moments asymptotiques. \citeauthor{DelNegroSchorfheide2004} ne se contentent pas
d'estimer les param<61>tres du VAR, ils estiment simultan<61>ment les param<61>tres du mod<6F>le DSGE. Ils sp<73>cifient donc un
prior joint sur les param<61>tres du mod<6F>le VAR et les param<61>tres structurels du mod<6F>le DSGE:
\[
p_0\left(\mathcal A, \Sigma, \theta | \lambda\right) = p_0(\mathcal A, \Sigma | \theta,\lambda)
\times p_0\left(\theta\right)
\]
Le prior est conditionnel au param<61>tre $\lambda$ qui sp<73>cifie la taille de l'<27>chantillon artificiel relativement
<EFBFBD> l'<27>chantillon d'origine, c'est-<2D>-dire la quantit<69> relative d'information structurelle \textit{a priori}. On peut
alors utiliser l'algorithme de Metropolis-Hastings pour obtenir la distribution post<73>rieure de $\theta$ (et
indirectement de $\mathcal A$ et $\Sigma$) en utilisant la densit<69> post<73>rieure du mod<6F>le BVAR sp<73>cifi<66>e par
(\ref{equ:var:mixed:post}). Ici, la vraisemblance du mod<6F>le DSGE n'a pas <20> <20>tre calcul<75>e, ce qui simplifie
consid<EFBFBD>rablement l'estimation puisque le filtre de Kalman n'est plus n<>cessaire. Les param<61>tres du mod<6F>le DSGE
sont identifi<66>s gr<67>ce <20> la vraisemblance, plus exactement la densit<69> post<73>rieure, de son approximation VAR. Le mod<6F>le
VAR joue ici en quelque sorte le m<>me r<>le qu'un mod<6F>le auxiliaire en inf<6E>rence indirecte (voir
\citet{GourierouxMonfortSimulation}).}\newline
\par{L'estimation de $\theta$ (et donc de $\mathcal A$ et $\Sigma$) est conditionnelle aux choix de $p$, le nombre de
retards dans le VAR, et $\lambda$, la quantit<69> relative d'information structurelle \textit{a priori} dans le VAR. Il
convient de choisir un nombre de retard assez grand pour que le mod<6F>le VAR puisse <20>tre une approximation acceptable
du mod<6F>le DSGE. En effet la forme r<>duite (\ref{equ:dsge:sol}) approxim<69>e du mod<6F>le DSGE n'appartient pas <20> la
famille des mod<6F>les VAR, il faudrait un nombre de retard infini pour approximer au mieux le mod<6F>le
DSGE\footnote{Par exemple, \cite{Campbell1994}
<EFBFBD>tablit, en <20>crivant analytiquement la forme r<>duite du mod<6F>le RBC lin<69>aris<69>, que le produit par t<>te est un processus
ARMA(2,1). Ce mod<6F>le pr<70>dit donc que le produit par t<>te est un AR($\infty$) que l'on pourrait approximer avec
un AR($p$) pour un nombre de retards, $p$, assez grand.}. \citeauthor{DelNegroSchorfheide2004} estiment un VAR d<>crivant
l'inflation, le taux d'int<6E>r<EFBFBD>t et le taux de croissance du produit. Ils affirment qu'un VAR(4) permet une approximation
satisfaisante de leur mod<6F>le DSGE. Le choix de $\lambda$ est plus d<>licat, en variant ce param<61>tre de z<>ro <20> l'infini,
on passe d'un prior diffus (l'esp<73>rance post<73>rieure de $\mathcal A$ est alors l'estimateur du MV) <20> un prior tr<74>s
informatif (l'esp<73>rance post<73>rieur de $\mathcal A$ tend vers $\Gamma_{zz}(\theta)^{-1}\Gamma_{yz}(\theta)$ les contraintes
DSGE sur les param<61>tres du mod<6F>le VAR). \citeauthor{DelNegroSchorfheide2004} proposent d'estimer plusieurs mod<6F>les
pour une grille de valeurs de $\lambda$. Ils choisissent alors le mod<6F>le, c'est-<2D>-dire la valeur de $\lambda$, qui
maximise la densit<69> marginale. Ils s<>lectionnent le mod<6F>le dont la qualit<69> d'ajustement est la meilleure.
\cite{DelNegroSchorfheideSmetsWouters2004} utilisent le BVAR-DSGE pour estimer le mod<6F>le de \cite{SmetsWouters2004}, ils
obtiennent $\lambda=0,75$. Ils montrent ainsi que les restrictions apport<72>es par le mod<6F>le de Smets et Wouters
sont utiles pour am<61>liorer les performances du mod<6F>le VAR. Cette proc<6F>dure est relativement compliqu<71>e <20> mettre en
oeuvre. Pour chaque valeur de $\lambda$ il faut s'assurer de la convergence de l'algorithme de Metropolis-Hastings,
afin d'estimer la densit<69> marginale\footnote{On pourrait se contenter de l'estimation du mode post<73>rieur et d'une
approximation de Laplace, mais cette possibilit<69> n'est pas <20>voqu<71>e par \citeauthor{DelNegroSchorfheide2004}.}. Plus
haut nous avons not<6F> l'analogie entre le choix d'un mod<6F>le dans une collection de mod<6F>les et l'estimation d'un
param<EFBFBD>tre dont les valeurs seraient discr<63>tes. Une approche plus directe est d'associer une distribution
\textit{a priori} <20> $\lambda$ puis d'estimer ce param<61>tre (avec les param<61>tres structurelles $\theta$). Il faut alors
d<EFBFBD>finir un prior joint sur $\mathcal A$, $\Sigma$, $\theta$ et $\lambda$~:
\[
p_0(\mathcal,\Sigma,\theta,\lambda) = p_0(\mathcal A, \Sigma | \theta,\lambda)
\times p_0\left(\theta\right) \times p_0(\lambda)
\]
\cite{AdjemianDarracqPariesTwoCountry} estiment une version deux pays du mod<6F>le de \citeauthor{SmetsWouters2004}, avec
le mod<6F>le BVAR-DSGE, en posant un prior uniforme (entre 0 et 10) pour le param<61>tre $\lambda$. Ils obtiennent une
distribution post<73>rieure de $\lambda$ centr<74>e sur $2,5$. Il n'est pas surprenant d'obtenir dans ce cas une valeur de
$\lambda$ largement sup<75>rieure. La version deux pays du mod<6F>le de Smets et Wouters est estim<69>e avec un VAR comprenant
dix-huit variables observables, alors que \citet{DelNegroSchorfheideSmetsWouters2004}, pour la version un pays, ne
consid<EFBFBD>rent que sept variables. Avec dix-huit variables, les restrictions structurelles deviennent plus n<>cessaires, m<>me
si le mod<6F>le n'est pas mieux sp<73>cifi<66>.}
\subsection{Usages et avantages du BVAR-DSGE}
\par{\citet{DelNegroSchorfheide2004} et surtout \citet{DelNegroSchorfheideSmetsWouters2004} pr<70>sentent le mod<6F>le
BVAR-DSGE comme un outil d'<27>valuation de la qualit<69> d'ajustement d'un mod<6F>le DSGE. Pour ces derniers la valeur
de $\lambda$, le poids du prior structurel, donne une id<69>e de l'int<6E>r<EFBFBD>t empirique du mod<6F>le. Si les restrictions
structurelles d<>finies par le mod<6F>le DSGE sont pertinentes, alors la proc<6F>dure s<>lectionne une valeur <20>lev<65>e de
$\lambda$. Si le mod<6F>le apporte des informations totalement incoh<6F>rentes avec les donn<6E>es alors la proc<6F>dure
s<EFBFBD>lectionne une valeur proche de z<>ro. Malheureusement cette mesure n'a pas d'<27>chelle et nous ne savons pas <20>
partir de quelle valeur de $\lambda$ on peut dire que le mod<6F>le apporte des informations pertinentes. Un autre
probl<EFBFBD>me est que ce param<61>tre ne mesure pas la qualit<69> d'ajustement du mod<6F>le DSGE, il nous donne la quantit<69>
optimale, au sens du \textit{fit} du mod<6F>le BVAR, d'information DSGE qu'il faut incorporer dans le prior du VAR.
\citet{DelNegroSchorfheideSmetsWouters2004} utilisent le BVAR-DSGE afin de d<>voiler les <20>ventuelles mauvaises,
sp<EFBFBD>cifications d'un mod<6F>le DSGE. Or le niveau optimal de $\lambda$ ou la densit<69> marginale, $p(\sample)$, du mod<6F>le
DSGE ne sauraient donner une id<69>e pr<70>cise des directions dans lesquels le mod<6F>le est insatisfaisant puisque ces deux
indicateurs donnent des informations trop agr<67>g<EFBFBD>es. Les quatre auteurs recherchent les directions dans lesquels le
mod<EFBFBD>le DSGE est mal sp<73>cifi<66> en comparant les fonctions de r<>ponses (IRF) du mod<6F>le BVAR-DSGE avec celles du mod<6F>le
DSGE. Ils identifient les chocs structurels dans le mod<6F>le BVAR-DSGE en se fondant sur le mod<6F>le DSGE
(\ref{equ:dsge:def}). <20> partir de la forme r<>duite (\ref{equ:dsge:sol}) il est possible de calculer l'impact instantann<6E>
de chaque choc structurel sur les variables observables~:
\[
Z\frac{\partial \mathcal H_{\theta}}{\partial \varepsilon}
\]
o<EFBFBD> $Z$ est une matrice de s<>lection d<>finie dans l'<27>quation de
mesure (\ref{equ:dsge:sol:measure}).
\citeauthor{DelNegroSchorfheide2004} utilisent cette information
pour indentifier les innovations structurelles dans le mod<6F>le BVAR
(se reporter <20> \cite{DelNegroSchorfheide2004} pour les d<>tails).
M<EFBFBD>me si le BVAR-DSGE est construit sur la base (au moins
partiellement) d'une information structurelle provenant du DSGE, ce
mod<EFBFBD>le est moins contraint que le mod<6F>le DSGE. Ainsi, l'observation
d'une diff<66>rence significative entre les IRFs du BVAR-DSGE et celles
du mod<6F>le DSGE conduit \citet{DelNegroSchorfheideSmetsWouters2004} <20>
identifer les directions dans lesquelles le mod<6F>le DSGE est mal
sp<EFBFBD>cifi<EFBFBD>. Par exemple, les quatre auteurs observent que les r<>ponses
du produit, de la consommation et des heures face <20> un choc de
pr<EFBFBD>f<EFBFBD>rence (sur la d<>sutilit<69> du travail) sont plus persistentes
dans le BVAR-DSGE que dans le DSGE. Ils concluent alors que le
mod<EFBFBD>le DSGE manque de m<>canismes de propagation des chocs sur
l'offre de travail. Cet exercice de comparaison entre BVAR-DSGE et
DSGE peut <20>tre mis en oeuvre en utilisant des statistiques autres
que des fonctions de r<>ponse~: d<>compositions de variance des
variables observ<72>es, moments th<74>oriques des variables observ<72>es,...
La limite de l'exercice est que les conditions d'identification des
chocs dans le BVAR sont directement d<>riv<69>es du mod<6F>le DSGE. Si nous
n'observons pas de grandes diff<66>rences entre les IRFs du BVAR-DSGE
et celles du DSGE c'est peut <20>tre parce que nous utilisons les m<>mes
conditions d'identifications. Ce probl<62>me ne se pose pas si on
compare des statistiques qui ne reposent pas sur des conditions
d'identification, par exemple si on compare des moments (variances,
fonction d'autocorr<72>lation,...).}\newline
\par{L'avantage du mod<6F>le BVAR-DSGE est plus <20>vident en termes de pr<70>visions. Tout mod<6F>le est, par nature, mal sp<73>cifi<66>
dans une multitude de directions. Malgr<67> cette limite intrins<6E>que les mod<6F>les apportent souvent des informations
utiles et pertinentes. L'exp<78>rience de \cite{IngramWhiteman1994} est, <20> cet <20>gard, des plus <20>clairantes. Ils montrent
que m<>me le plus stylis<69> des mod<6F>les DSGE (le mod<6F>le de cycle r<>el canonique) est suffisament riche pour aider un
BVAR <20> produire des pr<70>visions plus pr<70>cises et moins biais<69>es. Un mod<6F>le que personne ne voudrait
utiliser pour produire des pr<70>visions peut aider un mod<6F>le a-th<74>orique (plus souple) <20> produire de meilleures
pr<EFBFBD>visions. Cette id<69>e pourrait <20>tre d<>velopp<70>e dans de nombreuses directions. Nous pourrions par exemple utiliser
plusieurs mod<6F>les DSGE pour construire le prior d'un mod<6F>le VAR (ou de tout autre mod<6F>le a-th<74>orique, par exemple
un mod<6F>le <20> facteurs communs) et optimiser les parts de chaque mod<6F>le dans le prior du VAR.}
\end{spacing}
\bibliography{ecoprev3}
%% <20> d<>cocher pour <20>co et prev
%\theendnotes
\appendix
\section{Densit<EFBFBD>s pour le mod<6F>le BVAR}\label{annex:A}
\subsection{Distribution normale matricielle}
\begin{definition}
La matrice $p \times q$ al<61>atoire $\mathbf{X}$ est distribu<62>e
conform<EFBFBD>ment <20> une loi normale matricielle
\[
\mathbf{X} \sim MN_{p,q} (\mathbf{M},\mathbf{Q},\mathbf{P})
\]
o<EFBFBD> $\mathbf{M}$ est une matrice $p \times q$, $\mathbf{Q}$ et
$\mathbf{P}$ sont respectivement des matrices $q\times q $ et $p\times p$
sym<EFBFBD>triques et d<>finies positives, si et seulement si
$vec (\mathbf{X})$ est distribu<62> comme une v.a. normale multivari<72>e
\[
vec (\mathbf{X}) \sim \mathcal{N}_{pq}
(vec(\mathbf{M}),\mathbf{Q}\otimes\mathbf{P})
\]
\end{definition}
\noindent Ainsi, la fonction de densit<69> associ<63>e <20> $\mathbf{X}$ est
donn<EFBFBD>e par~:
\[
\begin{split}
f_{MN_{p,q}}(X;\mathbf{M},\mathbf{P},\mathbf{Q}) =&
(2\pi)^{-\frac{pq}{2}}|\mathbf{Q}|^{-\frac{p}{2}}|\mathbf{P}|^{-\frac{q}{2}}\\&e^{-\frac{1}{2}\trace
\left\{\mathbf{Q}^{-1}(X-\mathbf{M})'\mathbf{P}^{-1}(X-\mathbf{M})\right\}}
\end{split}
\]
\subsection{Distributions de Wishart}
La loi de Wishart est une version multivari<72>e de la loi du $\chi^2$. Soit $\{X_i\}_{i=1}^{\nu}$ une suite de variables al<61>atoires gaussiennes ind<6E>pendantes et identiquement distribu<62>es $\mathcal N(0,Q)$, avec $Q$ une matrice sym<79>trique d<>finie positive $q\times q$. Par d<>finition $Y = \sum_{i=1}^{\nu} X_iX_i'$ est distribu<62> selon une loi de Wishart. Les d<>finitions suivantes caract<63>risent cette loi et la densit<69> de l'inverse d'une v.a. de Wishart.
\begin{definition}
La matrice al<61>atoire, de dimension $q \times q$, sym<79>trique et semi
d<EFBFBD>finie positive $\mathbf{Y}$ est distribu<62>e selon une loi de
Wishart, $\mathbf{Y} \sim \mathcal{W}_q (\mathbf{Q},\nu)$, si et
seulement si sa densit<69> est donn<6E>e par
\[
f(Y;\mathbf{Q},\nu) =
\frac{|\mathbf{Q}|^{-\frac{\nu}{2}}|Y|^{\frac{\nu-q-1}{2}}}{2^{\frac{\nu
q}{2}}\pi^{\frac{q(q-1)}{4}}\prod_{i=1}^q \Gamma
\left(\frac{\nu+1-i}{2}\right)}e^{-\frac{1}{2}\trace
\left\{Y\mathbf{Q}^{-1}\right\}}
\]
pour $\mathbf{Q}$ une matrice sym<79>trique semie d<>finie positive, et
$\nu \leq q$ le degr<67> de libert<72>.
\end{definition}
\begin{definition}
Une matrice al<61>atoire, de dimension $q \times q$, $\mathbf{X}$ est
distribu<EFBFBD>e selon une loi inverse Wishart,
\[
\mathbf{X} \sim i\mathcal{W}_q (\mathbf{Q},\nu)
\]
si et seulement si $\mathbf{X}^{-1} \sim \mathcal{W}_q
(\mathbf{Q}^{-1},\nu)$.
\end{definition}
\noindent Ainsi la fonction de densit<69> associ<63>e <20> $\mathbf{X}$ est
d<EFBFBD>finie par~:
\[
f_{i\mathcal{W}_{q}}(X;\mathbf{Q},\nu) =
\frac{|\mathbf{Q}|^{\frac{\nu}{2}}|X|^{-\frac{\nu+q+1}{2}}}{2^{\frac{\nu
q}{2}}\pi^{\frac{q(q-1)}{4}}\prod_{i=1}^q \Gamma
\left(\frac{\nu+1-i}{2}\right)}e^{-\frac{1}{2}\trace
\left\{X^{-1}\mathbf{Q}\right\}}
\]
\end{document}