stephane-adjemian.fr/assets/papers/malgrange/EcoPrev2007Bayes/article_sans_equations.txt

1336 lines
96 KiB
Plaintext
Raw Normal View History

2020-08-28 14:05:05 +02:00
Un regard Bay<61>sien sur les Mod<6F>les Dynamiques de la Macro<72>conomie
St<EFBFBD>phane Adjemian\note{stephane.adjemian@ens.fr}
Universit<EFBFBD> du Maine, GAINS et CEPREMAP
Florian Pelgrin\note{florian.pelgrin@unil.ch}
Universit<EFBFBD> de Lausanne - HEC, IEMS et CIRANO
3 d<>cembre 2007
R<EFBFBD>sum<EFBFBD>
L'objet de cette contribution est de pr<70>senter l'approche bay<61>sienne des mod<6F>les dynamiques les plus
consid<EFBFBD>r<EFBFBD>s en macro<72>conomie : les mod<6F>les DSGE (Dynamic Stochastic General Equilibrium) et les mod<6F>les
VAR.
Classification JEL : C3, C5, E3
Mots-Clefs : <20>conom<6F>trie Bay<61>sienne, Mod<6F>les VAR, Mod<6F>les DSGE.
1 Introduction
Ces derni<6E>res ann<6E>es, l'analyse des fluctuations <20>conomiques s'est
d<EFBFBD>velopp<EFBFBD>e autour des Mod<6F>les d'<27>quilibre G<>n<EFBFBD>ral Inter-temporels
Stochastiques (DSGE). Pour au-
tant, jusqu'<27> tr<74>s r<>cemment, l'engouement pour l'approche DSGE comme
outil d'analyse de la politique <20>conomique est demeure relativement
faible, et l'approche des mod<6F>les Vectoriels Auto-r<>gressif (VAR) a <20>t<EFBFBD>
(est) souvent privil<69>gi<67>e. Plusieurs raisons expliquent cette
pr<EFBFBD>f<EFBFBD>rence. D'une part, la mod<6F>lisation VAR de la dynamique des
variables macro-<2D>conomiques impose un nombre tr<74>s restreint de
contraintes et offre une qualit<69> d'ajustement aux donn<6E>es (et des
pr<EFBFBD>visions) relativement bonne. Au contraire, en augmentant le nombre
de contraintes sur les donn<6E>es, encourant ainsi le risque d'une
mauvaise sp<73>cification, les mod<6F>les DSGE de la premi<6D>re g<>n<EFBFBD>ration
(les mod<6F>les de la th<74>orie des cycles r<>els) se sont traduits par des
performances d'ajustement et de pr<70>visions tr<74>s pauvres. D'autre part,
l'<27>mergence d'une approche plus structurelle des mod<6F>les VAR (par
rapport <20> l'approche a-th<74>orique, Sims (1980)) -- autorisant des
proc<EFBFBD>dures d'identification des chocs <20> partir de restrictions
contemporaines, de court terme (Sims (1986) ; Bernanke (1986)) ou de
long terme (Blanchard et Quah (1986)) -- ont conduit <20> exiger que tout
mod<EFBFBD>le th<74>orique puisse reproduire les fonctions de r<>ponse des
variables macro-<2D>conomiques <20> des chocs structurels identifi<66>s dans
les mod<6F>les VAR (Rotemberg et Woodford (1997), Christiano et
al. (2003)). Finalement, l'absence d'un traitement <20>conom<6F>trique
convaincant n'a fait que renforcer la recommandation de Kydland et
Prescott (1982) -- l'<27>talonnage est pr<70>f<EFBFBD>rable.
Cependant, on a constat<61> un regain d'int<6E>r<EFBFBD>t des mod<6F>les DSGE et cela
essentiellement pour deux raisons : (i) les avanc<6E>es th<74>oriques et
notamment la prise en compte de fondements micro-<2D>conomiques des
rigidit<EFBFBD>s nominales et/ou r<>elles (ii) les progr<67>s dans l'estimation
et l'<27>valuation des mod<6F>les sur la base de m<>thodes statistiques
formelles\note{1}. Dans cette perspective, l'id<69>e suivant laquelle de
tels mod<6F>les sont utiles pour la pr<70>- vision et l'analyse de la
politique <20>conomique s'est r<>pandue dans le milieu acad<61>mique ainsi
qu'aupr<70>s des institutions internationales et des banques
centrales. Parmi toutes ces approches <20>conom<6F>triques, la litt<74>rature
privil<EFBFBD>gie, pour de << bonnes >> et << mauvaises >> raisons, la
statistique bay<61>sienne. Parmi les << bonnes >> rai- sons, nous
pourrions souligner le fait que la fonction de vraisemblance d'un
mod<EFBFBD>le de dimension <20>lev<65>e (de nombreux param<61>tres <20> estimer) est
souvent << plate >> dans certaines directions. En d'autres termes, les
donn<EFBFBD>es peuvent <20>tre insuffisamment informatives pour identifier (avec
pr<EFBFBD>cision) les param<61>tres. En d<>formant la fonction de vraisemblance <20>
l'aide d'informations a priori sur les param<61>tres, c'est-<2D>-dire en
privil<EFBFBD>giant une approche bay<61>sienne, l'identification devient
possible. Il est n<>anmoins trop souvent ignor<6F> que la mise en oeuvre
et l'interpr<70>tation des r<>sultats de l'estimation bay<61>sienne
requi<EFBFBD>rent un certain nombre d'hypoth<74>ses et de conditions de
validit<EFBFBD>, ou que nombre de probl<62>mes rencontr<74>s en <20>conom<6F>trie
classique ont leur contrepartie en <20>conom<6F>trie bay<61>sienne. Toujours
est-il que l'approche bay<61>sienne a consid<69>rablement favoris<69> le
d<EFBFBD>veloppement des mod<6F>les DSGE comme outil d'analyse et de pr<70>vision
de la politique mon<6F>taire. Dans le m<>me temps, il n'en demeure pas
moins que les mod<6F>les DSGE et VAR continuent <20> <20>tre oppos<6F>s et que
nombre de papiers cherchent g<>n<EFBFBD>ralement <20> l<>gitimer leurs r<>sultats
en comparant, par exemple, les pr<70>visions (ou tout autre statistique
ou quantit<69> d'int<6E>r<EFBFBD>t) de leur(s) mod<6F>le(s) avec ceux d'un VAR (Smets
et Wouters (2002)).
L'objet de ce papier est de pr<70>senter l'approche bay<61>sienne des
mod<EFBFBD>les VAR et DSGE en mettant en avant les principaux concepts, leur
mise en oeuvre pratique et les limites sous-jacentes. Nous montrons en
quoi les mod<6F>les DSGE et VAR sont des outils compl<70>mentaires que l'on
ne doit pas n<>cessairement chercher <20> opposer. Nous n'abordons pas ici
certains probl<62>mes importants, comme l'estimation non lin<69>aire des
mod<EFBFBD>les DSGE\note{2}.
L'article est organis<69> comme suit. Dans une premi<6D>re section, nous pr<70>sentons les principaux concepts de
l'analyse bay<61>sienne et montrons comment les appliquer dans le cadre des mod<6F>les VAR. Une attention par-
ticuli<EFBFBD>re est attach<63>e <20> la nature (informative, non informative, empirique) des croyances a priori. Dans une
deuxi<EFBFBD>me section, nous abordons les sp<73>cificit<69>s de l'approche bay<61>sienne des mod<6F>les DSGE. Contrairement
aux mod<6F>les VAR, il n'est plus possible d'obtenir une expression analytique de la distribution a posteriori.
Pour rem<65>dier <20> cette difficult<6C>, il est n<>cessaire de recourir <20> des m<>thodes de Monte-Carlo et notamment
<EFBFBD> la th<74>orie des cha<68>nes de Markov. Dans cette perspective, apr<70>s avoir d<>riv<69> de mani<6E>re g<>n<EFBFBD>rale la
densit<EFBFBD> a posteriori d'un mod<6F>le DSGE, nous expliquons les principaux algorithmes d'estimation (algorithme
de Metropolis-Hasting, par fonction d'importance). Dans une troisi<73>me section, nous illustrons comment
peuvent se combiner les approches VAR et DSGE.
2 L'approche Bay<61>sienne
2.1 G<>n<EFBFBD>ralit<69>s
L'approche bay<61>sienne propose un cadre rigoureux pour (i) formaliser nos croyances\note{3} a priori et (ii)
d<EFBFBD>terminer comment celles-ci doivent <20>tre mises <20> jour une fois que les donn<6E>es sont observ<72>es. Les croyances,
a priori ou a posteriori, sont repr<70>sent<6E>es <20> l'aide d'une densit<69> de probabilit<69> jointe sur les param<61>tres d'un
mod<EFBFBD>le. Cette densit<69> jointe caract<63>rise l'incertitude quant au processus g<>n<EFBFBD>rateur des donn<6E>es (DGP, pour
Data Generating Process), en d<>crivant une famille (un continuum) de mod<6F>les.
Imaginons que nous souhaitions caract<63>riser nos croyances sur le param<61>tre de Calvo d'une courbe de
Phillips. Ce param<61>tre, $$ , est la probabilit<69> pour une firme, en concurrence monopolistique, de ne pas pou-
voir ajuster son prix de fa<66>on optimale <20> une date quelconque. Ainsi, nous savons d<>j<EFBFBD> que ce param<61>tre doit
appartenir <20> l'intervalle $$. Nous pourrions donc utiliser une distribution b<>ta\note{4} d<>finie sur cet intervalle.
A partir de la probabilit<69> $$ , nous pouvons d<>finir le temps moyen pendant lequel une firme ne pourra pas
ajuster son prix de fa<66>on optimale : $$. Si par ailleurs, <20> l'aide d'enqu<71>tes micro-<2D>conomiques, nous
savons que le temps moyen durant lequel une firme ne r<>ajuste pas son prix de fa<66>on << optimale >> est de
quatre trimestres, nous pouvons d<>duire qu'une valeur pertinente de la probabilit<69> $$ est trois quarts.
L'<27>conomiste bay<61>sien pourra donc formaliser son a priori sur le param<61>tre $$ en s<>lectionnant une distribution
b<EFBFBD>ta ayant pour mode $$ et en sp<73>cifiant une variance mesurant son incertitude sur le param<61>tre d'int<6E>r<EFBFBD>t. Il
choisira une variance d'autant plus grande qu'il est incertain des <20>valuations micro-<2D>conomiques dont il dis-
pose\note{5}. Notons qu'il pourrait directement poser son a priori sur le d<>lai moyen d'attente avant qu'il
ne puisse optimalement ajuster son prix, $$; ceci r<>sultera en une distribution diff<66>rente pour le param<61>tre $$.
Si $$ est le seul param<61>tre du mod<6F>le pour lequel nous sommes incertain, ie si les autres param<61>tres ont des variances
a priori nulles, la densit<69> a priori sur ce param<61>tre d<>crit une famille de DGP, index<65>e par $$ : chaque valeur
possible de $$ correspond <20> un DGP.
Plus g<>n<EFBFBD>ralement, nous noterons l'a priori sur un vecteur de param<61>tres $$ associ<63> <20> un mod<6F>le param<61>-
trique $$, $$ ,de la fa<66>on suivante :
<DISPLAY EQUATION (1)>
Cette densit<69> jointe d<>finit notre incertitude quant aux param<61>tres $$ avant que nous ayons port<72> attention
aux donn<6E>es. Il convient de noter que nous raisonnons conditionnellement <20> un mod<6F>le. En toute g<>n<EFBFBD>ralit<69>
l'incertitude pourrait aussi porter sur la forme du mod<6F>le param<61>trique $$. Plus loin nous omettrons
g<EFBFBD>n<EFBFBD>ralement le conditionnement (ainsi que l'indexation) par le mod<6F>le pour simplifier les notations.
Nous observons un <20>chantillon $$ o<> $$ est un vecteur de m variables. Nous nous limiterons
au cas o<> l'indice t repr<70>sente le temps. La vraisemblance est la densit<69> de l'<27>chantillon conditionnellement
au mod<6F>le et ses param<61>tres ; on notera :
<DISPLAY EQUATION (2)>
L'estimateur du maximum de vraisemblance (MV) des param<61>tres $$ d'un mod<6F>le $$ est la valeur des pa-
ram<EFBFBD>tres qui rend le plus << probable >> l'occurrence de l'<27>chantillon <20> notre disposition. Autrement dit, l'es-
timateur du MV s<>lectionne le param<61>tre $$ d<>finissant le DGP qui a le plus probablement g<>n<EFBFBD>r<EFBFBD> les don-
n<EFBFBD>es. La d<>marche statistique, classique ou bay<61>sienne, est une d<>marche d'inversion -- il s'agit de remonter
des observations aux param<61>tres du DGP. Un mod<6F>le (la vraisemblance) d<>finit la densit<69> d'un ensemble de
variables conditionnellement <20> des param<61>tres inconnus. L'observation de l'<27>chantillon donne en retour de
l'information sur les param<61>tres. La notation d<>finie par l'<27>quation (2) r<>sume le principe de l'inf<6E>rence ; la
vraisemblance est la densit<69> de l'<27>chantillon $$ sachant les param<61>tres $$ mais nous <20>crivons habituellement
la vraisemblance comme une fonction des param<61>tres, ie. formellement nous <20>changeons les r<>les de $$ et $$.
Nous disposons des densit<69>s $$, qui caract<63>rise l'information postul<75>e a priori, et $$, qui
caract<EFBFBD>rise l'information amen<65>e par les donn<6E>es. On croise ces deux sources d'informations orthogonales, en
utilisant le th<74>or<6F>me de Bayes, pour obtenir la densit<69> de $$ sachant les donn<6E>es $$, ie la densit<69> post<73>rieure :
<DISPLAY EQUATION (3)>
avec
<DISPLAY EQUATION (4)>
la densit<69> marginale. Ainsi, la densit<69> post<73>rieure est proportionnelle <20> la densit<69> a priori multipli<6C>e par la
vraisemblance :
<DISPLAY EQUATION ()>
Puisque le d<>nominateur dans (3), la densit<69> marginale, ne d<>pend pas de $$, l'inf<6E>rence sur les param<61>tres,
par exemple l'<27>valuation de l'esp<73>rance post<73>rieure, peut <20>tre mise en oeuvre <20> l'aide du seul noyau post<73>-
rieur, $$. On repr<70>sente nos croyances a posteriori en exhibant les propri<72>t<EFBFBD>s de la distribution a
posteriori. Nous pouvons repr<70>senter graphiquement la densit<69> post<73>rieure marginale de chaque param<61>tre $$,
construire des intervalles contenant $$ de la distribution post<73>rieure, ou encore calculer des moments a pos-
teriori. Par exemple, la comparaison des variances a priori et a posteriori peut nous renseigner sur l'information
apport<EFBFBD>e par les donn<6E>es, relativement <20> celle contenue dans nos croyances a priori. Les variances de chaque
param<EFBFBD>tre sont d<>finies <20> partir des <20>l<EFBFBD>ments diagonaux des matrices suivantes :
<DISPLAY EQUATION ()>
et
<DISPLAY EQUATION ()>
Si la variance post<73>rieure d'un param<61>tre est plus faible que sa variance a priori cela signifie que les donn<6E>es
apportent une information suppl<70>mentaire sur ce param<61>tre, relativement <20> l'information a priori. Dans cer-
tains cas, il est possible d'obtenir analytiquement la densit<69> post<73>rieure et ses moments\note{6} ; nous verrons un
exemple dans la section suivante. Plus g<>n<EFBFBD>ralement, il est n<>cessaire de recourir <20> des algorithmes num<75>riques,
pour caract<63>riser la distribution post<73>rieure, ie pour <20>valuer les int<6E>grales n<>cessaires au calcul des
moments.
Pour communiquer nos croyances a posteriori on d<>sire souvent recourir <20> un m<>dia plus synth<74>tique en
r<EFBFBD>sumant, <20> l'image de l'approche classique, la distribution post<73>rieure par un point. On parle alors
d'estimation ponctuelle. R<>duire la distribution post<73>rieure <20> un point s'apparente <20> un choix en univers incertain. Il
est donc naturel de construire une estimation ponctuelle en minimisant l'esp<73>rance post<73>rieure d'une fonction
de perte :
<DISPLAY EQUATION (5)>
o<EFBFBD> $$ est une fonction associant une perte au choix $$ si la vraie valeur du param<61>tre est $$. Si, par exemple,
la fonction de perte est quadratique\note{7} :
<DISPLAY EQUATION ()>
alors on montre (Zellner , 1971 , page 24) que l'estimation ponctuelle doit <20>tre l'esp<73>rance post<73>rieure de $$.
D'autres fonctions de perte aboutiront <20> d'autres estimations ponctuelles. La m<>diane post<73>rieure peut <20>tre
rationalis<EFBFBD>e en consid<69>rant la fonction de perte $$ ; plus g<>n<EFBFBD>ralement on peut exhiber une fonction de perte
pour justifier l'utilisation de chaque quantile de la distribution comme une estimation ponctuelle.
Tant que l'inf<6E>rence porte sur les param<61>tres d'un mod<6F>le, nous pouvons mettre de c<>t<EFBFBD> la constante d'int<6E>gration,
$$. Cependant, la densit<69> marginale contient une information pertinente si nous d<>sirons
comparer diff<66>rents mod<6F>les. En effet, celle-ci nous renseigne sur la densit<69> de l'<27>chantillon conditionnelle-
ment au mod<6F>le. L'interpr<70>tation de sa d<>finition (4) est directe : la densit<69> marginale est une moyenne des
vraisemblances, obtenues pour diff<66>rentes valeurs des param<61>tres, pond<6E>r<EFBFBD>es par nos croyances a priori sur
les valeurs de ces param<61>tres. Comme cette quantit<69> ne d<>pend pas des param<61>tres, puisque nous avons int<6E>-
gr<EFBFBD> le noyau post<73>rieur par rapport aux param<61>tres pour l'obtenir, elle autorise facilement la comparaison de
mod<EFBFBD>les non embo<62>t<EFBFBD>s\note{8}. Par exemple, si nous disposons de deux mod<6F>les alternatifs, $$ et $$, pour expliquer
les donn<6E>es et si nous obtenons $$, alors cela signifie que les donn<6E>es <20> notre disposition ont
plus probablement <20>t<EFBFBD> g<>n<EFBFBD>r<EFBFBD>es par le mod<6F>le $$ que par le mod<6F>le $$. Cette approche ne fournit pas un test
formel, pour prendre une d<>cision il faut sp<73>cifier un crit<69>re de perte\note{9}. Ici, nous supposons implicitement que
nous n'avons pas de << pr<70>f<EFBFBD>rence >> a priori pour un des deux mod<6F>les. En toute g<>n<EFBFBD>ralit<69> nous pourrions
d<EFBFBD>finir une densit<69> de probabilit<69> (discr<63>te) a priori pour les mod<6F>les $$. Par exemple, nous pourrions
supposer que $$ a priori. Par le th<74>or<6F>me de Bayes, nous obtenons la probabilit<69> a posteriori du
mod<EFBFBD>le $$ :
<DISPLAY EQUATION ()>
L'interpr<70>tation est directe, il s'agit d'une version discr<63>te des <20>quations (3) et (6). Si nous devons s<>lectionner
un mod<6F>le, notre pr<70>f<EFBFBD>rence ira au mod<6F>le qui maximise la densit<69> post<73>rieure. L'<27>licitation d'une densit<69> de
probabilit<EFBFBD> a priori sur la collection de mod<6F>les n'est pas une chose ais<69>e ; on ne peut associer une probabilit<69> <20>
un mod<6F>le de la m<>me fa<66>on que l'on pose une densit<69> a priori sur le param<61>tre de Calvo d'une courbe de Phil-
lips. C'est pourquoi une densit<69> de probabilit<69> uniforme est souvent utilis<69>e dans la litt<74>rature concern<72>e par
l'estimation des mod<6F>les DSGE. Pour une revue des enjeux de la comparaison de mod<6F>les, on peut lire Robert
(2006 , chapitre 7) ou Sims (2003). Enfin, notons que la comparaison de diff<66>rents mod<6F>les, par l'interm<72>diaire
de leurs densit<69>s marginales, ne doit pas n<>cessairement aboutir <20> un choix. Dans certaines situations, il peut
<EFBFBD>tre souhaitable de combiner plusieurs mod<6F>les, en les pond<6E>rant par leurs densit<69>s marginales respectives\note{10}.
Apr<EFBFBD>s l'estimation, le mod<6F>le peut <20>tre utilis<69> pour construire des pr<70>visions et des fonctions de r<>ponse.
<EFBFBD> l'image de l'estimation des param<61>tres, le paradigme bay<61>sien ne fournit pas en premier lieu des pr<70>visions
ponctuelles mais des densit<69>s pr<70>dictives. Supposons que nous souhaitions <20>tablir des pr<70>dictions sur $$,
un vecteur d'endog<6F>nes non encore observ<72>es, le but est de construire la densit<69> (pr<70>dictive) de ce vecteur.
Cette densit<69> peut <20>tre obtenue en int<6E>grant par rapport <20> $$ la densit<69> post<73>rieure jointe de $$ et $$ :
<DISPLAY EQUATION ()>
o<EFBFBD> la densit<69> sous l'int<6E>grale est d<>finie par :
<DISPLAY EQUATION ()>
par le th<74>or<6F>me de Bayes. La densit<69> jointe de $$ et $$ est le produit de la densit<69> post<73>rieure de $$ et de la
densit<EFBFBD> de $$ conditionnelle <20> $$. Cette derni<6E>re densit<69> est directement obtenue <20> partir de la d<>finition du
mod<EFBFBD>le. Donnons un exemple dans le cas scalaire. Si le mod<6F>le est un processus auto-r<>gressif d'ordre un : $$
avec $$, $$ et $$, la variance de l'innovation, connue. La distribution de $$ conditionnellement <20> $$ et $$\note{11}
est gaussienne : $$. La densit<69> pr<70>dictive s'<27>crit finalement :
<DISPLAY EQUATION (6)>
et s'interpr<70>te comme une moyenne des densit<69>s conditionnelles de $$ sachant $$, pond<6E>r<EFBFBD>es par la densit<69>
post<EFBFBD>rieure de $$. <20> partir de cette densit<69> pr<70>dictive, on peut construire une pr<70>diction ponctuelle des
variables en se donnant une fonction de perte, repr<70>senter un intervalle contenant $$ de la distribution
de $$, ou encore repr<70>senter la densit<69> pr<70>dictive (marginale) de chaque variable composant le vecteur des
observables. En confrontant la densit<69> pr<70>dictive aux r<>alisations effectives des variables, on peut alors
<EFBFBD>valuer dans quelle mesure notre mod<6F>le tend <20> sur-estimer ou sous-estimer, par exemple, le taux de
croissance <20> un trimestre du PIB par t<>te. Cette comparaison peut fournir un crit<69>re d'<27>valuation du mod<6F>le.
Si on se rend compte que les r<>alisations effectives d'une variable se situent syst<73>matiquement dans les
queues de la densit<69> pr<70>dictive, alors on peut conclure que le mod<6F>le est mal sp<73>cifi<66> vis-<2D>-vis de cette variable.
2.2 Le choix des croyances a priori
On comprend d<>j<EFBFBD> que le choix des croyances a priori est essentiel, dans la mesure o<> il d<>termine par-
tiellement les r<>sultats (surtout pour un <20>chantillon de taille r<>duite comme nous le verrons par la suite). La
subjectivit<EFBFBD> de d'<27>conom<6F>trie ne peut intervenir que dans la premi<6D>re <20>tape d'<27>licitation de l'a priori, les <20>tapes
(l'<27>valuation de la vraisemblance,...) suivantes sont automatiques et n<>cessairement objectives. La question
du choix des croyances a priori est donc crucial, d'autant plus qu'il s'agit du point qui engendre le plus de
m<EFBFBD>fiance parmi les <20>conomistes, de formation -- tr<74>s g<>n<EFBFBD>ralement -- classique. Il est donc important de bien
comprendre le r<>le de la densit<69> a priori dans les r<>sultats, par exemple en menant des exercices de sensibi-
lit<EFBFBD> aux croyances a priori. Ces exp<78>riences, en donnant une id<69>e du r<>le des priors, d<>voilent implicitement
la forme de la vraisemblance. L'exp<78>rience la plus extr<74>me\note{12} est de consid<69>rer un a priori non informatif,
c'est-<2D>-dire le cas o<> nous n'avons aucune croyance a priori sur la param<61>trisation du mod<6F>le. De fa<66>on assez
surprenante, les statisticiens bay<61>siens ne parviennent pas <20> s'accorder sur une chose aussi essentielle que la
caract<EFBFBD>risation du non savoir.
Dans la section 2.1 nous avons examin<69> le cas d'un a priori informatif sur le param<61>tre de Calvo d<>finis-
sant le degr<67> de rigidit<69> de l'inflation. Dans ce cas notre connaissance a priori provient de l'observation de
donn<EFBFBD>es micro-<2D>conomiques, diff<66>rentes de celles utilis<69>es pour l'estimation du mod<6F>le. Lorsque l'informa-
tion a priori est bas<61>e sur des donn<6E>es, celles-ci doivent <20>tre diff<66>rentes des donn<6E>es utilis<69>es pour identifier
le mod<6F>le. Dans le cas contraire la d<>marcation entre vraisemblance et densit<69> a priori devient plus ambigu<67>,
ce qui para<72>t inacceptable pour de nombreux statisticiens. Notons n<>anmoins que de non moins nombreux
statisticiens utilisent l'<27>chantillon pour d<>finir les croyances a priori. Par exemple quand il s'agit de sp<73>cifier
la densit<69> a priori de fa<66>on <20> optimiser les capacit<69>s pr<70>dictives d'un mod<6F>le (voir plus loin la section 2.4.3).
Les croyances a priori peuvent aussi <20>tre bas<61>es sur des consid<69>rations purement th<74>oriques (voir la section
4). Dans la litt<74>rature concern<72>e par l'estimation des mod<6F>les DSGE (et aussi des VAR), les croyances a priori,
ind<EFBFBD>pendamment de l'origine de ces croyances, sont g<>n<EFBFBD>ralement repr<70>sent<6E>es par des densit<69>s param<61>tr<74>es
(distribution gaussienne, gamma,...). Dans certains cas, on parle alors d'a priori conjugu<67>s, elles sont choisies
de fa<66>on que la densit<69> a posteriori soit de la m<>me famille param<61>trique (voir l'exemple du mod<6F>le VAR
plus loin). La motivation est essentiellement technique, l'utilisation de formulations conjugu<67>es ou plus g<>-
n<EFBFBD>ralement param<61>tr<74>es des a priori est un h<>ritage du pass<73>. Aujourd'hui, la technologie ne nous emp<6D>che
pas d'adopter une formulation non param<61>trique plus g<>n<EFBFBD>rale. Par exemple nous pourrions caract<63>riser nos
croyances a priori sur chaque param<61>tre en sp<73>cifiant les quantiles de chaque distribution. Il est vrai que nos
croyances sont rarement aussi pr<70>cises.
Dans certaines situations nos connaissances a priori sont faibles ou nous d<>sirons faire comme si c'<27>tait le
cas (par exemple pour <20>valuer la sensibilit<69> des r<>sultats aux a priori). Malheureusement la caract<63>risation de
l'ignorance est toujours sujet <20> d<>bat. Un exemple frappant est donn<6E> par Sims et Uhlig (1991) puis Phillips
(1991a), Phillips (1991b) et Sims (1991), qui d<>batent de la caract<63>risation de l'ignorance dans un mod<6F>le
autor<EFBFBD>gressif d'ordre un et des cons<6E>quences sur la d<>tection de racines unitaires.
Une premi<6D>re approche est de consid<69>rer un prior plat. Pour un param<61>tre $$ qui peut prendre des valeurs
entre $$ et $$, Jeffrey (1961) propose d'adopter une distribution uniforme entre $$ et $$ :
<DISPLAY EQUATION ()>
<EFBFBD>videmment cette densit<69> est impropre dans le sens o<> $$ est ind<6E>fini. Mais c'est pr<70>cis<69>ment cette
propri<EFBFBD>t<EFBFBD> qui, pour Jeffrey , rend ce prior non informatif. En effet, pour tout $$ on ne peut pas dire
que $$ soit a priori plus probable que $$, puisque les probabilit<69>s de ces <20>v<EFBFBD>nements sont nulles.
Pour un param<61>tre $$, par exemple un <20>cart-type, qui peut prendre des valeurs entre 0 et 1, Jeffrey propose
d'adopter une distribution uniforme pour le logarithme de $$ entre $$ et $$ :
<DISPLAY EQUATION ()>
<DISPLAY EQUATION ()>
Comme dans le cas pr<70>c<EFBFBD>dent l'int<6E>grale de cette densit<69> est impropre. En particulier, on ne peut d<>finir
$$ et $$, nous ne pouvons dire s'il est plus probable que $$ soit sup<75>rieur ou inf<6E>rieur $$\note{13}.
On note en passant que cette densit<69> a l'heureuse propri<72>t<EFBFBD> d'<27>tre invariante <20> une transformation puissance\note{14},
si le prior est non informatif sur l'<27>cart type, il en va de m<>me pour la variance ($$).
Plus tard, Jeffrey g<>n<EFBFBD>ralisa ce r<>sultat d'invariance et proposa un prior non informatif (le plus souvent im-
propre) plus g<>n<EFBFBD>ral bas<61> sur la matrice d'information de Fisher :
<DISPLAY EQUATION ()>
avec
<DISPLAY EQUATION ()>
La matrice d'information de Fisher quantifie l'information amen<65>e par le mod<6F>le et les donn<6E>es sur le para-
m<EFBFBD>tre $$. En favorisant les valeurs de $$ pour lesquelles l'information de Fisher est plus grande, on diminue
l'influence de la loi a priori puisque l'information v<>hicul<75>e par celle-ci est peu diff<66>rente de l'information pro-
venant de la vraisemblance. La d<>finition de la densit<69> a priori est donc li<6C>e <20> la courbure de la vraisemblance.
Cette densit<69> a priori est invariante <20> toute reparam<61>trisation (continue) du mod<6F>le (voir Zellner (1971, annexe
du chapitre 2) pour une description plus d<>taill<6C>e des propri<72>t<EFBFBD>s d'invariance).
L'utilisation d'un prior plat ou d'un prior d<>riv<69> de la matrice d'information de Fisher pour caract<63>riser
l'absence d'information affecte g<>n<EFBFBD>ralement l'inf<6E>rence. Par exemple, dans un mod<6F>le AR(1), voir Phillips
(1991a), un prior bas<61> sur l'information de Fisher n'est pas <20>quivalent <20> un prior uniforme (plat). En effet,
dans un mod<6F>le dynamique, la quantit<69> d'information v<>hicul<75>e par les donn<6E>es (ie la vraisemblance) d<>pend
de la valeur du param<61>tre autor<6F>gressif ($$). Si le param<61>tre est proche de l'unit<69>, voire <20>gal ou sup<75>rieur <20>
un, les donn<6E>es sont plus informatives. Ainsi, pour Phillips , l'utilisation d'un prior plat, <20> l'instar de Zellner
(1971) ou Sims et Uhlig (1991), biaise la distribution post<73>rieure de $$ en faveur de la stationnarit<69>. En donnant
autant de poids aux valeurs explosives de $$ qu'aux valeurs stationnaires, le prior plat ne prend pas en compte
le fait que des donn<6E>es g<>n<EFBFBD>r<EFBFBD>es par un mod<6F>le <20> racine unitaire ou explosif sont plus informatives. Il existe
d'autres approches pour caract<63>riser l'ignorance, on peut lire le chapitre 3 de Robert (2006) et plus sp<73>ciale-
ment la section 5.
Le choix d'une densit<69> a priori et ses cons<6E>quences sur l'inf<6E>rence sont l'objet de toutes les critiques de
la part des statisticiens ou <20>conomistes classiques. Il ne faudrait pourtant pas oublier que le paradigme clas-
sique n'est pas plus exempt de choix aux cons<6E>quences non n<>gligeables sur l'inf<6E>rence. Par exemple, le choix
d'une m<>trique (minimiser la somme des carr<72>s des r<>sidus ou la somme des valeurs absolues des r<>sidus), le
choix des variables instrumentales, mod<6F>les auxiliaires ou des conditions de moments, sont rarement discut<75>s
m<EFBFBD>me s'ils d<>terminent les r<>sultats. Dans une certaine mesure, nous n'avons m<>me plus conscience des choix
effectu<EFBFBD>s. L'approche bay<61>sienne est de ce point de vu bien plus transparente.
2.3 Comportement asymptotique et approximations
M<EFBFBD>me si l'approche bay<61>sienne ne repose pas sur des arguments asymptotiques, comme g<>n<EFBFBD>ralement
l'approche classique, il est utile de s'interroger sur le comportement asymptotique de ses estimateurs. Le
r<EFBFBD>sultat rassurant est que si les conditions de normalit<69> asymptotique de l'estimateur du maximum de vrai-
semblance sont r<>unies\note{15}, alors la distribution post<73>rieure tend vers une gaussienne multivari<72>e. Asymptoti-
quement, la distribution post<73>rieure est centr<74>e sur l'estimateur du maximum de vraisemblance. Ce r<>sultat,
avanc<EFBFBD> par Laplace, est intuitif puisque lorsque la taille de l'<27>chantillon tend vers l'infini, le poids de l'infor-
mation a priori relativement <20> l'information contenue dans l'<27>chantillon devient marginal.
Plus formellement, si on note $$ l'unique mode de la distribution post<73>rieure obtenu en maximisant le
noyau post<73>rieur $$, et s'il est possible d'<27>crire une approximation de Taylor <20> l'ordre deux
du noyau post<73>rieur autour de $$, alors nous avons :
<DISPLAY EQUATION ()>
Puisque les d<>riv<69>es premi<6D>res sont, par d<>finition, nulles en $$, nous avons de fa<66>on <20>quivalente :
<DISPLAY EQUATION ()>
o<EFBFBD> $$ est l'oppos<6F> de l'inverse de la matrice hessienne <20>valu<6C>e au mode. Ainsi, en ne consid<69>rant que le
terme quadratique, le noyau post<73>rieur peut <20>tre approxim<69> par :
<DISPLAY EQUATION ()>
on reconna<6E>t, <20> une constante d'int<6E>gration pr<70>s\note{16} la densit<69> d'une loi normale multivari<72>e. En compl<70>tant
pour la constante d'int<6E>gration, nous obtenons finalement une approximation de la densit<69> post<73>rieure $$
<DISPLAY EQUATION (7)>
G<EFBFBD>n<EFBFBD>ralement, la matrice hessienne est d'ordre $$, lorsque la taille de l'<27>chantillon augmente la distribu-
tion post<73>rieure se concentre autour du mode. <20> partir de cette approximation asymptotique on peut alors
tr<EFBFBD>s facilement calculer, par exemple, des moments post<73>rieurs ou approximer les densit<69>s pr<70>dictives. Par
exemple, l'esp<73>rance post<73>rieure de $$ est d<>finie par :
<DISPLAY EQUATION ()>
Tierney et Kadane (1986) montrent que si l'on approxime <20> l'ordre deux le num<75>rateur autour du mode de
$$ et le d<>nominateur autour du mode de $$, alors l'erreur d'approximation de l'es-
p<EFBFBD>rance est d'ordre $$. Les erreurs d'approximation du num<75>rateur et du d<>nominateur, qui sont d'ordre
$$, se compensent favorablement. L'approche de Tierney et Kadane ne va pas sans poser certains pro-
bl<EFBFBD>mes. Si on cherche <20> calculer $$ pour diff<66>rentes fonctions $$, alors il est n<>cessaire de recourir <20> une
nouvelle maximisation pour chaque param<61>tre et chaque fonction $$. Par exemple, si on d<>sire calculer les
esp<EFBFBD>rances et <20>cart-types a posteriori pour chacun des k param<61>tres, il faut recourir $$ maximisations,
auxquelles il faut rajouter le calcul des matrices hessiennes. Il est alors <20>vident que si $$ est <20>lev<65>, une telle
approximation peut devenir co<63>teuse en temps de calculs. Tierney et al. (1989) propose diff<66>rentes m<>thodes
pour pallier cette difficult<6C>\note{17}. Notons n<>anmoins qu'une approche bas<61>e sur des simulations (voir la section
3) devient aussi plus co<63>teuse lorsque le nombre de param<61>tres augmente.
2.4 Un mod<6F>le lin<69>aire : le mod<6F>le VAR
Dans cette section, nous consid<69>rons un exemple o<> les r<>sultats peuvent <20>tre obtenus analytiquement. Le
mod<EFBFBD>le VAR gaussien se pr<70>te, comme tout mod<6F>le lin<69>aire gaussien, <20> cet exercice et a l'avantage d'<27>tre un
outil couramment utilis<69> en macro-<2D>conomie (voir par exemple la contribution de Fabrice Collard et Patrick
F<EFBFBD>ve dans ce num<75>ro).
Nous consid<69>rons un mod<6F>le VAR(p) pour caract<63>riser le vecteur $$ de variables endog<6F>nes $$ obser-
v<EFBFBD>es :
<DISPLAY EQUATION ()>
o<EFBFBD> $$ est une suite de matrice $$ et $$ est un bruit blanc gaussien, de dimension $$ d'esp<73>rance nulle
et de variance $$. Nous pourrions compl<70>ter le mod<6F>le avec des variables exog<6F>nes, une constante par
exemple, mais nous allons <20> l'essentiel en omettant cette possibilit<69>.
On note $$ les donn<6E>es <20> notre disposition et on note $$ la concat<61>nation horizontale des
vecteurs lignes $$. En concat<61>nant verticalement les vecteurs lignes $$, $$ et $$, pour $$,
on obtient la repr<70>sentation matricielle suivante du mod<6F>le VAR(p) :
<DISPLAY EQUATION ()>
o<EFBFBD> $$ et $$ sont des matrices $$, $$ est une matrice $$ et $$ la matrice $$ (avec $$) regroupant les
coefficients auto-r<>gressifs. La vraisemblance associ<63>e <20> ce mod<6F>le lin<69>aire gaussien
est donn<6E>e par :
<DISPLAY EQUATION ()>
L'estimateur du maximum de vraisemblance (MCO) est d<>fini par :
<DISPLAY EQUATION ()>
et
<DISPLAY EQUATION ()>
Nous verrons plus loin qu'il est profitable de r<><72>crire la vraisemblance en faisant appara<72>tre
l'estimateur des MCO :
<DISPLAY EQUATION ()>
Aux constantes d'int<6E>gration pr<70>s on reconna<6E>t ici les fonctions de densit<69> de probabilit<69> d'une gaussienne
matricielle et d'une inverse Wishart (voir l'annexe A). La vraisemblance se r<><72>crit donc sous la forme suivante :
<DISPLAY EQUATION ()>
avec $$ les degr<67>s de libert<72> et $$. Cette <20>criture nous apprend que la vraisemblance du VAR(p) est proportionnelle
au produit de la densit<69> d'une normale matricielle et d'une loi inverse Wishart :
<DISPLAY EQUATION (8)>
Cette propri<72>t<EFBFBD> va nous aider <20> poser une forme de la densit<69> a priori telle que nous puissions obtenir une
expression analytique de la densit<69> post<73>rieure.
2.4.1 A priori non informatif
Dans cette section nous supposons que nos croyances sont non informatives en adoptant un a priori plat <20>
la Jeffrey :
<DISPLAY EQUATION (9)>
On note que dans le cas scalaire, m = 1, on retrouve le prior sugg<67>r<EFBFBD> par Jeffrey ($$) d<>crit plus haut. La
densit<EFBFBD> a posteriori satisfait donc :
<DISPLAY EQUATION ()>
La densit<69> jointe post<73>rieure est donc proportionnelle au produit d'une loi normale multivari<72>e et d'une loi
inverse Wishart :
<DISPLAY EQUATION (10)>
avec $$. Ainsi, la densit<69> post<73>rieure s'<27>crit sous la forme suivante :
<DISPLAY EQUATION (11)>
Il n'est pas surprenant de constater que la distribution post<73>rieure de $$ (conditionnelle <20> la matrice de va-
riance covariance) est centr<74>e sur l'estimateur du maximum de vraisemblance, puisque notre a priori est non
informatif. Nous pourrions montrer, en int<6E>grant par rapport <20> $$, que la distribution post<73>rieure (marginale)
de $$ est une version matricielle de la loi de Student (voir (Zellner, 1971, chapitre 8)). L'a priori de Jeffrey n'af-
fecte que le nombre de degr<67> de libert<72> de la distribution post<73>rieure de $$. On obtient la densit<69> marginale
post<EFBFBD>rieure de $$ en int<6E>grant le noyau post<73>rieur successivement par rapport <20> $$ et $$ :
<DISPLAY EQUATION (12)>
Cette quantit<69> nous renseigne sur la qualit<69> d'ajustement du mod<6F>le VAR(p). On note que la densit<69> marginale
de $$ est une fonction d<>croissante de la taille des erreurs $$. Dans cet exemple, nous pouvons caract<63>riser
la distribution post<73>rieure analytiquement. Notons n<>anmoins que m<>me si nous connaissons l'expression
analytique de la distribution de $$ et $$, la construction des densit<69>s pr<70>dictives n<>cessite une approche par
simulations\note{18}, puisque les pr<70>visions sont des fonctions non lin<69>aires des matrices auto-r<>gressives (dont nous
connaissons la distribution post<73>rieure). L'int<6E>r<EFBFBD>t pratique de l'approche bay<61>sienne peut para<72>tre faible dans
ce cas, dans la mesure o<> l'esp<73>rance post<73>rieure n'est pas diff<66>rente de l'estimateur du maximum de vrai-
semblance.
2.4.2 Un exemple d'a priori informatif
Nous consid<69>rons maintenant un prior plus informatif qui va <20>carter l'esp<73>rance de la distribution a poste-
riori de l'estimateur du maximum de vraisemblance ; dans un mod<6F>le lin<69>aire gaussien, l'esp<73>rance a posteriori
est une combinaison convexe de l'estimateur du maximum de vraisemblance et de l'esp<73>rance a priori. Afin
d'aller <20> l'essentiel\note{19}, nous adoptons une densit<69> a priori d<>g<EFBFBD>n<EFBFBD>r<EFBFBD>e pour la matrice de variance-covariance des
erreurs, en supposant que la matrice $$ est connue (on posera $$). Enfin nous sp<73>cifions le prior sur A de
la fa<66>on suivante :
<DISPLAY EQUATION (13)>
o<EFBFBD> $$ est une matrice sym<79>trique d<>finie positive de dimension $$. En multipliant la vraisemblance par
(13), on <20>tablit facilement que le noyau post<73>rieur est :
<DISPLAY EQUATION (14a)>
<DISPLAY EQUATION (14b)>
<DISPLAY EQUATION (14c)>
La distribution post<73>rieure de $$ est donc gaussienne $$, son interpr<70>tation est imm<6D>diate. L'inverse
de la variance post<73>rieure ($$, que l'on peut interpr<70>ter comme une quantification de l'information a pos-
teriori) est <20>gale <20> la somme de l'inverse de la variance a priori ($$, l'information a priori) et de l'inverse de
la variance de l'estimateur du maximum de vraisemblance de $$ ($$, l'information apport<72>e par les
donn<EFBFBD>es). Ceteris paribus, quand l'information a priori est importante, la matrice de variance-covariance $$ est
petite, la variance a posteriori est faible. L'esp<73>rance post<73>rieure est une combinaison lin<69>aire convexe de l'esp<73>-
rance a priori, $$, et de l'estimateur du maximum de vraisemblance, $$. Les pond<6E>rations respectives sont
d<EFBFBD>finies par le contenu informatif des croyances a priori et de l'<27>chantillon. Lorsque l'information a priori tend
vers l'infini, ie $$, l'esp<73>rance post<73>rieure tend vers l'esp<73>rance a priori. Lorsque l'information amen<65>e par
les donn<6E>es tend vers l'infini, ie $$, l'esp<73>rance a posteriori tend vers l'estimateur du maximum de
vraisemblance. On peut donc interpr<70>ter le paradigme bay<61>sien comme un pont entre la calibration et l'esti-
mation par le maximum de vraisemblance. En notant que $$ est g<>n<EFBFBD>ralement, si le mod<6F>le est stationnaire\note{20},
d'ordre O(T), on retrouve un r<>sultat conforme aux consid<69>rations asymptotiques introduites dans la section
2.3 : l'esp<73>rance post<73>rieure tend vers l'estimateur du maximum de vraisemblance lorsque T tend vers l'infini.
<EFBFBD> nouveau, en int<6E>grant le noyau post<73>rieur (14) par rapport aux param<61>tres auto-r<>gressifs, on obtient une
expression analytique de la densit<69> marginale post<73>rieure :
<DISPLAY EQUATION (15)>
qui mesure la qualit<69> d'ajustement du mod<6F>le et permet de comparer le VAR <20> d'autres mod<6F>les estim<69>s <20>
l'aide du m<>me <20>chantillon.
2.4.3 La pratique
L'int<6E>r<EFBFBD>t pratique de l'approche bay<61>sienne des mod<6F>les VAR s'explique par l'<27>quation (14b). Celle-ci <20>ta-
blit que la variance post<73>rieure de $$ est inf<6E>rieure <20> la variance de l'estimateur du maximum de vraisem-
blance, $$, d<>s lors que l'on apporte de l'information a priori. L'estimation des mod<6F>les VAR sur des donn<6E>es
macro<EFBFBD>conomiques pose souvent des probl<62>mes de pr<70>cision. En effet, un mod<6F>le avec cinq variables et quatre
retards demande l'estimation de vingt param<61>tres alors que les <20>chantillons sont habituellement de l'ordre de
la centaine d'observations. En incorporant de l'information <20> l'aide d'une densit<69> a priori tout se passe comme
si nous augmentions le nombre de degr<67>s de libert<72>. Ce gain en variance sur les param<61>tres du mod<6F>le, per-
mettra d'obtenir des pr<70>visions ou des fonctions de r<>ponses plus pr<70>cises.
On peut faire l'analogie avec l'incorporation de contraintes sur les param<61>tres d'un mod<6F>le estim<69> dans
le paradigme classique. Par exemple, si nous pensons que A doit satisfaire les contraintes lin<69>aires d<>finies
par $$ (o<> $$ est une matrice $$, $$ est un vecteur $$ et $$ le nombre de restrictions li-
n<EFBFBD>aires), l'incorporation de ces contraintes lors de l'estimation, ie l'utilisation de moindres carr<72>s contraints,
permet de r<>duire la variance des estimateurs et aussi l'erreur quadratique moyenne (dans la mesure o<> la
contrainte n'est pas en contradiction avec le processus g<>n<EFBFBD>rateur des donn<6E>es)\note{21}. Le paradigme bay<61>sien est
plus souple, dans le sens o<> il ne pose pas des contraintes d<>terministes. Dans certains cas\note{22}, nous verrons une
application dans la section 4.1, la d<>finition de croyances a priori revient <20> poser une contrainte probabiliste
de la forme $$, o<> $$ est une variable al<61>atoire gaussienne. Plus la variance de $$ est importante,
moins la contrainte sur $$ est forte (plus l'information a priori est floue).
La formalisation de l'information a priori ne se limite pas au choix de la forme d'une distribution. Dans
le cas du mod<6F>le BVAR de la section pr<70>c<EFBFBD>dente, nous devons aussi choisir les param<61>tres $$ et $$. Dans
cette perspective, un prior qui s'est montr<74> particuli<6C>rement efficace quand on cherche <20> mod<6F>liser des s<>-
ries macro<72>conomiques est le prior de Minnesota\note{23}. Celui-ci correspond <20> la croyance a priori que les s<>-
ries observ<72>es sont des marches al<61>atoires ind<6E>pendantes. L'esp<73>rance a priori de $$ est alors telle que
$$ pour $$. La variance a priori de $$ est suppos<6F>e diagonale. En no-
tant $$ la variance associ<63>e au param<61>tre correspondant <20> la variable j dans
l'<27>quation i au retard k, la variance a priori est d<>finie par :
<DISPLAY EQUATION ()>
o<EFBFBD> les hyperparam<61>tres $$ pour $$ sont positifs, $$ est l'estimateur de la variance des r<>sidus dans
l'estimation d'un AR(p) pour la variable $$. Le ratio des <20>carts-types permet de prendre en compte les dif-
f<EFBFBD>rences d'<27>chelles entre les diff<66>rentes variables composant le vecteur des observables. La variance a priori
d<EFBFBD>cro<EFBFBD>t lorsque le retard $$ augmente, ce qui traduit l'id<69>e que plus le retard est important plus nous croyons
que la matrice $$ est nulle. L'hyperparam<61>tre $$ indique <20> quelle vitesse la variance a priori tend vers z<>ro.
Des valeurs fr<66>quemment utilis<69>es pour $$ et $$ sont respectivement 0,05 et 0,005. Cela revient <20> dire, dans la
mesure o<> $$ et $$ sont proches, que nos croyances a priori sont plus fortes sur la nullit<69> des termes hors des
diagnonales de $$ ($$), c'est-<2D>-dire sur l'absence decausalit<69>\note{24}. Notons que l'a priori de Minnesota
suppose l'absence de relations de coint<6E>gration entre les variables, il y a, a priori, autant de racines unitaires
que de variables. N<>anmoins rien n'emp<6D>che l'apparition de relations de long terme dans la distribution pos-
t<EFBFBD>rieure.
Il nous reste <20> choisir les valeurs des hyperparam<61>tres du prior de Minnesota. Cette <20>tape est importante
car l'exp<78>rience montre que l'inf<6E>rence post<73>rieure, en particulier l'<27>valuation de la densit<69> marginale qui
nous permet d'<27>valuer le mod<6F>le, est tr<74>s sensible <20> ce choix. Si, comme souvent dans la litt<74>rature (voir par
exemple Smets et Wouters (2002) ou Fernandez-Villaverde et Rubio-Ramirez (2001)), l'estimation d'un BVAR
ne sert qu'<27> titre de comparaison afin d'<27>valuer la qualit<69> d'ajustement d'un mod<6F>le DSGE, le choix des hy-
perparam<EFBFBD>tres devient crucial. Ce point n'est malheureusement jamais abord<72> dans la litt<74>rature. Le contenu
<EFBFBD>conomique d'un mod<6F>le VAR <20>tant faible, il para<72>t difficile de recourir <20> la th<74>orie pour sp<73>cifier la densit<69>
a priori. Un crit<69>re objectif <20> notre disposition est de choisir les hyperparam<61>tres ($$, $$ et $$) qui maximisent
les performances en pr<70>visions du mod<6F>le BVAR. En sp<73>ci<63>ant ainsi les priors de notre BVAR, nous savons au
moins que nous ne comparons par notre DSGE avec un BVAR aux performances pr<70>dictives m<>diocres. Dans
cet esprit Phillips (1996) propose le crit<69>re PIC (Posterior Information Criterion) que l'on peut minimiser par
rapport aux hyperparam<61>tres. Ce crit<69>re peut <20>tre vu comme une g<>n<EFBFBD>ralisation, au cas non stationnaire, du
bien connu crit<69>re BIC\note{25}. Dans le cas du mod<6F>le consid<69>r<EFBFBD> dans la section 2.4.2 on choisit les hyperparam<61>tres
de la fa<66>on suivante :
<DISPLAY EQUATION (16)>
o<EFBFBD> $$ est la matrice de variance covariance des innovations au mode post<73>rieur, les matrices indic<69>es par $$
sont obtenues <20> partir du sous <20>chantillon $$ (o<> $$ est sup<75>rieur au nombre de param<61>tres estim<69>s).
Ici nous avons consid<69>r<EFBFBD> le nombre de retards comme une donn<6E>e, mais nous pourrions aussi optimiser par
rapport <20> $$ le crit<69>re PIC (voir Phillips (1996)). <20> notre connaissance, l'utilisation d'a priori objectif pour les
mod<EFBFBD>les BVAR, tel que l'optimisation du crit<69>re PIC propos<6F> par Phillips (1996), demeure inappliqu<71> dans
la litt<74>rature. On peut donc l<>gitimement douter de la pertinence des comparaisons entre BVAR et DSGE
effectu<EFBFBD>es jusqu'<27> pr<70>sent\note{26}.
3 Mod<6F>les DSGE
Dans cette section nous pr<70>sentons de fa<66>on g<>n<EFBFBD>rale les mod<6F>les DSGE, puis soulignons les probl<62>mes
que peut poser l'estimation. En particulier, nous expliquons pourquoi, <20> la diff<66>rence des BVAR, il n'est pas
possible d'obtenir une expression analytique de la distribution post<73>rieure. Nous terminons en pr<70>sentant les
m<EFBFBD>thodes de Monte Carlo utilis<69>es pour caract<63>riser les croyances post<73>rieures.
3.1 R<>solution et vraisemblance
Nous limitons notre attention aux mod<6F>les DSGE que nous pouvons <20>crire sous la forme suivante :
<DISPLAY EQUATION (17)>
avec $$, une variable al<61>atoire dans $$, les innovations structurelles, $$ un vecteur
regroupant les variables endog<6F>nes, $$ une fonction r<>elle dans $$ param<61>tr<74>e par un vecteur
r<EFBFBD>el $$ regroupant l'ensemble des param<61>tres structurels du mod<6F>le. La fonction $$ est simplement
l'ensemble des <20>quations qui d<>finissent un mod<6F>le ; on a autant d'<27>quations que de variables endog<6F>nes.
Le vecteur des variables endog<6F>nes, $$, inclut des variables d'<27>tat (endog<6F>nes ou exog<6F>nes), des variables de
choix et des variables statiques\note{27}. On supposera qu'il est possible d'exhiber une unique solution stable et
invariante au mod<6F>le d<>crit par l'<27>quation (17) :
<DISPLAY EQUATION (18)>
qui exprime les variables endog<6F>nes en fonction du pass<73> et des chocs structurels contemporains. La fonction
param<EFBFBD>tr<EFBFBD>e $$ regroupe les policy rules et les <20>quations de transition (voir la contribution de Michel Juillard
et Tarik Ocaktan dans ce num<75>ro). La solution (18), en d<>crivant une r<>currence stochastique non lin<69>aire,
d<EFBFBD>finit la distribution jointe d'un ensemble de variables.
Pour estimer les param<61>tres $$ du mod<6F>le, ou d'un sous ensemble des param<61>tres, nous devons <20>valuer la
vraisemblance associ<63>e au mod<6F>le (17) ou <20> sa forme r<>duite (18). M<>me si la fonction $$ est lin<69>aire en $$
et $$, cette <20>valuation ne peut <20>tre directe comme dans le cas du mod<6F>le VAR examin<69> plus haut. En effet,
l'<27>quation (18) d<>crit la distribution jointe d'un ensemble de variables qui ne sont pas toutes observ<72>es. Afin
d'amener le mod<6F>le aux donn<6E>es on peut l'<27>crire sous une forme <20>tat-mesure :
<DISPLAY EQUATION (19a)>
<DISPLAY EQUATION (19b)>
o<EFBFBD> $$ est un vecteur $$, avec $$, regroupant les variables observ<72>es et $$ est une matrice de
s<EFBFBD>lection $$. On peut <20>ventuellement augmenter l'<27>quation de mesure d'un bruit blanc multivari<72>, $$,
repr<EFBFBD>sentant l'inad<61>quation des variables th<74>oriques avec les variables observ<72>es, ou plus simplement une
erreur de mesure. On note $$ l'<27>chantillon <20> notre disposition et $$ le vecteur des param<61>tres du mod<6F>le
<EFBFBD>tat-mesure ($$, $$ et <20>ventuellement la matrice de variance-covariance de
$$). La vraisemblance est la densit<69> de l'<27>chantillon, conditionnellement aux param<61>tres $$ et au mod<6F>le d<>fini
par (19) :
<DISPLAY EQUATION (20)>
L'<27>valuation de la densit<69> de $$ conditionnellement <20> $$ n'est g<>n<EFBFBD>ralement pas directe, dans la mesure o<>
$$ d<>pend de variables endog<6F>nes inobservables. Nous pouvons n<>anmoins utiliser la relation suivante :
<DISPLAY EQUATION (21)>
La densit<69> de $$ conditionnellement <20> $$ est obtenue comme la moyenne de la densit<69> de $$ sachant $$,
pond<EFBFBD>r<EFBFBD>e par la densit<69> de $$ sachant $$. La premi<6D>re densit<69> sous l'int<6E>grale est specifi<66>e par l'<27>quation
de mesure (19a). L'<27>valuation de la densit<69> de la pr<70>vision des variables latentes, conditionnellement l'infor-
mation disponible en $$, est moins directe, et on doit utiliser un filtre de Kalman. Il s'agit d'une proc<6F>dure
r<EFBFBD>cursive. <20> chaque date (entre $$ et $$) on forme une pr<70>vision des variables latentes ($$ sachant $$), en
utilisant l'<27>quation d'<27>tat ($$ sachant $$, <20>quation 19b) et une estimation initiale des variables latentes
($$ sachant $$ ), puis on corrige cette pr<70>vision quand une nouvelle observation ($$) augmente l'ensemble d'in-
formation. On peut interpr<70>ter cette d<>marche comme une estimation r<>cursive bay<61>sienne du vecteur des
variables latentes. En initialisant les variables latentes avec la densit<69> associ<63>e <20> la distribution ergodique des
variables latentes d<>finie par l'<27>quation d'<27>tat (19b), $$, la r<>cursion s'<27>crit de
la fa<66>on suivante :
<DISPLAY EQUATION (22a)>
<DISPLAY EQUATION (22b)>
L'interpr<70>tation de l'<27>quation de pr<70>diction (22a) est directe : la densit<69> de la pr<70>diction des variables latentes
en $$ est la moyenne de la densit<69> de $$ sachant $$, d<>finie par l'<27>quation d'<27>tat (19b), pond<6E>r<EFBFBD>e par la densit<69>
de $$ sachant $$. Cette derni<6E>re densit<69> est d<>finie par l'<27>quation de mise <20> jour (22b) ou la condition
initiale. L'<27>quation de mise <20> jour (22b) est, <20> l'instar de l'<27>quation (3), une application directe du th<74>or<6F>me de
Bayes. Le premier terme au num<75>rateur, $$, est la densit<69> a priori du vecteur des variables latentes. Le
second terme, $$, la densit<69> de l'observation sachant l'<27>tat obtenu via l'<27>quation de mesure (19a), est la
vraisemblance. Le d<>nominateur est la densit<69> marginale de la nouvelle observation.
Puisque nous pouvons, au moins th<74>oriquement, <20>valuer la vraisemblance associ<63>e au mod<6F>le DSGE, nous
devrions <20>tre capable d'estimer ses param<61>tres. Malheureusement, les <20>quations (21) et (22) n<>cessitent l'<27>va-
luation d'int<6E>grales\note{28} dans l'espace des variables d'<27>tat. Quand le nombre de variables latentes agmente il
devient tr<74>s co<63>teux d'<27>valuer ces int<6E>grales (on parle de curse of dimensionality). La d<>rivation de la forme
r<EFBFBD>duite du mod<6F>le (18) n<>cessite <20>galement l'<27>valuation d'int<6E>grales. En pratique, m<>me pour des mod<6F>les
de dimensions modestes, l'<27>valuation de la vraisemblance est difficile. Nous devons donc approximer celle-
ci. Dans le cas o<> le mod<6F>le <20>tat-mesure (19) est lin<69>aire et gaussien, l'<27>valuation des int<6E>grales devient tr<74>s
simple car les variables latentes et observ<72><76>es sont normalement distribu<62>es <20> chaque date. Ainsi la dynamique
de la distribution des variables latentes est compl<70>tement caract<63>ris<69>e par la dynamique de l'esp<73>rance et de
la variance des variables latentes. On peut trouver une pr<70>sentation du filtre de Kalman dans ce cas simple
dans Gouri<72>roux et Monfort (1989, chapitre 13), Harvey (1989, chapitre 3) ou encore dans la contribution de
Fabrice Collard et Patrick F<>ve <20> ce m<>me num<75>ro. Ceci explique pourquoi les mod<6F>les DSGE estim<69>s sont
g<EFBFBD>n<EFBFBD>ralement (log-) lin<69>aris<69>s autour de l'<27>tat stationnaire.
Malgr<EFBFBD> l'approximation (log-) lin<69>aire de la forme r<>duite du mod<6F>le ($$) l'<27>valuation de la vraisemblance
est num<75>rique. Nous ne disposons pas d'une expression analytique, comme dans le cas du mod<6F>le VAR, et
ne pouvons donc <20>crire formellement la densit<69> post<73>rieure ou les moments post<73>rieurs. Deux possibilit<69>s
s'offrent <20> nous.
La premi<6D>re est de consid<69>rer une approximation asymptotique de la densit<69> post<73>rieure. Il est alors possible
d'approximer, voir la section 2.3 et Tierney et Kadane (1986), tout moment a posteriori ou la densit<69> marginale.
Nous avons vu que l'erreur d'approximation des moments est d'ordre $$ et que l'erreur d'approxima-
tion de la densit<69> marginale est d'ordre $$. L'exp<78>rience sugg<67>re, pour les dimensions d'<27>chantillon, $$,
g<EFBFBD>n<EFBFBD>ralement consid<69>r<EFBFBD>es dans la litt<74>rature, que l'approximation de Laplace de la densit<69> marginale est sa-
tisfaisante\note{29}.
La deuxi<78>me possibilit<69> est d'<27>valuer les moments en recourant <20> des simulations par Monte-Carlo. L'intuition
de cette approche repose sur la loi des grands nombres. Supposons, par exemple, que nous souhaitions <20>va-
luer l'esp<73>rance d'une variable al<61>atoire $$ de distribution $$. Si l'on g<>n<EFBFBD>re une suite de variables al<61>atoires
$$ ind<6E>pendantes et distribu<62>es selon $$, alors une approximation de l'esp<73>rance est donn<6E>e par
la moyenne empirique de ces variables\note{30} ; la loi des grands nombres assure que l'erreur d'approximation tend
vers z<>ro presque s<>rement lorsque le nombre de tirages $$ tend vers l'infini. Si on admet de plus que le mo-
ment du second ordre existe, la vitesse de convergence est $$ par application du th<74>or<6F>me central limit.
En pratique nous pouvons <20>tre int<6E>ress<73>s par les moments post<73>rieurs de $$. En notant que :
<DISPLAY EQUATION (23)>
il semble alors naturel d'utiliser la moyenne empirique de $$, o<> les $$ sont
des tirages ind<6E>pendants dans la distribution post<73>rieure, pour <20>valuer l'esp<73>rance de $$. L'erreur d'ap-
proximation tend vers z<>ro lorsque le nombre de simulations ($$) tend vers l'infini. il convient de noter que $$
est g<>n<EFBFBD>ralement d'une forme inconnue et que l'on ne peut donc pas d<>finir un g<>n<EFBFBD>rateur pseudo-al<61>atoire
reproduisant la distribution a posteriori. Comme nous le verrons par la suite, la m<>thode de Monte Carlo
dite de fonction d'importance permet de rem<65>dier <20> cette difficult<6C> sous certaines conditions. Ce principe de
Monte Carlo se g<>n<EFBFBD>ralise au cas o<> les variables simul<75>es ne sont pas ind<6E>pendantes. Il est ainsi possible dans
certains cas de construire, moyennant certaines conditions, une cha<68>ne de Markov $$ de loi sta-
tionnaire (ergodique) $$ telle que la moyenne empirique des $$ ($$ est la statistique d'int<6E>r<EFBFBD>t) converge
presque s<>rement vers la quantit<69> d'int<6E>r<EFBFBD>t comme dans le cas des tirages ind<6E>pendants. Tout l'art de l'exer-
cice est alors de d<>terminer une cha<68>ne de Markov (et plus pr<70>cis<69>ment son noyau de transition) telle que
sa loi ergodique corresponde <20> la loi a posteriori d<>sir<69>e et d'<27>valuer le temps d'arr<72>t des simulations, ie de
diagnostiquer la convergence de la cha<68>ne de Markov\note{31}.
3.2 L'<27>chantillonnage bay<61>sien par fonction d'importance
Id<EFBFBD>alement, on souhaiterait g<>n<EFBFBD>rer les param<61>tres d'int<6E>r<EFBFBD>t suivant la distribution a posteriori. Cependant,
<EFBFBD> l'exception de rares mod<6F>les, ceci n'est pas possible. On peut n<>anmoins exploiter le fait qu'il n'est pas
n<EFBFBD>cessaire de g<>n<EFBFBD>rer une suite de tirage $$, suivant la distribution a posteriori, pour obtenir une <20>valuation
correcte des moments post<73>rieurs. En effet, sous certaines conditions de r<>gularit<69>, on peut utiliser une densit<69>
de probabilit<69> $$, d<>finie sur le m<>me espace et appel<65>e fonction d'importance, suffisamment proche de $$
(dans un sens <20> pr<70>ciser) et <20>chantillonner <20> partir de cette derni<6E>re. Il est alors possible de montrer par la loi
des grands nombres que l'int<6E>grale (23) d<>finissant le moment post<73>rieur est approch<63>e par :
<DISPLAY EQUATION ()>
avec
<DISPLAY EQUATION (24)>
Le choix de la fonction d'importance est crucial : elle doit <20>tre suffisamment proche de la loi a posteriori, ce
qui n'est pas toujours simple en pratique. En effet, si $$ est une mauvaise approximation de $$, alors les poids
sont g<>n<EFBFBD>ralement faibles pour la plupart des valeurs <20>chantillonn<6E>es de $$, la somme est alors domin<69>e par
quelques termes dont les poids sont tr<74>s <20>lev<65>s. Il en r<>sulte une estimation peu fiable, voir Casella et Robert
(2004) pour plus de d<>tails. L'algorithme se r<>sume comme suit :
Algorithme 1.
(1) Maximiser le noyau post<73>rieur par rapport <20> $$. On obtient le mode de la densit<69> post<73>rieure, $$, et le
hessien au mode qui caract<63>rise la courbure de la densit<69> post<73>rieure au mode et dont l'inverse de l'oppos<6F>,
not<EFBFBD> $$, approxime la variance post<73>rieure.
(2) G<>n<EFBFBD>rer $$, suivant une fonction d'importance, $$, dont les moments du premier et second ordre d<>pendent
de $$ et $$.
(3) D<>terminer les poids $$ selon (24).
(4) Reprendre (2-3) pour $$.
(5) Calculer :
<DISPLAY EQUATION ()>
<DISPLAY EQUATION ()>
La premi<6D>re <20>tape n'est pas sp<73>cifique <20> l'algorithme par fonction d'importance : il s'agit de calculer les
moments associ<63>s <20> la fonction d'importance, h. Cette << calibration >> des moments de la fonction d'impor-
tance est g<>n<EFBFBD>ralement faite <20> partir de la maximisation du logarithme du noyau a posteriori. <20>tant donn<6E>es les
propri<EFBFBD>t<EFBFBD>s asymptotiques de la distribution post<73>rieure, ces choix sur les moments d'ordre un et deux associ<63>s
<EFBFBD> $$ sont d'autant plus satisfaisants que la taille de l'<27>chantillon est importante.
Bien que tr<74>s populaire en statistique, cette m<>thode est peu utilis<69>e dans le cadre de l'estimation de mo-
d<EFBFBD>les DSGE. A titre d'exemples, Dejong et al. (2000) estiment avec cette m<>thode un mod<6F>le de croissance
stochastique lin<69>aris<69>. An et Schorfheide (2007) comparent l'algorithme d'importance avec celui de Metro-
polis (<28> pas al<61>atoire) dans une version simplifi<66>e du mod<6F>le de Smets et Wouters (2002). Pour ce faire, ils
retiennent comme fonction d'importance une distribution de Student multivari<72>e.
3.3 Les m<>thodes de Monte-Carlo <20> cha<68>nes de Markov
Cette seconde classe d'algorithmes permet de g<>n<EFBFBD>rer des variables al<61>atoires suivant approximativement
la loi a posteriori, lorsque cette derni<6E>re n'est pas disponible. Elle <20>vite donc l'appel <20> une fonction d'impor-
tance, $$, souvent difficile <20> d<>terminer pour les mod<6F>les DSGE\note{32}. On cherche ainsi <20> d<>finir une cha<68>ne de Mar-
kov dont la distribution ergodique est approximativement le noyau a posteriori. Si cette cha<68>ne existe, la m<>-
thode d'<27>chantillonnage est grossi<73>rement d<>finie comme suit. Dans un premier temps, on initialise (arbitrai-
rement) la cha<68>ne de Markov. Dans un second temps, on g<>n<EFBFBD>re les $$ <20> partir de cette cha<68>ne. <20> l'issue d'un
certain nombre de tirages (disons $$), on dispose de r<>alisations de variables al<61>atoires $$
approximativement distribu<62>es comme la distribution a posteriori.
3.3.1 cha<68>nes de Markov
Une cha<68>ne de Markov est une suite de variables al<61>atoires continues <20> valeurs dans $$, $$,
g<EFBFBD>n<EFBFBD>r<EFBFBD>e par un processus de Markov. Une suite de variables al<61>atoires est g<>n<EFBFBD>r<EFBFBD>e par un processus de Markov\note{32}
(d'ordre 1) si la distribution de $$ ne d<>pend que de $$. Une cha<68>ne de Markov est caract<63>ris<69>e par un
noyau de transition qui sp<73>cifie la probabilit<69> de passer de $$ <20> $$. Nous noterons $$ le noyau de
transition, il v<>rifie $$ pour tout $$ dans $$. Si la cha<68>ne de Markov d<>finie par le noyau P converge
vers une distribution invariante $$, alors le noyau doit satisfaire l'identit<69> suivante :
<DISPLAY EQUATION ()>
pour tout sous ensemble mesurable $$ de $$. Plus g<>n<EFBFBD>ralement, avant d'atteindre la distribution ergodique $$,
si nous notons $$ la probabilit<69> que $$ soit dans S sachant que $$, nous avons :
<DISPLAY EQUATION ()>
la distribution de $$ s'ajuste d'it<69>ration en it<69>ration puis rejoint la distribution ergodique, $$. L'id<69>e est
alors de choisir le noyau de transition qui nous am<61>nera vers la distribution invariante d<>sir<69>e.
D<EFBFBD>finissons $$ et $$ les densit<69>s associ<63>es au noyau $$ et $$ la distribution $$\note{33}. Tierney (1994) montre que
si la densit<69> $$ v<>rifie la condition de r<>versibilit<69>\note{34} :
<DISPLAY EQUATION ()>
alors $$ est la distribution invariante associ<63>e au noyau $$\note{35}. De fa<66>on <20>quivalente :
<DISPLAY EQUATION ()>
Cette condition nous dit simplement que si la densit<69> de $$, $$, domine la densit<69> associ<63>e <20> $$, $$,
alors il doit <20>tre plus << facile >> de passer de $$ <20> $$ que de $$ <20> $$.
Cette propri<72>t<EFBFBD> nous aidera <20> construire une cha<68>ne de Markov dont la distribution invariante est la distri-
bution post<73>rieure des param<61>tres $$ dans le mod<6F>le DSGE. On comprend bien que le noyau de cette cha<68>ne
est difficile <20> d<>finir. Supposons que l'on puisse choisir un noyau de transition $$ ; alors il est presque
s<EFBFBD>r que la condition de r<>versibilit<69> ne sera pas v<>rifie, c'est-<2D>-dire que nous aurons $$. L'algorithme de
Metropolis-Hastings est une approche g<>n<EFBFBD>rale qui permet de << corriger >> ce noyau, de fa<66>on <20> respecter la
condition de r<>versibilit<69>.
3.3.2 L'algorithme de M<>tropolis-Hasting
Supposons que l'on puisse d<>finir une densit<69> instrumentale, qui permette d'approcher le noyau de tran-
sition de la cha<68>ne de Markov dont la densit<69> ergodique est la loi a posteriori de notre mod<6F>le. Cette densit<69> est
d<EFBFBD>finie par $$.
Algorithme 2 (Metropolis-Hastings).
(1) Se donner une condition initiale $$ telle que $$ et poser $$.
(2) G<>n<EFBFBD>rer un candidat (une proposition) $$ <20> partir d'une densit<69> $$.
(3) G<>n<EFBFBD>rer $$ dans une loi uniforme entre $$.
(4) Appliquer la r<>gle suivante :
<DISPLAY EQUATION ()>
o<EFBFBD>
<DISPLAY EQUATION ()>
(5) Reprendre (2-4) pour $$.
Notons qu'il suffit de pouvoir <20>valuer le noyau post<73>rieur pour mettre en oeuvre cet algorithme ; la connais-
sance de la densit<69> post<73>rieure <20> une constante pr<70>s est suffisante. L'algorithme de Metropolis-Hasting re-
quiert le choix d'une fonction instrumentale $$ <20> partir de laquelle on g<>n<EFBFBD>re des transitions dans l'espace des
param<EFBFBD>tres. La densit<69> conditionnelle $$ permet de g<>n<EFBFBD>rer un vecteur candidat $$. Puisqu'elle n'est pas n<>-
cessairement la densit<69> conditionnelle associ<63>e au noyau de transition dont la distribution ergodique est la
distribution a posteriori recherch<63>e, la condition de r<>versibilit<69> n'est pas v<>rifie\note{36}. L'algorithme
de MH corrige cette erreur\note{37} en n'acceptant pas syst<73>matiquement les propositions de $$. En introduisant
une probabilit<69> d'acceptation de la transition propos<6F>e, $$, on peut finalement v<>rifier la condition de
r<EFBFBD>versibilit<EFBFBD>. Pour cela, la probabilit<69> d'acceptation doit <20>tre telle que :
<DISPLAY EQUATION ()>
soit
<DISPLAY EQUATION ()>
Il nous reste <20> d<>terminer (i) comment nous devons initialiser la cha<68>ne et (ii) la longueur de la cha<68>ne. Nous
reviendrons par la suite, lors de la pr<70>sentation de l'algorithme de Metropolis <20> pas al<61>atoires, sur le premier
point. Nous aborderons la question du nombre de simulations n<>cessaires, c'est-<2D>-dire de la longueur de la
cha<EFBFBD>ne, dans la section 3.3.4. Nous reviendrons plus loin sur cette question, pour l'instant nous supposerons
que pour tout $$ les $$ sont tir<69>s dans la distribution cibl<62>e. Afin de s'assurer que les r<>sultats sont
ind<EFBFBD>pendants des conditions initiales, on ne consid<69>re pas les simulations indic<69>es par $$. Ainsi,
pour <20>valuer $$ nous calculons : $$ qui converge vers le moment post<73>rieur recherch<63> lorsque le nombre de
simulations, $$, tend vers l'infini.
3.3.3 Deux variantes de l'algorithme MH
L'algorithme de MH <20> pas al<61>atoires. Comme nous l'avons expliqu<71> plus haut, l'utilisation de l'algorithme
de Metropolis-Hastings repose sur le fait qu'il est ais<69> d'<27>chantillonner <20> partir de la densit<69> instrumentale
$$. L'inconv<6E>nient est que cette derni<6E>re n'est pas toujours facile <20> d<>terminer. Dans cette perspective, l'algo-
rithme de Metropolis <20> pas al<61>atoires est utile lorsqu'il est difficile d'obtenir une bonne approximation de la
densit<EFBFBD> a posteriori. Une proposition <20> l'it<69>ration $$ est d<>finie par :
<DISPLAY EQUATION ()>
o<EFBFBD> $$ est le pas al<61>atoire. Le choix de la densit<69> de $$ d<>termine la forme pr<70>cise de la densit<69> instrumentrale, $$.
Un choix standard est la distribution gaussienne multivari<72>e : $$. Ainsi la densit<69> de $$ conditionnel
<EFBFBD> $$ est gaussienne :
<DISPLAY EQUATION ()>
Par sym<79>trie de la loi normale, la densit<69> instrumentale v<>rifie $$, ainsi la probabilit<69> d'accepta-
tion ne d<>pend que du noyau post<73>rieur :
<DISPLAY EQUATION ()>
Autrement dit, si $$, la cha<68>ne de Markov se d<>place en $$. Si ce n'est pas le cas, la
cha<EFBFBD>ne se d<>place avec une probabilit<69> <20>gale au rapport des densit<69>s a posteriori. On accepte avec une proba-
bilit<EFBFBD> unitaire la proposition dans une phase ascendante (c'est-<2D>-dire lorsque la probabilit<69> a posteriori cro<72>t)
et avec une probabilit<69> non nulle la proposition dans une phase descendante (si nous d<>cidions de rejeter
syst<EFBFBD>matiquement ces propositions d<>favorables la cha<68>ne ne Markov ne visiterait pas compl<70>tement l'espace
des param<61>tres et a fortiori elle ne pourrait converger vers la distribution post<73>rieure recherch<63>e).
La probabilit<69> d'acceptation peut <20>tre ajust<73>e <20> partir de la matrice de variance-covariance $$. En effet,
si celle-ci est << grande >> alors il y a de fortes chances pour que la transition propos<6F>e nous am<61>ne dans les
queues de la distribution a posteriori c'est-<2D>-dire dans une r<>gion o<> la densit<69> est faible et o<> donc la probabi-
lit<EFBFBD> d'acceptation est proche de z<>ro (si on vient d'une zone plus dense). Si la matrice $$ est << petite >> alors les
transitions propos<6F>es ne seront que des petits pas, dans ce cas il n'y aura pas de grandes variations de la den-
sit<EFBFBD> post<73>rieure et donc la probabilit<69> d'acceptation sera proche de un. Nous <20>crivons $$ sous la forme $$ o<> $$
est une estimation de la matrice de variance-covariance a posteriori et $$ est un param<61>tre d'<27>chelle qui permet
de jouer sur le caract<63>re plus ou moins diffus de la matrice de variance-covariance et donc d'ajuster le taux
d'acceptation. On peut exp<78>rimenter diff<66>rentes valeurs de $$ afin de d<>terminer une probabilit<69> d'acceptation
raisonnable\note{38}.
Cette version de l'algorithme de MH est g<>n<EFBFBD>ralement utilis<69>e dans la litt<74>rature concern<72>e par l'estimation
bay<EFBFBD>sienne des mod<6F>les DSGE.
Algorithme 3.
(1) Maximiser le noyau post<73>rieur par rapport <20> $$. On obtient le mode de la densit<69> post<73>rieure, $$, et le hessien au
mode qui caract<63>rise la courbure de la densit<69> post<73>rieure au mode et dont l'inverse de l'oppos<6F>, not<6F> $$, approxime
la variance post<73>rieure. On pose $$ avec $$, $$ et $$.
(2) G<>n<EFBFBD>rer $$ <20> partir d'une gaussienne d'esp<73>rance $$ et de variance $$.
(3) G<>n<EFBFBD>rer $$ dans une loi uniforme entre $$.
(4) Appliquer la r<>gle suivante :
<DISPLAY EQUATION ()>
o<EFBFBD>
<DISPLAY EQUATION ()>
(5) Reprendre (2-4) pour $$.
L'algorithme <20> cha<68>nes ind<6E>pendantes. Si la proposition est ind<6E>pendante de l'<27>tat courant, l'algorithme est
dit <20> chaines ind<6E>pendantes (Tierney (1994)). La probabilit<69> d'acceptation se simplifie alors comme suit :
<DISPLAY EQUATION ()>
Cet algorithme est particuli<6C>rement adapt<70> au cas o<> il existe une approximation naturelle de la densit<69> a
posteriori. En effet, l'algorithme <20> cha<68>nes ind<6E>pendantes est alors similaire <20> l'algorithme par fonction d'im-
portance. Pour s'en convaincre, il suffit de remarquer que l'on peut d<>finir des poids analogues <20> ceux vus
pr<EFBFBD>c<EFBFBD>demment comme suit :
<DISPLAY EQUATION ()>
La probabilit<69> d'acceptation est alors donn<6E>e par $$. Autrement dit, il s'agit du ratio des poids
d'<27>chantillonnage par importance entre le vecteur candidat et le vecteur pr<70>c<EFBFBD>dent.
3.3.4 Les diagnostics de convergence
Un certain nombre de r<>sultats th<74>oriques sont disponibles pour l'<27>tude de la convergence des cha<68>nes
de Markov. Il est cependant extr<74>mement compliqu<71> d'<27>noncer des r<>gles pratiques. Ainsi, il n'existe aucune
r<EFBFBD>ponse simple <20> la question : Quel est le nombre optimal de simulations pour garantir la convergence de
la cha<68>ne de Markov vers la distribution ergodique ? Nous discutons bri<72>vement quelques diagnostics de
convergence. Le lecteur int<6E>ress<73> pourra consulter, par exemple, Casella et Robert (2004, chapitre 12).
La litt<74>rature bay<61>sienne distingue g<>n<EFBFBD>ralement trois types de convergence : (i) la convergence vers la
distribution stationnaire, (ii) la convergence des moments empiriques (ou approch<63>s) vers les moments th<74>o-
riques et (iii) la convergence vers un <20>chantillonage i.i.d.. Nous nous int<6E>ressons ici aux deux derni<6E>res formes
de convergence\note{39}. Quelle que soit la convergence <20>tudi<64>e, les r<>sultats reposent soit sur des m<>thodes d'<27>va-
luation graphiques dont il est difficile d'en d<>duire des r<>gles g<>n<EFBFBD>rales, soit des tests statistiques formels.
Avant de pr<70>senter certaines de ces m<>thodes, il convient de noter qu'il est important de distinguer les m<>-
thodes qui font appel <20> $$ cha<68>nes de Markov parall<6C>les et ind<6E>pendantes et celles bas<61>es sur une seule cha<68>ne
(on-line Markov chain). L'utilisation de plusieurs cha<68>nes est co<63>teuse en temps mais elle r<>duit la d<>pendance
aux conditions initiales et accro<72>t la possibilit<69> de parcourir efficacement l'espace des param<61>tres, $$. En par-
ticulier, si une cha<68>ne de Markov est m<>langeante au sens faible -- elle reste coinc<6E>e dans des r<>gions (de
mesure domin<69>e) de l'espace des param<61>tres -- une explication possible est la pr<70>sence d'une distribution a
posteriori multimodale (notamment lorsque les densit<69>s a priori sont en conflit avec la vraisemblance du mo-
d<EFBFBD>le). Dans ce cas, la mise en oeuvre de cha<68>nes de Markov en parall<6C>le et ind<6E>pendantes, tr<74>s dispers<72>es,
peut permettre de r<>soudre cette difficult<6C>. L'argument des cha<68>nes multiples est aussi avanc<6E> pour s'assurer
de la convergence. Si on se donne plusieurs vecteurs initiaux de param<61>tres, suffisamment dispers<72>s, et que
l'on obtient les m<>mes r<>sultats, la convergence serait assur<75>e. L'argument est valide si et seulement si on a
bien v<>rifi<66> que chaque cha<68>ne a converg<72>e. Nous revoil<69> donc au point de d<>part... Il existe une litt<74>rature
abondante discutant des avantages et inconv<6E>nients respectifs de chaque m<>thode\note{40}.
La convergence des moments empiriques, ou approch<63>s, vers les moments th<74>oriques peut s'appr<70>hender
<EFBFBD> partir de m<>thodes graphiques. Yu et Mykland (1998) se basent sur les sommes cumulatives des moments
d'int<6E>r<EFBFBD>t dans le cas d'une seule cha<68>ne de Markov. Au contraire, Gelman et Rubin (1992) proposent un test
formel qui repose sur des m<>thodes de cha<68>nes de Markov en parall<6C>le. La convergence est diagnostiqu<71>e
si les diff<66>rences entre $$ des $$ chaines de Markov restent dans un intervalle raisonnable. Gelman et Rubin
formalisent cette id<69>e en recourant <20> des statistiques de type ANOVA. Pour chaque statistique d'int<6E>r<EFBFBD>t $$,
ils d<>terminent la variance intra et inter-cha<68>nes. L'intuition du test est alors la suivante. Si l'effet des va-
leurs initiales de chaque cha<68>ne de Markov a <20>t<EFBFBD> supprim<69>, les cha<68>nes en parall<6C>le doivent <20>tre relativement
proches. En d'autres termes, la variance inter-cha<68>ne ne devrait pas <20>tre trop grande par rapport <20> la variance
intra-cha<68>ne\note{41}. La statistique de test est alors d<>finie <20> partir d'un estimateur de la variance a
posteriori de $$. Plus pr<70>cis<69>ment, ce dernier est une moyenne pond<6E>r<EFBFBD>e de la variance intra-cha<68>ne et de
la variance inter-cha<68>ne. Le crit<69>re de convergence est ainsi le rapport de cet estimateur <20> la variance
intra-cha<68>ne. En utilisant une approximation de ce crit<69>re, les auteurs montrent que si sa valeur exc<78>de 1.2, on
peut en conclure qu'il n'y a pas convergence. Dans une autre optique, Geweke (1992) propose de comparer la
moyenne de deux sous-<2D>chantillons disjoints, $$ et $$, d'une cha<68>ne de Markov (apr<70>s avoir <20>limin<69> les $$
premi<EFBFBD>res valeurs). On choisit $$ (resp. $$) au d<>but (resp. <20> la fin) de la cha<68>ne de Markov. Si la cha<68>ne
de Markov a atteint la distribution stationnaire, la moyenne des deux sous-<2D>chantillons doit <20>tre <20>gale.
Une version modifi<66>e de la statistique $$ est alors <20>labor<6F>e par Geweke\note{42}. Une valeur de la statistique
de test sup<75>rieure <20> 2 indique qu'un nombre plus <20>lev<65> d'it<69>rations est sans doute n<>cessaire. Le test de
Raftery et Lewis (1992a) (voir aussi Raftery et Lewis (1992b)) est plus informatif. Il se base sur les quantiles
de la statistique d'int<6E>r<EFBFBD>t. L'id<69>e est de construire une cha<68>ne de Markov <20> deux <20>tats <20> partir d'un quantile
(par exemple, 2,5% et 97,5%) qui permette d'estimer les probabilit<69>s de transition et ainsi d'estimer le nombre
de simulations n<>cessaires pour approcher la stationnarit<69>.
Finalement, les m<>thodes de Monte-Carlo pr<70>sent<6E>es dans les sections pr<70>c<EFBFBD>dentes ne sont valides que si
les <20>l<EFBFBD>ments de la cha<68>ne de Markov sont i.i.d. Or, l'intuition sugg<67>re que les valeurs adjacentes d'une cha<68>ne
de Markov devraient <20>tre corr<72>l<EFBFBD>es positivement. De mani<6E>re plus g<>n<EFBFBD>rale, le fait que des autocorr<72>lations
d'ordre <20>lev<65> puissent subsister est probl<62>matique si la taille de la cha<68>ne de Markov n'est pas suffisamment
grande. Dans cette perspective, il est n<>cessaire de v<>rifier cette propri<72>t<EFBFBD> ou tout du moins d'<27>viter une
corr<EFBFBD>lation trop <20>lev<65>e de la cha<68>ne de Markov <20> partir de laquelle on d<>duit les quantit<69>s ou statistiques
d'int<6E>r<EFBFBD>t. Plusieurs proc<6F>dures ont <20>t<EFBFBD> sugg<67>r<EFBFBD>es dans la litt<74>rature. Nous mentionnons ici deux strat<61>gies.
La premi<6D>re repose sur un facteur correctif <20> appliquer <20> la dimension de la cha<68>ne de Markov en pr<70>sence
d'un degr<67> observ<72> $$ d'autocorr<72>lations\note{43}. Une autre strat<61>gie est de conserver seulement chaque
ki<EFBFBD>me <20>l<EFBFBD>ment de la cha<68>ne de Markov (apr<70>s avoir supprim<69> les $$ premiers <20>l<EFBFBD>ments de la chaine de Markov). Cette
technique est connue sous le nom de sous-<2D>chantillonnage, voir Schmeiser (1989), Raftery et Lewis (1992a) ou
Raftery et Lewis (1992b).
3.4 Estimation de la densit<69> marginale
Nous disposons d'une suite de vecteurs de param<61>tres $$ o<> chaque $$ est extrait de la
distribution post<73>rieure. <20> partir de cette suite nous pouvons estimer les moments post<73>rieurs, les densit<69>s
pr<EFBFBD>dictives, et finalement la densit<69> marginale de l'<27>chantillon, $$. Cette densit<69> marginale, comme nous
l'avons vu en section 2.1, pemet de quantifier la capacit<69> du mod<6F>le <20> expliquer l'<27>chantillon <20> notre dis-
position et <20>ventuellement de comparer diff<66>rents mod<6F>les. Par exemple, Rabanal et Rubio Ramirez (2005)
<EFBFBD>valuent diff<66>rentes sp<73>cifications des rigidit<69>s nominales sur les salaires et les prix dans le cadre d'un mo-
d<EFBFBD>le DSGE, en comparant des densit<69>s marginales. Il existe de nombreuses m<>thodes pour estimer $$. Dans cette
section nous pr<70>sentons la m<>thode g<>n<EFBFBD>ralement utilis<69>e pour les mod<6F>les DSGE.
L'estimateur par la moyenne harmonique est motiv<69> par la propri<72>t<EFBFBD> suivante de l'esp<73>rance post<73>rieure :
<DISPLAY EQUATION ()>
o<EFBFBD> $$ est une fonction de densit<69> quelconque et $$ est l'esp<73>rance post<73>rieure. Le membre de droite de l'<27>galit<69>,
en utilisant la d<>finition de la densit<69> post<73>rieure, s'<27>crit alternativement :
<DISPLAY EQUATION ()>
On obtient donc :
<DISPLAY EQUATION ()>
Puisque l'int<6E>grale de $$ somme <20> un, nous obtenons finalement :
<DISPLAY EQUATION ()>
Ainsi, un estimateur de la densit<69> marginale (l'int<6E>grale du noyau post<73>rieur qui appara<72>t au d<>nominateur du
second membre), est l'inverse de l'esp<73>rance post<73>rieure de $$. Ceci sugg<67>re l'estimateur suivant
de la densit<69> marginale :
<DISPLAY EQUATION ()>
Ce r<>sultat est valable pour toute densit<69> f. Geweke (1992) propose d'utiliser une gaussienne tronqu<71>e centr<74>e
sur l'esp<73>rance post<73>rieure. L'id<69>e est d'accorder moins de poids, voire d'<27>liminer, les simulations <20>loign<67>es
du centre de la distribution post<73>rieure. Cela permet de diminuer la variance de l'estimateur de la densit<69>
marginale.
4 Un DSGE pour le B du VAR
Dans cette section, nous illustrons en quoi les mod<6F>les VAR et DSGE sont des outils compl<70>mentaires que
l'on ne doit pas n<>cessairement chercher <20> opposer. Nous avons vu dans la section 2.4 que la sp<73>cification des
croyances a priori sur la param<61>trisation d'un VAR ne va pas de soi. En effet, dans la mesure o<> le contenu
<EFBFBD>conomique d'un mod<6F>le VAR est t<>nu, l'interpr<70>tation des param<61>tres du VAR est d<>licate, ce qui rend l'<27>li-
citation des priors ardue. Ingram et Whiteman (1994) proposent d'utiliser un mod<6F>le DSGE afin de construire
le prior d'un mod<6F>le VAR. Ils montrent qu'en utilisant les restrictions d<>finies par un mod<6F>le RBC pour d<>-
finir le prior d'un mod<6F>le VAR, on peut produire avec ce dernier des pr<70>visions comparables, en termes de
pr<EFBFBD>cision, <20> celles que nous obtiendrions avec un prior Minnesota. Ce r<>sultat est remarquable, car m<>me si le
mod<EFBFBD>le RBC canonique est mal sp<73>cifi<66> dans de nombreuses directions, il impose des restrictions utiles pour
am<EFBFBD>liorer les pr<70>visions du VAR.
Plus r<>cemment, Del Negro et Schorfheide (2004) ont repris cette id<69>e sous une forme plus simple <20> mettre
en oeuvre. Leur approche permet d'estimer simultan<61>ment les param<61>tres structurels du DSGE et les para-
m<EFBFBD>tres du mod<6F>le VAR. Nous pr<70>sentons leur approche dans cette section.
4.1 Les r<>gressions mixtes
Dans la section 2.4.3 nous avons not<6F>, au moins dans le cadre d'un mod<6F>le lin<69>aire gaussien, une analogie
entre les priors du paradigme bay<61>sien et les contraintes lin<69>aires sur les param<61>tres de l'approche classique.
Del Negro et Schorfheide utilisent cette analogie (voir Theil et Golberger (1961), Tiao et Zellner (1964) et Theil
(1971)) pour mettre en oeuvre le prior DSGE. Dans le mod<6F>le VAR, on peut d<>finir un prior sur $$ en utilisant
des observations artificielles, coh<6F>rentes avec nos croyances, et un prior diffus <20> la Jeffrey. Par exemple, si ces
observations artificielles sont g<>n<EFBFBD>r<EFBFBD>es par un mod<6F>le DSGE, alors l'estimation sur la base de l'<27>chantillon
augment<EFBFBD> sera attir<69>e vers la projection du DSGE dans l'espace des VAR.
Plus formellement supposons que nous disposions des observations artificielles , o<> $$ est un
vecteur de param<61>tres qui d<>finit le processus g<>n<EFBFBD>rateur des donn<6E>es artificielles (ie les croyances a priori).
Comme l'<27>chantillon artificiel est ind<6E>pendant de $$, la vraisemblance de l'<27>chantillon augment<6E> s'<27>crit de la
fa<EFBFBD>on suivante :
<DISPLAY EQUATION (25)>
Le premier terme du membre de droite, si l'<27>chantillon artificiel est de dimension $$ o<> $$, s'<27>crit :
<DISPLAY EQUATION (26)>
et, <20> la lumi<6D>re de l'avant derni<6E>re <20>quation, s'interpr<70>te comme un prior pour $$ et $$. La croyance a priori est
d'autant plus informative que l'<27>chantillon artificiel est de grande taille. Quand $$ tend vers l'infini, le poids
de la vraisemblance (le second terme sur le membre de droite de (25)) devient n<>gligeable par rapport au prior
(le premier terme sur le membre de droite de (25)). En compl<70>tant le prior, d<>fini avec les donn<6E>es artificielles,
par un prior diffus (ou plat) <20> la Jeffrey :
<DISPLAY EQUATION ()>
le prior est au final de type normal-Wishart, le prior conjugu<67> dans un mod<6F>le lin<69>aire gaussien. En particulier,
$$ est a priori normalement distribu<62> :
<DISPLAY EQUATION ()>
o<EFBFBD> $$, est l'estimateur des MCO (MV) des param<61>tres autor<6F>gressifs pour l'<27>chantillon artificiel. On voit
imm<EFBFBD>diatement, en consid<69>rant la vraisemblance de l'<27>chantillon augment<6E> (25), le prior diffus <20>
la Jeffrey et les r<>sultats de la section 2.4.1, que la distribution a posteriori est de type normale-Wishart :
<DISPLAY EQUATION (27)>
o<EFBFBD> $$ et $$ sont respectivement les estimateurs du maximum de vraisemblance de $$ et $$, pour
l'<27>chantillon augment<6E> des donn<6E>es artificielles, $$. En int<6E>grant la densit<69> jointe post<73>rieure
par rapport <20> $$, on montre que la distribution post<73>rieure marginale de $$ est une distribution de student
matricielle, centr<74>e en $$. Lorsque $$ augmente, $$ se rapproche de $$ ; en effet, on <20>tablit facilement
que :
<DISPLAY EQUATION ()>
Ainsi, lorsque le poids du prior augmente, la distribution post<73>rieure du VAR se rapproche de la projection
dans l'espace des VAR du mod<6F>le g<>n<EFBFBD>rateur des donn<6E>es coh<6F>rent avec nos croyances a priori.
4.2 Le mod<6F>le BVAR-DSGE
Del Negro et Schorfheide (2004) proposent, <20> la suite de Ingram et Whiteman (1994), d'utiliser un mod<6F>le
DSGE pour sp<73>cifier le prior d'un mod<6F>le VAR. Contrairement <20> ces derniers, Del Negro et Schorfheide uti-
lisent les r<>gressions mixtes d<>crites dans la section 4.1 , m<>me si en pratique ils ne simulent pas des donn<6E>es.
Afin d'<27>viter que les r<>sultats puissent varier, <20> cause des simulations, ils pr<70>f<EFBFBD>rent remplacer les moments em-
piriques dans (26) par des moments th<74>oriques calcul<75>s <20> partir d'une approximation de Taylor d'ordre un de
la forme r<>duite (18) du mod<6F>le DSGE. Par exemple ils remplacent $$ par la matrice de variance-covariance
des endog<6F>nes observ<72>es, c'est-<2D>-dire une sous matrice de $$, multipli<6C>e par la
taille de l'<27>chantillon artificiel, $$. Pour tout vecteur de param<61>tres structurels, $$, la d<>finition du prior
du VAR est pratiquement imm<6D>diate, il suffit d'<27>crire la forme r<>duite du mod<6F>le DSGE et de calculer ses
moments asymptotiques. Del Negro et Schorfheide ne se contentent pas d'estimer les param<61>tres du VAR, ils
estiment simultan<61>ment les param<61>tres du mod<6F>le DSGE. Ils sp<73>cifient donc un prior joint sur les param<61>tres
du mod<6F>le VAR et les param<61>tres structurels du mod<6F>le DSGE :
<DISPLAY EQUATION ()>
Le prior est conditionnel au param<61>tre $$ qui sp<73>cifie la taille de l'<27>chantillon artificiel relativement <20> l'<27>chan-
tillon d'origine, c'est-<2D>-dire la quantit<69> relative d'information structurelle a priori. On peut alors utiliser l'algo-
rithme de Metropolis-Hastings pour obtenir la distribution post<73>rieure de $$ (et indirectement de $$ et $$) en
utilisant la densit<69> post<73>rieure du mod<6F>le BVAR sp<73>cifi<66>e par (27). Ici, la vraisemblance du mod<6F>le DSGE n'a
pas <20> <20>tre calcul<75>e, ce qui simplifie consid<69>rablement l'estimation puisque le filltre de Kalman n'est plus n<>-
cessaire. Les param<61>tres du mod<6F>le DSGE sont identifi<66>s gr<67>ce <20> la vraisemblance, plus exactement la densit<69>
post<EFBFBD>rieure, de son approximation VAR. Le mod<6F>le VAR joue ici en quelque sorte le m<>me r<>le qu'un mod<6F>le
auxiliaire en inf<6E>rence indirecte (voir Gouri<72>roux et Monfort (1996)).
L'estimation de $$ (et donc de $$ et $$) est conditionnelle aux choix de $$, le nombre de retards dans le VAR,
et $$, la quantit<69> relative d'information structurelle a priori dans le VAR. Il convient de choisir un nombre de re-
tard assez grand pour que le mod<6F>le VAR puisse <20>tre une approximation acceptable du mod<6F>le DSGE. En effet
la forme r<>duite (18) approxim<69>e du mod<6F>le DSGE n'appartient pas <20> la famille des mod<6F>les VAR, il faudrait
un nombre de retard infini pour approximer au mieux le mod<6F>le DSGE\note{44}. Del Negro et Schorfheide estiment
un VAR d<>crivant l'inflation, le taux d'int<6E>r<EFBFBD>t et le taux de croissance du produit. Ils affirment qu'un VAR(4)
permet une approximation satisfaisante de leur mod<6F>le DSGE. Le choix de $$ est plus d<>licat, en variant ce
param<EFBFBD>tre de z<>ro <20> l'infini, on passe d'un prior diffus (l'esp<73>rance post<73>rieure de $$ est alors l'estimateur du
MV) <20> un prior tr<74>s informatif (l'esp<73>rance post<73>rieur de A tend vers $$ les contraintes DSGE sur
les param<61>tres du mod<6F>le VAR). Del Negro et Schorfheide proposent d'estimer plusieurs mod<6F>les pour une
grille de valeurs de $$. Ils choisissent alors le mod<6F>le, c'est-<2D>-dire la valeur de $$, qui maximise la densit<69> margi-
nale. Ils s<>lectionnent le mod<6F>le dont la qualit<69> d'ajustement est la meilleure. Del Negro et al. (2007) utilisent
le BVAR-DSGE pour estimer le mod<6F>le de Smets et Wouters (2002), ils obtiennent $$. Ils montrent ainsi
que les restrictions apport<72>es par le mod<6F>le de Smets et Wouters sont utiles pour am<61>liorer les performances
du mod<6F>le VAR. Cette proc<6F>dure est relativement compliqu<71>e <20> mettre en oeuvre. Pour chaque valeur de $$ il
faut s'assurer de la convergence de l'algorithme de Metropolis-Hastings, afin d'estimer la densit<69> marginale\note{45}.
Plus haut nous avons not<6F> l'analogie entre le choix d'un mod<6F>le dans une collection de mod<6F>les et l'estimation
d'un param<61>tre dont les valeurs seraient discr<63>tes. Une approche plus directe est d'associer une distribution
a priori <20> $$ puis d'estimer ce param<61>tre (avec les param<61>tres structurelles $$). Il faut alors d<>finir un prior joint
sur $$, $$, $$ et $$ :
<DISPLAY EQUATION ()>
Adjemian et Darracq-Pari<72>s (2007) estiment une version deux pays du mod<6F>le de Smets et Wouters , avec le
mod<EFBFBD>le BVAR-DSGE, en posant un prior uniforme (entre 0 et 10) pour le param<61>tre $$. Ils obtiennent une
distribution post<73>rieure de $$ centr<74>e sur 2,5. Il n'est pas surprenant d'obtenir dans ce cas une valeur de $$
largement sup<75>rieure. La version deux pays du mod<6F>le de Smets et Wouters est estim<69>e avec un VAR compre-
nant dix-huit variables observables, alors que Del Negro et al. (2007), pour la version un pays, ne consid<69>rent
que sept variables. Avec dix-huit variables, les restrictions structurelles deviennent plus n<>cessaires, m<>me si
le mod<6F>le n'est pas mieux sp<73>cifi<66>.
4.3 Usages et avantages du BVAR-DSGE
Del Negro et Schorfheide (2004) et surtout Del Negro et al. (2007) pr<70>sentent le mod<6F>le BVAR-DSGE comme
un outil d'<27>valuation de la qualit<69> d'ajustement d'un mod<6F>le DSGE. Pour ces derniers la valeur de $$, le poids
du prior structurel, donne une id<69>e de l'int<6E>r<EFBFBD>t empirique du mod<6F>le. Si les restrictions structurelles d<>finies
par le mod<6F>le DSGE sont pertinentes, alors la proc<6F>dure s<>lectionne une valeur <20>lev<65>e de $$. Si le mod<6F>le ap-
porte des informations totalement incoh<6F>rentes avec les donn<6E>es alors la proc<6F>dure s<>lectionne une valeur
proche de z<>ro. Malheureusement cette mesure n'a pas d'<27>chelle et nous ne savons pas <20> partir de quelle
valeur de $$ on peut dire que le mod<6F>le apporte des informations pertinentes. Un autre probl<62>me est que ce
param<EFBFBD>tre ne mesure pas la qualit<69> d'ajustement du mod<6F>le DSGE, il nous donne la quantit<69> optimale, au
sens du fit du mod<6F>le BVAR, d'information DSGE qu'il faut incorporer dans le prior du VAR. Del Negro et al.
(2007) utilisent le BVAR-DSGE afin de d<>voiler les <20>ventuelles mauvaises, sp<73>cifications d'un mod<6F>le DSGE.
Or le niveau optimal de $$ ou la densit<69> marginale, $$, du mod<6F>le DSGE ne sauraient donner une id<69>e
pr<EFBFBD>cise des directions dans lesquels le mod<6F>le est insatisfaisant puisque ces deux indicateurs donnent des in-
formations trop agr<67>g<EFBFBD>es. Les quatre auteurs recherchent les directions dans lesquels le mod<6F>le DSGE est mal
sp<EFBFBD>cifi<EFBFBD> en comparant les fonctions de r<>ponses (IRF) du mod<6F>le BVAR-DSGE avec celles du mod<6F>le DSGE.
Ils identifient les chocs structurels dans le mod<6F>le BVAR-DSGE en se fondant sur le mod<6F>le DSGE (17). <20>
partir de la forme r<>duite (18) il est possible de calculer l'impact instantann<6E> de chaque choc structurel sur les
variables observables :
<DISPLAY EQUATION ()>
o<EFBFBD> Z est une matrice de s<>lection d<>finie dans l'<27>quation de mesure (19a). Del Negro et Schorfheide uti-
lisent cette information pour indentifier les innovations structurelles dans le mod<6F>le BVAR (se reporter <20>
Del Negro et Schorfheide (2004) pour les d<>tails). M<>me si le BVAR-DSGE est construit sur la base (au moins
partiellement) d'une information structurelle provenant du DSGE, ce mod<6F>le est moins contraint que le mo-
d<EFBFBD>le DSGE. Ainsi, l'observation d'une diff<66>rence significative entre les IRFs du BVAR-DSGE et celles du mo-
d<EFBFBD>le DSGE conduit Del Negro et al. (2007) <20> identifer les directions dans lesquelles le mod<6F>le DSGE est mal
sp<EFBFBD>cifi<EFBFBD>. Par exemple, les quatre auteurs observent que les r<>ponses du produit, de la consommation et des
heures face <20> un choc de pr<70>f<EFBFBD>rence (sur la d<>sutilit<69> du travail) sont plus persistentes dans le BVAR-DSGE que
dans le DSGE. Ils concluent alors que le mod<6F>le DSGE manque de m<>canismes de propagation des chocs sur
l'offre de travail. Cet exercice de comparaison entre BVAR-DSGE et DSGE peut <20>tre mis en oeuvre en utilisant
des statistiques autres que des fonctions de r<>ponse : d<>compositions de variance des variables observ<72>es,
moments th<74>oriques des variables observ<72>es,... La limite de l'exercice est que les conditions d'identification
des chocs dans le BVAR sont directement d<>riv<69>es du mod<6F>le DSGE. Si nous n'observons pas de grandes dif-
f<EFBFBD>rences entre les IRFs du BVAR-DSGE et celles du DSGE c'est peut <20>tre parce que nous utilisons les m<>mes
conditions d'identifications. Ce probl<62>me ne se pose pas si on compare des statistiques qui ne reposent pas
sur des conditions d'identification, par exemple si on compare des moments (variances, fonction d'autocorr<72>-
lation,...).
L'avantage du mod<6F>le BVAR-DSGE est plus <20>vident en termes de pr<70>visions. Tout mod<6F>le est, par nature,
mal sp<73>cifi<66> dans une multitude de directions. Malgr<67> cette limite intrins<6E>que les mod<6F>les apportent souvent
des informations utiles et pertinentes. L'exp<78>rience de Ingram et Whiteman (1994) est, <20> cet <20>gard, des plus
<EFBFBD>clairantes. Ils montrent que m<>me le plus stylis<69> des mod<6F>les DSGE (le mod<6F>le de cycle r<>el canonique)
est suffisament riche pour aider un BVAR <20> produire des pr<70>visions plus pr<70>cises et moins biais<69>es. Un mo-
d<EFBFBD>le que personne ne voudrait utiliser pour produire des pr<70>visions peut aider un mod<6F>le a-th<74>orique (plus
souple) <20> produire de meilleures pr<70>visions. Cette id<69>e pourrait <20>tre d<>velopp<70>e dans de nombreuses direc-
tions. Nous pourrions par exemple utiliser plusieurs mod<6F>les DSGE pour construire le prior d'un mod<6F>le
VAR (ou de tout autre mod<6F>le a-th<74>orique, par exemple un mod<6F>le <20> facteurs communs) et optimiser les parts
de chaque mod<6F>le dans le prior du VAR.
R<EFBFBD>f<EFBFBD>rences
St<EFBFBD>phane Adjemian et Matthieu Darracq-Pari<72>s. Assessing the International Spillovers Between the US and
Euro Area : Evidence from a two country dsge-var. mim<69>o, CEPREMAP, 2007.
Sungbae An et Frank Schorfheide. Bayesian Analysis of DSGE Models. Econometric Reviews, forthcoming,
2007.
C. Andrieu, A. Doucet, et P.B. Robert. Computational Advances for and from Bayesian Analysis. Statistical
Science, 19(1): 118-127, 2004a.
C. Andrieu, D. Doucet, S.S. Singh, et V.B. Tadi?
c. Particle Methods for Change Detection, System Identi?cation,
and Control. IEEE Transactions on Signal Processing, 92(3) :423-438, 2004b.
S. Arulampalam, T. Clapp, N. Gordon, et S. Maskell. Tutorial on Particle Filters. IEEE Transactions on Signal
Processing, 50(2) :174-188, 2002.
Ben Bernanke. Alternative Explanations of the Money-Income Correlation. Carnegie Rochester Conference Series
on Public Policy, 25(10) :49?99, 1986.
Herman J. Bierens. Econometric Analysis of Linearized Singular Dynamic Stochastic General Equilibrium
Models. Journal of Econometrics, 136(2) :595?627, 2007.
Olivier Blanchard et Danny Quah. The Dynamic Effects of Aggregate Demand and Supply Disturbances. The
American Economic Review, 79 :655?673, 1986.
S.P. Brooks et G. Roberts. Assessing Convergence of Markov Chain Monte Carlo Algorithms. Statistics and
Computing, 8 :319?335, 1998.
John Y. Campbell. Inspecting the Mechanism : An analytical approach to the stochastic growth model. Journal
of Monetary Economics, 33 :463?508, 1994.
Fabio Canova. Statistical Inference in Calibrated Models. Journal of Applied Econometrics, 9 :123?144, 1994.
B. Carlin et T. Louis. Bayes and Empirical Bayes Methods for Data Analysis. Chapman & Hill, 2000.
33
George Casella et Christian Robert. Monte Carlo Statistical Methods. Springer, 2004.
Nicolas Chopin et Florian Pelgrin. Bayesian Inference and State Number Determination for Hidden Markov
Models : An Application to the Information Content of the Yield Curve about In?ation. Journal of Econome-
trics, 123(2) :327?344, 2004.
Lawrence Christiano, Martin Eichenbaum, et Charles Evans. Nominal Rigidities and the Dynamic Effects of a
Schock to Monetary Policy. Journal of Political Economy, 113 :1?45, 2003.
M.K. Cowles et B.P. Carlin. Markov Chain Monte Carlo Convergence Diagnostics : A Comparative Study.
Journal of the American Statistical Association, 91 :883?904, 1996.
David Dejong, Beth F. Ingram, et Charles H. Whiteman. A Bayesian Approach to Calibration. Journal of
Business and Economic Statistics, 14(1) :1?9, 1996.
David Dejong, Beth F. Ingram, et Charles H. Whiteman. A Bayesian Approach to Dynamic Macroeconomics.
Journal of Econometrics, 98(21) :203?223, 2000.
Marco Del Negro et Frank Schorfheide. Priors from General Equilibrium Models for Vars. International Eco-
nomic Review, 45(2) :643?673, 2004.
Marco Del Negro, Frank Schorfheide, Frank Smets, et Raf Wouters. On the Fit and Forecasting Performance
of New Keynesian Models. Journal of Business and Economic Statistics, page forthcoming, 2007.
Ramdan Dridi, Alain Guay, et Eric Renault. Indirect Inference and Calibration of Dynamic Stochastic General
Equilibrium Models. Journal of Econometrics, 136(2) :397?430, 2007.
Jes?s Fern?ndez-Villaverde et Juan F. Rubio-Ram?rez. Estimating Dynamic Equilibrium Economies : Linear
versus NonLinear Likelihood. Journal of Applied Econometrics, 20(7) :891?910, 2005.
Jesus Fern?ndez-Villaverde et Juan F. Rubio-Ram?rez. Comparing Dynamic Equilibrium Economies to Data.
Working Paper 2001-23, Federal Reserve Bank of Atlanta, 2001.
A.E. Gelfand et A.F.M. Smith. Sampling Based Approaches to Calculating Marginal Densities. Journal of the
American Statistical Association, 85 :398?409, 1990.
Andrew Gelman et Donald B. Rubin. Inference from Iterative Simulations Using Multiple Sequences. Statis-
tical Science, 7(4) :457?472, 1992.
John Geweke. Evaluating the Accuracy of Sampling-based Approaches to the Calculation of Posterior Mo-
ments. dans , ?dit? par , Oxford University Press, pages 169?193, 1992.
John Geweke. Using Simulation Methods for Bayesian Econometric Models : Inference, Development and
Communication. Econometric Reviews, 18(1) :1?126, 1999.
N. Gordon, D.J. Salmond, et A.F.M. Smith. Novel Approach to NonLinear and Non-Gaussian Bayesian State
Estimation. IEEE Transactions on Signal Processing, 40(2) :107?113, 1993.
Christian Gouri?roux et Alain Monfort. Simulation Based Econometric Methods. Oxford University Press, 1996.
Christian Gouri?roux et Alain Monfort. Statistique et Mod?les ?conom?triques, volume 1 - Notions g?n?rales,
Estimation, Pr?visions, Algorithmes. Economica, 1989.
Andrew C. Harvey. Forecasting, structural time series models and the Kalman ?lter. Cambridge University Press,
1989.
Beth F. Ingram et Charles H. Whiteman. Supplanting the Minnesota Prior. Forecasting macroeconomic time
series using real business cycle model. Journal of Monetary Economics, 34 :497?510, 1994.
34
Harold Jeffrey. The Theory of Probability. Clarendon Press, 1961.
Kenneth L. Judd. Numerical Methods in Economics. MIT, 1998.
George G. Judge, W.E. Grif?ths, R. Carter Hill, Helmut L?tkpohl, et Tsoung-Chao Lee. The Theory and Practice
of Econometrics. John Wiley & Sons, 1985.
K. Rao Kadiyala et Sune Karlsson. Numerical Methods for Estimation and Inference in Bayesian VAR-Models.
Journal of Applied Econometrics, 12(2) :99?132, 1997.
Jae-Young Kim. Large Sample Properties of Posterior Densities, Bayesian Information Criterion and the Like-
lihood Principle in Nonstationary Time Series Models. Econometrica, 66(2) :359?380, 1998.
G. Kitagawa. Monte Carlo Filter and Smoother for Non-Gaussian NonLinear State Space Models. Journal of
Computational and Graphical Statistics, 5(1) :1?25, 1996.
Gary Koop. Bayesian Econometrics. John Wiley & Sons, 2003.
Finn Kydland et Edwards Prescott. Time to Build and Aggregate Fluctuations. Econometrica, 50 :1345?1370,
1982.
R. B. Litterman. Forecasting with Bayesian Vector Autoregressions ? ?ve years of experience. Journal of
Business & Economic Statistics, 4(1) :25?38, 1986.
C. Liu, J.S. Liu, et Donald B. Rubin. A Varational Control Variable for Assessing the Convergence of the Gibbs
Sampler. Proceedings of the American Statistical Association, pages 74?78, 1992.
Peter C. B. Phillips. Econometric Model Determination. Econometrica, 64(4) :763?812, 1996.
Peter C.B. Phillips. To Criticize the Critics : An Objective Bayesian Analysis of Stochastic Trends. Journal of
Applied Econometrics, 6(4) :333?64, 1991a.
Peter C.B. Phillips. Bayesian Routes and Unit Roots : De rebus prioribus semper est disputandum. Journal of
Applied Econometrics, 6(4) :435?73, 1991b.
D. Poirier. Intermediate Statistics and Econometrics : A Comparative Approach. Cambridge, The MIT Press, 1995.
Pau Rabanal et Juan F. Rubio Ramirez. Comparing New Keynesian Models of the Business Cycle : a bayesian
approach. Journal of Monetary Economics, 6 :1151?1166, 2005.
A.E. Raftery et S. Lewis. Implementing MCMC. dans Markov Chain Monte Carlo in Practice, ?dit? par W.R. Gilks,
S.T. Richardson et D.J. Spiegelhalter, Chapman & Hall, pages 115?130, 1996.
A.E. Raftery et S. Lewis. How Many Iterations in the Gibbs Sampler ? dans Bayesian Statistics, ?dit? par J.M.
Bernando, J.O. Berger, A.P. David et A.F.M. Smith, Oxford University Press, pages 763?773, 1992a.
A.E. Raftery et S. Lewis. The Number of Iterations, Convergence Diagnostics and Generic Metropolis Algo-
rithms. Technical report, Department of Statistics, University of Washington, 1992b.
Christian Robert. Le Choix Bay?sien. Springer, 2006.
G.O. Roberts. Convergence Diagnostics of the Gibbs Sampler. dans Bayesian Statistics, ?dit? par J.M. Bernando,
J.O. Berger, A.P. David et A.F.M. Smith, Oxford University Press, pages 775?782, 1992.
Julio Rotemberg et Michael Woodford. An Optimization-Based Econometric Framework for the Evaluation of
Monetary Policy. NBER Macroeconomics Annual, 12 :297?346, 1997.
B. Schmeiser. Simulation Experiments. Working Paper SMS 89-23, Purdue University, 1989.
35
Christopher Sims. Probability Models for Monetary Policy Decisions. mim?o, Princeton University, Septembre
2003.
Christopher Sims. Macroeconomics and Reality. Econometrica, 48(1) :1?48, 1980.
Christopher Sims. Are Forecasting Models Usable for Policy Analysis. Federal Reserve Bank of Minneapolis
Quarterly Review, 10(1) :2?16, 1986.
Christopher Sims. Comment on 'To Criticize the Critics,' by Peter C.B. Phillips. Journal of Applied Econometrics,
6(4) :423?34, 1991.
Christopher A Sims et Harald Uhlig. Understanding Unit Rooters : a Helicopter Tour. Econometrica, 59(6) :
1591?99, 1991.
Frank Smets et Rafael Wouters. An Estimated Stochastic Dynamic General Equilibrium Model of the Euro
Area. Working Paper Series 171, European Central Bank, Ao?t 2002.
Anthony Smith. Estimating NonLinear Time-Series Models Using Simulated Vector Autoregressions. Journal
of Applied Econometrics, 8 :63?84, 1993.
Henri Theil. Principles of Econometrics. John Wiley & Sons, 1971.
Henri Theil et Arthur S. Golberger. On Pure and Mixed Statistical Estimation in Economics. International
Economic Review, 2(1) :65?78, 1961.
George C. Tiao et Arnold Zellner. Bayes Theorem and the Use of Prior Knowledge in Regression Analysis.
Biometrika, 51(162) :219?230, 1964.
L. Tierney, R. Kass, et J. Kadane. Fully Exponential Laplace Approximations to Expectations and Variances of
NonPositive Functions. Journal of the American Statistical Association, 84 :710?716, 1989.
Luke Tierney. Markov Chains for Exploring Posterior Distributions. The Annals of Statistics, 22(4) :1701?1762,
1994.
Luke Tierney et Joseph B. Kadane. Accurate Approximations for Posterior Moments and Marginal Density.
Journal of the American Statistical Association, 81(393) :82?86, 1986.
B. Yu et P. Mykland. Looking at Markov Samplers through Cusum Path Plots : A Simple Diagnostic Idea.
Statistics and Computing, 8(3) :275?286, 1998.
Arnold Zellner. An Introduction to Bayesian Inference in Econometrics. John Wiley & Sons, 1971.
A Densit<69>s pour le mod<6F>le BVAR
A.1 Distribution normale matricielle
d<EFBFBD>finition 4. La matrice $$ al<61>atoire $$ est distribu<62>e conform<72>ment <20> une loi normale matricielle $$ o<>
$$ est une matrice $$, $$ et $$ sont respectivement des matrices $$ et $$ sym<79>triques et d<>finies positives, si
et seulement si $$ est distribu<62> comme une v.a. normale multivari<72>e
<DISPLAY EQUATION ()>
Ainsi, la fonction de densit<69> associ<63>e <20> $$ est donn<6E>e par :
<DISPLAY EQUATION ()>
A.2 Distributions de Wishart
La loi de Wishart est une version multivari<72>e de la loi du $$. Soit $$ une suite de variables al<61>atoires
gaussiennes ind<6E>pendantes et identiquement distribu<62>es $$, avec $$ une matrice sym<79>trique d<>finie po-
sitive $$. Par d<>finition $$ est distribu<62> selon une loi de Wishart. Les d<>finitions suivantes
caract<EFBFBD>risent cette loi et la densit<69> de l'inverse d'une v.a. de Wishart.
d<EFBFBD>finition 5. La matrice al<61>atoire, de dimension $$, sym<79>trique et semi d<>finie positive Y est distribu<62>e selon une
loi de Wishart, $$, si et seulement si sa densit<69> est donn<6E>e par
<DISPLAY EQUATION ()>
pour $$ une matrice sym<79>trique semie d<>finie positive, et $$ le degr<67> de libert<72>.
d<EFBFBD>finition 6. Une matrice al<61>atoire, de dimension $$, $$ est distribu<62>e selon une loi inverse Wishart,
<DISPLAY EQUATION ()>
si et seulement si $$.
Ainsi la fonction de densit<69> associ<63>e <20> $$ est d<>finie par :
<DISPLAY EQUATION ()>