1336 lines
96 KiB
Plaintext
1336 lines
96 KiB
Plaintext
|
Un regard Bay<61>sien sur les Mod<6F>les Dynamiques de la Macro<72>conomie
|
|||
|
|
|||
|
St<EFBFBD>phane Adjemian\note{stephane.adjemian@ens.fr}
|
|||
|
|
|||
|
Universit<EFBFBD> du Maine, GAINS et CEPREMAP
|
|||
|
|
|||
|
Florian Pelgrin\note{florian.pelgrin@unil.ch}
|
|||
|
|
|||
|
Universit<EFBFBD> de Lausanne - HEC, IEMS et CIRANO
|
|||
|
|
|||
|
3 d<>cembre 2007
|
|||
|
|
|||
|
R<EFBFBD>sum<EFBFBD>
|
|||
|
|
|||
|
L'objet de cette contribution est de pr<70>senter l'approche bay<61>sienne des mod<6F>les dynamiques les plus
|
|||
|
consid<EFBFBD>r<EFBFBD>s en macro<72>conomie : les mod<6F>les DSGE (Dynamic Stochastic General Equilibrium) et les mod<6F>les
|
|||
|
VAR.
|
|||
|
|
|||
|
Classification JEL : C3, C5, E3
|
|||
|
Mots-Clefs : <20>conom<6F>trie Bay<61>sienne, Mod<6F>les VAR, Mod<6F>les DSGE.
|
|||
|
|
|||
|
|
|||
|
1 Introduction
|
|||
|
|
|||
|
Ces derni<6E>res ann<6E>es, l'analyse des fluctuations <20>conomiques s'est
|
|||
|
d<EFBFBD>velopp<EFBFBD>e autour des Mod<6F>les d'<27>quilibre G<>n<EFBFBD>ral Inter-temporels
|
|||
|
Stochastiques (DSGE). Pour au-
|
|||
|
tant, jusqu'<27> tr<74>s r<>cemment, l'engouement pour l'approche DSGE comme
|
|||
|
outil d'analyse de la politique <20>conomique est demeure relativement
|
|||
|
faible, et l'approche des mod<6F>les Vectoriels Auto-r<>gressif (VAR) a <20>t<EFBFBD>
|
|||
|
(est) souvent privil<69>gi<67>e. Plusieurs raisons expliquent cette
|
|||
|
pr<EFBFBD>f<EFBFBD>rence. D'une part, la mod<6F>lisation VAR de la dynamique des
|
|||
|
variables macro-<2D>conomiques impose un nombre tr<74>s restreint de
|
|||
|
contraintes et offre une qualit<69> d'ajustement aux donn<6E>es (et des
|
|||
|
pr<EFBFBD>visions) relativement bonne. Au contraire, en augmentant le nombre
|
|||
|
de contraintes sur les donn<6E>es, encourant ainsi le risque d'une
|
|||
|
mauvaise sp<73>cification, les mod<6F>les DSGE de la premi<6D>re g<>n<EFBFBD>ration
|
|||
|
(les mod<6F>les de la th<74>orie des cycles r<>els) se sont traduits par des
|
|||
|
performances d'ajustement et de pr<70>visions tr<74>s pauvres. D'autre part,
|
|||
|
l'<27>mergence d'une approche plus structurelle des mod<6F>les VAR (par
|
|||
|
rapport <20> l'approche a-th<74>orique, Sims (1980)) -- autorisant des
|
|||
|
proc<EFBFBD>dures d'identification des chocs <20> partir de restrictions
|
|||
|
contemporaines, de court terme (Sims (1986) ; Bernanke (1986)) ou de
|
|||
|
long terme (Blanchard et Quah (1986)) -- ont conduit <20> exiger que tout
|
|||
|
mod<EFBFBD>le th<74>orique puisse reproduire les fonctions de r<>ponse des
|
|||
|
variables macro-<2D>conomiques <20> des chocs structurels identifi<66>s dans
|
|||
|
les mod<6F>les VAR (Rotemberg et Woodford (1997), Christiano et
|
|||
|
al. (2003)). Finalement, l'absence d'un traitement <20>conom<6F>trique
|
|||
|
convaincant n'a fait que renforcer la recommandation de Kydland et
|
|||
|
Prescott (1982) -- l'<27>talonnage est pr<70>f<EFBFBD>rable.
|
|||
|
|
|||
|
Cependant, on a constat<61> un regain d'int<6E>r<EFBFBD>t des mod<6F>les DSGE et cela
|
|||
|
essentiellement pour deux raisons : (i) les avanc<6E>es th<74>oriques et
|
|||
|
notamment la prise en compte de fondements micro-<2D>conomiques des
|
|||
|
rigidit<EFBFBD>s nominales et/ou r<>elles (ii) les progr<67>s dans l'estimation
|
|||
|
et l'<27>valuation des mod<6F>les sur la base de m<>thodes statistiques
|
|||
|
formelles\note{1}. Dans cette perspective, l'id<69>e suivant laquelle de
|
|||
|
tels mod<6F>les sont utiles pour la pr<70>- vision et l'analyse de la
|
|||
|
politique <20>conomique s'est r<>pandue dans le milieu acad<61>mique ainsi
|
|||
|
qu'aupr<70>s des institutions internationales et des banques
|
|||
|
centrales. Parmi toutes ces approches <20>conom<6F>triques, la litt<74>rature
|
|||
|
privil<EFBFBD>gie, pour de << bonnes >> et << mauvaises >> raisons, la
|
|||
|
statistique bay<61>sienne. Parmi les << bonnes >> rai- sons, nous
|
|||
|
pourrions souligner le fait que la fonction de vraisemblance d'un
|
|||
|
mod<EFBFBD>le de dimension <20>lev<65>e (de nombreux param<61>tres <20> estimer) est
|
|||
|
souvent << plate >> dans certaines directions. En d'autres termes, les
|
|||
|
donn<EFBFBD>es peuvent <20>tre insuffisamment informatives pour identifier (avec
|
|||
|
pr<EFBFBD>cision) les param<61>tres. En d<>formant la fonction de vraisemblance <20>
|
|||
|
l'aide d'informations a priori sur les param<61>tres, c'est-<2D>-dire en
|
|||
|
privil<EFBFBD>giant une approche bay<61>sienne, l'identification devient
|
|||
|
possible. Il est n<>anmoins trop souvent ignor<6F> que la mise en oeuvre
|
|||
|
et l'interpr<70>tation des r<>sultats de l'estimation bay<61>sienne
|
|||
|
requi<EFBFBD>rent un certain nombre d'hypoth<74>ses et de conditions de
|
|||
|
validit<EFBFBD>, ou que nombre de probl<62>mes rencontr<74>s en <20>conom<6F>trie
|
|||
|
classique ont leur contrepartie en <20>conom<6F>trie bay<61>sienne. Toujours
|
|||
|
est-il que l'approche bay<61>sienne a consid<69>rablement favoris<69> le
|
|||
|
d<EFBFBD>veloppement des mod<6F>les DSGE comme outil d'analyse et de pr<70>vision
|
|||
|
de la politique mon<6F>taire. Dans le m<>me temps, il n'en demeure pas
|
|||
|
moins que les mod<6F>les DSGE et VAR continuent <20> <20>tre oppos<6F>s et que
|
|||
|
nombre de papiers cherchent g<>n<EFBFBD>ralement <20> l<>gitimer leurs r<>sultats
|
|||
|
en comparant, par exemple, les pr<70>visions (ou tout autre statistique
|
|||
|
ou quantit<69> d'int<6E>r<EFBFBD>t) de leur(s) mod<6F>le(s) avec ceux d'un VAR (Smets
|
|||
|
et Wouters (2002)).
|
|||
|
|
|||
|
L'objet de ce papier est de pr<70>senter l'approche bay<61>sienne des
|
|||
|
mod<EFBFBD>les VAR et DSGE en mettant en avant les principaux concepts, leur
|
|||
|
mise en oeuvre pratique et les limites sous-jacentes. Nous montrons en
|
|||
|
quoi les mod<6F>les DSGE et VAR sont des outils compl<70>mentaires que l'on
|
|||
|
ne doit pas n<>cessairement chercher <20> opposer. Nous n'abordons pas ici
|
|||
|
certains probl<62>mes importants, comme l'estimation non lin<69>aire des
|
|||
|
mod<EFBFBD>les DSGE\note{2}.
|
|||
|
|
|||
|
L'article est organis<69> comme suit. Dans une premi<6D>re section, nous pr<70>sentons les principaux concepts de
|
|||
|
l'analyse bay<61>sienne et montrons comment les appliquer dans le cadre des mod<6F>les VAR. Une attention par-
|
|||
|
ticuli<EFBFBD>re est attach<63>e <20> la nature (informative, non informative, empirique) des croyances a priori. Dans une
|
|||
|
deuxi<EFBFBD>me section, nous abordons les sp<73>cificit<69>s de l'approche bay<61>sienne des mod<6F>les DSGE. Contrairement
|
|||
|
aux mod<6F>les VAR, il n'est plus possible d'obtenir une expression analytique de la distribution a posteriori.
|
|||
|
Pour rem<65>dier <20> cette difficult<6C>, il est n<>cessaire de recourir <20> des m<>thodes de Monte-Carlo et notamment
|
|||
|
<EFBFBD> la th<74>orie des cha<68>nes de Markov. Dans cette perspective, apr<70>s avoir d<>riv<69> de mani<6E>re g<>n<EFBFBD>rale la
|
|||
|
densit<EFBFBD> a posteriori d'un mod<6F>le DSGE, nous expliquons les principaux algorithmes d'estimation (algorithme
|
|||
|
de Metropolis-Hasting, par fonction d'importance). Dans une troisi<73>me section, nous illustrons comment
|
|||
|
peuvent se combiner les approches VAR et DSGE.
|
|||
|
|
|||
|
|
|||
|
2 L'approche Bay<61>sienne
|
|||
|
|
|||
|
2.1 G<>n<EFBFBD>ralit<69>s
|
|||
|
|
|||
|
L'approche bay<61>sienne propose un cadre rigoureux pour (i) formaliser nos croyances\note{3} a priori et (ii)
|
|||
|
d<EFBFBD>terminer comment celles-ci doivent <20>tre mises <20> jour une fois que les donn<6E>es sont observ<72>es. Les croyances,
|
|||
|
a priori ou a posteriori, sont repr<70>sent<6E>es <20> l'aide d'une densit<69> de probabilit<69> jointe sur les param<61>tres d'un
|
|||
|
mod<EFBFBD>le. Cette densit<69> jointe caract<63>rise l'incertitude quant au processus g<>n<EFBFBD>rateur des donn<6E>es (DGP, pour
|
|||
|
Data Generating Process), en d<>crivant une famille (un continuum) de mod<6F>les.
|
|||
|
|
|||
|
Imaginons que nous souhaitions caract<63>riser nos croyances sur le param<61>tre de Calvo d'une courbe de
|
|||
|
Phillips. Ce param<61>tre, $$ , est la probabilit<69> pour une firme, en concurrence monopolistique, de ne pas pou-
|
|||
|
voir ajuster son prix de fa<66>on optimale <20> une date quelconque. Ainsi, nous savons d<>j<EFBFBD> que ce param<61>tre doit
|
|||
|
appartenir <20> l'intervalle $$. Nous pourrions donc utiliser une distribution b<>ta\note{4} d<>finie sur cet intervalle.
|
|||
|
A partir de la probabilit<69> $$ , nous pouvons d<>finir le temps moyen pendant lequel une firme ne pourra pas
|
|||
|
ajuster son prix de fa<66>on optimale : $$. Si par ailleurs, <20> l'aide d'enqu<71>tes micro-<2D>conomiques, nous
|
|||
|
savons que le temps moyen durant lequel une firme ne r<>ajuste pas son prix de fa<66>on << optimale >> est de
|
|||
|
quatre trimestres, nous pouvons d<>duire qu'une valeur pertinente de la probabilit<69> $$ est trois quarts.
|
|||
|
L'<27>conomiste bay<61>sien pourra donc formaliser son a priori sur le param<61>tre $$ en s<>lectionnant une distribution
|
|||
|
b<EFBFBD>ta ayant pour mode $$ et en sp<73>cifiant une variance mesurant son incertitude sur le param<61>tre d'int<6E>r<EFBFBD>t. Il
|
|||
|
choisira une variance d'autant plus grande qu'il est incertain des <20>valuations micro-<2D>conomiques dont il dis-
|
|||
|
pose\note{5}. Notons qu'il pourrait directement poser son a priori sur le d<>lai moyen d'attente avant qu'il
|
|||
|
ne puisse optimalement ajuster son prix, $$; ceci r<>sultera en une distribution diff<66>rente pour le param<61>tre $$.
|
|||
|
Si $$ est le seul param<61>tre du mod<6F>le pour lequel nous sommes incertain, ie si les autres param<61>tres ont des variances
|
|||
|
a priori nulles, la densit<69> a priori sur ce param<61>tre d<>crit une famille de DGP, index<65>e par $$ : chaque valeur
|
|||
|
possible de $$ correspond <20> un DGP.
|
|||
|
|
|||
|
Plus g<>n<EFBFBD>ralement, nous noterons l'a priori sur un vecteur de param<61>tres $$ associ<63> <20> un mod<6F>le param<61>-
|
|||
|
trique $$, $$ ,de la fa<66>on suivante :
|
|||
|
<DISPLAY EQUATION (1)>
|
|||
|
Cette densit<69> jointe d<>finit notre incertitude quant aux param<61>tres $$ avant que nous ayons port<72> attention
|
|||
|
aux donn<6E>es. Il convient de noter que nous raisonnons conditionnellement <20> un mod<6F>le. En toute g<>n<EFBFBD>ralit<69>
|
|||
|
l'incertitude pourrait aussi porter sur la forme du mod<6F>le param<61>trique $$. Plus loin nous omettrons
|
|||
|
g<EFBFBD>n<EFBFBD>ralement le conditionnement (ainsi que l'indexation) par le mod<6F>le pour simplifier les notations.
|
|||
|
|
|||
|
Nous observons un <20>chantillon $$ o<> $$ est un vecteur de m variables. Nous nous limiterons
|
|||
|
au cas o<> l'indice t repr<70>sente le temps. La vraisemblance est la densit<69> de l'<27>chantillon conditionnellement
|
|||
|
au mod<6F>le et ses param<61>tres ; on notera :
|
|||
|
<DISPLAY EQUATION (2)>
|
|||
|
L'estimateur du maximum de vraisemblance (MV) des param<61>tres $$ d'un mod<6F>le $$ est la valeur des pa-
|
|||
|
ram<EFBFBD>tres qui rend le plus << probable >> l'occurrence de l'<27>chantillon <20> notre disposition. Autrement dit, l'es-
|
|||
|
timateur du MV s<>lectionne le param<61>tre $$ d<>finissant le DGP qui a le plus probablement g<>n<EFBFBD>r<EFBFBD> les don-
|
|||
|
n<EFBFBD>es. La d<>marche statistique, classique ou bay<61>sienne, est une d<>marche d'inversion -- il s'agit de remonter
|
|||
|
des observations aux param<61>tres du DGP. Un mod<6F>le (la vraisemblance) d<>finit la densit<69> d'un ensemble de
|
|||
|
variables conditionnellement <20> des param<61>tres inconnus. L'observation de l'<27>chantillon donne en retour de
|
|||
|
l'information sur les param<61>tres. La notation d<>finie par l'<27>quation (2) r<>sume le principe de l'inf<6E>rence ; la
|
|||
|
vraisemblance est la densit<69> de l'<27>chantillon $$ sachant les param<61>tres $$ mais nous <20>crivons habituellement
|
|||
|
la vraisemblance comme une fonction des param<61>tres, ie. formellement nous <20>changeons les r<>les de $$ et $$.
|
|||
|
|
|||
|
Nous disposons des densit<69>s $$, qui caract<63>rise l'information postul<75>e a priori, et $$, qui
|
|||
|
caract<EFBFBD>rise l'information amen<65>e par les donn<6E>es. On croise ces deux sources d'informations orthogonales, en
|
|||
|
utilisant le th<74>or<6F>me de Bayes, pour obtenir la densit<69> de $$ sachant les donn<6E>es $$, ie la densit<69> post<73>rieure :
|
|||
|
<DISPLAY EQUATION (3)>
|
|||
|
avec
|
|||
|
<DISPLAY EQUATION (4)>
|
|||
|
la densit<69> marginale. Ainsi, la densit<69> post<73>rieure est proportionnelle <20> la densit<69> a priori multipli<6C>e par la
|
|||
|
vraisemblance :
|
|||
|
<DISPLAY EQUATION ()>
|
|||
|
Puisque le d<>nominateur dans (3), la densit<69> marginale, ne d<>pend pas de $$, l'inf<6E>rence sur les param<61>tres,
|
|||
|
par exemple l'<27>valuation de l'esp<73>rance post<73>rieure, peut <20>tre mise en oeuvre <20> l'aide du seul noyau post<73>-
|
|||
|
rieur, $$. On repr<70>sente nos croyances a posteriori en exhibant les propri<72>t<EFBFBD>s de la distribution a
|
|||
|
posteriori. Nous pouvons repr<70>senter graphiquement la densit<69> post<73>rieure marginale de chaque param<61>tre $$,
|
|||
|
construire des intervalles contenant $$ de la distribution post<73>rieure, ou encore calculer des moments a pos-
|
|||
|
teriori. Par exemple, la comparaison des variances a priori et a posteriori peut nous renseigner sur l'information
|
|||
|
apport<EFBFBD>e par les donn<6E>es, relativement <20> celle contenue dans nos croyances a priori. Les variances de chaque
|
|||
|
param<EFBFBD>tre sont d<>finies <20> partir des <20>l<EFBFBD>ments diagonaux des matrices suivantes :
|
|||
|
<DISPLAY EQUATION ()>
|
|||
|
et
|
|||
|
<DISPLAY EQUATION ()>
|
|||
|
Si la variance post<73>rieure d'un param<61>tre est plus faible que sa variance a priori cela signifie que les donn<6E>es
|
|||
|
apportent une information suppl<70>mentaire sur ce param<61>tre, relativement <20> l'information a priori. Dans cer-
|
|||
|
tains cas, il est possible d'obtenir analytiquement la densit<69> post<73>rieure et ses moments\note{6} ; nous verrons un
|
|||
|
exemple dans la section suivante. Plus g<>n<EFBFBD>ralement, il est n<>cessaire de recourir <20> des algorithmes num<75>riques,
|
|||
|
pour caract<63>riser la distribution post<73>rieure, ie pour <20>valuer les int<6E>grales n<>cessaires au calcul des
|
|||
|
moments.
|
|||
|
|
|||
|
Pour communiquer nos croyances a posteriori on d<>sire souvent recourir <20> un m<>dia plus synth<74>tique en
|
|||
|
r<EFBFBD>sumant, <20> l'image de l'approche classique, la distribution post<73>rieure par un point. On parle alors
|
|||
|
d'estimation ponctuelle. R<>duire la distribution post<73>rieure <20> un point s'apparente <20> un choix en univers incertain. Il
|
|||
|
est donc naturel de construire une estimation ponctuelle en minimisant l'esp<73>rance post<73>rieure d'une fonction
|
|||
|
de perte :
|
|||
|
<DISPLAY EQUATION (5)>
|
|||
|
o<EFBFBD> $$ est une fonction associant une perte au choix $$ si la vraie valeur du param<61>tre est $$. Si, par exemple,
|
|||
|
la fonction de perte est quadratique\note{7} :
|
|||
|
<DISPLAY EQUATION ()>
|
|||
|
alors on montre (Zellner , 1971 , page 24) que l'estimation ponctuelle doit <20>tre l'esp<73>rance post<73>rieure de $$.
|
|||
|
D'autres fonctions de perte aboutiront <20> d'autres estimations ponctuelles. La m<>diane post<73>rieure peut <20>tre
|
|||
|
rationalis<EFBFBD>e en consid<69>rant la fonction de perte $$ ; plus g<>n<EFBFBD>ralement on peut exhiber une fonction de perte
|
|||
|
pour justifier l'utilisation de chaque quantile de la distribution comme une estimation ponctuelle.
|
|||
|
|
|||
|
Tant que l'inf<6E>rence porte sur les param<61>tres d'un mod<6F>le, nous pouvons mettre de c<>t<EFBFBD> la constante d'int<6E>gration,
|
|||
|
$$. Cependant, la densit<69> marginale contient une information pertinente si nous d<>sirons
|
|||
|
comparer diff<66>rents mod<6F>les. En effet, celle-ci nous renseigne sur la densit<69> de l'<27>chantillon conditionnelle-
|
|||
|
ment au mod<6F>le. L'interpr<70>tation de sa d<>finition (4) est directe : la densit<69> marginale est une moyenne des
|
|||
|
vraisemblances, obtenues pour diff<66>rentes valeurs des param<61>tres, pond<6E>r<EFBFBD>es par nos croyances a priori sur
|
|||
|
les valeurs de ces param<61>tres. Comme cette quantit<69> ne d<>pend pas des param<61>tres, puisque nous avons int<6E>-
|
|||
|
gr<EFBFBD> le noyau post<73>rieur par rapport aux param<61>tres pour l'obtenir, elle autorise facilement la comparaison de
|
|||
|
mod<EFBFBD>les non embo<62>t<EFBFBD>s\note{8}. Par exemple, si nous disposons de deux mod<6F>les alternatifs, $$ et $$, pour expliquer
|
|||
|
les donn<6E>es et si nous obtenons $$, alors cela signifie que les donn<6E>es <20> notre disposition ont
|
|||
|
plus probablement <20>t<EFBFBD> g<>n<EFBFBD>r<EFBFBD>es par le mod<6F>le $$ que par le mod<6F>le $$. Cette approche ne fournit pas un test
|
|||
|
formel, pour prendre une d<>cision il faut sp<73>cifier un crit<69>re de perte\note{9}. Ici, nous supposons implicitement que
|
|||
|
nous n'avons pas de << pr<70>f<EFBFBD>rence >> a priori pour un des deux mod<6F>les. En toute g<>n<EFBFBD>ralit<69> nous pourrions
|
|||
|
d<EFBFBD>finir une densit<69> de probabilit<69> (discr<63>te) a priori pour les mod<6F>les $$. Par exemple, nous pourrions
|
|||
|
supposer que $$ a priori. Par le th<74>or<6F>me de Bayes, nous obtenons la probabilit<69> a posteriori du
|
|||
|
mod<EFBFBD>le $$ :
|
|||
|
<DISPLAY EQUATION ()>
|
|||
|
L'interpr<70>tation est directe, il s'agit d'une version discr<63>te des <20>quations (3) et (6). Si nous devons s<>lectionner
|
|||
|
un mod<6F>le, notre pr<70>f<EFBFBD>rence ira au mod<6F>le qui maximise la densit<69> post<73>rieure. L'<27>licitation d'une densit<69> de
|
|||
|
probabilit<EFBFBD> a priori sur la collection de mod<6F>les n'est pas une chose ais<69>e ; on ne peut associer une probabilit<69> <20>
|
|||
|
un mod<6F>le de la m<>me fa<66>on que l'on pose une densit<69> a priori sur le param<61>tre de Calvo d'une courbe de Phil-
|
|||
|
lips. C'est pourquoi une densit<69> de probabilit<69> uniforme est souvent utilis<69>e dans la litt<74>rature concern<72>e par
|
|||
|
l'estimation des mod<6F>les DSGE. Pour une revue des enjeux de la comparaison de mod<6F>les, on peut lire Robert
|
|||
|
(2006 , chapitre 7) ou Sims (2003). Enfin, notons que la comparaison de diff<66>rents mod<6F>les, par l'interm<72>diaire
|
|||
|
de leurs densit<69>s marginales, ne doit pas n<>cessairement aboutir <20> un choix. Dans certaines situations, il peut
|
|||
|
<EFBFBD>tre souhaitable de combiner plusieurs mod<6F>les, en les pond<6E>rant par leurs densit<69>s marginales respectives\note{10}.
|
|||
|
|
|||
|
Apr<EFBFBD>s l'estimation, le mod<6F>le peut <20>tre utilis<69> pour construire des pr<70>visions et des fonctions de r<>ponse.
|
|||
|
<EFBFBD> l'image de l'estimation des param<61>tres, le paradigme bay<61>sien ne fournit pas en premier lieu des pr<70>visions
|
|||
|
ponctuelles mais des densit<69>s pr<70>dictives. Supposons que nous souhaitions <20>tablir des pr<70>dictions sur $$,
|
|||
|
un vecteur d'endog<6F>nes non encore observ<72>es, le but est de construire la densit<69> (pr<70>dictive) de ce vecteur.
|
|||
|
Cette densit<69> peut <20>tre obtenue en int<6E>grant par rapport <20> $$ la densit<69> post<73>rieure jointe de $$ et $$ :
|
|||
|
<DISPLAY EQUATION ()>
|
|||
|
o<EFBFBD> la densit<69> sous l'int<6E>grale est d<>finie par :
|
|||
|
<DISPLAY EQUATION ()>
|
|||
|
par le th<74>or<6F>me de Bayes. La densit<69> jointe de $$ et $$ est le produit de la densit<69> post<73>rieure de $$ et de la
|
|||
|
densit<EFBFBD> de $$ conditionnelle <20> $$. Cette derni<6E>re densit<69> est directement obtenue <20> partir de la d<>finition du
|
|||
|
mod<EFBFBD>le. Donnons un exemple dans le cas scalaire. Si le mod<6F>le est un processus auto-r<>gressif d'ordre un : $$
|
|||
|
avec $$, $$ et $$, la variance de l'innovation, connue. La distribution de $$ conditionnellement <20> $$ et $$\note{11}
|
|||
|
est gaussienne : $$. La densit<69> pr<70>dictive s'<27>crit finalement :
|
|||
|
<DISPLAY EQUATION (6)>
|
|||
|
et s'interpr<70>te comme une moyenne des densit<69>s conditionnelles de $$ sachant $$, pond<6E>r<EFBFBD>es par la densit<69>
|
|||
|
post<EFBFBD>rieure de $$. <20> partir de cette densit<69> pr<70>dictive, on peut construire une pr<70>diction ponctuelle des
|
|||
|
variables en se donnant une fonction de perte, repr<70>senter un intervalle contenant $$ de la distribution
|
|||
|
de $$, ou encore repr<70>senter la densit<69> pr<70>dictive (marginale) de chaque variable composant le vecteur des
|
|||
|
observables. En confrontant la densit<69> pr<70>dictive aux r<>alisations effectives des variables, on peut alors
|
|||
|
<EFBFBD>valuer dans quelle mesure notre mod<6F>le tend <20> sur-estimer ou sous-estimer, par exemple, le taux de
|
|||
|
croissance <20> un trimestre du PIB par t<>te. Cette comparaison peut fournir un crit<69>re d'<27>valuation du mod<6F>le.
|
|||
|
Si on se rend compte que les r<>alisations effectives d'une variable se situent syst<73>matiquement dans les
|
|||
|
queues de la densit<69> pr<70>dictive, alors on peut conclure que le mod<6F>le est mal sp<73>cifi<66> vis-<2D>-vis de cette variable.
|
|||
|
|
|||
|
|
|||
|
2.2 Le choix des croyances a priori
|
|||
|
|
|||
|
On comprend d<>j<EFBFBD> que le choix des croyances a priori est essentiel, dans la mesure o<> il d<>termine par-
|
|||
|
tiellement les r<>sultats (surtout pour un <20>chantillon de taille r<>duite comme nous le verrons par la suite). La
|
|||
|
subjectivit<EFBFBD> de d'<27>conom<6F>trie ne peut intervenir que dans la premi<6D>re <20>tape d'<27>licitation de l'a priori, les <20>tapes
|
|||
|
(l'<27>valuation de la vraisemblance,...) suivantes sont automatiques et n<>cessairement objectives. La question
|
|||
|
du choix des croyances a priori est donc crucial, d'autant plus qu'il s'agit du point qui engendre le plus de
|
|||
|
m<EFBFBD>fiance parmi les <20>conomistes, de formation -- tr<74>s g<>n<EFBFBD>ralement -- classique. Il est donc important de bien
|
|||
|
comprendre le r<>le de la densit<69> a priori dans les r<>sultats, par exemple en menant des exercices de sensibi-
|
|||
|
lit<EFBFBD> aux croyances a priori. Ces exp<78>riences, en donnant une id<69>e du r<>le des priors, d<>voilent implicitement
|
|||
|
la forme de la vraisemblance. L'exp<78>rience la plus extr<74>me\note{12} est de consid<69>rer un a priori non informatif,
|
|||
|
c'est-<2D>-dire le cas o<> nous n'avons aucune croyance a priori sur la param<61>trisation du mod<6F>le. De fa<66>on assez
|
|||
|
surprenante, les statisticiens bay<61>siens ne parviennent pas <20> s'accorder sur une chose aussi essentielle que la
|
|||
|
caract<EFBFBD>risation du non savoir.
|
|||
|
|
|||
|
Dans la section 2.1 nous avons examin<69> le cas d'un a priori informatif sur le param<61>tre de Calvo d<>finis-
|
|||
|
sant le degr<67> de rigidit<69> de l'inflation. Dans ce cas notre connaissance a priori provient de l'observation de
|
|||
|
donn<EFBFBD>es micro-<2D>conomiques, diff<66>rentes de celles utilis<69>es pour l'estimation du mod<6F>le. Lorsque l'informa-
|
|||
|
tion a priori est bas<61>e sur des donn<6E>es, celles-ci doivent <20>tre diff<66>rentes des donn<6E>es utilis<69>es pour identifier
|
|||
|
le mod<6F>le. Dans le cas contraire la d<>marcation entre vraisemblance et densit<69> a priori devient plus ambigu<67>,
|
|||
|
ce qui para<72>t inacceptable pour de nombreux statisticiens. Notons n<>anmoins que de non moins nombreux
|
|||
|
statisticiens utilisent l'<27>chantillon pour d<>finir les croyances a priori. Par exemple quand il s'agit de sp<73>cifier
|
|||
|
la densit<69> a priori de fa<66>on <20> optimiser les capacit<69>s pr<70>dictives d'un mod<6F>le (voir plus loin la section 2.4.3).
|
|||
|
Les croyances a priori peuvent aussi <20>tre bas<61>es sur des consid<69>rations purement th<74>oriques (voir la section
|
|||
|
4). Dans la litt<74>rature concern<72>e par l'estimation des mod<6F>les DSGE (et aussi des VAR), les croyances a priori,
|
|||
|
ind<EFBFBD>pendamment de l'origine de ces croyances, sont g<>n<EFBFBD>ralement repr<70>sent<6E>es par des densit<69>s param<61>tr<74>es
|
|||
|
(distribution gaussienne, gamma,...). Dans certains cas, on parle alors d'a priori conjugu<67>s, elles sont choisies
|
|||
|
de fa<66>on que la densit<69> a posteriori soit de la m<>me famille param<61>trique (voir l'exemple du mod<6F>le VAR
|
|||
|
plus loin). La motivation est essentiellement technique, l'utilisation de formulations conjugu<67>es ou plus g<>-
|
|||
|
n<EFBFBD>ralement param<61>tr<74>es des a priori est un h<>ritage du pass<73>. Aujourd'hui, la technologie ne nous emp<6D>che
|
|||
|
pas d'adopter une formulation non param<61>trique plus g<>n<EFBFBD>rale. Par exemple nous pourrions caract<63>riser nos
|
|||
|
croyances a priori sur chaque param<61>tre en sp<73>cifiant les quantiles de chaque distribution. Il est vrai que nos
|
|||
|
croyances sont rarement aussi pr<70>cises.
|
|||
|
|
|||
|
Dans certaines situations nos connaissances a priori sont faibles ou nous d<>sirons faire comme si c'<27>tait le
|
|||
|
cas (par exemple pour <20>valuer la sensibilit<69> des r<>sultats aux a priori). Malheureusement la caract<63>risation de
|
|||
|
l'ignorance est toujours sujet <20> d<>bat. Un exemple frappant est donn<6E> par Sims et Uhlig (1991) puis Phillips
|
|||
|
(1991a), Phillips (1991b) et Sims (1991), qui d<>batent de la caract<63>risation de l'ignorance dans un mod<6F>le
|
|||
|
autor<EFBFBD>gressif d'ordre un et des cons<6E>quences sur la d<>tection de racines unitaires.
|
|||
|
Une premi<6D>re approche est de consid<69>rer un prior plat. Pour un param<61>tre $$ qui peut prendre des valeurs
|
|||
|
entre $$ et $$, Jeffrey (1961) propose d'adopter une distribution uniforme entre $$ et $$ :
|
|||
|
<DISPLAY EQUATION ()>
|
|||
|
<EFBFBD>videmment cette densit<69> est impropre dans le sens o<> $$ est ind<6E>fini. Mais c'est pr<70>cis<69>ment cette
|
|||
|
propri<EFBFBD>t<EFBFBD> qui, pour Jeffrey , rend ce prior non informatif. En effet, pour tout $$ on ne peut pas dire
|
|||
|
que $$ soit a priori plus probable que $$, puisque les probabilit<69>s de ces <20>v<EFBFBD>nements sont nulles.
|
|||
|
Pour un param<61>tre $$, par exemple un <20>cart-type, qui peut prendre des valeurs entre 0 et 1, Jeffrey propose
|
|||
|
d'adopter une distribution uniforme pour le logarithme de $$ entre $$ et $$ :
|
|||
|
<DISPLAY EQUATION ()>
|
|||
|
<DISPLAY EQUATION ()>
|
|||
|
Comme dans le cas pr<70>c<EFBFBD>dent l'int<6E>grale de cette densit<69> est impropre. En particulier, on ne peut d<>finir
|
|||
|
$$ et $$, nous ne pouvons dire s'il est plus probable que $$ soit sup<75>rieur ou inf<6E>rieur $$\note{13}.
|
|||
|
On note en passant que cette densit<69> a l'heureuse propri<72>t<EFBFBD> d'<27>tre invariante <20> une transformation puissance\note{14},
|
|||
|
si le prior est non informatif sur l'<27>cart type, il en va de m<>me pour la variance ($$).
|
|||
|
Plus tard, Jeffrey g<>n<EFBFBD>ralisa ce r<>sultat d'invariance et proposa un prior non informatif (le plus souvent im-
|
|||
|
propre) plus g<>n<EFBFBD>ral bas<61> sur la matrice d'information de Fisher :
|
|||
|
<DISPLAY EQUATION ()>
|
|||
|
avec
|
|||
|
<DISPLAY EQUATION ()>
|
|||
|
La matrice d'information de Fisher quantifie l'information amen<65>e par le mod<6F>le et les donn<6E>es sur le para-
|
|||
|
m<EFBFBD>tre $$. En favorisant les valeurs de $$ pour lesquelles l'information de Fisher est plus grande, on diminue
|
|||
|
l'influence de la loi a priori puisque l'information v<>hicul<75>e par celle-ci est peu diff<66>rente de l'information pro-
|
|||
|
venant de la vraisemblance. La d<>finition de la densit<69> a priori est donc li<6C>e <20> la courbure de la vraisemblance.
|
|||
|
Cette densit<69> a priori est invariante <20> toute reparam<61>trisation (continue) du mod<6F>le (voir Zellner (1971, annexe
|
|||
|
du chapitre 2) pour une description plus d<>taill<6C>e des propri<72>t<EFBFBD>s d'invariance).
|
|||
|
L'utilisation d'un prior plat ou d'un prior d<>riv<69> de la matrice d'information de Fisher pour caract<63>riser
|
|||
|
l'absence d'information affecte g<>n<EFBFBD>ralement l'inf<6E>rence. Par exemple, dans un mod<6F>le AR(1), voir Phillips
|
|||
|
(1991a), un prior bas<61> sur l'information de Fisher n'est pas <20>quivalent <20> un prior uniforme (plat). En effet,
|
|||
|
dans un mod<6F>le dynamique, la quantit<69> d'information v<>hicul<75>e par les donn<6E>es (ie la vraisemblance) d<>pend
|
|||
|
de la valeur du param<61>tre autor<6F>gressif ($$). Si le param<61>tre est proche de l'unit<69>, voire <20>gal ou sup<75>rieur <20>
|
|||
|
un, les donn<6E>es sont plus informatives. Ainsi, pour Phillips , l'utilisation d'un prior plat, <20> l'instar de Zellner
|
|||
|
(1971) ou Sims et Uhlig (1991), biaise la distribution post<73>rieure de $$ en faveur de la stationnarit<69>. En donnant
|
|||
|
autant de poids aux valeurs explosives de $$ qu'aux valeurs stationnaires, le prior plat ne prend pas en compte
|
|||
|
le fait que des donn<6E>es g<>n<EFBFBD>r<EFBFBD>es par un mod<6F>le <20> racine unitaire ou explosif sont plus informatives. Il existe
|
|||
|
d'autres approches pour caract<63>riser l'ignorance, on peut lire le chapitre 3 de Robert (2006) et plus sp<73>ciale-
|
|||
|
ment la section 5.
|
|||
|
|
|||
|
Le choix d'une densit<69> a priori et ses cons<6E>quences sur l'inf<6E>rence sont l'objet de toutes les critiques de
|
|||
|
la part des statisticiens ou <20>conomistes classiques. Il ne faudrait pourtant pas oublier que le paradigme clas-
|
|||
|
sique n'est pas plus exempt de choix aux cons<6E>quences non n<>gligeables sur l'inf<6E>rence. Par exemple, le choix
|
|||
|
d'une m<>trique (minimiser la somme des carr<72>s des r<>sidus ou la somme des valeurs absolues des r<>sidus), le
|
|||
|
choix des variables instrumentales, mod<6F>les auxiliaires ou des conditions de moments, sont rarement discut<75>s
|
|||
|
m<EFBFBD>me s'ils d<>terminent les r<>sultats. Dans une certaine mesure, nous n'avons m<>me plus conscience des choix
|
|||
|
effectu<EFBFBD>s. L'approche bay<61>sienne est de ce point de vu bien plus transparente.
|
|||
|
|
|||
|
2.3 Comportement asymptotique et approximations
|
|||
|
|
|||
|
M<EFBFBD>me si l'approche bay<61>sienne ne repose pas sur des arguments asymptotiques, comme g<>n<EFBFBD>ralement
|
|||
|
l'approche classique, il est utile de s'interroger sur le comportement asymptotique de ses estimateurs. Le
|
|||
|
r<EFBFBD>sultat rassurant est que si les conditions de normalit<69> asymptotique de l'estimateur du maximum de vrai-
|
|||
|
semblance sont r<>unies\note{15}, alors la distribution post<73>rieure tend vers une gaussienne multivari<72>e. Asymptoti-
|
|||
|
quement, la distribution post<73>rieure est centr<74>e sur l'estimateur du maximum de vraisemblance. Ce r<>sultat,
|
|||
|
avanc<EFBFBD> par Laplace, est intuitif puisque lorsque la taille de l'<27>chantillon tend vers l'infini, le poids de l'infor-
|
|||
|
mation a priori relativement <20> l'information contenue dans l'<27>chantillon devient marginal.
|
|||
|
|
|||
|
Plus formellement, si on note $$ l'unique mode de la distribution post<73>rieure obtenu en maximisant le
|
|||
|
noyau post<73>rieur $$, et s'il est possible d'<27>crire une approximation de Taylor <20> l'ordre deux
|
|||
|
du noyau post<73>rieur autour de $$, alors nous avons :
|
|||
|
<DISPLAY EQUATION ()>
|
|||
|
Puisque les d<>riv<69>es premi<6D>res sont, par d<>finition, nulles en $$, nous avons de fa<66>on <20>quivalente :
|
|||
|
<DISPLAY EQUATION ()>
|
|||
|
o<EFBFBD> $$ est l'oppos<6F> de l'inverse de la matrice hessienne <20>valu<6C>e au mode. Ainsi, en ne consid<69>rant que le
|
|||
|
terme quadratique, le noyau post<73>rieur peut <20>tre approxim<69> par :
|
|||
|
<DISPLAY EQUATION ()>
|
|||
|
on reconna<6E>t, <20> une constante d'int<6E>gration pr<70>s\note{16} la densit<69> d'une loi normale multivari<72>e. En compl<70>tant
|
|||
|
pour la constante d'int<6E>gration, nous obtenons finalement une approximation de la densit<69> post<73>rieure $$
|
|||
|
<DISPLAY EQUATION (7)>
|
|||
|
G<EFBFBD>n<EFBFBD>ralement, la matrice hessienne est d'ordre $$, lorsque la taille de l'<27>chantillon augmente la distribu-
|
|||
|
tion post<73>rieure se concentre autour du mode. <20> partir de cette approximation asymptotique on peut alors
|
|||
|
tr<EFBFBD>s facilement calculer, par exemple, des moments post<73>rieurs ou approximer les densit<69>s pr<70>dictives. Par
|
|||
|
exemple, l'esp<73>rance post<73>rieure de $$ est d<>finie par :
|
|||
|
<DISPLAY EQUATION ()>
|
|||
|
Tierney et Kadane (1986) montrent que si l'on approxime <20> l'ordre deux le num<75>rateur autour du mode de
|
|||
|
$$ et le d<>nominateur autour du mode de $$, alors l'erreur d'approximation de l'es-
|
|||
|
p<EFBFBD>rance est d'ordre $$. Les erreurs d'approximation du num<75>rateur et du d<>nominateur, qui sont d'ordre
|
|||
|
$$, se compensent favorablement. L'approche de Tierney et Kadane ne va pas sans poser certains pro-
|
|||
|
bl<EFBFBD>mes. Si on cherche <20> calculer $$ pour diff<66>rentes fonctions $$, alors il est n<>cessaire de recourir <20> une
|
|||
|
nouvelle maximisation pour chaque param<61>tre et chaque fonction $$. Par exemple, si on d<>sire calculer les
|
|||
|
esp<EFBFBD>rances et <20>cart-types a posteriori pour chacun des k param<61>tres, il faut recourir $$ maximisations,
|
|||
|
auxquelles il faut rajouter le calcul des matrices hessiennes. Il est alors <20>vident que si $$ est <20>lev<65>, une telle
|
|||
|
approximation peut devenir co<63>teuse en temps de calculs. Tierney et al. (1989) propose diff<66>rentes m<>thodes
|
|||
|
pour pallier cette difficult<6C>\note{17}. Notons n<>anmoins qu'une approche bas<61>e sur des simulations (voir la section
|
|||
|
3) devient aussi plus co<63>teuse lorsque le nombre de param<61>tres augmente.
|
|||
|
|
|||
|
|
|||
|
2.4 Un mod<6F>le lin<69>aire : le mod<6F>le VAR
|
|||
|
|
|||
|
Dans cette section, nous consid<69>rons un exemple o<> les r<>sultats peuvent <20>tre obtenus analytiquement. Le
|
|||
|
mod<EFBFBD>le VAR gaussien se pr<70>te, comme tout mod<6F>le lin<69>aire gaussien, <20> cet exercice et a l'avantage d'<27>tre un
|
|||
|
outil couramment utilis<69> en macro-<2D>conomie (voir par exemple la contribution de Fabrice Collard et Patrick
|
|||
|
F<EFBFBD>ve dans ce num<75>ro).
|
|||
|
|
|||
|
Nous consid<69>rons un mod<6F>le VAR(p) pour caract<63>riser le vecteur $$ de variables endog<6F>nes $$ obser-
|
|||
|
v<EFBFBD>es :
|
|||
|
<DISPLAY EQUATION ()>
|
|||
|
o<EFBFBD> $$ est une suite de matrice $$ et $$ est un bruit blanc gaussien, de dimension $$ d'esp<73>rance nulle
|
|||
|
et de variance $$. Nous pourrions compl<70>ter le mod<6F>le avec des variables exog<6F>nes, une constante par
|
|||
|
exemple, mais nous allons <20> l'essentiel en omettant cette possibilit<69>.
|
|||
|
|
|||
|
On note $$ les donn<6E>es <20> notre disposition et on note $$ la concat<61>nation horizontale des
|
|||
|
vecteurs lignes $$. En concat<61>nant verticalement les vecteurs lignes $$, $$ et $$, pour $$,
|
|||
|
on obtient la repr<70>sentation matricielle suivante du mod<6F>le VAR(p) :
|
|||
|
<DISPLAY EQUATION ()>
|
|||
|
o<EFBFBD> $$ et $$ sont des matrices $$, $$ est une matrice $$ et $$ la matrice $$ (avec $$) regroupant les
|
|||
|
coefficients auto-r<>gressifs. La vraisemblance associ<63>e <20> ce mod<6F>le lin<69>aire gaussien
|
|||
|
est donn<6E>e par :
|
|||
|
<DISPLAY EQUATION ()>
|
|||
|
L'estimateur du maximum de vraisemblance (MCO) est d<>fini par :
|
|||
|
<DISPLAY EQUATION ()>
|
|||
|
et
|
|||
|
<DISPLAY EQUATION ()>
|
|||
|
Nous verrons plus loin qu'il est profitable de r<><72>crire la vraisemblance en faisant appara<72>tre
|
|||
|
l'estimateur des MCO :
|
|||
|
<DISPLAY EQUATION ()>
|
|||
|
Aux constantes d'int<6E>gration pr<70>s on reconna<6E>t ici les fonctions de densit<69> de probabilit<69> d'une gaussienne
|
|||
|
matricielle et d'une inverse Wishart (voir l'annexe A). La vraisemblance se r<><72>crit donc sous la forme suivante :
|
|||
|
<DISPLAY EQUATION ()>
|
|||
|
avec $$ les degr<67>s de libert<72> et $$. Cette <20>criture nous apprend que la vraisemblance du VAR(p) est proportionnelle
|
|||
|
au produit de la densit<69> d'une normale matricielle et d'une loi inverse Wishart :
|
|||
|
<DISPLAY EQUATION (8)>
|
|||
|
Cette propri<72>t<EFBFBD> va nous aider <20> poser une forme de la densit<69> a priori telle que nous puissions obtenir une
|
|||
|
expression analytique de la densit<69> post<73>rieure.
|
|||
|
|
|||
|
2.4.1 A priori non informatif
|
|||
|
|
|||
|
Dans cette section nous supposons que nos croyances sont non informatives en adoptant un a priori plat <20>
|
|||
|
la Jeffrey :
|
|||
|
<DISPLAY EQUATION (9)>
|
|||
|
On note que dans le cas scalaire, m = 1, on retrouve le prior sugg<67>r<EFBFBD> par Jeffrey ($$) d<>crit plus haut. La
|
|||
|
densit<EFBFBD> a posteriori satisfait donc :
|
|||
|
<DISPLAY EQUATION ()>
|
|||
|
La densit<69> jointe post<73>rieure est donc proportionnelle au produit d'une loi normale multivari<72>e et d'une loi
|
|||
|
inverse Wishart :
|
|||
|
<DISPLAY EQUATION (10)>
|
|||
|
avec $$. Ainsi, la densit<69> post<73>rieure s'<27>crit sous la forme suivante :
|
|||
|
<DISPLAY EQUATION (11)>
|
|||
|
Il n'est pas surprenant de constater que la distribution post<73>rieure de $$ (conditionnelle <20> la matrice de va-
|
|||
|
riance covariance) est centr<74>e sur l'estimateur du maximum de vraisemblance, puisque notre a priori est non
|
|||
|
informatif. Nous pourrions montrer, en int<6E>grant par rapport <20> $$, que la distribution post<73>rieure (marginale)
|
|||
|
de $$ est une version matricielle de la loi de Student (voir (Zellner, 1971, chapitre 8)). L'a priori de Jeffrey n'af-
|
|||
|
fecte que le nombre de degr<67> de libert<72> de la distribution post<73>rieure de $$. On obtient la densit<69> marginale
|
|||
|
post<EFBFBD>rieure de $$ en int<6E>grant le noyau post<73>rieur successivement par rapport <20> $$ et $$ :
|
|||
|
<DISPLAY EQUATION (12)>
|
|||
|
Cette quantit<69> nous renseigne sur la qualit<69> d'ajustement du mod<6F>le VAR(p). On note que la densit<69> marginale
|
|||
|
de $$ est une fonction d<>croissante de la taille des erreurs $$. Dans cet exemple, nous pouvons caract<63>riser
|
|||
|
la distribution post<73>rieure analytiquement. Notons n<>anmoins que m<>me si nous connaissons l'expression
|
|||
|
analytique de la distribution de $$ et $$, la construction des densit<69>s pr<70>dictives n<>cessite une approche par
|
|||
|
simulations\note{18}, puisque les pr<70>visions sont des fonctions non lin<69>aires des matrices auto-r<>gressives (dont nous
|
|||
|
connaissons la distribution post<73>rieure). L'int<6E>r<EFBFBD>t pratique de l'approche bay<61>sienne peut para<72>tre faible dans
|
|||
|
ce cas, dans la mesure o<> l'esp<73>rance post<73>rieure n'est pas diff<66>rente de l'estimateur du maximum de vrai-
|
|||
|
semblance.
|
|||
|
|
|||
|
2.4.2 Un exemple d'a priori informatif
|
|||
|
|
|||
|
Nous consid<69>rons maintenant un prior plus informatif qui va <20>carter l'esp<73>rance de la distribution a poste-
|
|||
|
riori de l'estimateur du maximum de vraisemblance ; dans un mod<6F>le lin<69>aire gaussien, l'esp<73>rance a posteriori
|
|||
|
est une combinaison convexe de l'estimateur du maximum de vraisemblance et de l'esp<73>rance a priori. Afin
|
|||
|
d'aller <20> l'essentiel\note{19}, nous adoptons une densit<69> a priori d<>g<EFBFBD>n<EFBFBD>r<EFBFBD>e pour la matrice de variance-covariance des
|
|||
|
erreurs, en supposant que la matrice $$ est connue (on posera $$). Enfin nous sp<73>cifions le prior sur A de
|
|||
|
la fa<66>on suivante :
|
|||
|
<DISPLAY EQUATION (13)>
|
|||
|
o<EFBFBD> $$ est une matrice sym<79>trique d<>finie positive de dimension $$. En multipliant la vraisemblance par
|
|||
|
(13), on <20>tablit facilement que le noyau post<73>rieur est :
|
|||
|
<DISPLAY EQUATION (14a)>
|
|||
|
<DISPLAY EQUATION (14b)>
|
|||
|
<DISPLAY EQUATION (14c)>
|
|||
|
La distribution post<73>rieure de $$ est donc gaussienne $$, son interpr<70>tation est imm<6D>diate. L'inverse
|
|||
|
de la variance post<73>rieure ($$, que l'on peut interpr<70>ter comme une quantification de l'information a pos-
|
|||
|
teriori) est <20>gale <20> la somme de l'inverse de la variance a priori ($$, l'information a priori) et de l'inverse de
|
|||
|
la variance de l'estimateur du maximum de vraisemblance de $$ ($$, l'information apport<72>e par les
|
|||
|
donn<EFBFBD>es). Ceteris paribus, quand l'information a priori est importante, la matrice de variance-covariance $$ est
|
|||
|
petite, la variance a posteriori est faible. L'esp<73>rance post<73>rieure est une combinaison lin<69>aire convexe de l'esp<73>-
|
|||
|
rance a priori, $$, et de l'estimateur du maximum de vraisemblance, $$. Les pond<6E>rations respectives sont
|
|||
|
d<EFBFBD>finies par le contenu informatif des croyances a priori et de l'<27>chantillon. Lorsque l'information a priori tend
|
|||
|
vers l'infini, ie $$, l'esp<73>rance post<73>rieure tend vers l'esp<73>rance a priori. Lorsque l'information amen<65>e par
|
|||
|
les donn<6E>es tend vers l'infini, ie $$, l'esp<73>rance a posteriori tend vers l'estimateur du maximum de
|
|||
|
vraisemblance. On peut donc interpr<70>ter le paradigme bay<61>sien comme un pont entre la calibration et l'esti-
|
|||
|
mation par le maximum de vraisemblance. En notant que $$ est g<>n<EFBFBD>ralement, si le mod<6F>le est stationnaire\note{20},
|
|||
|
d'ordre O(T), on retrouve un r<>sultat conforme aux consid<69>rations asymptotiques introduites dans la section
|
|||
|
2.3 : l'esp<73>rance post<73>rieure tend vers l'estimateur du maximum de vraisemblance lorsque T tend vers l'infini.
|
|||
|
<EFBFBD> nouveau, en int<6E>grant le noyau post<73>rieur (14) par rapport aux param<61>tres auto-r<>gressifs, on obtient une
|
|||
|
expression analytique de la densit<69> marginale post<73>rieure :
|
|||
|
<DISPLAY EQUATION (15)>
|
|||
|
qui mesure la qualit<69> d'ajustement du mod<6F>le et permet de comparer le VAR <20> d'autres mod<6F>les estim<69>s <20>
|
|||
|
l'aide du m<>me <20>chantillon.
|
|||
|
|
|||
|
2.4.3 La pratique
|
|||
|
|
|||
|
L'int<6E>r<EFBFBD>t pratique de l'approche bay<61>sienne des mod<6F>les VAR s'explique par l'<27>quation (14b). Celle-ci <20>ta-
|
|||
|
blit que la variance post<73>rieure de $$ est inf<6E>rieure <20> la variance de l'estimateur du maximum de vraisem-
|
|||
|
blance, $$, d<>s lors que l'on apporte de l'information a priori. L'estimation des mod<6F>les VAR sur des donn<6E>es
|
|||
|
macro<EFBFBD>conomiques pose souvent des probl<62>mes de pr<70>cision. En effet, un mod<6F>le avec cinq variables et quatre
|
|||
|
retards demande l'estimation de vingt param<61>tres alors que les <20>chantillons sont habituellement de l'ordre de
|
|||
|
la centaine d'observations. En incorporant de l'information <20> l'aide d'une densit<69> a priori tout se passe comme
|
|||
|
si nous augmentions le nombre de degr<67>s de libert<72>. Ce gain en variance sur les param<61>tres du mod<6F>le, per-
|
|||
|
mettra d'obtenir des pr<70>visions ou des fonctions de r<>ponses plus pr<70>cises.
|
|||
|
|
|||
|
On peut faire l'analogie avec l'incorporation de contraintes sur les param<61>tres d'un mod<6F>le estim<69> dans
|
|||
|
le paradigme classique. Par exemple, si nous pensons que A doit satisfaire les contraintes lin<69>aires d<>finies
|
|||
|
par $$ (o<> $$ est une matrice $$, $$ est un vecteur $$ et $$ le nombre de restrictions li-
|
|||
|
n<EFBFBD>aires), l'incorporation de ces contraintes lors de l'estimation, ie l'utilisation de moindres carr<72>s contraints,
|
|||
|
permet de r<>duire la variance des estimateurs et aussi l'erreur quadratique moyenne (dans la mesure o<> la
|
|||
|
contrainte n'est pas en contradiction avec le processus g<>n<EFBFBD>rateur des donn<6E>es)\note{21}. Le paradigme bay<61>sien est
|
|||
|
plus souple, dans le sens o<> il ne pose pas des contraintes d<>terministes. Dans certains cas\note{22}, nous verrons une
|
|||
|
application dans la section 4.1, la d<>finition de croyances a priori revient <20> poser une contrainte probabiliste
|
|||
|
de la forme $$, o<> $$ est une variable al<61>atoire gaussienne. Plus la variance de $$ est importante,
|
|||
|
moins la contrainte sur $$ est forte (plus l'information a priori est floue).
|
|||
|
|
|||
|
La formalisation de l'information a priori ne se limite pas au choix de la forme d'une distribution. Dans
|
|||
|
le cas du mod<6F>le BVAR de la section pr<70>c<EFBFBD>dente, nous devons aussi choisir les param<61>tres $$ et $$. Dans
|
|||
|
cette perspective, un prior qui s'est montr<74> particuli<6C>rement efficace quand on cherche <20> mod<6F>liser des s<>-
|
|||
|
ries macro<72>conomiques est le prior de Minnesota\note{23}. Celui-ci correspond <20> la croyance a priori que les s<>-
|
|||
|
ries observ<72>es sont des marches al<61>atoires ind<6E>pendantes. L'esp<73>rance a priori de $$ est alors telle que
|
|||
|
$$ pour $$. La variance a priori de $$ est suppos<6F>e diagonale. En no-
|
|||
|
tant $$ la variance associ<63>e au param<61>tre correspondant <20> la variable j dans
|
|||
|
l'<27>quation i au retard k, la variance a priori est d<>finie par :
|
|||
|
<DISPLAY EQUATION ()>
|
|||
|
o<EFBFBD> les hyperparam<61>tres $$ pour $$ sont positifs, $$ est l'estimateur de la variance des r<>sidus dans
|
|||
|
l'estimation d'un AR(p) pour la variable $$. Le ratio des <20>carts-types permet de prendre en compte les dif-
|
|||
|
f<EFBFBD>rences d'<27>chelles entre les diff<66>rentes variables composant le vecteur des observables. La variance a priori
|
|||
|
d<EFBFBD>cro<EFBFBD>t lorsque le retard $$ augmente, ce qui traduit l'id<69>e que plus le retard est important plus nous croyons
|
|||
|
que la matrice $$ est nulle. L'hyperparam<61>tre $$ indique <20> quelle vitesse la variance a priori tend vers z<>ro.
|
|||
|
Des valeurs fr<66>quemment utilis<69>es pour $$ et $$ sont respectivement 0,05 et 0,005. Cela revient <20> dire, dans la
|
|||
|
mesure o<> $$ et $$ sont proches, que nos croyances a priori sont plus fortes sur la nullit<69> des termes hors des
|
|||
|
diagnonales de $$ ($$), c'est-<2D>-dire sur l'absence decausalit<69>\note{24}. Notons que l'a priori de Minnesota
|
|||
|
suppose l'absence de relations de coint<6E>gration entre les variables, il y a, a priori, autant de racines unitaires
|
|||
|
que de variables. N<>anmoins rien n'emp<6D>che l'apparition de relations de long terme dans la distribution pos-
|
|||
|
t<EFBFBD>rieure.
|
|||
|
|
|||
|
Il nous reste <20> choisir les valeurs des hyperparam<61>tres du prior de Minnesota. Cette <20>tape est importante
|
|||
|
car l'exp<78>rience montre que l'inf<6E>rence post<73>rieure, en particulier l'<27>valuation de la densit<69> marginale qui
|
|||
|
nous permet d'<27>valuer le mod<6F>le, est tr<74>s sensible <20> ce choix. Si, comme souvent dans la litt<74>rature (voir par
|
|||
|
exemple Smets et Wouters (2002) ou Fernandez-Villaverde et Rubio-Ramirez (2001)), l'estimation d'un BVAR
|
|||
|
ne sert qu'<27> titre de comparaison afin d'<27>valuer la qualit<69> d'ajustement d'un mod<6F>le DSGE, le choix des hy-
|
|||
|
perparam<EFBFBD>tres devient crucial. Ce point n'est malheureusement jamais abord<72> dans la litt<74>rature. Le contenu
|
|||
|
<EFBFBD>conomique d'un mod<6F>le VAR <20>tant faible, il para<72>t difficile de recourir <20> la th<74>orie pour sp<73>cifier la densit<69>
|
|||
|
a priori. Un crit<69>re objectif <20> notre disposition est de choisir les hyperparam<61>tres ($$, $$ et $$) qui maximisent
|
|||
|
les performances en pr<70>visions du mod<6F>le BVAR. En sp<73>ci<63>ant ainsi les priors de notre BVAR, nous savons au
|
|||
|
moins que nous ne comparons par notre DSGE avec un BVAR aux performances pr<70>dictives m<>diocres. Dans
|
|||
|
cet esprit Phillips (1996) propose le crit<69>re PIC (Posterior Information Criterion) que l'on peut minimiser par
|
|||
|
rapport aux hyperparam<61>tres. Ce crit<69>re peut <20>tre vu comme une g<>n<EFBFBD>ralisation, au cas non stationnaire, du
|
|||
|
bien connu crit<69>re BIC\note{25}. Dans le cas du mod<6F>le consid<69>r<EFBFBD> dans la section 2.4.2 on choisit les hyperparam<61>tres
|
|||
|
de la fa<66>on suivante :
|
|||
|
<DISPLAY EQUATION (16)>
|
|||
|
o<EFBFBD> $$ est la matrice de variance covariance des innovations au mode post<73>rieur, les matrices indic<69>es par $$
|
|||
|
sont obtenues <20> partir du sous <20>chantillon $$ (o<> $$ est sup<75>rieur au nombre de param<61>tres estim<69>s).
|
|||
|
Ici nous avons consid<69>r<EFBFBD> le nombre de retards comme une donn<6E>e, mais nous pourrions aussi optimiser par
|
|||
|
rapport <20> $$ le crit<69>re PIC (voir Phillips (1996)). <20> notre connaissance, l'utilisation d'a priori objectif pour les
|
|||
|
mod<EFBFBD>les BVAR, tel que l'optimisation du crit<69>re PIC propos<6F> par Phillips (1996), demeure inappliqu<71> dans
|
|||
|
la litt<74>rature. On peut donc l<>gitimement douter de la pertinence des comparaisons entre BVAR et DSGE
|
|||
|
effectu<EFBFBD>es jusqu'<27> pr<70>sent\note{26}.
|
|||
|
|
|||
|
|
|||
|
3 Mod<6F>les DSGE
|
|||
|
|
|||
|
Dans cette section nous pr<70>sentons de fa<66>on g<>n<EFBFBD>rale les mod<6F>les DSGE, puis soulignons les probl<62>mes
|
|||
|
que peut poser l'estimation. En particulier, nous expliquons pourquoi, <20> la diff<66>rence des BVAR, il n'est pas
|
|||
|
possible d'obtenir une expression analytique de la distribution post<73>rieure. Nous terminons en pr<70>sentant les
|
|||
|
m<EFBFBD>thodes de Monte Carlo utilis<69>es pour caract<63>riser les croyances post<73>rieures.
|
|||
|
|
|||
|
3.1 R<>solution et vraisemblance
|
|||
|
|
|||
|
Nous limitons notre attention aux mod<6F>les DSGE que nous pouvons <20>crire sous la forme suivante :
|
|||
|
<DISPLAY EQUATION (17)>
|
|||
|
avec $$, une variable al<61>atoire dans $$, les innovations structurelles, $$ un vecteur
|
|||
|
regroupant les variables endog<6F>nes, $$ une fonction r<>elle dans $$ param<61>tr<74>e par un vecteur
|
|||
|
r<EFBFBD>el $$ regroupant l'ensemble des param<61>tres structurels du mod<6F>le. La fonction $$ est simplement
|
|||
|
l'ensemble des <20>quations qui d<>finissent un mod<6F>le ; on a autant d'<27>quations que de variables endog<6F>nes.
|
|||
|
Le vecteur des variables endog<6F>nes, $$, inclut des variables d'<27>tat (endog<6F>nes ou exog<6F>nes), des variables de
|
|||
|
choix et des variables statiques\note{27}. On supposera qu'il est possible d'exhiber une unique solution stable et
|
|||
|
invariante au mod<6F>le d<>crit par l'<27>quation (17) :
|
|||
|
<DISPLAY EQUATION (18)>
|
|||
|
qui exprime les variables endog<6F>nes en fonction du pass<73> et des chocs structurels contemporains. La fonction
|
|||
|
param<EFBFBD>tr<EFBFBD>e $$ regroupe les policy rules et les <20>quations de transition (voir la contribution de Michel Juillard
|
|||
|
et Tarik Ocaktan dans ce num<75>ro). La solution (18), en d<>crivant une r<>currence stochastique non lin<69>aire,
|
|||
|
d<EFBFBD>finit la distribution jointe d'un ensemble de variables.
|
|||
|
|
|||
|
Pour estimer les param<61>tres $$ du mod<6F>le, ou d'un sous ensemble des param<61>tres, nous devons <20>valuer la
|
|||
|
vraisemblance associ<63>e au mod<6F>le (17) ou <20> sa forme r<>duite (18). M<>me si la fonction $$ est lin<69>aire en $$
|
|||
|
et $$, cette <20>valuation ne peut <20>tre directe comme dans le cas du mod<6F>le VAR examin<69> plus haut. En effet,
|
|||
|
l'<27>quation (18) d<>crit la distribution jointe d'un ensemble de variables qui ne sont pas toutes observ<72>es. Afin
|
|||
|
d'amener le mod<6F>le aux donn<6E>es on peut l'<27>crire sous une forme <20>tat-mesure :
|
|||
|
<DISPLAY EQUATION (19a)>
|
|||
|
<DISPLAY EQUATION (19b)>
|
|||
|
o<EFBFBD> $$ est un vecteur $$, avec $$, regroupant les variables observ<72>es et $$ est une matrice de
|
|||
|
s<EFBFBD>lection $$. On peut <20>ventuellement augmenter l'<27>quation de mesure d'un bruit blanc multivari<72>, $$,
|
|||
|
repr<EFBFBD>sentant l'inad<61>quation des variables th<74>oriques avec les variables observ<72>es, ou plus simplement une
|
|||
|
erreur de mesure. On note $$ l'<27>chantillon <20> notre disposition et $$ le vecteur des param<61>tres du mod<6F>le
|
|||
|
<EFBFBD>tat-mesure ($$, $$ et <20>ventuellement la matrice de variance-covariance de
|
|||
|
$$). La vraisemblance est la densit<69> de l'<27>chantillon, conditionnellement aux param<61>tres $$ et au mod<6F>le d<>fini
|
|||
|
par (19) :
|
|||
|
<DISPLAY EQUATION (20)>
|
|||
|
L'<27>valuation de la densit<69> de $$ conditionnellement <20> $$ n'est g<>n<EFBFBD>ralement pas directe, dans la mesure o<>
|
|||
|
$$ d<>pend de variables endog<6F>nes inobservables. Nous pouvons n<>anmoins utiliser la relation suivante :
|
|||
|
<DISPLAY EQUATION (21)>
|
|||
|
La densit<69> de $$ conditionnellement <20> $$ est obtenue comme la moyenne de la densit<69> de $$ sachant $$,
|
|||
|
pond<EFBFBD>r<EFBFBD>e par la densit<69> de $$ sachant $$. La premi<6D>re densit<69> sous l'int<6E>grale est specifi<66>e par l'<27>quation
|
|||
|
de mesure (19a). L'<27>valuation de la densit<69> de la pr<70>vision des variables latentes, conditionnellement l'infor-
|
|||
|
mation disponible en $$, est moins directe, et on doit utiliser un filtre de Kalman. Il s'agit d'une proc<6F>dure
|
|||
|
r<EFBFBD>cursive. <20> chaque date (entre $$ et $$) on forme une pr<70>vision des variables latentes ($$ sachant $$), en
|
|||
|
utilisant l'<27>quation d'<27>tat ($$ sachant $$, <20>quation 19b) et une estimation initiale des variables latentes
|
|||
|
($$ sachant $$ ), puis on corrige cette pr<70>vision quand une nouvelle observation ($$) augmente l'ensemble d'in-
|
|||
|
formation. On peut interpr<70>ter cette d<>marche comme une estimation r<>cursive bay<61>sienne du vecteur des
|
|||
|
variables latentes. En initialisant les variables latentes avec la densit<69> associ<63>e <20> la distribution ergodique des
|
|||
|
variables latentes d<>finie par l'<27>quation d'<27>tat (19b), $$, la r<>cursion s'<27>crit de
|
|||
|
la fa<66>on suivante :
|
|||
|
<DISPLAY EQUATION (22a)>
|
|||
|
<DISPLAY EQUATION (22b)>
|
|||
|
L'interpr<70>tation de l'<27>quation de pr<70>diction (22a) est directe : la densit<69> de la pr<70>diction des variables latentes
|
|||
|
en $$ est la moyenne de la densit<69> de $$ sachant $$, d<>finie par l'<27>quation d'<27>tat (19b), pond<6E>r<EFBFBD>e par la densit<69>
|
|||
|
de $$ sachant $$. Cette derni<6E>re densit<69> est d<>finie par l'<27>quation de mise <20> jour (22b) ou la condition
|
|||
|
initiale. L'<27>quation de mise <20> jour (22b) est, <20> l'instar de l'<27>quation (3), une application directe du th<74>or<6F>me de
|
|||
|
Bayes. Le premier terme au num<75>rateur, $$, est la densit<69> a priori du vecteur des variables latentes. Le
|
|||
|
second terme, $$, la densit<69> de l'observation sachant l'<27>tat obtenu via l'<27>quation de mesure (19a), est la
|
|||
|
vraisemblance. Le d<>nominateur est la densit<69> marginale de la nouvelle observation.
|
|||
|
|
|||
|
Puisque nous pouvons, au moins th<74>oriquement, <20>valuer la vraisemblance associ<63>e au mod<6F>le DSGE, nous
|
|||
|
devrions <20>tre capable d'estimer ses param<61>tres. Malheureusement, les <20>quations (21) et (22) n<>cessitent l'<27>va-
|
|||
|
luation d'int<6E>grales\note{28} dans l'espace des variables d'<27>tat. Quand le nombre de variables latentes agmente il
|
|||
|
devient tr<74>s co<63>teux d'<27>valuer ces int<6E>grales (on parle de curse of dimensionality). La d<>rivation de la forme
|
|||
|
r<EFBFBD>duite du mod<6F>le (18) n<>cessite <20>galement l'<27>valuation d'int<6E>grales. En pratique, m<>me pour des mod<6F>les
|
|||
|
de dimensions modestes, l'<27>valuation de la vraisemblance est difficile. Nous devons donc approximer celle-
|
|||
|
ci. Dans le cas o<> le mod<6F>le <20>tat-mesure (19) est lin<69>aire et gaussien, l'<27>valuation des int<6E>grales devient tr<74>s
|
|||
|
simple car les variables latentes et observ<72><76>es sont normalement distribu<62>es <20> chaque date. Ainsi la dynamique
|
|||
|
de la distribution des variables latentes est compl<70>tement caract<63>ris<69>e par la dynamique de l'esp<73>rance et de
|
|||
|
la variance des variables latentes. On peut trouver une pr<70>sentation du filtre de Kalman dans ce cas simple
|
|||
|
dans Gouri<72>roux et Monfort (1989, chapitre 13), Harvey (1989, chapitre 3) ou encore dans la contribution de
|
|||
|
Fabrice Collard et Patrick F<>ve <20> ce m<>me num<75>ro. Ceci explique pourquoi les mod<6F>les DSGE estim<69>s sont
|
|||
|
g<EFBFBD>n<EFBFBD>ralement (log-) lin<69>aris<69>s autour de l'<27>tat stationnaire.
|
|||
|
|
|||
|
Malgr<EFBFBD> l'approximation (log-) lin<69>aire de la forme r<>duite du mod<6F>le ($$) l'<27>valuation de la vraisemblance
|
|||
|
est num<75>rique. Nous ne disposons pas d'une expression analytique, comme dans le cas du mod<6F>le VAR, et
|
|||
|
ne pouvons donc <20>crire formellement la densit<69> post<73>rieure ou les moments post<73>rieurs. Deux possibilit<69>s
|
|||
|
s'offrent <20> nous.
|
|||
|
La premi<6D>re est de consid<69>rer une approximation asymptotique de la densit<69> post<73>rieure. Il est alors possible
|
|||
|
d'approximer, voir la section 2.3 et Tierney et Kadane (1986), tout moment a posteriori ou la densit<69> marginale.
|
|||
|
Nous avons vu que l'erreur d'approximation des moments est d'ordre $$ et que l'erreur d'approxima-
|
|||
|
tion de la densit<69> marginale est d'ordre $$. L'exp<78>rience sugg<67>re, pour les dimensions d'<27>chantillon, $$,
|
|||
|
g<EFBFBD>n<EFBFBD>ralement consid<69>r<EFBFBD>es dans la litt<74>rature, que l'approximation de Laplace de la densit<69> marginale est sa-
|
|||
|
tisfaisante\note{29}.
|
|||
|
La deuxi<78>me possibilit<69> est d'<27>valuer les moments en recourant <20> des simulations par Monte-Carlo. L'intuition
|
|||
|
de cette approche repose sur la loi des grands nombres. Supposons, par exemple, que nous souhaitions <20>va-
|
|||
|
luer l'esp<73>rance d'une variable al<61>atoire $$ de distribution $$. Si l'on g<>n<EFBFBD>re une suite de variables al<61>atoires
|
|||
|
$$ ind<6E>pendantes et distribu<62>es selon $$, alors une approximation de l'esp<73>rance est donn<6E>e par
|
|||
|
la moyenne empirique de ces variables\note{30} ; la loi des grands nombres assure que l'erreur d'approximation tend
|
|||
|
vers z<>ro presque s<>rement lorsque le nombre de tirages $$ tend vers l'infini. Si on admet de plus que le mo-
|
|||
|
ment du second ordre existe, la vitesse de convergence est $$ par application du th<74>or<6F>me central limit.
|
|||
|
|
|||
|
En pratique nous pouvons <20>tre int<6E>ress<73>s par les moments post<73>rieurs de $$. En notant que :
|
|||
|
<DISPLAY EQUATION (23)>
|
|||
|
il semble alors naturel d'utiliser la moyenne empirique de $$, o<> les $$ sont
|
|||
|
des tirages ind<6E>pendants dans la distribution post<73>rieure, pour <20>valuer l'esp<73>rance de $$. L'erreur d'ap-
|
|||
|
proximation tend vers z<>ro lorsque le nombre de simulations ($$) tend vers l'infini. il convient de noter que $$
|
|||
|
est g<>n<EFBFBD>ralement d'une forme inconnue et que l'on ne peut donc pas d<>finir un g<>n<EFBFBD>rateur pseudo-al<61>atoire
|
|||
|
reproduisant la distribution a posteriori. Comme nous le verrons par la suite, la m<>thode de Monte Carlo
|
|||
|
dite de fonction d'importance permet de rem<65>dier <20> cette difficult<6C> sous certaines conditions. Ce principe de
|
|||
|
Monte Carlo se g<>n<EFBFBD>ralise au cas o<> les variables simul<75>es ne sont pas ind<6E>pendantes. Il est ainsi possible dans
|
|||
|
certains cas de construire, moyennant certaines conditions, une cha<68>ne de Markov $$ de loi sta-
|
|||
|
tionnaire (ergodique) $$ telle que la moyenne empirique des $$ ($$ est la statistique d'int<6E>r<EFBFBD>t) converge
|
|||
|
presque s<>rement vers la quantit<69> d'int<6E>r<EFBFBD>t comme dans le cas des tirages ind<6E>pendants. Tout l'art de l'exer-
|
|||
|
cice est alors de d<>terminer une cha<68>ne de Markov (et plus pr<70>cis<69>ment son noyau de transition) telle que
|
|||
|
sa loi ergodique corresponde <20> la loi a posteriori d<>sir<69>e et d'<27>valuer le temps d'arr<72>t des simulations, ie de
|
|||
|
diagnostiquer la convergence de la cha<68>ne de Markov\note{31}.
|
|||
|
|
|||
|
3.2 L'<27>chantillonnage bay<61>sien par fonction d'importance
|
|||
|
|
|||
|
Id<EFBFBD>alement, on souhaiterait g<>n<EFBFBD>rer les param<61>tres d'int<6E>r<EFBFBD>t suivant la distribution a posteriori. Cependant,
|
|||
|
<EFBFBD> l'exception de rares mod<6F>les, ceci n'est pas possible. On peut n<>anmoins exploiter le fait qu'il n'est pas
|
|||
|
n<EFBFBD>cessaire de g<>n<EFBFBD>rer une suite de tirage $$, suivant la distribution a posteriori, pour obtenir une <20>valuation
|
|||
|
correcte des moments post<73>rieurs. En effet, sous certaines conditions de r<>gularit<69>, on peut utiliser une densit<69>
|
|||
|
de probabilit<69> $$, d<>finie sur le m<>me espace et appel<65>e fonction d'importance, suffisamment proche de $$
|
|||
|
(dans un sens <20> pr<70>ciser) et <20>chantillonner <20> partir de cette derni<6E>re. Il est alors possible de montrer par la loi
|
|||
|
des grands nombres que l'int<6E>grale (23) d<>finissant le moment post<73>rieur est approch<63>e par :
|
|||
|
<DISPLAY EQUATION ()>
|
|||
|
avec
|
|||
|
<DISPLAY EQUATION (24)>
|
|||
|
Le choix de la fonction d'importance est crucial : elle doit <20>tre suffisamment proche de la loi a posteriori, ce
|
|||
|
qui n'est pas toujours simple en pratique. En effet, si $$ est une mauvaise approximation de $$, alors les poids
|
|||
|
sont g<>n<EFBFBD>ralement faibles pour la plupart des valeurs <20>chantillonn<6E>es de $$, la somme est alors domin<69>e par
|
|||
|
quelques termes dont les poids sont tr<74>s <20>lev<65>s. Il en r<>sulte une estimation peu fiable, voir Casella et Robert
|
|||
|
(2004) pour plus de d<>tails. L'algorithme se r<>sume comme suit :
|
|||
|
|
|||
|
Algorithme 1.
|
|||
|
|
|||
|
(1) Maximiser le noyau post<73>rieur par rapport <20> $$. On obtient le mode de la densit<69> post<73>rieure, $$, et le
|
|||
|
hessien au mode qui caract<63>rise la courbure de la densit<69> post<73>rieure au mode et dont l'inverse de l'oppos<6F>,
|
|||
|
not<EFBFBD> $$, approxime la variance post<73>rieure.
|
|||
|
|
|||
|
(2) G<>n<EFBFBD>rer $$, suivant une fonction d'importance, $$, dont les moments du premier et second ordre d<>pendent
|
|||
|
de $$ et $$.
|
|||
|
|
|||
|
(3) D<>terminer les poids $$ selon (24).
|
|||
|
|
|||
|
(4) Reprendre (2-3) pour $$.
|
|||
|
|
|||
|
(5) Calculer :
|
|||
|
<DISPLAY EQUATION ()>
|
|||
|
<DISPLAY EQUATION ()>
|
|||
|
|
|||
|
La premi<6D>re <20>tape n'est pas sp<73>cifique <20> l'algorithme par fonction d'importance : il s'agit de calculer les
|
|||
|
moments associ<63>s <20> la fonction d'importance, h. Cette << calibration >> des moments de la fonction d'impor-
|
|||
|
tance est g<>n<EFBFBD>ralement faite <20> partir de la maximisation du logarithme du noyau a posteriori. <20>tant donn<6E>es les
|
|||
|
propri<EFBFBD>t<EFBFBD>s asymptotiques de la distribution post<73>rieure, ces choix sur les moments d'ordre un et deux associ<63>s
|
|||
|
<EFBFBD> $$ sont d'autant plus satisfaisants que la taille de l'<27>chantillon est importante.
|
|||
|
|
|||
|
Bien que tr<74>s populaire en statistique, cette m<>thode est peu utilis<69>e dans le cadre de l'estimation de mo-
|
|||
|
d<EFBFBD>les DSGE. A titre d'exemples, Dejong et al. (2000) estiment avec cette m<>thode un mod<6F>le de croissance
|
|||
|
stochastique lin<69>aris<69>. An et Schorfheide (2007) comparent l'algorithme d'importance avec celui de Metro-
|
|||
|
polis (<28> pas al<61>atoire) dans une version simplifi<66>e du mod<6F>le de Smets et Wouters (2002). Pour ce faire, ils
|
|||
|
retiennent comme fonction d'importance une distribution de Student multivari<72>e.
|
|||
|
|
|||
|
3.3 Les m<>thodes de Monte-Carlo <20> cha<68>nes de Markov
|
|||
|
|
|||
|
Cette seconde classe d'algorithmes permet de g<>n<EFBFBD>rer des variables al<61>atoires suivant approximativement
|
|||
|
la loi a posteriori, lorsque cette derni<6E>re n'est pas disponible. Elle <20>vite donc l'appel <20> une fonction d'impor-
|
|||
|
tance, $$, souvent difficile <20> d<>terminer pour les mod<6F>les DSGE\note{32}. On cherche ainsi <20> d<>finir une cha<68>ne de Mar-
|
|||
|
kov dont la distribution ergodique est approximativement le noyau a posteriori. Si cette cha<68>ne existe, la m<>-
|
|||
|
thode d'<27>chantillonnage est grossi<73>rement d<>finie comme suit. Dans un premier temps, on initialise (arbitrai-
|
|||
|
rement) la cha<68>ne de Markov. Dans un second temps, on g<>n<EFBFBD>re les $$ <20> partir de cette cha<68>ne. <20> l'issue d'un
|
|||
|
certain nombre de tirages (disons $$), on dispose de r<>alisations de variables al<61>atoires $$
|
|||
|
approximativement distribu<62>es comme la distribution a posteriori.
|
|||
|
|
|||
|
3.3.1 cha<68>nes de Markov
|
|||
|
|
|||
|
Une cha<68>ne de Markov est une suite de variables al<61>atoires continues <20> valeurs dans $$, $$,
|
|||
|
g<EFBFBD>n<EFBFBD>r<EFBFBD>e par un processus de Markov. Une suite de variables al<61>atoires est g<>n<EFBFBD>r<EFBFBD>e par un processus de Markov\note{32}
|
|||
|
(d'ordre 1) si la distribution de $$ ne d<>pend que de $$. Une cha<68>ne de Markov est caract<63>ris<69>e par un
|
|||
|
noyau de transition qui sp<73>cifie la probabilit<69> de passer de $$ <20> $$. Nous noterons $$ le noyau de
|
|||
|
transition, il v<>rifie $$ pour tout $$ dans $$. Si la cha<68>ne de Markov d<>finie par le noyau P converge
|
|||
|
vers une distribution invariante $$, alors le noyau doit satisfaire l'identit<69> suivante :
|
|||
|
<DISPLAY EQUATION ()>
|
|||
|
pour tout sous ensemble mesurable $$ de $$. Plus g<>n<EFBFBD>ralement, avant d'atteindre la distribution ergodique $$,
|
|||
|
si nous notons $$ la probabilit<69> que $$ soit dans S sachant que $$, nous avons :
|
|||
|
<DISPLAY EQUATION ()>
|
|||
|
la distribution de $$ s'ajuste d'it<69>ration en it<69>ration puis rejoint la distribution ergodique, $$. L'id<69>e est
|
|||
|
alors de choisir le noyau de transition qui nous am<61>nera vers la distribution invariante d<>sir<69>e.
|
|||
|
|
|||
|
D<EFBFBD>finissons $$ et $$ les densit<69>s associ<63>es au noyau $$ et $$ la distribution $$\note{33}. Tierney (1994) montre que
|
|||
|
si la densit<69> $$ v<>rifie la condition de r<>versibilit<69>\note{34} :
|
|||
|
<DISPLAY EQUATION ()>
|
|||
|
alors $$ est la distribution invariante associ<63>e au noyau $$\note{35}. De fa<66>on <20>quivalente :
|
|||
|
<DISPLAY EQUATION ()>
|
|||
|
Cette condition nous dit simplement que si la densit<69> de $$, $$, domine la densit<69> associ<63>e <20> $$, $$,
|
|||
|
alors il doit <20>tre plus << facile >> de passer de $$ <20> $$ que de $$ <20> $$.
|
|||
|
|
|||
|
Cette propri<72>t<EFBFBD> nous aidera <20> construire une cha<68>ne de Markov dont la distribution invariante est la distri-
|
|||
|
bution post<73>rieure des param<61>tres $$ dans le mod<6F>le DSGE. On comprend bien que le noyau de cette cha<68>ne
|
|||
|
est difficile <20> d<>finir. Supposons que l'on puisse choisir un noyau de transition $$ ; alors il est presque
|
|||
|
s<EFBFBD>r que la condition de r<>versibilit<69> ne sera pas v<>rifie, c'est-<2D>-dire que nous aurons $$. L'algorithme de
|
|||
|
Metropolis-Hastings est une approche g<>n<EFBFBD>rale qui permet de << corriger >> ce noyau, de fa<66>on <20> respecter la
|
|||
|
condition de r<>versibilit<69>.
|
|||
|
|
|||
|
3.3.2 L'algorithme de M<>tropolis-Hasting
|
|||
|
|
|||
|
Supposons que l'on puisse d<>finir une densit<69> instrumentale, qui permette d'approcher le noyau de tran-
|
|||
|
sition de la cha<68>ne de Markov dont la densit<69> ergodique est la loi a posteriori de notre mod<6F>le. Cette densit<69> est
|
|||
|
d<EFBFBD>finie par $$.
|
|||
|
|
|||
|
Algorithme 2 (Metropolis-Hastings).
|
|||
|
|
|||
|
(1) Se donner une condition initiale $$ telle que $$ et poser $$.
|
|||
|
|
|||
|
(2) G<>n<EFBFBD>rer un candidat (une proposition) $$ <20> partir d'une densit<69> $$.
|
|||
|
|
|||
|
(3) G<>n<EFBFBD>rer $$ dans une loi uniforme entre $$.
|
|||
|
|
|||
|
(4) Appliquer la r<>gle suivante :
|
|||
|
<DISPLAY EQUATION ()>
|
|||
|
o<EFBFBD>
|
|||
|
<DISPLAY EQUATION ()>
|
|||
|
|
|||
|
(5) Reprendre (2-4) pour $$.
|
|||
|
|
|||
|
Notons qu'il suffit de pouvoir <20>valuer le noyau post<73>rieur pour mettre en oeuvre cet algorithme ; la connais-
|
|||
|
sance de la densit<69> post<73>rieure <20> une constante pr<70>s est suffisante. L'algorithme de Metropolis-Hasting re-
|
|||
|
quiert le choix d'une fonction instrumentale $$ <20> partir de laquelle on g<>n<EFBFBD>re des transitions dans l'espace des
|
|||
|
param<EFBFBD>tres. La densit<69> conditionnelle $$ permet de g<>n<EFBFBD>rer un vecteur candidat $$. Puisqu'elle n'est pas n<>-
|
|||
|
cessairement la densit<69> conditionnelle associ<63>e au noyau de transition dont la distribution ergodique est la
|
|||
|
distribution a posteriori recherch<63>e, la condition de r<>versibilit<69> n'est pas v<>rifie\note{36}. L'algorithme
|
|||
|
de MH corrige cette erreur\note{37} en n'acceptant pas syst<73>matiquement les propositions de $$. En introduisant
|
|||
|
une probabilit<69> d'acceptation de la transition propos<6F>e, $$, on peut finalement v<>rifier la condition de
|
|||
|
r<EFBFBD>versibilit<EFBFBD>. Pour cela, la probabilit<69> d'acceptation doit <20>tre telle que :
|
|||
|
<DISPLAY EQUATION ()>
|
|||
|
soit
|
|||
|
<DISPLAY EQUATION ()>
|
|||
|
Il nous reste <20> d<>terminer (i) comment nous devons initialiser la cha<68>ne et (ii) la longueur de la cha<68>ne. Nous
|
|||
|
reviendrons par la suite, lors de la pr<70>sentation de l'algorithme de Metropolis <20> pas al<61>atoires, sur le premier
|
|||
|
point. Nous aborderons la question du nombre de simulations n<>cessaires, c'est-<2D>-dire de la longueur de la
|
|||
|
cha<EFBFBD>ne, dans la section 3.3.4. Nous reviendrons plus loin sur cette question, pour l'instant nous supposerons
|
|||
|
que pour tout $$ les $$ sont tir<69>s dans la distribution cibl<62>e. Afin de s'assurer que les r<>sultats sont
|
|||
|
ind<EFBFBD>pendants des conditions initiales, on ne consid<69>re pas les simulations indic<69>es par $$. Ainsi,
|
|||
|
pour <20>valuer $$ nous calculons : $$ qui converge vers le moment post<73>rieur recherch<63> lorsque le nombre de
|
|||
|
simulations, $$, tend vers l'infini.
|
|||
|
|
|||
|
|
|||
|
3.3.3 Deux variantes de l'algorithme MH
|
|||
|
|
|||
|
|
|||
|
L'algorithme de MH <20> pas al<61>atoires. Comme nous l'avons expliqu<71> plus haut, l'utilisation de l'algorithme
|
|||
|
de Metropolis-Hastings repose sur le fait qu'il est ais<69> d'<27>chantillonner <20> partir de la densit<69> instrumentale
|
|||
|
$$. L'inconv<6E>nient est que cette derni<6E>re n'est pas toujours facile <20> d<>terminer. Dans cette perspective, l'algo-
|
|||
|
rithme de Metropolis <20> pas al<61>atoires est utile lorsqu'il est difficile d'obtenir une bonne approximation de la
|
|||
|
densit<EFBFBD> a posteriori. Une proposition <20> l'it<69>ration $$ est d<>finie par :
|
|||
|
<DISPLAY EQUATION ()>
|
|||
|
o<EFBFBD> $$ est le pas al<61>atoire. Le choix de la densit<69> de $$ d<>termine la forme pr<70>cise de la densit<69> instrumentrale, $$.
|
|||
|
Un choix standard est la distribution gaussienne multivari<72>e : $$. Ainsi la densit<69> de $$ conditionnel
|
|||
|
<EFBFBD> $$ est gaussienne :
|
|||
|
<DISPLAY EQUATION ()>
|
|||
|
Par sym<79>trie de la loi normale, la densit<69> instrumentale v<>rifie $$, ainsi la probabilit<69> d'accepta-
|
|||
|
tion ne d<>pend que du noyau post<73>rieur :
|
|||
|
<DISPLAY EQUATION ()>
|
|||
|
Autrement dit, si $$, la cha<68>ne de Markov se d<>place en $$. Si ce n'est pas le cas, la
|
|||
|
cha<EFBFBD>ne se d<>place avec une probabilit<69> <20>gale au rapport des densit<69>s a posteriori. On accepte avec une proba-
|
|||
|
bilit<EFBFBD> unitaire la proposition dans une phase ascendante (c'est-<2D>-dire lorsque la probabilit<69> a posteriori cro<72>t)
|
|||
|
et avec une probabilit<69> non nulle la proposition dans une phase descendante (si nous d<>cidions de rejeter
|
|||
|
syst<EFBFBD>matiquement ces propositions d<>favorables la cha<68>ne ne Markov ne visiterait pas compl<70>tement l'espace
|
|||
|
des param<61>tres et a fortiori elle ne pourrait converger vers la distribution post<73>rieure recherch<63>e).
|
|||
|
|
|||
|
La probabilit<69> d'acceptation peut <20>tre ajust<73>e <20> partir de la matrice de variance-covariance $$. En effet,
|
|||
|
si celle-ci est << grande >> alors il y a de fortes chances pour que la transition propos<6F>e nous am<61>ne dans les
|
|||
|
queues de la distribution a posteriori c'est-<2D>-dire dans une r<>gion o<> la densit<69> est faible et o<> donc la probabi-
|
|||
|
lit<EFBFBD> d'acceptation est proche de z<>ro (si on vient d'une zone plus dense). Si la matrice $$ est << petite >> alors les
|
|||
|
transitions propos<6F>es ne seront que des petits pas, dans ce cas il n'y aura pas de grandes variations de la den-
|
|||
|
sit<EFBFBD> post<73>rieure et donc la probabilit<69> d'acceptation sera proche de un. Nous <20>crivons $$ sous la forme $$ o<> $$
|
|||
|
est une estimation de la matrice de variance-covariance a posteriori et $$ est un param<61>tre d'<27>chelle qui permet
|
|||
|
de jouer sur le caract<63>re plus ou moins diffus de la matrice de variance-covariance et donc d'ajuster le taux
|
|||
|
d'acceptation. On peut exp<78>rimenter diff<66>rentes valeurs de $$ afin de d<>terminer une probabilit<69> d'acceptation
|
|||
|
raisonnable\note{38}.
|
|||
|
|
|||
|
Cette version de l'algorithme de MH est g<>n<EFBFBD>ralement utilis<69>e dans la litt<74>rature concern<72>e par l'estimation
|
|||
|
bay<EFBFBD>sienne des mod<6F>les DSGE.
|
|||
|
|
|||
|
Algorithme 3.
|
|||
|
|
|||
|
(1) Maximiser le noyau post<73>rieur par rapport <20> $$. On obtient le mode de la densit<69> post<73>rieure, $$, et le hessien au
|
|||
|
mode qui caract<63>rise la courbure de la densit<69> post<73>rieure au mode et dont l'inverse de l'oppos<6F>, not<6F> $$, approxime
|
|||
|
la variance post<73>rieure. On pose $$ avec $$, $$ et $$.
|
|||
|
|
|||
|
(2) G<>n<EFBFBD>rer $$ <20> partir d'une gaussienne d'esp<73>rance $$ et de variance $$.
|
|||
|
|
|||
|
(3) G<>n<EFBFBD>rer $$ dans une loi uniforme entre $$.
|
|||
|
|
|||
|
(4) Appliquer la r<>gle suivante :
|
|||
|
<DISPLAY EQUATION ()>
|
|||
|
o<EFBFBD>
|
|||
|
<DISPLAY EQUATION ()>
|
|||
|
|
|||
|
(5) Reprendre (2-4) pour $$.
|
|||
|
|
|||
|
|
|||
|
L'algorithme <20> cha<68>nes ind<6E>pendantes. Si la proposition est ind<6E>pendante de l'<27>tat courant, l'algorithme est
|
|||
|
dit <20> chaines ind<6E>pendantes (Tierney (1994)). La probabilit<69> d'acceptation se simplifie alors comme suit :
|
|||
|
<DISPLAY EQUATION ()>
|
|||
|
Cet algorithme est particuli<6C>rement adapt<70> au cas o<> il existe une approximation naturelle de la densit<69> a
|
|||
|
posteriori. En effet, l'algorithme <20> cha<68>nes ind<6E>pendantes est alors similaire <20> l'algorithme par fonction d'im-
|
|||
|
portance. Pour s'en convaincre, il suffit de remarquer que l'on peut d<>finir des poids analogues <20> ceux vus
|
|||
|
pr<EFBFBD>c<EFBFBD>demment comme suit :
|
|||
|
<DISPLAY EQUATION ()>
|
|||
|
La probabilit<69> d'acceptation est alors donn<6E>e par $$. Autrement dit, il s'agit du ratio des poids
|
|||
|
d'<27>chantillonnage par importance entre le vecteur candidat et le vecteur pr<70>c<EFBFBD>dent.
|
|||
|
|
|||
|
|
|||
|
3.3.4 Les diagnostics de convergence
|
|||
|
|
|||
|
Un certain nombre de r<>sultats th<74>oriques sont disponibles pour l'<27>tude de la convergence des cha<68>nes
|
|||
|
de Markov. Il est cependant extr<74>mement compliqu<71> d'<27>noncer des r<>gles pratiques. Ainsi, il n'existe aucune
|
|||
|
r<EFBFBD>ponse simple <20> la question : Quel est le nombre optimal de simulations pour garantir la convergence de
|
|||
|
la cha<68>ne de Markov vers la distribution ergodique ? Nous discutons bri<72>vement quelques diagnostics de
|
|||
|
convergence. Le lecteur int<6E>ress<73> pourra consulter, par exemple, Casella et Robert (2004, chapitre 12).
|
|||
|
|
|||
|
La litt<74>rature bay<61>sienne distingue g<>n<EFBFBD>ralement trois types de convergence : (i) la convergence vers la
|
|||
|
distribution stationnaire, (ii) la convergence des moments empiriques (ou approch<63>s) vers les moments th<74>o-
|
|||
|
riques et (iii) la convergence vers un <20>chantillonage i.i.d.. Nous nous int<6E>ressons ici aux deux derni<6E>res formes
|
|||
|
de convergence\note{39}. Quelle que soit la convergence <20>tudi<64>e, les r<>sultats reposent soit sur des m<>thodes d'<27>va-
|
|||
|
luation graphiques dont il est difficile d'en d<>duire des r<>gles g<>n<EFBFBD>rales, soit des tests statistiques formels.
|
|||
|
Avant de pr<70>senter certaines de ces m<>thodes, il convient de noter qu'il est important de distinguer les m<>-
|
|||
|
thodes qui font appel <20> $$ cha<68>nes de Markov parall<6C>les et ind<6E>pendantes et celles bas<61>es sur une seule cha<68>ne
|
|||
|
(on-line Markov chain). L'utilisation de plusieurs cha<68>nes est co<63>teuse en temps mais elle r<>duit la d<>pendance
|
|||
|
aux conditions initiales et accro<72>t la possibilit<69> de parcourir efficacement l'espace des param<61>tres, $$. En par-
|
|||
|
ticulier, si une cha<68>ne de Markov est m<>langeante au sens faible -- elle reste coinc<6E>e dans des r<>gions (de
|
|||
|
mesure domin<69>e) de l'espace des param<61>tres -- une explication possible est la pr<70>sence d'une distribution a
|
|||
|
posteriori multimodale (notamment lorsque les densit<69>s a priori sont en conflit avec la vraisemblance du mo-
|
|||
|
d<EFBFBD>le). Dans ce cas, la mise en oeuvre de cha<68>nes de Markov en parall<6C>le et ind<6E>pendantes, tr<74>s dispers<72>es,
|
|||
|
peut permettre de r<>soudre cette difficult<6C>. L'argument des cha<68>nes multiples est aussi avanc<6E> pour s'assurer
|
|||
|
de la convergence. Si on se donne plusieurs vecteurs initiaux de param<61>tres, suffisamment dispers<72>s, et que
|
|||
|
l'on obtient les m<>mes r<>sultats, la convergence serait assur<75>e. L'argument est valide si et seulement si on a
|
|||
|
bien v<>rifi<66> que chaque cha<68>ne a converg<72>e. Nous revoil<69> donc au point de d<>part... Il existe une litt<74>rature
|
|||
|
abondante discutant des avantages et inconv<6E>nients respectifs de chaque m<>thode\note{40}.
|
|||
|
|
|||
|
La convergence des moments empiriques, ou approch<63>s, vers les moments th<74>oriques peut s'appr<70>hender
|
|||
|
<EFBFBD> partir de m<>thodes graphiques. Yu et Mykland (1998) se basent sur les sommes cumulatives des moments
|
|||
|
d'int<6E>r<EFBFBD>t dans le cas d'une seule cha<68>ne de Markov. Au contraire, Gelman et Rubin (1992) proposent un test
|
|||
|
formel qui repose sur des m<>thodes de cha<68>nes de Markov en parall<6C>le. La convergence est diagnostiqu<71>e
|
|||
|
si les diff<66>rences entre $$ des $$ chaines de Markov restent dans un intervalle raisonnable. Gelman et Rubin
|
|||
|
formalisent cette id<69>e en recourant <20> des statistiques de type ANOVA. Pour chaque statistique d'int<6E>r<EFBFBD>t $$,
|
|||
|
ils d<>terminent la variance intra et inter-cha<68>nes. L'intuition du test est alors la suivante. Si l'effet des va-
|
|||
|
leurs initiales de chaque cha<68>ne de Markov a <20>t<EFBFBD> supprim<69>, les cha<68>nes en parall<6C>le doivent <20>tre relativement
|
|||
|
proches. En d'autres termes, la variance inter-cha<68>ne ne devrait pas <20>tre trop grande par rapport <20> la variance
|
|||
|
intra-cha<68>ne\note{41}. La statistique de test est alors d<>finie <20> partir d'un estimateur de la variance a
|
|||
|
posteriori de $$. Plus pr<70>cis<69>ment, ce dernier est une moyenne pond<6E>r<EFBFBD>e de la variance intra-cha<68>ne et de
|
|||
|
la variance inter-cha<68>ne. Le crit<69>re de convergence est ainsi le rapport de cet estimateur <20> la variance
|
|||
|
intra-cha<68>ne. En utilisant une approximation de ce crit<69>re, les auteurs montrent que si sa valeur exc<78>de 1.2, on
|
|||
|
peut en conclure qu'il n'y a pas convergence. Dans une autre optique, Geweke (1992) propose de comparer la
|
|||
|
moyenne de deux sous-<2D>chantillons disjoints, $$ et $$, d'une cha<68>ne de Markov (apr<70>s avoir <20>limin<69> les $$
|
|||
|
premi<EFBFBD>res valeurs). On choisit $$ (resp. $$) au d<>but (resp. <20> la fin) de la cha<68>ne de Markov. Si la cha<68>ne
|
|||
|
de Markov a atteint la distribution stationnaire, la moyenne des deux sous-<2D>chantillons doit <20>tre <20>gale.
|
|||
|
Une version modifi<66>e de la statistique $$ est alors <20>labor<6F>e par Geweke\note{42}. Une valeur de la statistique
|
|||
|
de test sup<75>rieure <20> 2 indique qu'un nombre plus <20>lev<65> d'it<69>rations est sans doute n<>cessaire. Le test de
|
|||
|
Raftery et Lewis (1992a) (voir aussi Raftery et Lewis (1992b)) est plus informatif. Il se base sur les quantiles
|
|||
|
de la statistique d'int<6E>r<EFBFBD>t. L'id<69>e est de construire une cha<68>ne de Markov <20> deux <20>tats <20> partir d'un quantile
|
|||
|
(par exemple, 2,5% et 97,5%) qui permette d'estimer les probabilit<69>s de transition et ainsi d'estimer le nombre
|
|||
|
de simulations n<>cessaires pour approcher la stationnarit<69>.
|
|||
|
|
|||
|
Finalement, les m<>thodes de Monte-Carlo pr<70>sent<6E>es dans les sections pr<70>c<EFBFBD>dentes ne sont valides que si
|
|||
|
les <20>l<EFBFBD>ments de la cha<68>ne de Markov sont i.i.d. Or, l'intuition sugg<67>re que les valeurs adjacentes d'une cha<68>ne
|
|||
|
de Markov devraient <20>tre corr<72>l<EFBFBD>es positivement. De mani<6E>re plus g<>n<EFBFBD>rale, le fait que des autocorr<72>lations
|
|||
|
d'ordre <20>lev<65> puissent subsister est probl<62>matique si la taille de la cha<68>ne de Markov n'est pas suffisamment
|
|||
|
grande. Dans cette perspective, il est n<>cessaire de v<>rifier cette propri<72>t<EFBFBD> ou tout du moins d'<27>viter une
|
|||
|
corr<EFBFBD>lation trop <20>lev<65>e de la cha<68>ne de Markov <20> partir de laquelle on d<>duit les quantit<69>s ou statistiques
|
|||
|
d'int<6E>r<EFBFBD>t. Plusieurs proc<6F>dures ont <20>t<EFBFBD> sugg<67>r<EFBFBD>es dans la litt<74>rature. Nous mentionnons ici deux strat<61>gies.
|
|||
|
La premi<6D>re repose sur un facteur correctif <20> appliquer <20> la dimension de la cha<68>ne de Markov en pr<70>sence
|
|||
|
d'un degr<67> observ<72> $$ d'autocorr<72>lations\note{43}. Une autre strat<61>gie est de conserver seulement chaque
|
|||
|
ki<EFBFBD>me <20>l<EFBFBD>ment de la cha<68>ne de Markov (apr<70>s avoir supprim<69> les $$ premiers <20>l<EFBFBD>ments de la chaine de Markov). Cette
|
|||
|
technique est connue sous le nom de sous-<2D>chantillonnage, voir Schmeiser (1989), Raftery et Lewis (1992a) ou
|
|||
|
Raftery et Lewis (1992b).
|
|||
|
|
|||
|
|
|||
|
3.4 Estimation de la densit<69> marginale
|
|||
|
|
|||
|
Nous disposons d'une suite de vecteurs de param<61>tres $$ o<> chaque $$ est extrait de la
|
|||
|
distribution post<73>rieure. <20> partir de cette suite nous pouvons estimer les moments post<73>rieurs, les densit<69>s
|
|||
|
pr<EFBFBD>dictives, et finalement la densit<69> marginale de l'<27>chantillon, $$. Cette densit<69> marginale, comme nous
|
|||
|
l'avons vu en section 2.1, pemet de quantifier la capacit<69> du mod<6F>le <20> expliquer l'<27>chantillon <20> notre dis-
|
|||
|
position et <20>ventuellement de comparer diff<66>rents mod<6F>les. Par exemple, Rabanal et Rubio Ramirez (2005)
|
|||
|
<EFBFBD>valuent diff<66>rentes sp<73>cifications des rigidit<69>s nominales sur les salaires et les prix dans le cadre d'un mo-
|
|||
|
d<EFBFBD>le DSGE, en comparant des densit<69>s marginales. Il existe de nombreuses m<>thodes pour estimer $$. Dans cette
|
|||
|
section nous pr<70>sentons la m<>thode g<>n<EFBFBD>ralement utilis<69>e pour les mod<6F>les DSGE.
|
|||
|
|
|||
|
L'estimateur par la moyenne harmonique est motiv<69> par la propri<72>t<EFBFBD> suivante de l'esp<73>rance post<73>rieure :
|
|||
|
<DISPLAY EQUATION ()>
|
|||
|
o<EFBFBD> $$ est une fonction de densit<69> quelconque et $$ est l'esp<73>rance post<73>rieure. Le membre de droite de l'<27>galit<69>,
|
|||
|
en utilisant la d<>finition de la densit<69> post<73>rieure, s'<27>crit alternativement :
|
|||
|
<DISPLAY EQUATION ()>
|
|||
|
On obtient donc :
|
|||
|
<DISPLAY EQUATION ()>
|
|||
|
Puisque l'int<6E>grale de $$ somme <20> un, nous obtenons finalement :
|
|||
|
<DISPLAY EQUATION ()>
|
|||
|
Ainsi, un estimateur de la densit<69> marginale (l'int<6E>grale du noyau post<73>rieur qui appara<72>t au d<>nominateur du
|
|||
|
second membre), est l'inverse de l'esp<73>rance post<73>rieure de $$. Ceci sugg<67>re l'estimateur suivant
|
|||
|
de la densit<69> marginale :
|
|||
|
<DISPLAY EQUATION ()>
|
|||
|
Ce r<>sultat est valable pour toute densit<69> f. Geweke (1992) propose d'utiliser une gaussienne tronqu<71>e centr<74>e
|
|||
|
sur l'esp<73>rance post<73>rieure. L'id<69>e est d'accorder moins de poids, voire d'<27>liminer, les simulations <20>loign<67>es
|
|||
|
du centre de la distribution post<73>rieure. Cela permet de diminuer la variance de l'estimateur de la densit<69>
|
|||
|
marginale.
|
|||
|
|
|||
|
|
|||
|
|
|||
|
4 Un DSGE pour le B du VAR
|
|||
|
|
|||
|
Dans cette section, nous illustrons en quoi les mod<6F>les VAR et DSGE sont des outils compl<70>mentaires que
|
|||
|
l'on ne doit pas n<>cessairement chercher <20> opposer. Nous avons vu dans la section 2.4 que la sp<73>cification des
|
|||
|
croyances a priori sur la param<61>trisation d'un VAR ne va pas de soi. En effet, dans la mesure o<> le contenu
|
|||
|
<EFBFBD>conomique d'un mod<6F>le VAR est t<>nu, l'interpr<70>tation des param<61>tres du VAR est d<>licate, ce qui rend l'<27>li-
|
|||
|
citation des priors ardue. Ingram et Whiteman (1994) proposent d'utiliser un mod<6F>le DSGE afin de construire
|
|||
|
le prior d'un mod<6F>le VAR. Ils montrent qu'en utilisant les restrictions d<>finies par un mod<6F>le RBC pour d<>-
|
|||
|
finir le prior d'un mod<6F>le VAR, on peut produire avec ce dernier des pr<70>visions comparables, en termes de
|
|||
|
pr<EFBFBD>cision, <20> celles que nous obtiendrions avec un prior Minnesota. Ce r<>sultat est remarquable, car m<>me si le
|
|||
|
mod<EFBFBD>le RBC canonique est mal sp<73>cifi<66> dans de nombreuses directions, il impose des restrictions utiles pour
|
|||
|
am<EFBFBD>liorer les pr<70>visions du VAR.
|
|||
|
|
|||
|
Plus r<>cemment, Del Negro et Schorfheide (2004) ont repris cette id<69>e sous une forme plus simple <20> mettre
|
|||
|
en oeuvre. Leur approche permet d'estimer simultan<61>ment les param<61>tres structurels du DSGE et les para-
|
|||
|
m<EFBFBD>tres du mod<6F>le VAR. Nous pr<70>sentons leur approche dans cette section.
|
|||
|
|
|||
|
4.1 Les r<>gressions mixtes
|
|||
|
|
|||
|
Dans la section 2.4.3 nous avons not<6F>, au moins dans le cadre d'un mod<6F>le lin<69>aire gaussien, une analogie
|
|||
|
entre les priors du paradigme bay<61>sien et les contraintes lin<69>aires sur les param<61>tres de l'approche classique.
|
|||
|
Del Negro et Schorfheide utilisent cette analogie (voir Theil et Golberger (1961), Tiao et Zellner (1964) et Theil
|
|||
|
(1971)) pour mettre en oeuvre le prior DSGE. Dans le mod<6F>le VAR, on peut d<>finir un prior sur $$ en utilisant
|
|||
|
des observations artificielles, coh<6F>rentes avec nos croyances, et un prior diffus <20> la Jeffrey. Par exemple, si ces
|
|||
|
observations artificielles sont g<>n<EFBFBD>r<EFBFBD>es par un mod<6F>le DSGE, alors l'estimation sur la base de l'<27>chantillon
|
|||
|
augment<EFBFBD> sera attir<69>e vers la projection du DSGE dans l'espace des VAR.
|
|||
|
|
|||
|
Plus formellement supposons que nous disposions des observations artificielles , o<> $$ est un
|
|||
|
vecteur de param<61>tres qui d<>finit le processus g<>n<EFBFBD>rateur des donn<6E>es artificielles (ie les croyances a priori).
|
|||
|
Comme l'<27>chantillon artificiel est ind<6E>pendant de $$, la vraisemblance de l'<27>chantillon augment<6E> s'<27>crit de la
|
|||
|
fa<EFBFBD>on suivante :
|
|||
|
<DISPLAY EQUATION (25)>
|
|||
|
Le premier terme du membre de droite, si l'<27>chantillon artificiel est de dimension $$ o<> $$, s'<27>crit :
|
|||
|
<DISPLAY EQUATION (26)>
|
|||
|
et, <20> la lumi<6D>re de l'avant derni<6E>re <20>quation, s'interpr<70>te comme un prior pour $$ et $$. La croyance a priori est
|
|||
|
d'autant plus informative que l'<27>chantillon artificiel est de grande taille. Quand $$ tend vers l'infini, le poids
|
|||
|
de la vraisemblance (le second terme sur le membre de droite de (25)) devient n<>gligeable par rapport au prior
|
|||
|
(le premier terme sur le membre de droite de (25)). En compl<70>tant le prior, d<>fini avec les donn<6E>es artificielles,
|
|||
|
par un prior diffus (ou plat) <20> la Jeffrey :
|
|||
|
<DISPLAY EQUATION ()>
|
|||
|
le prior est au final de type normal-Wishart, le prior conjugu<67> dans un mod<6F>le lin<69>aire gaussien. En particulier,
|
|||
|
$$ est a priori normalement distribu<62> :
|
|||
|
<DISPLAY EQUATION ()>
|
|||
|
o<EFBFBD> $$, est l'estimateur des MCO (MV) des param<61>tres autor<6F>gressifs pour l'<27>chantillon artificiel. On voit
|
|||
|
imm<EFBFBD>diatement, en consid<69>rant la vraisemblance de l'<27>chantillon augment<6E> (25), le prior diffus <20>
|
|||
|
la Jeffrey et les r<>sultats de la section 2.4.1, que la distribution a posteriori est de type normale-Wishart :
|
|||
|
<DISPLAY EQUATION (27)>
|
|||
|
o<EFBFBD> $$ et $$ sont respectivement les estimateurs du maximum de vraisemblance de $$ et $$, pour
|
|||
|
l'<27>chantillon augment<6E> des donn<6E>es artificielles, $$. En int<6E>grant la densit<69> jointe post<73>rieure
|
|||
|
par rapport <20> $$, on montre que la distribution post<73>rieure marginale de $$ est une distribution de student
|
|||
|
matricielle, centr<74>e en $$. Lorsque $$ augmente, $$ se rapproche de $$ ; en effet, on <20>tablit facilement
|
|||
|
que :
|
|||
|
<DISPLAY EQUATION ()>
|
|||
|
Ainsi, lorsque le poids du prior augmente, la distribution post<73>rieure du VAR se rapproche de la projection
|
|||
|
dans l'espace des VAR du mod<6F>le g<>n<EFBFBD>rateur des donn<6E>es coh<6F>rent avec nos croyances a priori.
|
|||
|
|
|||
|
|
|||
|
4.2 Le mod<6F>le BVAR-DSGE
|
|||
|
|
|||
|
Del Negro et Schorfheide (2004) proposent, <20> la suite de Ingram et Whiteman (1994), d'utiliser un mod<6F>le
|
|||
|
DSGE pour sp<73>cifier le prior d'un mod<6F>le VAR. Contrairement <20> ces derniers, Del Negro et Schorfheide uti-
|
|||
|
lisent les r<>gressions mixtes d<>crites dans la section 4.1 , m<>me si en pratique ils ne simulent pas des donn<6E>es.
|
|||
|
Afin d'<27>viter que les r<>sultats puissent varier, <20> cause des simulations, ils pr<70>f<EFBFBD>rent remplacer les moments em-
|
|||
|
piriques dans (26) par des moments th<74>oriques calcul<75>s <20> partir d'une approximation de Taylor d'ordre un de
|
|||
|
la forme r<>duite (18) du mod<6F>le DSGE. Par exemple ils remplacent $$ par la matrice de variance-covariance
|
|||
|
des endog<6F>nes observ<72>es, c'est-<2D>-dire une sous matrice de $$, multipli<6C>e par la
|
|||
|
taille de l'<27>chantillon artificiel, $$. Pour tout vecteur de param<61>tres structurels, $$, la d<>finition du prior
|
|||
|
du VAR est pratiquement imm<6D>diate, il suffit d'<27>crire la forme r<>duite du mod<6F>le DSGE et de calculer ses
|
|||
|
moments asymptotiques. Del Negro et Schorfheide ne se contentent pas d'estimer les param<61>tres du VAR, ils
|
|||
|
estiment simultan<61>ment les param<61>tres du mod<6F>le DSGE. Ils sp<73>cifient donc un prior joint sur les param<61>tres
|
|||
|
du mod<6F>le VAR et les param<61>tres structurels du mod<6F>le DSGE :
|
|||
|
<DISPLAY EQUATION ()>
|
|||
|
Le prior est conditionnel au param<61>tre $$ qui sp<73>cifie la taille de l'<27>chantillon artificiel relativement <20> l'<27>chan-
|
|||
|
tillon d'origine, c'est-<2D>-dire la quantit<69> relative d'information structurelle a priori. On peut alors utiliser l'algo-
|
|||
|
rithme de Metropolis-Hastings pour obtenir la distribution post<73>rieure de $$ (et indirectement de $$ et $$) en
|
|||
|
utilisant la densit<69> post<73>rieure du mod<6F>le BVAR sp<73>cifi<66>e par (27). Ici, la vraisemblance du mod<6F>le DSGE n'a
|
|||
|
pas <20> <20>tre calcul<75>e, ce qui simplifie consid<69>rablement l'estimation puisque le filltre de Kalman n'est plus n<>-
|
|||
|
cessaire. Les param<61>tres du mod<6F>le DSGE sont identifi<66>s gr<67>ce <20> la vraisemblance, plus exactement la densit<69>
|
|||
|
post<EFBFBD>rieure, de son approximation VAR. Le mod<6F>le VAR joue ici en quelque sorte le m<>me r<>le qu'un mod<6F>le
|
|||
|
auxiliaire en inf<6E>rence indirecte (voir Gouri<72>roux et Monfort (1996)).
|
|||
|
|
|||
|
L'estimation de $$ (et donc de $$ et $$) est conditionnelle aux choix de $$, le nombre de retards dans le VAR,
|
|||
|
et $$, la quantit<69> relative d'information structurelle a priori dans le VAR. Il convient de choisir un nombre de re-
|
|||
|
tard assez grand pour que le mod<6F>le VAR puisse <20>tre une approximation acceptable du mod<6F>le DSGE. En effet
|
|||
|
la forme r<>duite (18) approxim<69>e du mod<6F>le DSGE n'appartient pas <20> la famille des mod<6F>les VAR, il faudrait
|
|||
|
un nombre de retard infini pour approximer au mieux le mod<6F>le DSGE\note{44}. Del Negro et Schorfheide estiment
|
|||
|
un VAR d<>crivant l'inflation, le taux d'int<6E>r<EFBFBD>t et le taux de croissance du produit. Ils affirment qu'un VAR(4)
|
|||
|
permet une approximation satisfaisante de leur mod<6F>le DSGE. Le choix de $$ est plus d<>licat, en variant ce
|
|||
|
param<EFBFBD>tre de z<>ro <20> l'infini, on passe d'un prior diffus (l'esp<73>rance post<73>rieure de $$ est alors l'estimateur du
|
|||
|
MV) <20> un prior tr<74>s informatif (l'esp<73>rance post<73>rieur de A tend vers $$ les contraintes DSGE sur
|
|||
|
les param<61>tres du mod<6F>le VAR). Del Negro et Schorfheide proposent d'estimer plusieurs mod<6F>les pour une
|
|||
|
grille de valeurs de $$. Ils choisissent alors le mod<6F>le, c'est-<2D>-dire la valeur de $$, qui maximise la densit<69> margi-
|
|||
|
nale. Ils s<>lectionnent le mod<6F>le dont la qualit<69> d'ajustement est la meilleure. Del Negro et al. (2007) utilisent
|
|||
|
le BVAR-DSGE pour estimer le mod<6F>le de Smets et Wouters (2002), ils obtiennent $$. Ils montrent ainsi
|
|||
|
que les restrictions apport<72>es par le mod<6F>le de Smets et Wouters sont utiles pour am<61>liorer les performances
|
|||
|
du mod<6F>le VAR. Cette proc<6F>dure est relativement compliqu<71>e <20> mettre en oeuvre. Pour chaque valeur de $$ il
|
|||
|
faut s'assurer de la convergence de l'algorithme de Metropolis-Hastings, afin d'estimer la densit<69> marginale\note{45}.
|
|||
|
Plus haut nous avons not<6F> l'analogie entre le choix d'un mod<6F>le dans une collection de mod<6F>les et l'estimation
|
|||
|
d'un param<61>tre dont les valeurs seraient discr<63>tes. Une approche plus directe est d'associer une distribution
|
|||
|
a priori <20> $$ puis d'estimer ce param<61>tre (avec les param<61>tres structurelles $$). Il faut alors d<>finir un prior joint
|
|||
|
sur $$, $$, $$ et $$ :
|
|||
|
<DISPLAY EQUATION ()>
|
|||
|
Adjemian et Darracq-Pari<72>s (2007) estiment une version deux pays du mod<6F>le de Smets et Wouters , avec le
|
|||
|
mod<EFBFBD>le BVAR-DSGE, en posant un prior uniforme (entre 0 et 10) pour le param<61>tre $$. Ils obtiennent une
|
|||
|
distribution post<73>rieure de $$ centr<74>e sur 2,5. Il n'est pas surprenant d'obtenir dans ce cas une valeur de $$
|
|||
|
largement sup<75>rieure. La version deux pays du mod<6F>le de Smets et Wouters est estim<69>e avec un VAR compre-
|
|||
|
nant dix-huit variables observables, alors que Del Negro et al. (2007), pour la version un pays, ne consid<69>rent
|
|||
|
que sept variables. Avec dix-huit variables, les restrictions structurelles deviennent plus n<>cessaires, m<>me si
|
|||
|
le mod<6F>le n'est pas mieux sp<73>cifi<66>.
|
|||
|
|
|||
|
|
|||
|
4.3 Usages et avantages du BVAR-DSGE
|
|||
|
|
|||
|
Del Negro et Schorfheide (2004) et surtout Del Negro et al. (2007) pr<70>sentent le mod<6F>le BVAR-DSGE comme
|
|||
|
un outil d'<27>valuation de la qualit<69> d'ajustement d'un mod<6F>le DSGE. Pour ces derniers la valeur de $$, le poids
|
|||
|
du prior structurel, donne une id<69>e de l'int<6E>r<EFBFBD>t empirique du mod<6F>le. Si les restrictions structurelles d<>finies
|
|||
|
par le mod<6F>le DSGE sont pertinentes, alors la proc<6F>dure s<>lectionne une valeur <20>lev<65>e de $$. Si le mod<6F>le ap-
|
|||
|
porte des informations totalement incoh<6F>rentes avec les donn<6E>es alors la proc<6F>dure s<>lectionne une valeur
|
|||
|
proche de z<>ro. Malheureusement cette mesure n'a pas d'<27>chelle et nous ne savons pas <20> partir de quelle
|
|||
|
valeur de $$ on peut dire que le mod<6F>le apporte des informations pertinentes. Un autre probl<62>me est que ce
|
|||
|
param<EFBFBD>tre ne mesure pas la qualit<69> d'ajustement du mod<6F>le DSGE, il nous donne la quantit<69> optimale, au
|
|||
|
sens du fit du mod<6F>le BVAR, d'information DSGE qu'il faut incorporer dans le prior du VAR. Del Negro et al.
|
|||
|
(2007) utilisent le BVAR-DSGE afin de d<>voiler les <20>ventuelles mauvaises, sp<73>cifications d'un mod<6F>le DSGE.
|
|||
|
Or le niveau optimal de $$ ou la densit<69> marginale, $$, du mod<6F>le DSGE ne sauraient donner une id<69>e
|
|||
|
pr<EFBFBD>cise des directions dans lesquels le mod<6F>le est insatisfaisant puisque ces deux indicateurs donnent des in-
|
|||
|
formations trop agr<67>g<EFBFBD>es. Les quatre auteurs recherchent les directions dans lesquels le mod<6F>le DSGE est mal
|
|||
|
sp<EFBFBD>cifi<EFBFBD> en comparant les fonctions de r<>ponses (IRF) du mod<6F>le BVAR-DSGE avec celles du mod<6F>le DSGE.
|
|||
|
Ils identifient les chocs structurels dans le mod<6F>le BVAR-DSGE en se fondant sur le mod<6F>le DSGE (17). <20>
|
|||
|
partir de la forme r<>duite (18) il est possible de calculer l'impact instantann<6E> de chaque choc structurel sur les
|
|||
|
variables observables :
|
|||
|
<DISPLAY EQUATION ()>
|
|||
|
o<EFBFBD> Z est une matrice de s<>lection d<>finie dans l'<27>quation de mesure (19a). Del Negro et Schorfheide uti-
|
|||
|
lisent cette information pour indentifier les innovations structurelles dans le mod<6F>le BVAR (se reporter <20>
|
|||
|
Del Negro et Schorfheide (2004) pour les d<>tails). M<>me si le BVAR-DSGE est construit sur la base (au moins
|
|||
|
partiellement) d'une information structurelle provenant du DSGE, ce mod<6F>le est moins contraint que le mo-
|
|||
|
d<EFBFBD>le DSGE. Ainsi, l'observation d'une diff<66>rence significative entre les IRFs du BVAR-DSGE et celles du mo-
|
|||
|
d<EFBFBD>le DSGE conduit Del Negro et al. (2007) <20> identifer les directions dans lesquelles le mod<6F>le DSGE est mal
|
|||
|
sp<EFBFBD>cifi<EFBFBD>. Par exemple, les quatre auteurs observent que les r<>ponses du produit, de la consommation et des
|
|||
|
heures face <20> un choc de pr<70>f<EFBFBD>rence (sur la d<>sutilit<69> du travail) sont plus persistentes dans le BVAR-DSGE que
|
|||
|
dans le DSGE. Ils concluent alors que le mod<6F>le DSGE manque de m<>canismes de propagation des chocs sur
|
|||
|
l'offre de travail. Cet exercice de comparaison entre BVAR-DSGE et DSGE peut <20>tre mis en oeuvre en utilisant
|
|||
|
des statistiques autres que des fonctions de r<>ponse : d<>compositions de variance des variables observ<72>es,
|
|||
|
moments th<74>oriques des variables observ<72>es,... La limite de l'exercice est que les conditions d'identification
|
|||
|
des chocs dans le BVAR sont directement d<>riv<69>es du mod<6F>le DSGE. Si nous n'observons pas de grandes dif-
|
|||
|
f<EFBFBD>rences entre les IRFs du BVAR-DSGE et celles du DSGE c'est peut <20>tre parce que nous utilisons les m<>mes
|
|||
|
conditions d'identifications. Ce probl<62>me ne se pose pas si on compare des statistiques qui ne reposent pas
|
|||
|
sur des conditions d'identification, par exemple si on compare des moments (variances, fonction d'autocorr<72>-
|
|||
|
lation,...).
|
|||
|
|
|||
|
L'avantage du mod<6F>le BVAR-DSGE est plus <20>vident en termes de pr<70>visions. Tout mod<6F>le est, par nature,
|
|||
|
mal sp<73>cifi<66> dans une multitude de directions. Malgr<67> cette limite intrins<6E>que les mod<6F>les apportent souvent
|
|||
|
des informations utiles et pertinentes. L'exp<78>rience de Ingram et Whiteman (1994) est, <20> cet <20>gard, des plus
|
|||
|
<EFBFBD>clairantes. Ils montrent que m<>me le plus stylis<69> des mod<6F>les DSGE (le mod<6F>le de cycle r<>el canonique)
|
|||
|
est suffisament riche pour aider un BVAR <20> produire des pr<70>visions plus pr<70>cises et moins biais<69>es. Un mo-
|
|||
|
d<EFBFBD>le que personne ne voudrait utiliser pour produire des pr<70>visions peut aider un mod<6F>le a-th<74>orique (plus
|
|||
|
souple) <20> produire de meilleures pr<70>visions. Cette id<69>e pourrait <20>tre d<>velopp<70>e dans de nombreuses direc-
|
|||
|
tions. Nous pourrions par exemple utiliser plusieurs mod<6F>les DSGE pour construire le prior d'un mod<6F>le
|
|||
|
VAR (ou de tout autre mod<6F>le a-th<74>orique, par exemple un mod<6F>le <20> facteurs communs) et optimiser les parts
|
|||
|
de chaque mod<6F>le dans le prior du VAR.
|
|||
|
|
|||
|
|
|||
|
R<EFBFBD>f<EFBFBD>rences
|
|||
|
|
|||
|
St<EFBFBD>phane Adjemian et Matthieu Darracq-Pari<72>s. Assessing the International Spillovers Between the US and
|
|||
|
Euro Area : Evidence from a two country dsge-var. mim<69>o, CEPREMAP, 2007.
|
|||
|
|
|||
|
Sungbae An et Frank Schorfheide. Bayesian Analysis of DSGE Models. Econometric Reviews, forthcoming,
|
|||
|
2007.
|
|||
|
|
|||
|
C. Andrieu, A. Doucet, et P.B. Robert. Computational Advances for and from Bayesian Analysis. Statistical
|
|||
|
Science, 19(1): 118-127, 2004a.
|
|||
|
|
|||
|
C. Andrieu, D. Doucet, S.S. Singh, et V.B. Tadi?
|
|||
|
c. Particle Methods for Change Detection, System Identi?cation,
|
|||
|
and Control. IEEE Transactions on Signal Processing, 92(3) :423-438, 2004b.
|
|||
|
|
|||
|
S. Arulampalam, T. Clapp, N. Gordon, et S. Maskell. Tutorial on Particle Filters. IEEE Transactions on Signal
|
|||
|
Processing, 50(2) :174-188, 2002.
|
|||
|
|
|||
|
Ben Bernanke. Alternative Explanations of the Money-Income Correlation. Carnegie Rochester Conference Series
|
|||
|
on Public Policy, 25(10) :49?99, 1986.
|
|||
|
|
|||
|
Herman J. Bierens. Econometric Analysis of Linearized Singular Dynamic Stochastic General Equilibrium
|
|||
|
Models. Journal of Econometrics, 136(2) :595?627, 2007.
|
|||
|
|
|||
|
Olivier Blanchard et Danny Quah. The Dynamic Effects of Aggregate Demand and Supply Disturbances. The
|
|||
|
American Economic Review, 79 :655?673, 1986.
|
|||
|
|
|||
|
S.P. Brooks et G. Roberts. Assessing Convergence of Markov Chain Monte Carlo Algorithms. Statistics and
|
|||
|
Computing, 8 :319?335, 1998.
|
|||
|
|
|||
|
John Y. Campbell. Inspecting the Mechanism : An analytical approach to the stochastic growth model. Journal
|
|||
|
of Monetary Economics, 33 :463?508, 1994.
|
|||
|
|
|||
|
Fabio Canova. Statistical Inference in Calibrated Models. Journal of Applied Econometrics, 9 :123?144, 1994.
|
|||
|
|
|||
|
B. Carlin et T. Louis. Bayes and Empirical Bayes Methods for Data Analysis. Chapman & Hill, 2000.
|
|||
|
|
|||
|
33
|
|||
|
George Casella et Christian Robert. Monte Carlo Statistical Methods. Springer, 2004.
|
|||
|
|
|||
|
Nicolas Chopin et Florian Pelgrin. Bayesian Inference and State Number Determination for Hidden Markov
|
|||
|
Models : An Application to the Information Content of the Yield Curve about In?ation. Journal of Econome-
|
|||
|
trics, 123(2) :327?344, 2004.
|
|||
|
|
|||
|
Lawrence Christiano, Martin Eichenbaum, et Charles Evans. Nominal Rigidities and the Dynamic Effects of a
|
|||
|
Schock to Monetary Policy. Journal of Political Economy, 113 :1?45, 2003.
|
|||
|
|
|||
|
M.K. Cowles et B.P. Carlin. Markov Chain Monte Carlo Convergence Diagnostics : A Comparative Study.
|
|||
|
Journal of the American Statistical Association, 91 :883?904, 1996.
|
|||
|
|
|||
|
David Dejong, Beth F. Ingram, et Charles H. Whiteman. A Bayesian Approach to Calibration. Journal of
|
|||
|
Business and Economic Statistics, 14(1) :1?9, 1996.
|
|||
|
|
|||
|
David Dejong, Beth F. Ingram, et Charles H. Whiteman. A Bayesian Approach to Dynamic Macroeconomics.
|
|||
|
Journal of Econometrics, 98(21) :203?223, 2000.
|
|||
|
|
|||
|
Marco Del Negro et Frank Schorfheide. Priors from General Equilibrium Models for Vars. International Eco-
|
|||
|
nomic Review, 45(2) :643?673, 2004.
|
|||
|
|
|||
|
Marco Del Negro, Frank Schorfheide, Frank Smets, et Raf Wouters. On the Fit and Forecasting Performance
|
|||
|
of New Keynesian Models. Journal of Business and Economic Statistics, page forthcoming, 2007.
|
|||
|
|
|||
|
Ramdan Dridi, Alain Guay, et Eric Renault. Indirect Inference and Calibration of Dynamic Stochastic General
|
|||
|
Equilibrium Models. Journal of Econometrics, 136(2) :397?430, 2007.
|
|||
|
|
|||
|
Jes?s Fern?ndez-Villaverde et Juan F. Rubio-Ram?rez. Estimating Dynamic Equilibrium Economies : Linear
|
|||
|
versus NonLinear Likelihood. Journal of Applied Econometrics, 20(7) :891?910, 2005.
|
|||
|
|
|||
|
Jesus Fern?ndez-Villaverde et Juan F. Rubio-Ram?rez. Comparing Dynamic Equilibrium Economies to Data.
|
|||
|
Working Paper 2001-23, Federal Reserve Bank of Atlanta, 2001.
|
|||
|
|
|||
|
A.E. Gelfand et A.F.M. Smith. Sampling Based Approaches to Calculating Marginal Densities. Journal of the
|
|||
|
American Statistical Association, 85 :398?409, 1990.
|
|||
|
|
|||
|
Andrew Gelman et Donald B. Rubin. Inference from Iterative Simulations Using Multiple Sequences. Statis-
|
|||
|
tical Science, 7(4) :457?472, 1992.
|
|||
|
|
|||
|
John Geweke. Evaluating the Accuracy of Sampling-based Approaches to the Calculation of Posterior Mo-
|
|||
|
ments. dans , ?dit? par , Oxford University Press, pages 169?193, 1992.
|
|||
|
|
|||
|
John Geweke. Using Simulation Methods for Bayesian Econometric Models : Inference, Development and
|
|||
|
Communication. Econometric Reviews, 18(1) :1?126, 1999.
|
|||
|
|
|||
|
N. Gordon, D.J. Salmond, et A.F.M. Smith. Novel Approach to NonLinear and Non-Gaussian Bayesian State
|
|||
|
Estimation. IEEE Transactions on Signal Processing, 40(2) :107?113, 1993.
|
|||
|
|
|||
|
Christian Gouri?roux et Alain Monfort. Simulation Based Econometric Methods. Oxford University Press, 1996.
|
|||
|
|
|||
|
Christian Gouri?roux et Alain Monfort. Statistique et Mod?les ?conom?triques, volume 1 - Notions g?n?rales,
|
|||
|
Estimation, Pr?visions, Algorithmes. Economica, 1989.
|
|||
|
|
|||
|
Andrew C. Harvey. Forecasting, structural time series models and the Kalman ?lter. Cambridge University Press,
|
|||
|
1989.
|
|||
|
|
|||
|
Beth F. Ingram et Charles H. Whiteman. Supplanting the Minnesota Prior. Forecasting macroeconomic time
|
|||
|
series using real business cycle model. Journal of Monetary Economics, 34 :497?510, 1994.
|
|||
|
|
|||
|
34
|
|||
|
Harold Jeffrey. The Theory of Probability. Clarendon Press, 1961.
|
|||
|
|
|||
|
Kenneth L. Judd. Numerical Methods in Economics. MIT, 1998.
|
|||
|
|
|||
|
George G. Judge, W.E. Grif?ths, R. Carter Hill, Helmut L?tkpohl, et Tsoung-Chao Lee. The Theory and Practice
|
|||
|
of Econometrics. John Wiley & Sons, 1985.
|
|||
|
|
|||
|
K. Rao Kadiyala et Sune Karlsson. Numerical Methods for Estimation and Inference in Bayesian VAR-Models.
|
|||
|
Journal of Applied Econometrics, 12(2) :99?132, 1997.
|
|||
|
|
|||
|
Jae-Young Kim. Large Sample Properties of Posterior Densities, Bayesian Information Criterion and the Like-
|
|||
|
lihood Principle in Nonstationary Time Series Models. Econometrica, 66(2) :359?380, 1998.
|
|||
|
|
|||
|
G. Kitagawa. Monte Carlo Filter and Smoother for Non-Gaussian NonLinear State Space Models. Journal of
|
|||
|
Computational and Graphical Statistics, 5(1) :1?25, 1996.
|
|||
|
|
|||
|
Gary Koop. Bayesian Econometrics. John Wiley & Sons, 2003.
|
|||
|
|
|||
|
Finn Kydland et Edwards Prescott. Time to Build and Aggregate Fluctuations. Econometrica, 50 :1345?1370,
|
|||
|
1982.
|
|||
|
|
|||
|
R. B. Litterman. Forecasting with Bayesian Vector Autoregressions ? ?ve years of experience. Journal of
|
|||
|
Business & Economic Statistics, 4(1) :25?38, 1986.
|
|||
|
|
|||
|
C. Liu, J.S. Liu, et Donald B. Rubin. A Varational Control Variable for Assessing the Convergence of the Gibbs
|
|||
|
Sampler. Proceedings of the American Statistical Association, pages 74?78, 1992.
|
|||
|
|
|||
|
Peter C. B. Phillips. Econometric Model Determination. Econometrica, 64(4) :763?812, 1996.
|
|||
|
|
|||
|
Peter C.B. Phillips. To Criticize the Critics : An Objective Bayesian Analysis of Stochastic Trends. Journal of
|
|||
|
Applied Econometrics, 6(4) :333?64, 1991a.
|
|||
|
|
|||
|
Peter C.B. Phillips. Bayesian Routes and Unit Roots : De rebus prioribus semper est disputandum. Journal of
|
|||
|
Applied Econometrics, 6(4) :435?73, 1991b.
|
|||
|
|
|||
|
D. Poirier. Intermediate Statistics and Econometrics : A Comparative Approach. Cambridge, The MIT Press, 1995.
|
|||
|
|
|||
|
Pau Rabanal et Juan F. Rubio Ramirez. Comparing New Keynesian Models of the Business Cycle : a bayesian
|
|||
|
approach. Journal of Monetary Economics, 6 :1151?1166, 2005.
|
|||
|
|
|||
|
A.E. Raftery et S. Lewis. Implementing MCMC. dans Markov Chain Monte Carlo in Practice, ?dit? par W.R. Gilks,
|
|||
|
S.T. Richardson et D.J. Spiegelhalter, Chapman & Hall, pages 115?130, 1996.
|
|||
|
|
|||
|
A.E. Raftery et S. Lewis. How Many Iterations in the Gibbs Sampler ? dans Bayesian Statistics, ?dit? par J.M.
|
|||
|
Bernando, J.O. Berger, A.P. David et A.F.M. Smith, Oxford University Press, pages 763?773, 1992a.
|
|||
|
|
|||
|
A.E. Raftery et S. Lewis. The Number of Iterations, Convergence Diagnostics and Generic Metropolis Algo-
|
|||
|
rithms. Technical report, Department of Statistics, University of Washington, 1992b.
|
|||
|
|
|||
|
Christian Robert. Le Choix Bay?sien. Springer, 2006.
|
|||
|
|
|||
|
G.O. Roberts. Convergence Diagnostics of the Gibbs Sampler. dans Bayesian Statistics, ?dit? par J.M. Bernando,
|
|||
|
J.O. Berger, A.P. David et A.F.M. Smith, Oxford University Press, pages 775?782, 1992.
|
|||
|
|
|||
|
Julio Rotemberg et Michael Woodford. An Optimization-Based Econometric Framework for the Evaluation of
|
|||
|
Monetary Policy. NBER Macroeconomics Annual, 12 :297?346, 1997.
|
|||
|
|
|||
|
B. Schmeiser. Simulation Experiments. Working Paper SMS 89-23, Purdue University, 1989.
|
|||
|
|
|||
|
35
|
|||
|
Christopher Sims. Probability Models for Monetary Policy Decisions. mim?o, Princeton University, Septembre
|
|||
|
2003.
|
|||
|
|
|||
|
Christopher Sims. Macroeconomics and Reality. Econometrica, 48(1) :1?48, 1980.
|
|||
|
|
|||
|
Christopher Sims. Are Forecasting Models Usable for Policy Analysis. Federal Reserve Bank of Minneapolis
|
|||
|
Quarterly Review, 10(1) :2?16, 1986.
|
|||
|
|
|||
|
Christopher Sims. Comment on 'To Criticize the Critics,' by Peter C.B. Phillips. Journal of Applied Econometrics,
|
|||
|
6(4) :423?34, 1991.
|
|||
|
|
|||
|
Christopher A Sims et Harald Uhlig. Understanding Unit Rooters : a Helicopter Tour. Econometrica, 59(6) :
|
|||
|
1591?99, 1991.
|
|||
|
|
|||
|
Frank Smets et Rafael Wouters. An Estimated Stochastic Dynamic General Equilibrium Model of the Euro
|
|||
|
Area. Working Paper Series 171, European Central Bank, Ao?t 2002.
|
|||
|
|
|||
|
Anthony Smith. Estimating NonLinear Time-Series Models Using Simulated Vector Autoregressions. Journal
|
|||
|
of Applied Econometrics, 8 :63?84, 1993.
|
|||
|
|
|||
|
Henri Theil. Principles of Econometrics. John Wiley & Sons, 1971.
|
|||
|
|
|||
|
Henri Theil et Arthur S. Golberger. On Pure and Mixed Statistical Estimation in Economics. International
|
|||
|
Economic Review, 2(1) :65?78, 1961.
|
|||
|
|
|||
|
George C. Tiao et Arnold Zellner. Bayes Theorem and the Use of Prior Knowledge in Regression Analysis.
|
|||
|
Biometrika, 51(162) :219?230, 1964.
|
|||
|
|
|||
|
L. Tierney, R. Kass, et J. Kadane. Fully Exponential Laplace Approximations to Expectations and Variances of
|
|||
|
NonPositive Functions. Journal of the American Statistical Association, 84 :710?716, 1989.
|
|||
|
|
|||
|
Luke Tierney. Markov Chains for Exploring Posterior Distributions. The Annals of Statistics, 22(4) :1701?1762,
|
|||
|
1994.
|
|||
|
|
|||
|
Luke Tierney et Joseph B. Kadane. Accurate Approximations for Posterior Moments and Marginal Density.
|
|||
|
Journal of the American Statistical Association, 81(393) :82?86, 1986.
|
|||
|
|
|||
|
B. Yu et P. Mykland. Looking at Markov Samplers through Cusum Path Plots : A Simple Diagnostic Idea.
|
|||
|
Statistics and Computing, 8(3) :275?286, 1998.
|
|||
|
|
|||
|
Arnold Zellner. An Introduction to Bayesian Inference in Econometrics. John Wiley & Sons, 1971.
|
|||
|
|
|||
|
|
|||
|
|
|||
|
|
|||
|
|
|||
|
A Densit<69>s pour le mod<6F>le BVAR
|
|||
|
|
|||
|
A.1 Distribution normale matricielle
|
|||
|
|
|||
|
d<EFBFBD>finition 4. La matrice $$ al<61>atoire $$ est distribu<62>e conform<72>ment <20> une loi normale matricielle $$ o<>
|
|||
|
$$ est une matrice $$, $$ et $$ sont respectivement des matrices $$ et $$ sym<79>triques et d<>finies positives, si
|
|||
|
et seulement si $$ est distribu<62> comme une v.a. normale multivari<72>e
|
|||
|
<DISPLAY EQUATION ()>
|
|||
|
Ainsi, la fonction de densit<69> associ<63>e <20> $$ est donn<6E>e par :
|
|||
|
<DISPLAY EQUATION ()>
|
|||
|
|
|||
|
A.2 Distributions de Wishart
|
|||
|
La loi de Wishart est une version multivari<72>e de la loi du $$. Soit $$ une suite de variables al<61>atoires
|
|||
|
gaussiennes ind<6E>pendantes et identiquement distribu<62>es $$, avec $$ une matrice sym<79>trique d<>finie po-
|
|||
|
sitive $$. Par d<>finition $$ est distribu<62> selon une loi de Wishart. Les d<>finitions suivantes
|
|||
|
caract<EFBFBD>risent cette loi et la densit<69> de l'inverse d'une v.a. de Wishart.
|
|||
|
|
|||
|
d<EFBFBD>finition 5. La matrice al<61>atoire, de dimension $$, sym<79>trique et semi d<>finie positive Y est distribu<62>e selon une
|
|||
|
loi de Wishart, $$, si et seulement si sa densit<69> est donn<6E>e par
|
|||
|
<DISPLAY EQUATION ()>
|
|||
|
pour $$ une matrice sym<79>trique semie d<>finie positive, et $$ le degr<67> de libert<72>.
|
|||
|
|
|||
|
d<EFBFBD>finition 6. Une matrice al<61>atoire, de dimension $$, $$ est distribu<62>e selon une loi inverse Wishart,
|
|||
|
<DISPLAY EQUATION ()>
|
|||
|
si et seulement si $$.
|
|||
|
|
|||
|
Ainsi la fonction de densit<69> associ<63>e <20> $$ est d<>finie par :
|
|||
|
<DISPLAY EQUATION ()>
|