stephane-adjemian.fr/assets/papers/malgrange/EcoPrev2007Bayes/article_sans_equations.txt

Un regard Bay<61>sien sur les Mod<6F>les Dynamiques de la Macro<72>conomie
 
St<EFBFBD>phane Adjemian\note{stephane.adjemian@ens.fr}
 
Universit<EFBFBD> du Maine, GAINS et CEPREMAP
 
Florian Pelgrin\note{florian.pelgrin@unil.ch}
 
Universit<EFBFBD> de Lausanne - HEC, IEMS et CIRANO
 
3 d<>cembre 2007
 
R<EFBFBD>sum<EFBFBD>
 
L'objet de cette contribution est de pr<70>senter l'approche bay<61>sienne des mod<6F>les dynamiques les plus 
consid<EFBFBD>r<EFBFBD>s en macro<72>conomie : les mod<6F>les DSGE (Dynamic Stochastic General Equilibrium) et les mod<6F>les 
VAR. 
 
Classification JEL : C3, C5, E3 
Mots-Clefs : <20>conom<6F>trie Bay<61>sienne, Mod<6F>les VAR, Mod<6F>les DSGE.


1 Introduction
 
Ces  derni<6E>res ann<6E>es,  l'analyse des  fluctuations  <20>conomiques s'est
d<EFBFBD>velopp<EFBFBD>e  autour des  Mod<6F>les d'<27>quilibre  G<>n<EFBFBD>ral Inter-temporels
Stochastiques  (DSGE).  Pour au-
tant, jusqu'<27> tr<74>s r<>cemment,  l'engouement pour l'approche DSGE comme
outil d'analyse  de la  politique <20>conomique est  demeure relativement
faible, et l'approche des mod<6F>les Vectoriels Auto-r<>gressif (VAR) a <20>t<EFBFBD>
(est)   souvent  privil<69>gi<67>e.   Plusieurs  raisons   expliquent  cette
pr<EFBFBD>f<EFBFBD>rence.  D'une  part, la  mod<6F>lisation  VAR  de  la dynamique  des
variables  macro-<2D>conomiques   impose  un  nombre   tr<74>s  restreint  de
contraintes  et offre  une qualit<69>  d'ajustement aux  donn<6E>es  (et des
pr<EFBFBD>visions) relativement bonne. Au  contraire, en augmentant le nombre
de  contraintes  sur les  donn<6E>es,  encourant  ainsi  le risque  d'une
mauvaise  sp<73>cification, les  mod<6F>les DSGE  de la  premi<6D>re g<>n<EFBFBD>ration
(les mod<6F>les de la th<74>orie des  cycles r<>els) se sont traduits par des
performances d'ajustement et de pr<70>visions tr<74>s pauvres. D'autre part,
l'<27>mergence  d'une approche  plus  structurelle des  mod<6F>les VAR  (par
rapport  <20>  l'approche a-th<74>orique,  Sims  (1980))  -- autorisant  des
proc<EFBFBD>dures  d'identification  des   chocs  <20>  partir  de  restrictions
contemporaines, de court  terme (Sims (1986) ; Bernanke  (1986)) ou de
long terme (Blanchard et Quah (1986)) -- ont conduit <20> exiger que tout
mod<EFBFBD>le  th<74>orique  puisse  reproduire  les fonctions  de  r<>ponse  des
variables  macro-<2D>conomiques <20> des  chocs structurels  identifi<66>s dans
les  mod<6F>les   VAR  (Rotemberg  et  Woodford   (1997),  Christiano  et
al.  (2003)).  Finalement,  l'absence  d'un  traitement  <20>conom<6F>trique
convaincant  n'a fait que  renforcer la  recommandation de  Kydland et
Prescott (1982) -- l'<27>talonnage est pr<70>f<EFBFBD>rable.
 
Cependant, on a constat<61> un  regain d'int<6E>r<EFBFBD>t des mod<6F>les DSGE et cela
essentiellement  pour deux raisons  : (i)  les avanc<6E>es  th<74>oriques et
notamment  la  prise  en  compte de  fondements  micro-<2D>conomiques  des
rigidit<EFBFBD>s nominales  et/ou r<>elles (ii) les  progr<67>s dans l'estimation
et  l'<27>valuation des  mod<6F>les  sur la  base  de m<>thodes  statistiques
formelles\note{1}. Dans cette  perspective, l'id<69>e suivant laquelle de
tels  mod<6F>les sont  utiles  pour la  pr<70>-  vision et  l'analyse de  la
politique <20>conomique  s'est r<>pandue  dans le milieu  acad<61>mique ainsi
qu'aupr<70>s   des   institutions    internationales   et   des   banques
centrales. Parmi  toutes ces approches  <20>conom<6F>triques, la litt<74>rature
privil<EFBFBD>gie,  pour de  <<  bonnes >>  et  << mauvaises  >> raisons,  la
statistique  bay<61>sienne.  Parmi  les  <<  bonnes >>  rai-  sons,  nous
pourrions  souligner le  fait que  la fonction  de  vraisemblance d'un
mod<EFBFBD>le  de dimension  <20>lev<65>e (de  nombreux param<61>tres  <20>  estimer) est
souvent << plate >> dans certaines directions. En d'autres termes, les
donn<EFBFBD>es peuvent <20>tre insuffisamment informatives pour identifier (avec
pr<EFBFBD>cision) les param<61>tres. En d<>formant la fonction de vraisemblance <20>
l'aide  d'informations a  priori sur  les param<61>tres,  c'est-<2D>-dire en
privil<EFBFBD>giant   une  approche   bay<61>sienne,   l'identification  devient
possible. Il est  n<>anmoins trop souvent ignor<6F> que  la mise en oeuvre
et   l'interpr<70>tation  des   r<>sultats   de  l'estimation   bay<61>sienne
requi<EFBFBD>rent  un  certain  nombre   d'hypoth<74>ses  et  de  conditions  de
validit<EFBFBD>,  ou  que  nombre  de  probl<62>mes  rencontr<74>s  en  <20>conom<6F>trie
classique  ont leur contrepartie  en <20>conom<6F>trie  bay<61>sienne. Toujours
est-il  que  l'approche  bay<61>sienne  a  consid<69>rablement  favoris<69>  le
d<EFBFBD>veloppement des  mod<6F>les DSGE comme outil d'analyse  et de pr<70>vision
de la  politique mon<6F>taire.  Dans le m<>me  temps, il n'en  demeure pas
moins que  les mod<6F>les DSGE  et VAR continuent  <20> <20>tre oppos<6F>s  et que
nombre de  papiers cherchent g<>n<EFBFBD>ralement <20>  l<>gitimer leurs r<>sultats
en comparant,  par exemple, les pr<70>visions (ou  tout autre statistique
ou quantit<69> d'int<6E>r<EFBFBD>t) de leur(s)  mod<6F>le(s) avec ceux d'un VAR (Smets
et Wouters (2002)).

L'objet  de  ce papier  est  de  pr<70>senter  l'approche bay<61>sienne  des
mod<EFBFBD>les VAR et DSGE en  mettant en avant les principaux concepts, leur
mise en oeuvre pratique et les limites sous-jacentes. Nous montrons en
quoi les mod<6F>les DSGE et  VAR sont des outils compl<70>mentaires que l'on
ne doit pas n<>cessairement chercher <20> opposer. Nous n'abordons pas ici
certains  probl<62>mes importants,  comme l'estimation  non  lin<69>aire des
mod<EFBFBD>les DSGE\note{2}.

L'article est organis<69> comme suit. Dans une premi<6D>re section, nous pr<70>sentons les principaux concepts de 
l'analyse bay<61>sienne et montrons comment les appliquer dans le cadre des mod<6F>les VAR. Une attention par- 
ticuli<EFBFBD>re est attach<63>e <20> la nature (informative, non informative, empirique) des croyances a priori. Dans une 
deuxi<EFBFBD>me section, nous abordons les sp<73>cificit<69>s de l'approche bay<61>sienne des mod<6F>les DSGE. Contrairement 
aux mod<6F>les VAR, il n'est plus possible d'obtenir une expression analytique de la distribution a posteriori. 
Pour rem<65>dier <20> cette difficult<6C>, il est n<>cessaire de recourir <20> des m<>thodes de Monte-Carlo et notamment  
<EFBFBD> la th<74>orie des cha<68>nes de Markov. Dans cette perspective, apr<70>s avoir d<>riv<69> de mani<6E>re g<>n<EFBFBD>rale la 
densit<EFBFBD> a posteriori d'un mod<6F>le DSGE, nous expliquons les principaux algorithmes d'estimation (algorithme 
de Metropolis-Hasting, par fonction d'importance). Dans une troisi<73>me section, nous illustrons comment 
peuvent se combiner les approches VAR et DSGE. 


2 L'approche Bay<61>sienne

2.1 G<>n<EFBFBD>ralit<69>s
 
L'approche bay<61>sienne propose un cadre rigoureux pour (i) formaliser nos croyances\note{3} a priori et (ii) 
d<EFBFBD>terminer comment celles-ci doivent <20>tre mises <20> jour une fois que les donn<6E>es sont observ<72>es. Les croyances,
a priori ou a posteriori, sont repr<70>sent<6E>es <20> l'aide d'une densit<69> de probabilit<69> jointe sur les param<61>tres d'un
mod<EFBFBD>le. Cette densit<69> jointe caract<63>rise l'incertitude quant au processus g<>n<EFBFBD>rateur des donn<6E>es (DGP, pour
Data Generating Process), en d<>crivant une famille (un continuum) de mod<6F>les.
 
Imaginons que nous souhaitions caract<63>riser nos croyances sur le param<61>tre de Calvo d'une courbe de
Phillips. Ce param<61>tre, $$ , est la probabilit<69> pour une firme, en concurrence monopolistique, de ne pas pou-
voir ajuster son prix de fa<66>on optimale <20> une date quelconque. Ainsi, nous savons d<>j<EFBFBD> que ce param<61>tre doit
appartenir <20> l'intervalle $$. Nous pourrions donc utiliser une distribution b<>ta\note{4}  d<>finie sur cet intervalle.
A partir de la probabilit<69> $$ , nous pouvons d<>finir le temps moyen pendant lequel une firme ne pourra pas
ajuster son prix de fa<66>on optimale : $$. Si par ailleurs, <20> l'aide d'enqu<71>tes micro-<2D>conomiques, nous
savons que le temps moyen durant lequel une firme ne r<>ajuste pas son prix de fa<66>on << optimale >> est de
quatre trimestres, nous pouvons d<>duire qu'une valeur pertinente de la probabilit<69> $$ est trois quarts. 
L'<27>conomiste bay<61>sien pourra donc formaliser son a priori sur le param<61>tre $$ en s<>lectionnant une distribution
b<EFBFBD>ta ayant pour mode $$ et en sp<73>cifiant une variance mesurant son incertitude sur le param<61>tre d'int<6E>r<EFBFBD>t. Il
choisira une variance d'autant plus grande qu'il est incertain des <20>valuations micro-<2D>conomiques dont il dis-
pose\note{5}. Notons qu'il pourrait directement poser son a priori sur le d<>lai moyen d'attente avant qu'il 
ne puisse optimalement ajuster son prix, $$; ceci r<>sultera en une distribution diff<66>rente pour le param<61>tre $$. 
Si $$ est le seul param<61>tre du mod<6F>le pour lequel nous sommes incertain, ie si les autres param<61>tres ont des variances
a priori nulles, la densit<69> a priori sur ce param<61>tre d<>crit une famille de DGP, index<65>e par $$ : chaque valeur
possible de $$ correspond <20> un DGP. 

Plus g<>n<EFBFBD>ralement, nous noterons l'a priori sur un vecteur de param<61>tres $$ associ<63> <20> un mod<6F>le param<61>-
trique $$, $$ ,de la fa<66>on suivante :
				    <DISPLAY EQUATION  (1)> 
Cette densit<69> jointe d<>finit notre incertitude quant aux param<61>tres $$ avant que nous ayons port<72> attention 
aux donn<6E>es. Il convient de noter que nous raisonnons conditionnellement <20> un mod<6F>le. En toute g<>n<EFBFBD>ralit<69> 
l'incertitude pourrait aussi porter sur la forme du mod<6F>le param<61>trique $$. Plus loin nous omettrons 
g<EFBFBD>n<EFBFBD>ralement le conditionnement (ainsi que l'indexation) par le mod<6F>le pour simplifier les notations. 

Nous observons un <20>chantillon $$ o<> $$ est un vecteur de m variables. Nous nous limiterons 
au cas o<> l'indice t repr<70>sente le temps. La vraisemblance est la densit<69> de l'<27>chantillon conditionnellement 
au mod<6F>le et ses param<61>tres ; on notera : 
				    <DISPLAY EQUATION  (2)>
L'estimateur du maximum de vraisemblance (MV) des param<61>tres $$ d'un mod<6F>le $$ est la valeur des pa- 
ram<EFBFBD>tres qui rend le plus << probable >> l'occurrence de l'<27>chantillon <20> notre disposition. Autrement dit, l'es- 
timateur du MV s<>lectionne le param<61>tre $$ d<>finissant le DGP qui a le plus probablement g<>n<EFBFBD>r<EFBFBD> les don- 
n<EFBFBD>es. La d<>marche statistique, classique ou bay<61>sienne, est une d<>marche d'inversion -- il s'agit de remonter 
des observations aux param<61>tres du DGP. Un mod<6F>le (la vraisemblance) d<>finit la densit<69> d'un ensemble de 
variables conditionnellement <20> des param<61>tres inconnus. L'observation de l'<27>chantillon donne en retour de 
l'information sur les param<61>tres. La notation d<>finie par l'<27>quation (2) r<>sume le principe de l'inf<6E>rence ; la 
vraisemblance est la densit<69> de l'<27>chantillon $$ sachant les param<61>tres $$  mais nous <20>crivons habituellement 
la vraisemblance comme une fonction des param<61>tres, ie. formellement nous <20>changeons les r<>les de $$ et $$.
 
Nous disposons des densit<69>s $$, qui caract<63>rise l'information postul<75>e a priori, et $$, qui 
caract<EFBFBD>rise l'information amen<65>e par les donn<6E>es. On croise ces deux sources d'informations orthogonales, en 
utilisant le th<74>or<6F>me de Bayes, pour obtenir la densit<69> de $$ sachant les donn<6E>es $$, ie la densit<69> post<73>rieure : 
				    <DISPLAY EQUATION  (3)> 
avec
				    <DISPLAY EQUATION  (4)>
la densit<69> marginale. Ainsi, la densit<69> post<73>rieure est proportionnelle <20> la densit<69> a priori multipli<6C>e par la 
vraisemblance :
				    <DISPLAY EQUATION  ()>
Puisque le d<>nominateur dans (3), la densit<69> marginale, ne d<>pend pas de $$, l'inf<6E>rence sur les param<61>tres, 
par exemple l'<27>valuation de l'esp<73>rance post<73>rieure, peut <20>tre mise en oeuvre <20> l'aide du seul noyau post<73>- 
rieur, $$. On repr<70>sente nos croyances a posteriori en exhibant les propri<72>t<EFBFBD>s de la distribution a 
posteriori. Nous pouvons repr<70>senter graphiquement la densit<69> post<73>rieure marginale de chaque param<61>tre $$, 
construire des intervalles contenant $$ de la distribution post<73>rieure, ou encore calculer des moments a pos-
teriori. Par exemple, la comparaison des variances a priori et a posteriori peut nous renseigner sur l'information 
apport<EFBFBD>e par les donn<6E>es, relativement <20> celle contenue dans nos croyances a priori. Les variances de chaque 
param<EFBFBD>tre sont d<>finies <20> partir des <20>l<EFBFBD>ments diagonaux des matrices suivantes :
				    <DISPLAY EQUATION  ()>
et
				    <DISPLAY EQUATION  ()> 
Si la variance post<73>rieure d'un param<61>tre est plus faible que sa variance a priori cela signifie que les donn<6E>es 
apportent une information suppl<70>mentaire sur ce param<61>tre, relativement <20> l'information a priori. Dans cer- 
tains cas, il est possible d'obtenir analytiquement la densit<69> post<73>rieure et ses moments\note{6} ; nous verrons un 
exemple dans la section suivante. Plus g<>n<EFBFBD>ralement, il est n<>cessaire de recourir <20> des algorithmes num<75>riques, 
pour caract<63>riser la distribution post<73>rieure, ie pour <20>valuer les int<6E>grales n<>cessaires au calcul des 
moments.
 
Pour communiquer nos croyances a posteriori on d<>sire souvent recourir <20> un m<>dia plus synth<74>tique en 
r<EFBFBD>sumant, <20> l'image de l'approche classique, la distribution post<73>rieure par un point. On parle alors 
d'estimation ponctuelle. R<>duire la distribution post<73>rieure <20> un point s'apparente <20> un choix en univers incertain. Il 
est donc naturel de construire une estimation ponctuelle en minimisant l'esp<73>rance post<73>rieure d'une fonction 
de perte :
				    <DISPLAY EQUATION  (5)> 
o<EFBFBD> $$ est une fonction associant une perte au choix $$ si la vraie valeur du param<61>tre est $$. Si, par exemple, 
la fonction de perte est quadratique\note{7} :
				    <DISPLAY EQUATION  ()> 
alors on montre (Zellner , 1971 , page 24) que l'estimation ponctuelle doit <20>tre l'esp<73>rance post<73>rieure de $$. 
D'autres fonctions de perte aboutiront <20> d'autres estimations ponctuelles. La m<>diane post<73>rieure peut <20>tre 
rationalis<EFBFBD>e en consid<69>rant la fonction de perte $$ ; plus g<>n<EFBFBD>ralement on peut exhiber une fonction de perte 
pour justifier l'utilisation de chaque quantile de la distribution comme une estimation ponctuelle. 

Tant que l'inf<6E>rence porte sur les param<61>tres d'un mod<6F>le, nous pouvons mettre de c<>t<EFBFBD> la constante d'int<6E>gration, 
$$. Cependant, la densit<69> marginale contient une information pertinente si nous d<>sirons 
comparer diff<66>rents mod<6F>les. En effet, celle-ci nous renseigne sur la densit<69> de l'<27>chantillon conditionnelle- 
ment au mod<6F>le. L'interpr<70>tation de sa d<>finition (4) est directe : la densit<69> marginale est une moyenne des 
vraisemblances, obtenues pour diff<66>rentes valeurs des param<61>tres, pond<6E>r<EFBFBD>es par nos croyances a priori sur 
les valeurs de ces param<61>tres. Comme cette quantit<69> ne d<>pend pas des param<61>tres, puisque nous avons int<6E>- 
gr<EFBFBD> le noyau post<73>rieur par rapport aux param<61>tres pour l'obtenir, elle autorise facilement la comparaison de  
mod<EFBFBD>les non embo<62>t<EFBFBD>s\note{8}. Par exemple, si nous disposons de deux mod<6F>les alternatifs, $$ et $$, pour expliquer 
les donn<6E>es et si nous obtenons $$, alors cela signifie que les donn<6E>es <20> notre disposition ont 
plus probablement <20>t<EFBFBD> g<>n<EFBFBD>r<EFBFBD>es par le mod<6F>le $$ que par le mod<6F>le $$. Cette approche ne fournit pas un test 
formel, pour prendre une d<>cision il faut sp<73>cifier un crit<69>re de perte\note{9}. Ici, nous supposons implicitement que 
nous n'avons pas de << pr<70>f<EFBFBD>rence >> a priori pour un des deux mod<6F>les. En toute g<>n<EFBFBD>ralit<69> nous pourrions 
d<EFBFBD>finir une densit<69> de probabilit<69> (discr<63>te) a priori pour les mod<6F>les $$. Par exemple, nous pourrions 
supposer que $$ a priori. Par le th<74>or<6F>me de Bayes, nous obtenons la probabilit<69> a posteriori du 
mod<EFBFBD>le $$ : 
				    <DISPLAY EQUATION  ()>
L'interpr<70>tation est directe, il s'agit d'une version discr<63>te des <20>quations (3) et (6). Si nous devons s<>lectionner 
un mod<6F>le, notre pr<70>f<EFBFBD>rence ira au mod<6F>le qui maximise la densit<69> post<73>rieure. L'<27>licitation d'une densit<69> de 
probabilit<EFBFBD> a priori sur la collection de mod<6F>les n'est pas une chose ais<69>e ; on ne peut associer une probabilit<69> <20> 
un mod<6F>le de la m<>me fa<66>on que l'on pose une densit<69> a priori sur le param<61>tre de Calvo d'une courbe de Phil- 
lips. C'est pourquoi une densit<69> de probabilit<69> uniforme est souvent utilis<69>e dans la litt<74>rature concern<72>e par 
l'estimation des mod<6F>les DSGE. Pour une revue des enjeux de la comparaison de mod<6F>les, on peut lire Robert 
(2006 , chapitre 7) ou Sims (2003). Enfin, notons que la comparaison de diff<66>rents mod<6F>les, par l'interm<72>diaire 
de leurs densit<69>s marginales, ne doit pas n<>cessairement aboutir <20> un choix. Dans certaines situations, il peut 
<EFBFBD>tre souhaitable de combiner plusieurs mod<6F>les, en les pond<6E>rant par leurs densit<69>s marginales respectives\note{10}.
 
Apr<EFBFBD>s l'estimation, le mod<6F>le peut <20>tre utilis<69> pour construire des pr<70>visions et des fonctions de r<>ponse. 
<EFBFBD> l'image de l'estimation des param<61>tres, le paradigme bay<61>sien ne fournit pas en premier lieu des pr<70>visions 
ponctuelles mais des densit<69>s pr<70>dictives. Supposons que nous souhaitions <20>tablir des pr<70>dictions sur $$, 
un vecteur d'endog<6F>nes non encore observ<72>es, le but est de construire la densit<69> (pr<70>dictive) de ce vecteur. 
Cette densit<69> peut <20>tre obtenue en int<6E>grant par rapport <20> $$ la densit<69> post<73>rieure jointe de $$ et $$ :
				    <DISPLAY EQUATION  ()>
o<EFBFBD> la densit<69> sous l'int<6E>grale est d<>finie par :
				    <DISPLAY EQUATION  ()> 
par le th<74>or<6F>me de Bayes. La densit<69> jointe de $$ et $$ est le produit de la densit<69> post<73>rieure de $$ et de la 
densit<EFBFBD> de $$ conditionnelle <20> $$. Cette derni<6E>re densit<69> est directement obtenue <20> partir de la d<>finition du 
mod<EFBFBD>le. Donnons un exemple dans le cas scalaire. Si le mod<6F>le est un processus auto-r<>gressif d'ordre un : $$ 
avec $$, $$ et $$, la variance de l'innovation, connue. La distribution de $$ conditionnellement <20> $$ et $$\note{11}
est gaussienne : $$. La densit<69> pr<70>dictive s'<27>crit finalement : 
				    <DISPLAY EQUATION  (6)>
et s'interpr<70>te comme une moyenne des densit<69>s conditionnelles de $$ sachant $$, pond<6E>r<EFBFBD>es par la densit<69> 
post<EFBFBD>rieure de $$. <20> partir de cette densit<69> pr<70>dictive, on peut construire une pr<70>diction ponctuelle des 
variables en se donnant une fonction de perte, repr<70>senter un intervalle contenant $$ de la distribution 
de $$, ou encore repr<70>senter la densit<69> pr<70>dictive (marginale) de chaque variable composant le vecteur des 
observables. En confrontant la densit<69> pr<70>dictive aux r<>alisations effectives des variables, on peut alors 
<EFBFBD>valuer dans quelle mesure notre mod<6F>le tend <20> sur-estimer ou sous-estimer, par exemple, le taux de 
croissance <20> un trimestre du PIB par t<>te. Cette comparaison peut fournir un crit<69>re d'<27>valuation du mod<6F>le. 
Si on se rend compte que les r<>alisations effectives d'une variable se situent syst<73>matiquement dans les 
queues de la densit<69> pr<70>dictive, alors on peut conclure que le mod<6F>le est mal sp<73>cifi<66> vis-<2D>-vis de cette variable. 


2.2 Le choix des croyances a priori
 
On comprend d<>j<EFBFBD> que le choix des croyances a priori est essentiel, dans la mesure o<> il d<>termine par-
tiellement les r<>sultats (surtout pour un <20>chantillon de taille r<>duite comme nous le verrons par la suite). La
subjectivit<EFBFBD> de d'<27>conom<6F>trie ne peut intervenir que dans la premi<6D>re <20>tape d'<27>licitation de l'a priori, les <20>tapes
(l'<27>valuation de la vraisemblance,...) suivantes sont automatiques et n<>cessairement objectives. La question
du choix des croyances a priori est donc crucial, d'autant plus qu'il s'agit du point qui engendre le plus de
m<EFBFBD>fiance parmi les <20>conomistes, de formation -- tr<74>s g<>n<EFBFBD>ralement -- classique. Il est donc important de bien
comprendre le r<>le de la densit<69> a priori dans les r<>sultats, par exemple en menant des exercices de sensibi-
lit<EFBFBD> aux croyances a priori. Ces exp<78>riences, en donnant une id<69>e du r<>le des priors, d<>voilent implicitement
la forme de la vraisemblance. L'exp<78>rience la plus extr<74>me\note{12} est de consid<69>rer un a priori non informatif,
c'est-<2D>-dire le cas o<> nous n'avons aucune croyance a priori sur la param<61>trisation du mod<6F>le. De fa<66>on assez
surprenante, les statisticiens bay<61>siens ne parviennent pas <20> s'accorder sur une chose aussi essentielle que la
caract<EFBFBD>risation du non savoir.

Dans la section  2.1   nous avons examin<69> le cas d'un a priori informatif sur le param<61>tre de Calvo d<>finis-
sant le degr<67> de rigidit<69> de l'inflation. Dans ce cas notre connaissance a priori provient de l'observation de
donn<EFBFBD>es micro-<2D>conomiques, diff<66>rentes de celles utilis<69>es pour l'estimation du mod<6F>le. Lorsque l'informa-
tion a priori est bas<61>e sur des donn<6E>es, celles-ci doivent <20>tre diff<66>rentes des donn<6E>es utilis<69>es pour identifier
le mod<6F>le. Dans le cas contraire la d<>marcation entre vraisemblance et densit<69> a priori devient plus ambigu<67>,
ce qui para<72>t inacceptable pour de nombreux statisticiens. Notons n<>anmoins que de non moins nombreux 
statisticiens utilisent l'<27>chantillon pour d<>finir les croyances a priori. Par exemple quand il s'agit de sp<73>cifier 
la densit<69> a priori de fa<66>on <20> optimiser les capacit<69>s pr<70>dictives d'un mod<6F>le (voir plus loin la section  2.4.3). 
Les croyances a priori peuvent aussi <20>tre bas<61>es sur des consid<69>rations purement th<74>oriques (voir la section  
4). Dans la litt<74>rature concern<72>e par l'estimation des mod<6F>les DSGE (et aussi des VAR), les croyances a priori, 
ind<EFBFBD>pendamment de l'origine de ces croyances, sont g<>n<EFBFBD>ralement repr<70>sent<6E>es par des densit<69>s param<61>tr<74>es 
(distribution gaussienne, gamma,...). Dans certains cas, on parle alors d'a priori conjugu<67>s, elles sont choisies 
de fa<66>on que la densit<69> a posteriori soit de la m<>me famille param<61>trique (voir l'exemple du mod<6F>le VAR 
plus loin). La motivation est essentiellement technique, l'utilisation de formulations conjugu<67>es ou plus g<>- 
n<EFBFBD>ralement param<61>tr<74>es des a priori est un h<>ritage du pass<73>. Aujourd'hui, la technologie ne nous emp<6D>che 
pas d'adopter une formulation non param<61>trique plus g<>n<EFBFBD>rale. Par exemple nous pourrions caract<63>riser nos 
croyances a priori sur chaque param<61>tre en sp<73>cifiant les quantiles de chaque distribution. Il est vrai que nos 
croyances sont rarement aussi pr<70>cises.
 
Dans certaines situations nos connaissances a priori sont faibles ou nous d<>sirons faire comme si c'<27>tait le 
cas (par exemple pour <20>valuer la sensibilit<69> des r<>sultats aux a priori). Malheureusement la caract<63>risation de 
l'ignorance est toujours sujet <20> d<>bat. Un exemple frappant est donn<6E> par Sims et Uhlig (1991) puis Phillips 
(1991a), Phillips (1991b) et Sims (1991), qui d<>batent de la caract<63>risation de l'ignorance dans un mod<6F>le 
autor<EFBFBD>gressif d'ordre un et des cons<6E>quences sur la d<>tection de racines unitaires. 
Une premi<6D>re approche est de consid<69>rer un prior plat. Pour un param<61>tre $$ qui peut prendre des valeurs 
entre $$ et $$, Jeffrey (1961) propose d'adopter une distribution uniforme entre $$ et $$ :
				    <DISPLAY EQUATION  ()>
<EFBFBD>videmment cette densit<69> est impropre dans le sens o<> $$ est ind<6E>fini. Mais c'est pr<70>cis<69>ment cette 
propri<EFBFBD>t<EFBFBD> qui, pour Jeffrey , rend ce prior non informatif. En effet, pour tout $$ on ne peut pas dire 
que $$ soit a priori plus probable que $$, puisque les probabilit<69>s de ces <20>v<EFBFBD>nements sont nulles. 
Pour un param<61>tre $$, par exemple un <20>cart-type, qui peut prendre des valeurs entre 0 et 1, Jeffrey propose 
d'adopter une distribution uniforme pour le logarithme de $$ entre $$ et $$ :
				    <DISPLAY EQUATION  ()>
				    <DISPLAY EQUATION  ()>
Comme dans le cas pr<70>c<EFBFBD>dent l'int<6E>grale de cette densit<69> est impropre. En particulier, on ne peut d<>finir 
$$ et $$, nous ne pouvons dire s'il est plus probable que $$ soit sup<75>rieur ou inf<6E>rieur $$\note{13}. 
On note en passant que cette densit<69> a l'heureuse propri<72>t<EFBFBD> d'<27>tre invariante <20> une transformation puissance\note{14}, 
si le prior est non informatif sur l'<27>cart type, il en va de m<>me pour la variance ($$). 
Plus tard, Jeffrey g<>n<EFBFBD>ralisa ce r<>sultat d'invariance et proposa un prior non informatif (le plus souvent im- 
propre) plus g<>n<EFBFBD>ral bas<61> sur la matrice d'information de Fisher :
				    <DISPLAY EQUATION  ()> 
avec
				    <DISPLAY EQUATION  ()> 
La matrice d'information de Fisher quantifie l'information amen<65>e par le mod<6F>le et les donn<6E>es sur le para- 
m<EFBFBD>tre $$. En favorisant les valeurs de $$ pour lesquelles l'information de Fisher est plus grande, on diminue 
l'influence de la loi a priori puisque l'information v<>hicul<75>e par celle-ci est peu diff<66>rente de l'information pro- 
venant de la vraisemblance. La d<>finition de la densit<69> a priori est donc li<6C>e <20> la courbure de la vraisemblance. 
Cette densit<69> a priori est invariante <20> toute reparam<61>trisation (continue) du mod<6F>le (voir Zellner (1971, annexe 
du chapitre 2) pour une description plus d<>taill<6C>e des propri<72>t<EFBFBD>s d'invariance). 
L'utilisation d'un prior plat ou d'un prior d<>riv<69> de la matrice d'information de Fisher pour caract<63>riser 
l'absence d'information affecte g<>n<EFBFBD>ralement l'inf<6E>rence. Par exemple, dans un mod<6F>le AR(1), voir Phillips 
(1991a), un prior bas<61> sur l'information de Fisher n'est pas <20>quivalent <20> un prior uniforme (plat). En effet, 
dans un mod<6F>le dynamique, la quantit<69> d'information v<>hicul<75>e par les donn<6E>es (ie la vraisemblance) d<>pend 
de la valeur du param<61>tre autor<6F>gressif ($$). Si le param<61>tre est proche de l'unit<69>, voire <20>gal ou sup<75>rieur <20> 
un, les donn<6E>es sont plus informatives. Ainsi, pour Phillips , l'utilisation d'un prior plat, <20> l'instar de Zellner 
(1971) ou Sims et Uhlig (1991), biaise la distribution post<73>rieure de $$ en faveur de la stationnarit<69>. En donnant 
autant de poids aux valeurs explosives de $$ qu'aux valeurs stationnaires, le prior plat ne prend pas en compte 
le fait que des donn<6E>es g<>n<EFBFBD>r<EFBFBD>es par un mod<6F>le <20> racine unitaire ou explosif sont plus informatives. Il existe 
d'autres approches pour caract<63>riser l'ignorance, on peut lire le chapitre 3 de Robert (2006) et plus sp<73>ciale- 
ment la section 5. 

Le choix d'une densit<69> a priori et ses cons<6E>quences sur l'inf<6E>rence sont l'objet de toutes les critiques de 
la part des statisticiens ou <20>conomistes classiques. Il ne faudrait pourtant pas oublier que le paradigme clas- 
sique n'est pas plus exempt de choix aux cons<6E>quences non n<>gligeables sur l'inf<6E>rence. Par exemple, le choix 
d'une m<>trique (minimiser la somme des carr<72>s des r<>sidus ou la somme des valeurs absolues des r<>sidus), le 
choix des variables instrumentales, mod<6F>les auxiliaires ou des conditions de moments, sont rarement discut<75>s 
m<EFBFBD>me s'ils d<>terminent les r<>sultats. Dans une certaine mesure, nous n'avons m<>me plus conscience des choix 
effectu<EFBFBD>s. L'approche bay<61>sienne est de ce point de vu bien plus transparente. 

2.3 Comportement asymptotique et approximations
 
M<EFBFBD>me si l'approche bay<61>sienne ne repose pas sur des arguments asymptotiques, comme g<>n<EFBFBD>ralement
l'approche classique, il est utile de s'interroger sur le comportement asymptotique de ses estimateurs. Le
r<EFBFBD>sultat rassurant est que si les conditions de normalit<69> asymptotique de l'estimateur du maximum de vrai- 
semblance sont r<>unies\note{15}, alors la distribution post<73>rieure tend vers une gaussienne multivari<72>e. Asymptoti- 
quement, la distribution post<73>rieure est centr<74>e sur l'estimateur du maximum de vraisemblance. Ce r<>sultat, 
avanc<EFBFBD> par Laplace, est intuitif puisque lorsque la taille de l'<27>chantillon tend vers l'infini, le poids de l'infor- 
mation a priori relativement <20> l'information contenue dans l'<27>chantillon devient marginal.
 
Plus formellement, si on note $$ l'unique mode de la distribution post<73>rieure obtenu en maximisant le 
noyau post<73>rieur $$, et s'il est possible d'<27>crire une approximation de Taylor <20> l'ordre deux 
du noyau post<73>rieur autour de $$, alors nous avons :
				    <DISPLAY EQUATION  ()>
Puisque les d<>riv<69>es premi<6D>res sont, par d<>finition, nulles en $$, nous avons de fa<66>on <20>quivalente :
				    <DISPLAY EQUATION  ()>
o<EFBFBD> $$ est l'oppos<6F> de l'inverse de la matrice hessienne <20>valu<6C>e au mode. Ainsi, en ne consid<69>rant que le 
terme quadratique, le noyau post<73>rieur peut <20>tre approxim<69> par :
				    <DISPLAY EQUATION  ()> 
on reconna<6E>t, <20> une constante d'int<6E>gration pr<70>s\note{16}  la densit<69> d'une loi normale multivari<72>e. En compl<70>tant 
pour la constante d'int<6E>gration, nous obtenons finalement une approximation de la densit<69> post<73>rieure $$
				    <DISPLAY EQUATION  (7)>
G<EFBFBD>n<EFBFBD>ralement, la matrice hessienne est d'ordre $$, lorsque la taille de l'<27>chantillon augmente la distribu- 
tion post<73>rieure se concentre autour du mode. <20> partir de cette approximation asymptotique on peut alors 
tr<EFBFBD>s facilement calculer, par exemple, des moments post<73>rieurs ou approximer les densit<69>s pr<70>dictives. Par 
exemple, l'esp<73>rance post<73>rieure de $$ est d<>finie par :
				    <DISPLAY EQUATION  ()>
Tierney et Kadane (1986) montrent que si l'on approxime <20> l'ordre deux le num<75>rateur autour du mode de 
$$ et le d<>nominateur autour du mode de $$, alors l'erreur d'approximation de l'es-
p<EFBFBD>rance est d'ordre $$. Les erreurs d'approximation du num<75>rateur et du d<>nominateur, qui sont d'ordre 
$$, se compensent favorablement. L'approche de Tierney et Kadane ne va pas sans poser certains pro- 
bl<EFBFBD>mes. Si on cherche <20> calculer $$ pour diff<66>rentes fonctions $$, alors il est n<>cessaire de recourir <20> une 
nouvelle maximisation pour chaque param<61>tre et chaque fonction $$. Par exemple, si on d<>sire calculer les 
esp<EFBFBD>rances et <20>cart-types a posteriori pour chacun des k param<61>tres, il faut recourir $$ maximisations, 
auxquelles il faut rajouter le calcul des matrices hessiennes. Il est alors <20>vident que si $$ est <20>lev<65>, une telle 
approximation peut devenir co<63>teuse en temps de calculs. Tierney et al. (1989) propose diff<66>rentes m<>thodes 
pour pallier cette difficult<6C>\note{17}. Notons n<>anmoins qu'une approche bas<61>e sur des simulations (voir la section  
3) devient aussi plus co<63>teuse lorsque le nombre de param<61>tres augmente. 


2.4 Un mod<6F>le lin<69>aire : le mod<6F>le VAR
 
Dans cette section, nous consid<69>rons un exemple o<> les r<>sultats peuvent <20>tre obtenus analytiquement. Le
mod<EFBFBD>le VAR gaussien se pr<70>te, comme tout mod<6F>le lin<69>aire gaussien, <20> cet exercice et a l'avantage d'<27>tre un
outil couramment utilis<69> en macro-<2D>conomie (voir par exemple la contribution de Fabrice Collard et Patrick
F<EFBFBD>ve dans ce num<75>ro).
 
Nous consid<69>rons un mod<6F>le VAR(p) pour caract<63>riser le vecteur $$ de variables endog<6F>nes $$ obser-
v<EFBFBD>es :
				    <DISPLAY EQUATION  ()>
o<EFBFBD> $$ est une suite de matrice $$ et $$ est un bruit blanc gaussien, de dimension $$ d'esp<73>rance nulle
et de variance $$. Nous pourrions compl<70>ter le mod<6F>le avec des variables exog<6F>nes, une constante par
exemple, mais nous allons <20> l'essentiel en omettant cette possibilit<69>.
 
On note $$ les donn<6E>es <20> notre disposition et on note $$ la concat<61>nation horizontale des
vecteurs lignes $$. En concat<61>nant verticalement les vecteurs lignes $$, $$ et $$, pour $$, 
on obtient la repr<70>sentation matricielle suivante du mod<6F>le VAR(p) :
				    <DISPLAY EQUATION  ()> 
o<EFBFBD> $$ et $$ sont des matrices $$, $$ est une matrice $$ et $$ la matrice $$ (avec $$) regroupant les 
coefficients auto-r<>gressifs. La vraisemblance associ<63>e <20> ce mod<6F>le lin<69>aire gaussien
est donn<6E>e par :
				    <DISPLAY EQUATION  ()>
L'estimateur du maximum de vraisemblance (MCO) est d<>fini par :
				    <DISPLAY EQUATION  ()>
et
				    <DISPLAY EQUATION  ()>
Nous verrons plus loin qu'il est profitable de r<><72>crire la vraisemblance en faisant appara<72>tre 
l'estimateur des MCO :
				    <DISPLAY EQUATION  ()>
Aux constantes d'int<6E>gration pr<70>s on reconna<6E>t ici les fonctions de densit<69> de probabilit<69> d'une gaussienne 
matricielle et d'une inverse Wishart (voir l'annexe  A). La vraisemblance se r<><72>crit donc sous la forme suivante :
				    <DISPLAY EQUATION  ()>
avec $$ les degr<67>s de libert<72> et $$. Cette <20>criture nous apprend que la vraisemblance du VAR(p) est proportionnelle 
au produit de la densit<69> d'une normale matricielle et d'une loi inverse Wishart : 
				    <DISPLAY EQUATION  (8)>
Cette propri<72>t<EFBFBD> va nous aider <20> poser une forme de la densit<69> a priori telle que nous puissions obtenir une 
expression analytique de la densit<69> post<73>rieure. 

2.4.1 A priori non informatif
 
Dans cette section nous supposons que nos croyances sont non informatives en adoptant un a priori plat <20>
la Jeffrey :  
				    <DISPLAY EQUATION  (9)>
On note que dans le cas scalaire, m = 1, on retrouve le prior sugg<67>r<EFBFBD> par Jeffrey ($$) d<>crit plus haut. La
densit<EFBFBD> a posteriori satisfait donc :
				    <DISPLAY EQUATION  ()>
La densit<69> jointe post<73>rieure est donc proportionnelle au produit d'une loi normale multivari<72>e et d'une loi 
inverse Wishart : 
				    <DISPLAY EQUATION  (10)>
avec $$. Ainsi, la densit<69> post<73>rieure s'<27>crit sous la forme suivante : 
				    <DISPLAY EQUATION  (11)>
Il n'est pas surprenant de constater que la distribution post<73>rieure de $$ (conditionnelle <20> la matrice de va- 
riance covariance) est centr<74>e sur l'estimateur du maximum de vraisemblance, puisque notre a priori est non 
informatif. Nous pourrions montrer, en int<6E>grant par rapport <20> $$, que la distribution post<73>rieure (marginale) 
de $$ est une version matricielle de la loi de Student (voir (Zellner, 1971, chapitre 8)). L'a priori de Jeffrey n'af- 
fecte que le nombre de degr<67> de libert<72> de la distribution post<73>rieure de $$. On obtient la densit<69> marginale 
post<EFBFBD>rieure de $$ en int<6E>grant le noyau post<73>rieur successivement par rapport <20> $$ et $$ : 
				    <DISPLAY EQUATION  (12)>
Cette quantit<69> nous renseigne sur la qualit<69> d'ajustement du mod<6F>le VAR(p). On note que la densit<69> marginale 
de $$ est une fonction d<>croissante de la taille des erreurs $$. Dans cet exemple, nous pouvons caract<63>riser 
la distribution post<73>rieure analytiquement. Notons n<>anmoins que m<>me si nous connaissons l'expression 
analytique de la distribution de $$ et $$, la construction des densit<69>s pr<70>dictives n<>cessite une approche par 
simulations\note{18}, puisque les pr<70>visions sont des fonctions non lin<69>aires des matrices auto-r<>gressives (dont nous 
connaissons la distribution post<73>rieure). L'int<6E>r<EFBFBD>t pratique de l'approche bay<61>sienne peut para<72>tre faible dans 
ce cas, dans la mesure o<> l'esp<73>rance post<73>rieure n'est pas diff<66>rente de l'estimateur du maximum de vrai- 
semblance.
 
2.4.2 Un exemple d'a priori informatif
 
Nous consid<69>rons maintenant un prior plus informatif qui va <20>carter l'esp<73>rance de la distribution a poste-
riori de l'estimateur du maximum de vraisemblance ; dans un mod<6F>le lin<69>aire gaussien, l'esp<73>rance a posteriori
est une combinaison convexe de l'estimateur du maximum de vraisemblance et de l'esp<73>rance a priori. Afin
d'aller <20> l'essentiel\note{19}, nous adoptons une densit<69> a priori d<>g<EFBFBD>n<EFBFBD>r<EFBFBD>e pour la matrice de variance-covariance des
erreurs, en supposant que la matrice $$ est connue (on posera $$). Enfin nous sp<73>cifions le prior sur A de 
la fa<66>on suivante :
				    <DISPLAY EQUATION  (13)>
o<EFBFBD> $$ est une matrice sym<79>trique d<>finie positive de dimension $$. En multipliant la vraisemblance par 
(13), on <20>tablit facilement que le noyau post<73>rieur est : 
				    <DISPLAY EQUATION  (14a)>
				    <DISPLAY EQUATION  (14b)>
				    <DISPLAY EQUATION  (14c)>
La distribution post<73>rieure de $$ est donc gaussienne $$, son interpr<70>tation est imm<6D>diate. L'inverse 
de la variance post<73>rieure ($$, que l'on peut interpr<70>ter comme une quantification de l'information a pos- 
teriori) est <20>gale <20> la somme de l'inverse de la variance a priori ($$, l'information a priori) et de l'inverse de 
la variance de l'estimateur du maximum de vraisemblance de $$ ($$, l'information apport<72>e par les 
donn<EFBFBD>es). Ceteris paribus, quand l'information a priori est importante, la matrice de variance-covariance $$ est 
petite, la variance a posteriori est faible. L'esp<73>rance post<73>rieure est une combinaison lin<69>aire convexe de l'esp<73>- 
rance a priori, $$, et de l'estimateur du maximum de vraisemblance, $$. Les pond<6E>rations respectives sont 
d<EFBFBD>finies par le contenu informatif des croyances a priori et de l'<27>chantillon. Lorsque l'information a priori tend 
vers l'infini, ie $$, l'esp<73>rance post<73>rieure tend vers l'esp<73>rance a priori. Lorsque l'information amen<65>e par 
les donn<6E>es tend vers l'infini, ie $$, l'esp<73>rance a posteriori tend vers l'estimateur du maximum de 
vraisemblance. On peut donc interpr<70>ter le paradigme bay<61>sien comme un pont entre la calibration et l'esti- 
mation par le maximum de vraisemblance. En notant que $$ est g<>n<EFBFBD>ralement, si le mod<6F>le est stationnaire\note{20}, 
d'ordre O(T), on retrouve un r<>sultat conforme aux consid<69>rations asymptotiques introduites dans la section  
2.3 : l'esp<73>rance post<73>rieure tend vers l'estimateur du maximum de vraisemblance lorsque T tend vers l'infini. 
<EFBFBD> nouveau, en int<6E>grant le noyau post<73>rieur (14) par rapport aux param<61>tres auto-r<>gressifs, on obtient une 
expression analytique de la densit<69> marginale post<73>rieure : 
				    <DISPLAY EQUATION  (15)> 
qui mesure la qualit<69> d'ajustement du mod<6F>le et permet de comparer le VAR <20> d'autres mod<6F>les estim<69>s <20> 
l'aide du m<>me <20>chantillon.
 
2.4.3 La pratique
 
L'int<6E>r<EFBFBD>t pratique de l'approche bay<61>sienne des mod<6F>les VAR s'explique par l'<27>quation (14b). Celle-ci <20>ta-
blit que la variance post<73>rieure de $$ est inf<6E>rieure <20> la variance de l'estimateur du maximum de vraisem-
blance, $$, d<>s lors que l'on apporte de l'information a priori. L'estimation des mod<6F>les VAR sur des donn<6E>es
macro<EFBFBD>conomiques pose souvent des probl<62>mes de pr<70>cision. En effet, un mod<6F>le avec cinq variables et quatre
retards demande l'estimation de vingt param<61>tres alors que les <20>chantillons sont habituellement de l'ordre de
la centaine d'observations. En incorporant de l'information <20> l'aide d'une densit<69> a priori tout se passe comme
si nous augmentions le nombre de degr<67>s de libert<72>. Ce gain en variance sur les param<61>tres du mod<6F>le, per-
mettra d'obtenir des pr<70>visions ou des fonctions de r<>ponses plus pr<70>cises.
 
On peut faire l'analogie avec l'incorporation de contraintes sur les param<61>tres d'un mod<6F>le estim<69> dans
le paradigme classique. Par exemple, si nous pensons que A doit satisfaire les contraintes lin<69>aires d<>finies
par $$ (o<> $$ est une matrice $$, $$ est un vecteur $$ et $$ le nombre de restrictions li-
n<EFBFBD>aires), l'incorporation de ces contraintes lors de l'estimation, ie l'utilisation de moindres carr<72>s contraints,
permet de r<>duire la variance des estimateurs et aussi l'erreur quadratique moyenne (dans la mesure o<> la
contrainte n'est pas en contradiction avec le processus g<>n<EFBFBD>rateur des donn<6E>es)\note{21}. Le paradigme bay<61>sien est
plus souple, dans le sens o<> il ne pose pas des contraintes d<>terministes. Dans certains cas\note{22}, nous verrons une
application dans la section  4.1, la d<>finition de croyances a priori revient <20> poser une contrainte probabiliste
de la forme $$, o<> $$ est une variable al<61>atoire gaussienne. Plus la variance de $$ est importante,
moins la contrainte sur $$ est forte (plus l'information a priori est floue).
 
La formalisation de l'information a priori ne se limite pas au choix de la forme d'une distribution. Dans
le cas du mod<6F>le BVAR de la section pr<70>c<EFBFBD>dente, nous devons aussi choisir les param<61>tres $$ et $$. Dans
cette perspective, un prior qui s'est montr<74> particuli<6C>rement efficace quand on cherche <20> mod<6F>liser des s<>-
ries macro<72>conomiques est le prior de Minnesota\note{23}. Celui-ci correspond <20> la croyance a priori que les s<>-
ries observ<72>es sont des marches al<61>atoires ind<6E>pendantes. L'esp<73>rance a priori de $$ est alors telle que
$$ pour $$. La variance a priori de $$ est suppos<6F>e diagonale. En no-
tant $$ la variance associ<63>e au param<61>tre correspondant <20> la variable j dans 
l'<27>quation i au retard k, la variance a priori est d<>finie par :
				    <DISPLAY EQUATION  ()>
o<EFBFBD> les hyperparam<61>tres $$ pour $$ sont positifs, $$ est l'estimateur de la variance des r<>sidus dans 
l'estimation d'un AR(p) pour la variable $$. Le ratio des <20>carts-types permet de prendre en compte les dif- 
f<EFBFBD>rences d'<27>chelles entre les diff<66>rentes variables composant le vecteur des observables. La variance a priori 
d<EFBFBD>cro<EFBFBD>t lorsque le retard $$ augmente, ce qui traduit l'id<69>e que plus le retard est important plus nous croyons 
que la matrice $$ est nulle. L'hyperparam<61>tre $$ indique <20> quelle vitesse la variance a priori tend vers z<>ro. 
Des valeurs fr<66>quemment utilis<69>es pour $$ et $$ sont respectivement 0,05 et 0,005. Cela revient <20> dire, dans la 
mesure o<> $$ et $$ sont proches, que nos croyances a priori sont plus fortes sur la nullit<69> des termes hors des 
diagnonales de $$ ($$), c'est-<2D>-dire sur l'absence decausalit<69>\note{24}. Notons que l'a priori de Minnesota 
suppose l'absence de relations de coint<6E>gration entre les variables, il y a, a priori, autant de racines unitaires 
que de variables. N<>anmoins rien n'emp<6D>che l'apparition de relations de long terme dans la distribution pos- 
t<EFBFBD>rieure.
 
Il nous reste <20> choisir les valeurs des hyperparam<61>tres du prior de Minnesota. Cette <20>tape est importante 
car l'exp<78>rience montre que l'inf<6E>rence post<73>rieure, en particulier l'<27>valuation de la densit<69> marginale qui 
nous permet d'<27>valuer le mod<6F>le, est tr<74>s sensible <20> ce choix. Si, comme souvent dans la litt<74>rature (voir par 
exemple Smets et Wouters (2002) ou Fernandez-Villaverde et Rubio-Ramirez (2001)), l'estimation d'un BVAR 
ne sert qu'<27> titre de comparaison afin d'<27>valuer la qualit<69> d'ajustement d'un mod<6F>le DSGE, le choix des hy- 
perparam<EFBFBD>tres devient crucial. Ce point n'est malheureusement jamais abord<72> dans la litt<74>rature. Le contenu 
<EFBFBD>conomique d'un mod<6F>le VAR <20>tant faible, il para<72>t difficile de recourir <20> la th<74>orie pour sp<73>cifier la densit<69>
a priori. Un crit<69>re objectif <20> notre disposition est de choisir les hyperparam<61>tres ($$, $$  et $$) qui maximisent 
les performances en pr<70>visions du mod<6F>le BVAR. En sp<73>ci<63>ant ainsi les priors de notre BVAR, nous savons au 
moins que nous ne comparons par notre DSGE avec un BVAR aux performances pr<70>dictives m<>diocres. Dans 
cet esprit Phillips (1996) propose le crit<69>re PIC (Posterior Information Criterion) que l'on peut minimiser par 
rapport aux hyperparam<61>tres. Ce crit<69>re peut <20>tre vu comme une g<>n<EFBFBD>ralisation, au cas non stationnaire, du 
bien connu crit<69>re BIC\note{25}. Dans le cas du mod<6F>le consid<69>r<EFBFBD> dans la section  2.4.2 on choisit les hyperparam<61>tres 
de la fa<66>on suivante :
				    <DISPLAY EQUATION  (16)>
o<EFBFBD> $$ est la matrice de variance covariance des innovations au mode post<73>rieur, les matrices indic<69>es par $$
sont obtenues <20> partir du sous <20>chantillon $$ (o<> $$ est sup<75>rieur au nombre de param<61>tres estim<69>s). 
Ici nous avons consid<69>r<EFBFBD> le nombre de retards comme une donn<6E>e, mais nous pourrions aussi optimiser par 
rapport <20> $$ le crit<69>re PIC (voir Phillips (1996)). <20> notre connaissance, l'utilisation d'a priori objectif pour les 
mod<EFBFBD>les BVAR, tel que l'optimisation du crit<69>re PIC propos<6F> par Phillips (1996), demeure inappliqu<71> dans 
la litt<74>rature. On peut donc l<>gitimement douter de la pertinence des comparaisons entre BVAR et DSGE 
effectu<EFBFBD>es jusqu'<27> pr<70>sent\note{26}. 


3 Mod<6F>les DSGE
 
Dans cette section nous pr<70>sentons de fa<66>on g<>n<EFBFBD>rale les mod<6F>les DSGE, puis soulignons les probl<62>mes
que peut poser l'estimation. En particulier, nous expliquons pourquoi, <20> la diff<66>rence des BVAR, il n'est pas
possible d'obtenir une expression analytique de la distribution post<73>rieure. Nous terminons en pr<70>sentant les
m<EFBFBD>thodes de Monte Carlo utilis<69>es pour caract<63>riser les croyances post<73>rieures.

3.1 R<>solution et vraisemblance
 
Nous limitons notre attention aux mod<6F>les DSGE que nous pouvons <20>crire sous la forme suivante : 
				    <DISPLAY EQUATION  (17)> 
avec $$, une variable al<61>atoire dans $$, les innovations structurelles, $$ un vecteur
regroupant les variables endog<6F>nes, $$ une fonction r<>elle dans $$ param<61>tr<74>e par un vecteur
r<EFBFBD>el $$ regroupant l'ensemble des param<61>tres structurels du mod<6F>le. La fonction $$ est simplement
l'ensemble des <20>quations qui d<>finissent un mod<6F>le ; on a autant d'<27>quations que de variables endog<6F>nes.
Le vecteur des variables endog<6F>nes, $$, inclut des variables d'<27>tat (endog<6F>nes ou exog<6F>nes), des variables de
choix et des variables statiques\note{27}. On supposera qu'il est possible d'exhiber une unique solution stable et
invariante au mod<6F>le d<>crit par l'<27>quation (17) : 
				    <DISPLAY EQUATION  (18)> 
qui exprime les variables endog<6F>nes en fonction du pass<73> et des chocs structurels contemporains. La fonction
param<EFBFBD>tr<EFBFBD>e $$ regroupe les policy rules et les <20>quations de transition (voir la contribution de Michel Juillard
et Tarik Ocaktan dans ce num<75>ro). La solution (18), en d<>crivant une r<>currence stochastique non lin<69>aire,
d<EFBFBD>finit la distribution jointe d'un ensemble de variables.
 
Pour estimer les param<61>tres $$ du mod<6F>le, ou d'un sous ensemble des param<61>tres, nous devons <20>valuer la
vraisemblance associ<63>e au mod<6F>le (17) ou <20> sa forme r<>duite (18). M<>me si la fonction $$ est lin<69>aire en $$
et $$, cette <20>valuation ne peut <20>tre directe comme dans le cas du mod<6F>le VAR examin<69> plus haut. En effet,
l'<27>quation (18) d<>crit la distribution jointe d'un ensemble de variables qui ne sont pas toutes observ<72>es. Afin 
d'amener le mod<6F>le aux donn<6E>es on peut l'<27>crire sous une forme <20>tat-mesure : 
				    <DISPLAY EQUATION  (19a)>
				    <DISPLAY EQUATION  (19b)>
o<EFBFBD> $$ est un vecteur $$, avec $$, regroupant les variables observ<72>es et $$ est une matrice de 
s<EFBFBD>lection $$. On peut <20>ventuellement augmenter l'<27>quation de mesure d'un bruit blanc multivari<72>, $$, 
repr<EFBFBD>sentant l'inad<61>quation des variables th<74>oriques avec les variables observ<72>es, ou plus simplement une 
erreur de mesure. On note $$ l'<27>chantillon <20> notre disposition et $$ le vecteur des param<61>tres du mod<6F>le 
<EFBFBD>tat-mesure ($$, $$ et <20>ventuellement la matrice de variance-covariance de 
$$). La vraisemblance est la densit<69> de l'<27>chantillon, conditionnellement aux param<61>tres $$ et au mod<6F>le d<>fini 
par (19) :
				    <DISPLAY EQUATION  (20)>
L'<27>valuation de la densit<69> de $$ conditionnellement <20> $$ n'est g<>n<EFBFBD>ralement pas directe, dans la mesure o<> 
$$ d<>pend de variables endog<6F>nes inobservables. Nous pouvons n<>anmoins utiliser la relation suivante : 
				    <DISPLAY EQUATION  (21)>
La densit<69> de $$ conditionnellement <20> $$ est obtenue comme la moyenne de la densit<69> de $$ sachant $$, 
pond<EFBFBD>r<EFBFBD>e par la densit<69> de $$ sachant $$. La premi<6D>re densit<69> sous l'int<6E>grale est specifi<66>e par l'<27>quation 
de mesure (19a). L'<27>valuation de la densit<69> de la pr<70>vision des variables latentes, conditionnellement l'infor- 
mation disponible en $$, est moins directe, et on doit utiliser un filtre de Kalman. Il s'agit d'une proc<6F>dure 
r<EFBFBD>cursive. <20> chaque date (entre $$ et $$) on forme une pr<70>vision des variables latentes ($$ sachant $$), en 
utilisant l'<27>quation d'<27>tat ($$ sachant $$, <20>quation  19b) et une estimation initiale des variables latentes 
($$ sachant $$ ), puis on corrige cette pr<70>vision quand une nouvelle observation ($$) augmente l'ensemble d'in- 
formation. On peut interpr<70>ter cette d<>marche comme une estimation r<>cursive bay<61>sienne du vecteur des 
variables latentes. En initialisant les variables latentes avec la densit<69> associ<63>e <20> la distribution ergodique des 
variables latentes d<>finie par l'<27>quation d'<27>tat (19b), $$, la r<>cursion s'<27>crit de 
la fa<66>on suivante :
				    <DISPLAY EQUATION  (22a)>
				    <DISPLAY EQUATION  (22b)>
L'interpr<70>tation de l'<27>quation de pr<70>diction (22a) est directe : la densit<69> de la pr<70>diction des variables latentes 
en $$ est la moyenne de la densit<69> de $$ sachant $$, d<>finie par l'<27>quation d'<27>tat (19b), pond<6E>r<EFBFBD>e par la densit<69> 
de $$ sachant $$. Cette derni<6E>re densit<69> est d<>finie par l'<27>quation de mise <20> jour (22b) ou la condition
initiale. L'<27>quation de mise <20> jour (22b) est, <20> l'instar de l'<27>quation (3), une application directe du th<74>or<6F>me de 
Bayes. Le premier terme au num<75>rateur, $$, est la densit<69> a priori du vecteur des variables latentes. Le 
second terme, $$, la densit<69> de l'observation sachant l'<27>tat obtenu via l'<27>quation de mesure (19a), est la 
vraisemblance. Le d<>nominateur est la densit<69> marginale de la nouvelle observation.
 
Puisque nous pouvons, au moins th<74>oriquement, <20>valuer la vraisemblance associ<63>e au mod<6F>le DSGE, nous 
devrions <20>tre capable d'estimer ses param<61>tres. Malheureusement, les <20>quations (21) et (22) n<>cessitent l'<27>va- 
luation d'int<6E>grales\note{28}  dans l'espace des variables d'<27>tat. Quand le nombre de variables latentes agmente il 
devient tr<74>s co<63>teux d'<27>valuer ces int<6E>grales (on parle de curse of dimensionality). La d<>rivation de la forme 
r<EFBFBD>duite du mod<6F>le (18) n<>cessite <20>galement l'<27>valuation d'int<6E>grales. En pratique, m<>me pour des mod<6F>les 
de dimensions modestes, l'<27>valuation de la vraisemblance est difficile. Nous devons donc approximer celle- 
ci. Dans le cas o<> le mod<6F>le <20>tat-mesure (19) est lin<69>aire et gaussien, l'<27>valuation des int<6E>grales devient tr<74>s 
simple car les variables latentes et observ<72><76>es sont normalement distribu<62>es <20> chaque date. Ainsi la dynamique 
de la distribution des variables latentes est compl<70>tement caract<63>ris<69>e par la dynamique de l'esp<73>rance et de 
la variance des variables latentes. On peut trouver une pr<70>sentation du filtre de Kalman dans ce cas simple 
dans Gouri<72>roux et Monfort (1989, chapitre 13), Harvey (1989, chapitre 3) ou encore dans la contribution de 
Fabrice Collard et Patrick F<>ve <20> ce m<>me num<75>ro. Ceci explique pourquoi les mod<6F>les DSGE estim<69>s sont 
g<EFBFBD>n<EFBFBD>ralement (log-) lin<69>aris<69>s autour de l'<27>tat stationnaire.
 
Malgr<EFBFBD> l'approximation (log-) lin<69>aire de la forme r<>duite du mod<6F>le ($$) l'<27>valuation de la vraisemblance 
est num<75>rique. Nous ne disposons pas d'une expression analytique, comme dans le cas du mod<6F>le VAR, et 
ne pouvons donc <20>crire formellement la densit<69> post<73>rieure ou les moments post<73>rieurs. Deux possibilit<69>s 
s'offrent <20> nous. 
La premi<6D>re est de consid<69>rer une approximation asymptotique de la densit<69> post<73>rieure. Il est alors possible 
d'approximer, voir la section  2.3 et Tierney et Kadane (1986), tout moment a posteriori ou la densit<69> marginale. 
Nous avons vu que l'erreur d'approximation des moments est d'ordre $$ et que l'erreur d'approxima- 
tion de la densit<69> marginale est d'ordre $$. L'exp<78>rience sugg<67>re, pour les dimensions d'<27>chantillon, $$, 
g<EFBFBD>n<EFBFBD>ralement consid<69>r<EFBFBD>es dans la litt<74>rature, que l'approximation de Laplace de la densit<69> marginale est sa- 
tisfaisante\note{29}. 
La deuxi<78>me possibilit<69> est d'<27>valuer les moments en recourant <20> des simulations par Monte-Carlo. L'intuition 
de cette approche repose sur la loi des grands nombres. Supposons, par exemple, que nous souhaitions <20>va- 
luer l'esp<73>rance d'une variable al<61>atoire $$ de distribution $$. Si l'on g<>n<EFBFBD>re une suite de variables al<61>atoires 
$$ ind<6E>pendantes et distribu<62>es selon $$, alors une approximation de l'esp<73>rance est donn<6E>e par 
la moyenne empirique de ces variables\note{30} ; la loi des grands nombres assure que l'erreur d'approximation tend 
vers z<>ro presque s<>rement lorsque le nombre de tirages $$ tend vers l'infini. Si on admet de plus que le mo- 
ment du second ordre existe, la vitesse de convergence est $$ par application du th<74>or<6F>me central limit.
  
En pratique nous pouvons <20>tre int<6E>ress<73>s par les moments post<73>rieurs de $$. En notant que : 
				    <DISPLAY EQUATION  (23)>
il semble alors naturel d'utiliser la moyenne empirique de $$, o<> les $$ sont 
des tirages ind<6E>pendants dans la distribution post<73>rieure, pour <20>valuer l'esp<73>rance de $$. L'erreur d'ap- 
proximation tend vers z<>ro lorsque le nombre de simulations ($$) tend vers l'infini. il convient de noter que $$ 
est g<>n<EFBFBD>ralement d'une forme inconnue et que l'on ne peut donc pas d<>finir un g<>n<EFBFBD>rateur pseudo-al<61>atoire 
reproduisant la distribution a posteriori. Comme nous le verrons par la suite, la m<>thode de Monte Carlo 
dite de fonction d'importance permet de rem<65>dier <20> cette difficult<6C> sous certaines conditions. Ce principe de 
Monte Carlo se g<>n<EFBFBD>ralise au cas o<> les variables simul<75>es ne sont pas ind<6E>pendantes. Il est ainsi possible dans 
certains cas de construire, moyennant certaines conditions, une cha<68>ne de Markov $$ de loi sta- 
tionnaire (ergodique) $$ telle que la moyenne empirique des $$ ($$ est la statistique d'int<6E>r<EFBFBD>t) converge 
presque s<>rement vers la quantit<69> d'int<6E>r<EFBFBD>t comme dans le cas des tirages ind<6E>pendants. Tout l'art de l'exer- 
cice est alors de d<>terminer une cha<68>ne de Markov (et plus pr<70>cis<69>ment son noyau de transition) telle que 
sa loi ergodique corresponde <20> la loi a posteriori d<>sir<69>e et d'<27>valuer le temps d'arr<72>t des simulations, ie de 
diagnostiquer la convergence de la cha<68>ne de Markov\note{31}. 

3.2 L'<27>chantillonnage bay<61>sien par fonction d'importance
 
Id<EFBFBD>alement, on souhaiterait g<>n<EFBFBD>rer les param<61>tres d'int<6E>r<EFBFBD>t suivant la distribution a posteriori. Cependant,
<EFBFBD> l'exception de rares mod<6F>les, ceci n'est pas possible. On peut n<>anmoins exploiter le fait qu'il n'est pas
n<EFBFBD>cessaire de g<>n<EFBFBD>rer une suite de tirage $$, suivant la distribution a posteriori, pour obtenir une <20>valuation
correcte des moments post<73>rieurs. En effet, sous certaines conditions de r<>gularit<69>, on peut utiliser une densit<69>
de probabilit<69> $$, d<>finie sur le m<>me espace et appel<65>e fonction d'importance, suffisamment proche de $$
(dans un sens <20> pr<70>ciser) et <20>chantillonner <20> partir de cette derni<6E>re. Il est alors possible de montrer par la loi
des grands nombres que l'int<6E>grale (23) d<>finissant le moment post<73>rieur est approch<63>e par :
				    <DISPLAY EQUATION  ()> 
avec
				    <DISPLAY EQUATION  (24)>
Le choix de la fonction d'importance est crucial : elle doit <20>tre suffisamment proche de la loi a posteriori, ce
qui n'est pas toujours simple en pratique. En effet, si $$ est une mauvaise approximation de $$, alors les poids
sont g<>n<EFBFBD>ralement faibles pour la plupart des valeurs <20>chantillonn<6E>es de $$, la somme est alors domin<69>e par
quelques termes dont les poids sont tr<74>s <20>lev<65>s. Il en r<>sulte une estimation peu fiable, voir Casella et Robert
(2004) pour plus de d<>tails. L'algorithme se r<>sume comme suit : 

Algorithme 1. 
 
(1) Maximiser le noyau post<73>rieur par rapport <20> $$. On obtient le mode de la densit<69> post<73>rieure, $$, et le 
hessien au mode qui caract<63>rise la courbure de la densit<69> post<73>rieure au mode et dont l'inverse de l'oppos<6F>, 
not<EFBFBD> $$, approxime la variance post<73>rieure.
 
(2) G<>n<EFBFBD>rer $$, suivant une fonction d'importance, $$, dont les moments du premier et second ordre d<>pendent 
de $$ et $$.
 
(3) D<>terminer les poids $$ selon (24).
 
(4) Reprendre (2-3) pour $$.
 
(5) Calculer :
				    <DISPLAY EQUATION  ()>
				    <DISPLAY EQUATION  ()>

La premi<6D>re <20>tape n'est pas sp<73>cifique <20> l'algorithme par fonction d'importance : il s'agit de calculer les 
moments associ<63>s <20> la fonction d'importance, h. Cette << calibration >> des moments de la fonction d'impor- 
tance est g<>n<EFBFBD>ralement faite <20> partir de la maximisation du logarithme du noyau a posteriori. <20>tant donn<6E>es les 
propri<EFBFBD>t<EFBFBD>s asymptotiques de la distribution post<73>rieure, ces choix sur les moments d'ordre un et deux associ<63>s 
<EFBFBD> $$ sont d'autant plus satisfaisants que la taille de l'<27>chantillon est importante.
 
Bien que tr<74>s populaire en statistique, cette m<>thode est peu utilis<69>e dans le cadre de l'estimation de mo- 
d<EFBFBD>les DSGE. A titre d'exemples, Dejong et al. (2000) estiment avec cette m<>thode un mod<6F>le de croissance 
stochastique lin<69>aris<69>. An et Schorfheide (2007) comparent l'algorithme d'importance avec celui de Metro- 
polis (<28> pas al<61>atoire) dans une version simplifi<66>e du mod<6F>le de Smets et Wouters (2002). Pour ce faire, ils 
retiennent comme fonction d'importance une distribution de Student multivari<72>e. 

3.3 Les m<>thodes de Monte-Carlo <20> cha<68>nes de Markov
 
Cette seconde classe d'algorithmes permet de g<>n<EFBFBD>rer des variables al<61>atoires suivant approximativement
la loi a posteriori, lorsque cette derni<6E>re n'est pas disponible. Elle <20>vite donc l'appel <20> une fonction d'impor-
tance, $$, souvent difficile <20> d<>terminer pour les mod<6F>les DSGE\note{32}. On cherche ainsi <20> d<>finir une cha<68>ne de Mar-
kov dont la distribution ergodique est approximativement le noyau a posteriori. Si cette cha<68>ne existe, la m<>-
thode d'<27>chantillonnage est grossi<73>rement d<>finie comme suit. Dans un premier temps, on initialise (arbitrai-
rement) la cha<68>ne de Markov. Dans un second temps, on g<>n<EFBFBD>re les $$ <20> partir de cette cha<68>ne. <20> l'issue d'un
certain nombre de tirages (disons $$), on dispose de r<>alisations de variables al<61>atoires $$
approximativement distribu<62>es comme la distribution a posteriori.

3.3.1 cha<68>nes de Markov
 
Une cha<68>ne de Markov est une suite de variables al<61>atoires continues <20> valeurs dans $$, $$,
g<EFBFBD>n<EFBFBD>r<EFBFBD>e par un processus de Markov. Une suite de variables al<61>atoires est g<>n<EFBFBD>r<EFBFBD>e par un processus de Markov\note{32} 
(d'ordre 1) si la distribution de $$ ne d<>pend que de $$. Une cha<68>ne de Markov est caract<63>ris<69>e par un 
noyau de transition qui sp<73>cifie la probabilit<69> de passer de $$ <20> $$. Nous noterons $$ le noyau de 
transition, il v<>rifie $$ pour tout $$ dans $$. Si la cha<68>ne de Markov d<>finie par le noyau P converge 
vers une distribution invariante $$, alors le noyau doit satisfaire l'identit<69> suivante :
				    <DISPLAY EQUATION  ()> 
pour tout sous ensemble mesurable $$ de $$. Plus g<>n<EFBFBD>ralement, avant d'atteindre la distribution ergodique $$, 
si nous notons $$ la probabilit<69> que $$ soit dans S sachant que $$, nous avons :
				    <DISPLAY EQUATION  ()>
la distribution de $$ s'ajuste d'it<69>ration en it<69>ration puis rejoint la distribution ergodique, $$. L'id<69>e est 
alors de choisir le noyau de transition qui nous am<61>nera vers la distribution invariante d<>sir<69>e.
 
D<EFBFBD>finissons $$ et $$ les densit<69>s associ<63>es au noyau $$ et $$ la distribution $$\note{33}. Tierney (1994) montre que 
si la densit<69> $$ v<>rifie la condition de r<>versibilit<69>\note{34} :
				    <DISPLAY EQUATION  ()>
alors $$ est la distribution invariante associ<63>e au noyau $$\note{35}. De fa<66>on <20>quivalente :
				    <DISPLAY EQUATION  ()> 
Cette condition nous dit simplement que si la densit<69> de $$, $$, domine la densit<69> associ<63>e <20> $$, $$, 
alors il doit <20>tre plus << facile >> de passer de $$ <20> $$ que de $$ <20> $$.
 
Cette propri<72>t<EFBFBD> nous aidera <20> construire une cha<68>ne de Markov dont la distribution invariante est la distri- 
bution post<73>rieure des param<61>tres $$ dans le mod<6F>le DSGE. On comprend bien que le noyau de cette cha<68>ne 
est difficile <20> d<>finir. Supposons que l'on puisse choisir un noyau de transition $$ ; alors il est presque 
s<EFBFBD>r que la condition de r<>versibilit<69> ne sera pas v<>rifie, c'est-<2D>-dire que nous aurons $$. L'algorithme de 
Metropolis-Hastings est une approche g<>n<EFBFBD>rale qui permet de << corriger >> ce noyau, de fa<66>on <20> respecter la 
condition de r<>versibilit<69>.

3.3.2 L'algorithme de M<>tropolis-Hasting
 
Supposons que l'on puisse d<>finir une densit<69> instrumentale, qui permette d'approcher le noyau de tran-
sition de la cha<68>ne de Markov dont la densit<69> ergodique est la loi a posteriori de notre mod<6F>le. Cette densit<69> est
d<EFBFBD>finie par $$.

Algorithme 2 (Metropolis-Hastings). 

(1) Se donner une condition initiale $$ telle que $$ et poser $$.

(2) G<>n<EFBFBD>rer un candidat (une proposition) $$ <20> partir d'une densit<69> $$.

(3) G<>n<EFBFBD>rer $$ dans une loi uniforme entre $$.

(4) Appliquer la r<>gle suivante :
				    <DISPLAY EQUATION  ()>
o<EFBFBD>
				    <DISPLAY EQUATION  ()>

(5) Reprendre (2-4) pour $$.

Notons qu'il suffit de pouvoir <20>valuer le noyau post<73>rieur pour mettre en oeuvre cet algorithme ; la connais-
sance de la densit<69> post<73>rieure <20> une constante pr<70>s est suffisante. L'algorithme de Metropolis-Hasting re-
quiert le choix d'une fonction instrumentale $$ <20> partir de laquelle on g<>n<EFBFBD>re des transitions dans l'espace des
param<EFBFBD>tres. La densit<69> conditionnelle $$ permet de g<>n<EFBFBD>rer un vecteur candidat $$. Puisqu'elle n'est pas n<>-
cessairement la densit<69> conditionnelle associ<63>e au noyau de transition dont la distribution ergodique est la
distribution a posteriori recherch<63>e, la condition de r<>versibilit<69> n'est pas v<>rifie\note{36}. L'algorithme 
de MH corrige cette erreur\note{37} en n'acceptant pas syst<73>matiquement les propositions de $$. En introduisant 
une probabilit<69> d'acceptation de la transition propos<6F>e, $$, on peut finalement v<>rifier la condition de 
r<EFBFBD>versibilit<EFBFBD>. Pour cela, la probabilit<69> d'acceptation doit <20>tre telle que :
				    <DISPLAY EQUATION  ()>
soit 
				    <DISPLAY EQUATION  ()> 
Il nous reste <20> d<>terminer (i) comment nous devons initialiser la cha<68>ne et (ii) la longueur de la cha<68>ne. Nous 
reviendrons par la suite, lors de la pr<70>sentation de l'algorithme de Metropolis <20> pas al<61>atoires, sur le premier 
point. Nous aborderons la question du nombre de simulations n<>cessaires, c'est-<2D>-dire de la longueur de la 
cha<EFBFBD>ne, dans la section 3.3.4. Nous reviendrons plus loin sur cette question, pour l'instant nous supposerons 
que pour tout $$ les $$ sont tir<69>s dans la distribution cibl<62>e. Afin de s'assurer que les r<>sultats sont 
ind<EFBFBD>pendants des conditions initiales, on ne consid<69>re pas les simulations indic<69>es par $$. Ainsi, 
pour <20>valuer $$ nous calculons : $$ qui converge vers le moment post<73>rieur recherch<63> lorsque le nombre de 
simulations, $$, tend vers l'infini. 


3.3.3 Deux variantes de l'algorithme MH


L'algorithme de MH <20> pas al<61>atoires. Comme nous l'avons expliqu<71> plus haut, l'utilisation de l'algorithme
de Metropolis-Hastings repose sur le fait qu'il est ais<69> d'<27>chantillonner <20> partir de la densit<69> instrumentale
$$. L'inconv<6E>nient est que cette derni<6E>re n'est pas toujours facile <20> d<>terminer. Dans cette perspective, l'algo-
rithme de Metropolis <20> pas al<61>atoires est utile lorsqu'il est difficile d'obtenir une bonne approximation de la
densit<EFBFBD> a posteriori. Une proposition <20> l'it<69>ration $$ est d<>finie par :
				    <DISPLAY EQUATION  ()>
o<EFBFBD> $$ est le pas al<61>atoire. Le choix de la densit<69> de $$ d<>termine la forme pr<70>cise de la densit<69> instrumentrale, $$.
Un choix standard est la distribution gaussienne multivari<72>e : $$. Ainsi la densit<69> de $$ conditionnel
<EFBFBD> $$ est gaussienne : 
				    <DISPLAY EQUATION  ()>
Par sym<79>trie de la loi normale, la densit<69> instrumentale v<>rifie $$, ainsi la probabilit<69> d'accepta-
tion ne d<>pend que du noyau post<73>rieur :
				    <DISPLAY EQUATION  ()>
Autrement dit, si $$, la cha<68>ne de Markov se d<>place en $$. Si ce n'est pas le cas, la
cha<EFBFBD>ne se d<>place avec une probabilit<69> <20>gale au rapport des densit<69>s a posteriori. On accepte avec une proba-
bilit<EFBFBD>  unitaire la proposition dans une phase ascendante (c'est-<2D>-dire lorsque la probabilit<69> a posteriori cro<72>t)
et avec une probabilit<69> non nulle la proposition dans une phase descendante (si nous d<>cidions de rejeter
syst<EFBFBD>matiquement ces propositions d<>favorables la cha<68>ne ne Markov ne visiterait pas compl<70>tement l'espace
des param<61>tres et a fortiori elle ne pourrait converger vers la distribution post<73>rieure recherch<63>e).
 
La probabilit<69> d'acceptation peut <20>tre ajust<73>e <20> partir de la matrice de variance-covariance $$. En effet,
si celle-ci est << grande >> alors il y a de fortes chances pour que la transition propos<6F>e nous am<61>ne dans les
queues de la distribution a posteriori c'est-<2D>-dire dans une r<>gion o<> la densit<69> est faible et o<> donc la probabi-
lit<EFBFBD> d'acceptation est proche de z<>ro (si on vient d'une zone plus dense). Si la matrice $$ est << petite >> alors les 
transitions propos<6F>es ne seront que des petits pas, dans ce cas il n'y aura pas de grandes variations de la den- 
sit<EFBFBD> post<73>rieure et donc la probabilit<69> d'acceptation sera proche de un. Nous <20>crivons $$ sous la forme $$ o<> $$ 
est une estimation de la matrice de variance-covariance a posteriori et $$ est un param<61>tre d'<27>chelle qui permet 
de jouer sur le caract<63>re plus ou moins diffus de la matrice de variance-covariance et donc d'ajuster le taux 
d'acceptation. On peut exp<78>rimenter diff<66>rentes valeurs de $$ afin de d<>terminer une probabilit<69> d'acceptation 
raisonnable\note{38}.
 
Cette version de l'algorithme de MH est g<>n<EFBFBD>ralement utilis<69>e dans la litt<74>rature concern<72>e par l'estimation 
bay<EFBFBD>sienne des mod<6F>les DSGE. 

Algorithme 3.

(1) Maximiser le noyau post<73>rieur par rapport <20> $$. On obtient le mode de la densit<69> post<73>rieure, $$, et le hessien au
mode qui caract<63>rise la courbure de la densit<69> post<73>rieure au mode et dont l'inverse de l'oppos<6F>, not<6F> $$, approxime
la variance post<73>rieure. On pose $$ avec $$, $$ et $$.

(2) G<>n<EFBFBD>rer $$ <20> partir d'une gaussienne d'esp<73>rance $$ et de variance $$.

(3) G<>n<EFBFBD>rer $$ dans une loi uniforme entre $$.

(4) Appliquer la r<>gle suivante :
				    <DISPLAY EQUATION  ()>
o<EFBFBD>
				    <DISPLAY EQUATION  ()>

(5) Reprendre (2-4) pour $$.


L'algorithme <20> cha<68>nes ind<6E>pendantes. Si la proposition est ind<6E>pendante de l'<27>tat courant, l'algorithme est
dit <20> chaines ind<6E>pendantes (Tierney (1994)). La probabilit<69> d'acceptation se simplifie alors comme suit :
				    <DISPLAY EQUATION  ()> 
Cet algorithme est particuli<6C>rement adapt<70> au cas o<> il existe une approximation naturelle de la densit<69> a
posteriori. En effet, l'algorithme <20> cha<68>nes ind<6E>pendantes est alors similaire <20> l'algorithme par fonction d'im-
portance. Pour s'en convaincre, il suffit de remarquer que l'on peut d<>finir des poids analogues <20> ceux vus
pr<EFBFBD>c<EFBFBD>demment comme suit :
				    <DISPLAY EQUATION  ()>
La probabilit<69> d'acceptation est alors donn<6E>e par $$. Autrement dit, il s'agit du ratio des poids 
d'<27>chantillonnage par importance entre le vecteur candidat et le vecteur pr<70>c<EFBFBD>dent. 


3.3.4 Les diagnostics de convergence
 
Un certain nombre de r<>sultats th<74>oriques sont disponibles pour l'<27>tude de la convergence des cha<68>nes
de Markov. Il est cependant extr<74>mement compliqu<71> d'<27>noncer des r<>gles pratiques. Ainsi, il n'existe aucune
r<EFBFBD>ponse simple <20> la question : Quel est le nombre optimal de simulations pour garantir la convergence de
la cha<68>ne de Markov vers la distribution ergodique ? Nous discutons bri<72>vement quelques diagnostics de
convergence. Le lecteur int<6E>ress<73> pourra consulter, par exemple, Casella et Robert (2004, chapitre 12). 

La litt<74>rature bay<61>sienne distingue g<>n<EFBFBD>ralement trois types de convergence : (i) la convergence vers la
distribution stationnaire, (ii) la convergence des moments empiriques (ou approch<63>s) vers les moments th<74>o-
riques et (iii) la convergence vers un <20>chantillonage i.i.d.. Nous nous int<6E>ressons ici aux deux derni<6E>res formes
de convergence\note{39}. Quelle que soit la convergence <20>tudi<64>e, les r<>sultats reposent soit sur des m<>thodes d'<27>va-
luation graphiques dont il est difficile d'en d<>duire des r<>gles g<>n<EFBFBD>rales, soit des tests statistiques formels.
Avant de pr<70>senter certaines de ces m<>thodes, il convient de noter qu'il est important de distinguer les m<>-
thodes qui font appel <20> $$ cha<68>nes de Markov parall<6C>les et ind<6E>pendantes et celles bas<61>es sur une seule cha<68>ne
(on-line Markov chain). L'utilisation de plusieurs cha<68>nes est co<63>teuse en temps mais elle r<>duit la d<>pendance
aux conditions initiales et accro<72>t la possibilit<69> de parcourir efficacement l'espace des param<61>tres, $$. En par-
ticulier, si une cha<68>ne de Markov est m<>langeante au sens faible -- elle reste coinc<6E>e dans des r<>gions (de
mesure domin<69>e) de l'espace des param<61>tres -- une explication possible est la pr<70>sence d'une distribution a
posteriori multimodale (notamment lorsque les densit<69>s a priori sont en conflit avec la vraisemblance du mo-
d<EFBFBD>le). Dans ce cas, la mise en oeuvre de cha<68>nes de Markov en parall<6C>le et ind<6E>pendantes, tr<74>s dispers<72>es,
peut permettre de r<>soudre cette difficult<6C>. L'argument des cha<68>nes multiples est aussi avanc<6E> pour s'assurer
de la convergence. Si on se donne plusieurs vecteurs initiaux de param<61>tres, suffisamment dispers<72>s, et que
l'on obtient les m<>mes r<>sultats, la convergence serait assur<75>e. L'argument est valide si et seulement si on a
bien v<>rifi<66> que chaque cha<68>ne a converg<72>e. Nous revoil<69> donc au point de d<>part... Il existe une litt<74>rature
abondante discutant des avantages et inconv<6E>nients respectifs de chaque m<>thode\note{40}.
 
La convergence des moments empiriques, ou approch<63>s, vers les moments th<74>oriques peut s'appr<70>hender
<EFBFBD> partir de m<>thodes graphiques. Yu et Mykland (1998) se basent sur les sommes cumulatives des moments
d'int<6E>r<EFBFBD>t dans le cas d'une seule cha<68>ne de Markov. Au contraire, Gelman et Rubin (1992) proposent un test
formel qui repose sur des m<>thodes de cha<68>nes de Markov en parall<6C>le. La convergence est diagnostiqu<71>e
si les diff<66>rences entre $$ des $$ chaines de Markov restent dans un intervalle raisonnable. Gelman et Rubin
formalisent cette id<69>e en recourant <20> des statistiques de type ANOVA. Pour chaque statistique d'int<6E>r<EFBFBD>t $$,
ils d<>terminent la variance intra et inter-cha<68>nes. L'intuition du test est alors la suivante. Si l'effet des va-
leurs initiales de chaque cha<68>ne de Markov a <20>t<EFBFBD> supprim<69>, les cha<68>nes en parall<6C>le doivent <20>tre relativement 
proches. En d'autres termes, la variance inter-cha<68>ne ne devrait pas <20>tre trop grande par rapport <20> la variance 
intra-cha<68>ne\note{41}. La statistique de test est alors d<>finie <20> partir d'un estimateur de la variance a 
posteriori de $$. Plus pr<70>cis<69>ment, ce dernier est une moyenne pond<6E>r<EFBFBD>e de la variance intra-cha<68>ne et de 
la variance inter-cha<68>ne. Le crit<69>re de convergence est ainsi le rapport de cet estimateur <20> la variance 
intra-cha<68>ne. En utilisant une approximation de ce crit<69>re, les auteurs montrent que si sa valeur exc<78>de 1.2, on 
peut en conclure qu'il n'y a pas convergence. Dans une autre optique, Geweke (1992) propose de comparer la 
moyenne de deux sous-<2D>chantillons disjoints, $$ et $$, d'une cha<68>ne de Markov (apr<70>s avoir <20>limin<69> les $$ 
premi<EFBFBD>res valeurs). On choisit $$ (resp. $$) au d<>but (resp. <20> la fin) de la cha<68>ne de Markov. Si la cha<68>ne 
de Markov a atteint la distribution stationnaire, la moyenne des deux sous-<2D>chantillons doit <20>tre <20>gale. 
Une version modifi<66>e de la statistique $$ est alors <20>labor<6F>e par Geweke\note{42}. Une valeur de la statistique 
de test sup<75>rieure <20> 2 indique qu'un nombre plus <20>lev<65> d'it<69>rations est sans doute n<>cessaire. Le test de 
Raftery et Lewis (1992a) (voir aussi Raftery et Lewis (1992b)) est plus informatif. Il se base sur les quantiles 
de la statistique d'int<6E>r<EFBFBD>t. L'id<69>e est de construire une cha<68>ne de Markov <20> deux <20>tats <20> partir d'un quantile 
(par exemple, 2,5% et 97,5%) qui permette d'estimer les probabilit<69>s de transition et ainsi d'estimer le nombre 
de simulations n<>cessaires pour approcher la stationnarit<69>. 

Finalement, les m<>thodes de Monte-Carlo pr<70>sent<6E>es dans les sections pr<70>c<EFBFBD>dentes ne sont valides que si 
les <20>l<EFBFBD>ments de la cha<68>ne de Markov sont i.i.d. Or, l'intuition sugg<67>re que les valeurs adjacentes d'une cha<68>ne 
de Markov devraient <20>tre corr<72>l<EFBFBD>es positivement. De mani<6E>re plus g<>n<EFBFBD>rale, le fait que des autocorr<72>lations 
d'ordre <20>lev<65> puissent subsister est probl<62>matique si la taille de la cha<68>ne de Markov n'est pas suffisamment 
grande. Dans cette perspective, il est n<>cessaire de v<>rifier cette propri<72>t<EFBFBD> ou tout du moins d'<27>viter une 
corr<EFBFBD>lation trop <20>lev<65>e de la cha<68>ne de Markov <20> partir de laquelle on d<>duit les quantit<69>s ou statistiques 
d'int<6E>r<EFBFBD>t. Plusieurs proc<6F>dures ont <20>t<EFBFBD> sugg<67>r<EFBFBD>es dans la litt<74>rature. Nous mentionnons ici deux strat<61>gies. 
La premi<6D>re repose sur un facteur correctif <20> appliquer <20> la dimension de la cha<68>ne de Markov en pr<70>sence 
d'un degr<67> observ<72> $$ d'autocorr<72>lations\note{43}. Une autre strat<61>gie est de conserver seulement chaque 
ki<EFBFBD>me <20>l<EFBFBD>ment de la cha<68>ne de Markov (apr<70>s avoir supprim<69> les $$ premiers <20>l<EFBFBD>ments de la chaine de Markov). Cette 
technique est connue sous le nom de sous-<2D>chantillonnage, voir Schmeiser (1989), Raftery et Lewis (1992a) ou 
Raftery et Lewis (1992b).
  

3.4 Estimation de la densit<69> marginale
 
Nous disposons d'une suite de vecteurs de param<61>tres $$ o<> chaque $$ est extrait de la
distribution post<73>rieure. <20> partir de cette suite nous pouvons estimer les moments post<73>rieurs, les densit<69>s
pr<EFBFBD>dictives, et finalement la densit<69> marginale de l'<27>chantillon, $$. Cette densit<69> marginale, comme nous
l'avons vu en section 2.1, pemet de quantifier la capacit<69> du mod<6F>le <20> expliquer l'<27>chantillon <20> notre dis-
position et <20>ventuellement de comparer diff<66>rents mod<6F>les. Par exemple, Rabanal et Rubio Ramirez (2005)
<EFBFBD>valuent diff<66>rentes sp<73>cifications des rigidit<69>s nominales sur les salaires et les prix dans le cadre d'un mo-
d<EFBFBD>le DSGE, en comparant des densit<69>s marginales. Il existe de nombreuses m<>thodes pour estimer $$. Dans cette 
section nous pr<70>sentons la m<>thode g<>n<EFBFBD>ralement utilis<69>e pour les mod<6F>les DSGE.
 
L'estimateur par la moyenne harmonique est motiv<69> par la propri<72>t<EFBFBD> suivante de l'esp<73>rance post<73>rieure :
				    <DISPLAY EQUATION  ()> 
o<EFBFBD> $$ est une fonction de densit<69> quelconque et $$ est l'esp<73>rance post<73>rieure. Le membre de droite de l'<27>galit<69>,
en utilisant la d<>finition de la densit<69> post<73>rieure, s'<27>crit alternativement :
				    <DISPLAY EQUATION  ()> 
On obtient donc :
				    <DISPLAY EQUATION  ()>
Puisque l'int<6E>grale de $$ somme <20> un, nous obtenons finalement :
				    <DISPLAY EQUATION  ()> 
Ainsi, un estimateur de la densit<69> marginale (l'int<6E>grale du noyau post<73>rieur qui appara<72>t au d<>nominateur du
second membre), est l'inverse de l'esp<73>rance post<73>rieure de $$. Ceci sugg<67>re l'estimateur suivant
de la densit<69> marginale :
				    <DISPLAY EQUATION  ()>
Ce r<>sultat est valable pour toute densit<69> f. Geweke (1992) propose d'utiliser une gaussienne tronqu<71>e centr<74>e
sur l'esp<73>rance post<73>rieure. L'id<69>e est d'accorder moins de poids, voire d'<27>liminer, les simulations <20>loign<67>es
du centre de la distribution post<73>rieure. Cela permet de diminuer la variance de l'estimateur de la densit<69>
marginale.


4 Un DSGE pour le B du VAR
 
Dans cette section, nous illustrons en quoi les mod<6F>les VAR et DSGE sont des outils compl<70>mentaires que
l'on ne doit pas n<>cessairement chercher <20> opposer. Nous avons vu dans la section  2.4 que la sp<73>cification des
croyances a priori sur la param<61>trisation d'un VAR ne va pas de soi. En effet, dans la mesure o<> le contenu
<EFBFBD>conomique d'un mod<6F>le VAR est t<>nu, l'interpr<70>tation des param<61>tres du VAR est d<>licate, ce qui rend l'<27>li-
citation des priors ardue. Ingram et Whiteman (1994) proposent d'utiliser un mod<6F>le DSGE afin de construire
le prior d'un mod<6F>le VAR. Ils montrent qu'en utilisant les restrictions d<>finies par un mod<6F>le RBC pour d<>-
finir le prior d'un mod<6F>le VAR, on peut produire avec ce dernier des pr<70>visions comparables, en termes de
pr<EFBFBD>cision, <20> celles que nous obtiendrions avec un prior Minnesota. Ce r<>sultat est remarquable, car m<>me si le
mod<EFBFBD>le RBC canonique est mal sp<73>cifi<66> dans de nombreuses directions, il impose des restrictions utiles pour
am<EFBFBD>liorer les pr<70>visions du VAR. 

Plus r<>cemment, Del Negro et Schorfheide (2004) ont repris cette id<69>e sous une forme plus simple <20> mettre
en oeuvre. Leur approche permet d'estimer simultan<61>ment les param<61>tres structurels du DSGE et les para-
m<EFBFBD>tres du mod<6F>le VAR. Nous pr<70>sentons leur approche dans cette section.

4.1 Les r<>gressions mixtes
 
Dans la section  2.4.3 nous avons not<6F>, au moins dans le cadre d'un mod<6F>le lin<69>aire gaussien, une analogie
entre les priors du paradigme bay<61>sien et les contraintes lin<69>aires sur les param<61>tres de l'approche classique.
Del Negro et Schorfheide utilisent cette analogie (voir Theil et Golberger (1961), Tiao et Zellner (1964) et Theil
(1971)) pour mettre en oeuvre le prior DSGE. Dans le mod<6F>le VAR, on peut d<>finir un prior sur $$ en utilisant
des observations artificielles, coh<6F>rentes avec nos croyances, et un prior diffus <20> la Jeffrey. Par exemple, si ces
observations artificielles sont g<>n<EFBFBD>r<EFBFBD>es par un mod<6F>le DSGE, alors l'estimation sur la base de l'<27>chantillon
augment<EFBFBD> sera attir<69>e vers la projection du DSGE dans l'espace des VAR.

Plus formellement supposons que nous disposions des observations artificielles , o<> $$ est un
vecteur de param<61>tres qui d<>finit le processus g<>n<EFBFBD>rateur des donn<6E>es artificielles (ie les croyances a priori).
Comme l'<27>chantillon artificiel est ind<6E>pendant de $$, la vraisemblance de l'<27>chantillon augment<6E> s'<27>crit de la
fa<EFBFBD>on suivante :
				    <DISPLAY EQUATION  (25)>
Le premier terme du membre de droite, si l'<27>chantillon artificiel est de dimension $$ o<> $$, s'<27>crit : 
				    <DISPLAY EQUATION  (26)> 
et, <20> la lumi<6D>re de l'avant derni<6E>re <20>quation, s'interpr<70>te comme un prior pour $$ et $$. La croyance a priori est
d'autant plus informative que l'<27>chantillon artificiel est de grande taille. Quand $$ tend vers l'infini, le poids
de la vraisemblance (le second terme sur le membre de droite de (25)) devient n<>gligeable par rapport au prior
(le premier terme sur le membre de droite de (25)). En compl<70>tant le prior, d<>fini avec les donn<6E>es artificielles,
par un prior diffus (ou plat) <20> la Jeffrey :
				    <DISPLAY EQUATION  ()>
le prior est au final de type normal-Wishart, le prior conjugu<67> dans un mod<6F>le lin<69>aire gaussien. En particulier, 
$$ est a priori normalement distribu<62> :
				    <DISPLAY EQUATION  ()> 
o<EFBFBD> $$, est l'estimateur des MCO (MV) des param<61>tres autor<6F>gressifs pour l'<27>chantillon artificiel. On voit 
imm<EFBFBD>diatement, en consid<69>rant la vraisemblance de l'<27>chantillon augment<6E> (25), le prior diffus <20> 
la Jeffrey et les r<>sultats de la section 2.4.1, que la distribution a posteriori est de type normale-Wishart : 
				    <DISPLAY EQUATION  (27)>
o<EFBFBD> $$ et $$ sont respectivement les estimateurs du maximum de vraisemblance de $$ et $$, pour 
l'<27>chantillon augment<6E> des donn<6E>es artificielles, $$. En int<6E>grant la densit<69> jointe post<73>rieure 
par rapport <20> $$, on montre que la distribution post<73>rieure marginale de $$ est une distribution de student 
matricielle, centr<74>e en $$. Lorsque $$ augmente, $$ se rapproche de $$ ; en effet, on <20>tablit facilement 
que :
				    <DISPLAY EQUATION  ()>
Ainsi, lorsque le poids du prior augmente, la distribution post<73>rieure du VAR se rapproche de la projection 
dans l'espace des VAR du mod<6F>le g<>n<EFBFBD>rateur des donn<6E>es coh<6F>rent avec nos croyances a priori. 


4.2 Le mod<6F>le BVAR-DSGE
 
Del Negro et Schorfheide (2004) proposent, <20> la suite de Ingram et Whiteman (1994), d'utiliser un mod<6F>le
DSGE pour sp<73>cifier le prior d'un mod<6F>le VAR. Contrairement <20> ces derniers, Del Negro et Schorfheide uti-
lisent les r<>gressions mixtes d<>crites dans la section 4.1  , m<>me si en pratique ils ne simulent pas des donn<6E>es.
Afin d'<27>viter que les r<>sultats puissent varier, <20> cause des simulations, ils pr<70>f<EFBFBD>rent remplacer les moments em-
piriques dans (26) par des moments th<74>oriques calcul<75>s <20> partir d'une approximation de Taylor d'ordre un de
la forme r<>duite (18) du mod<6F>le DSGE. Par exemple ils remplacent $$ par la matrice de variance-covariance
des endog<6F>nes observ<72>es, c'est-<2D>-dire une sous matrice de $$, multipli<6C>e par la
taille de l'<27>chantillon artificiel, $$. Pour tout vecteur de param<61>tres structurels, $$, la d<>finition du prior
du VAR est pratiquement imm<6D>diate, il suffit d'<27>crire la forme r<>duite du mod<6F>le DSGE et de calculer ses
moments asymptotiques. Del Negro et Schorfheide ne se contentent pas d'estimer les param<61>tres du VAR, ils
estiment simultan<61>ment les param<61>tres du mod<6F>le DSGE. Ils sp<73>cifient donc un prior joint sur les param<61>tres
du mod<6F>le VAR et les param<61>tres structurels du mod<6F>le DSGE :
				    <DISPLAY EQUATION  ()>
Le prior est conditionnel au param<61>tre $$ qui sp<73>cifie la taille de l'<27>chantillon artificiel relativement <20> l'<27>chan- 
tillon d'origine, c'est-<2D>-dire la quantit<69> relative d'information structurelle a priori. On peut alors utiliser l'algo- 
rithme de Metropolis-Hastings pour obtenir la distribution post<73>rieure de $$ (et indirectement de $$ et $$) en 
utilisant la densit<69> post<73>rieure du mod<6F>le BVAR sp<73>cifi<66>e par (27). Ici, la vraisemblance du mod<6F>le DSGE n'a 
pas <20> <20>tre calcul<75>e, ce qui simplifie consid<69>rablement l'estimation puisque le filltre de Kalman n'est plus n<>- 
cessaire. Les param<61>tres du mod<6F>le DSGE sont identifi<66>s gr<67>ce <20> la vraisemblance, plus exactement la densit<69> 
post<EFBFBD>rieure, de son approximation VAR. Le mod<6F>le VAR joue ici en quelque sorte le m<>me r<>le qu'un mod<6F>le 
auxiliaire en inf<6E>rence indirecte (voir Gouri<72>roux et Monfort (1996)). 

L'estimation de $$ (et donc de $$ et $$) est conditionnelle aux choix de $$, le nombre de retards dans le VAR, 
et $$, la quantit<69> relative d'information structurelle a priori dans le VAR. Il convient de choisir un nombre de re- 
tard assez grand pour que le mod<6F>le VAR puisse <20>tre une approximation acceptable du mod<6F>le DSGE. En effet 
la forme r<>duite (18) approxim<69>e du mod<6F>le DSGE n'appartient pas <20> la famille des mod<6F>les VAR, il faudrait 
un nombre de retard infini pour approximer au mieux le mod<6F>le DSGE\note{44}. Del Negro et Schorfheide estiment 
un VAR d<>crivant l'inflation, le taux d'int<6E>r<EFBFBD>t et le taux de croissance du produit. Ils affirment qu'un VAR(4) 
permet une approximation satisfaisante de leur mod<6F>le DSGE. Le choix de $$ est plus d<>licat, en variant ce 
param<EFBFBD>tre de z<>ro <20> l'infini, on passe d'un prior diffus (l'esp<73>rance post<73>rieure de $$ est alors l'estimateur du 
MV) <20> un prior tr<74>s informatif (l'esp<73>rance post<73>rieur de A tend vers $$ les contraintes DSGE sur 
les param<61>tres du mod<6F>le VAR). Del Negro et Schorfheide proposent d'estimer plusieurs mod<6F>les pour une 
grille de valeurs de $$. Ils choisissent alors le mod<6F>le, c'est-<2D>-dire la valeur de $$, qui maximise la densit<69> margi- 
nale. Ils s<>lectionnent le mod<6F>le dont la qualit<69> d'ajustement est la meilleure. Del Negro et al. (2007) utilisent 
le BVAR-DSGE pour estimer le mod<6F>le de Smets et Wouters (2002), ils obtiennent $$. Ils montrent ainsi 
que les restrictions apport<72>es par le mod<6F>le de Smets et Wouters sont utiles pour am<61>liorer les performances 
du mod<6F>le VAR. Cette proc<6F>dure est relativement compliqu<71>e <20> mettre en oeuvre. Pour chaque valeur de $$ il 
faut s'assurer de la convergence de l'algorithme de Metropolis-Hastings, afin d'estimer la densit<69> marginale\note{45}. 
Plus haut nous avons not<6F> l'analogie entre le choix d'un mod<6F>le dans une collection de mod<6F>les et l'estimation 
d'un param<61>tre dont les valeurs seraient discr<63>tes. Une approche plus directe est d'associer une distribution 
a priori <20> $$ puis d'estimer ce param<61>tre (avec les param<61>tres structurelles $$). Il faut alors d<>finir un prior joint 
sur $$, $$, $$ et $$ : 
				    <DISPLAY EQUATION  ()>
Adjemian et Darracq-Pari<72>s (2007) estiment une version deux pays du mod<6F>le de Smets et Wouters , avec le 
mod<EFBFBD>le BVAR-DSGE, en posant un prior uniforme (entre 0 et 10) pour le param<61>tre $$. Ils obtiennent une  
distribution post<73>rieure de $$ centr<74>e sur 2,5. Il n'est pas surprenant d'obtenir dans ce cas une valeur de $$ 
largement sup<75>rieure. La version deux pays du mod<6F>le de Smets et Wouters est estim<69>e avec un VAR compre- 
nant dix-huit variables observables, alors que Del Negro et al. (2007), pour la version un pays, ne consid<69>rent 
que sept variables. Avec dix-huit variables, les restrictions structurelles deviennent plus n<>cessaires, m<>me si 
le mod<6F>le n'est pas mieux sp<73>cifi<66>. 


4.3 Usages et avantages du BVAR-DSGE
 
Del Negro et Schorfheide (2004) et surtout Del Negro et al. (2007) pr<70>sentent le mod<6F>le BVAR-DSGE comme
un outil d'<27>valuation de la qualit<69> d'ajustement d'un mod<6F>le DSGE. Pour ces derniers la valeur de $$, le poids
du prior structurel, donne une id<69>e de l'int<6E>r<EFBFBD>t empirique du mod<6F>le. Si les restrictions structurelles d<>finies
par le mod<6F>le DSGE sont pertinentes, alors la proc<6F>dure s<>lectionne une valeur <20>lev<65>e de $$. Si le mod<6F>le ap-
porte des informations totalement incoh<6F>rentes avec les donn<6E>es alors la proc<6F>dure s<>lectionne une valeur
proche de z<>ro. Malheureusement cette mesure n'a pas d'<27>chelle et nous ne savons pas <20> partir de quelle
valeur de $$ on peut dire que le mod<6F>le apporte des informations pertinentes. Un autre probl<62>me est que ce
param<EFBFBD>tre ne mesure pas la qualit<69> d'ajustement du mod<6F>le DSGE, il nous donne la quantit<69> optimale, au
sens du fit du mod<6F>le BVAR, d'information DSGE qu'il faut incorporer dans le prior du VAR. Del Negro et al.
(2007) utilisent le BVAR-DSGE afin de d<>voiler les <20>ventuelles mauvaises, sp<73>cifications d'un mod<6F>le DSGE.
Or le niveau optimal de $$ ou la densit<69> marginale, $$, du mod<6F>le DSGE ne sauraient donner une id<69>e
pr<EFBFBD>cise des directions dans lesquels le mod<6F>le est insatisfaisant puisque ces deux indicateurs donnent des in-
formations trop agr<67>g<EFBFBD>es. Les quatre auteurs recherchent les directions dans lesquels le mod<6F>le DSGE est mal
sp<EFBFBD>cifi<EFBFBD> en comparant les fonctions de r<>ponses (IRF) du mod<6F>le BVAR-DSGE avec celles du mod<6F>le DSGE.
Ils identifient les chocs structurels dans le mod<6F>le BVAR-DSGE en se fondant sur le mod<6F>le DSGE (17). <20>
partir de la forme r<>duite (18) il est possible de calculer l'impact instantann<6E> de chaque choc structurel sur les
variables observables :
				    <DISPLAY EQUATION  ()>
o<EFBFBD> Z est une matrice de s<>lection d<>finie dans l'<27>quation de mesure (19a). Del Negro et Schorfheide uti-
lisent cette information pour indentifier les innovations structurelles dans le mod<6F>le BVAR (se reporter <20>
Del Negro et Schorfheide (2004) pour les d<>tails). M<>me si le BVAR-DSGE est construit sur la base (au moins
partiellement) d'une information structurelle provenant du DSGE, ce mod<6F>le est moins contraint que le mo-
d<EFBFBD>le DSGE. Ainsi, l'observation d'une diff<66>rence significative entre les IRFs du BVAR-DSGE et celles du mo-
d<EFBFBD>le DSGE conduit Del Negro et al. (2007) <20> identifer les directions dans lesquelles le mod<6F>le DSGE est mal
sp<EFBFBD>cifi<EFBFBD>. Par exemple, les quatre auteurs observent que les r<>ponses du produit, de la consommation et des
heures face <20> un choc de pr<70>f<EFBFBD>rence (sur la d<>sutilit<69> du travail) sont plus persistentes dans le BVAR-DSGE que
dans le DSGE. Ils concluent alors que le mod<6F>le DSGE manque de m<>canismes de propagation des chocs sur
l'offre de travail. Cet exercice de comparaison entre BVAR-DSGE et DSGE peut <20>tre mis en oeuvre en utilisant
des statistiques autres que des fonctions de r<>ponse : d<>compositions de variance des variables observ<72>es,
moments th<74>oriques des variables observ<72>es,... La limite de l'exercice est que les conditions d'identification
des chocs dans le BVAR sont directement d<>riv<69>es du mod<6F>le DSGE. Si nous n'observons pas de grandes dif-
f<EFBFBD>rences entre les IRFs du BVAR-DSGE et celles du DSGE c'est peut <20>tre parce que nous utilisons les m<>mes
conditions d'identifications. Ce probl<62>me ne se pose pas si on compare des statistiques qui ne reposent pas 
sur des conditions d'identification, par exemple si on compare des moments (variances, fonction d'autocorr<72>- 
lation,...).
 
L'avantage du mod<6F>le BVAR-DSGE est plus <20>vident en termes de pr<70>visions. Tout mod<6F>le est, par nature, 
mal sp<73>cifi<66> dans une multitude de directions. Malgr<67> cette limite intrins<6E>que les mod<6F>les apportent souvent 
des informations utiles et pertinentes. L'exp<78>rience de Ingram et Whiteman (1994) est, <20> cet <20>gard, des plus 
<EFBFBD>clairantes. Ils montrent que m<>me le plus stylis<69> des mod<6F>les DSGE (le mod<6F>le de cycle r<>el canonique) 
est suffisament riche pour aider un BVAR <20> produire des pr<70>visions plus pr<70>cises et moins biais<69>es. Un mo- 
d<EFBFBD>le que personne ne voudrait utiliser pour produire des pr<70>visions peut aider un mod<6F>le a-th<74>orique (plus 
souple) <20> produire de meilleures pr<70>visions. Cette id<69>e pourrait <20>tre d<>velopp<70>e dans de nombreuses direc- 
tions. Nous pourrions par exemple utiliser plusieurs mod<6F>les DSGE pour construire le prior d'un mod<6F>le 
VAR (ou de tout autre mod<6F>le a-th<74>orique, par exemple un mod<6F>le <20> facteurs communs) et optimiser les parts 
de chaque mod<6F>le dans le prior du VAR.
 

R<EFBFBD>f<EFBFBD>rences 
 
St<EFBFBD>phane Adjemian et Matthieu Darracq-Pari<72>s. Assessing the International Spillovers Between the US and 
Euro Area : Evidence from a two country dsge-var. mim<69>o, CEPREMAP, 2007.
  
Sungbae An et Frank Schorfheide. Bayesian Analysis of DSGE Models. Econometric Reviews, forthcoming, 
2007.
  
C. Andrieu, A. Doucet, et P.B. Robert. Computational Advances for and from Bayesian Analysis. Statistical 
Science, 19(1): 118-127, 2004a.
  
C. Andrieu, D. Doucet, S.S. Singh, et V.B. Tadi?
c. Particle Methods for Change Detection, System Identi?cation, 
and Control. IEEE Transactions on Signal Processing, 92(3) :423-438, 2004b.
  
S. Arulampalam, T. Clapp, N. Gordon, et S. Maskell. Tutorial on Particle Filters. IEEE Transactions on Signal 
Processing, 50(2) :174-188, 2002.
  
Ben Bernanke. Alternative Explanations of the Money-Income Correlation. Carnegie Rochester Conference Series 
on Public Policy, 25(10) :49?99, 1986.
  
Herman J. Bierens. Econometric Analysis of Linearized Singular Dynamic Stochastic General Equilibrium 
Models. Journal of Econometrics, 136(2) :595?627, 2007.
  
Olivier Blanchard et Danny Quah. The Dynamic Effects of Aggregate Demand and Supply Disturbances. The 
American Economic Review, 79 :655?673, 1986.
  
S.P. Brooks et G. Roberts. Assessing Convergence of Markov Chain Monte Carlo Algorithms. Statistics and 
Computing, 8 :319?335, 1998.
  
John Y. Campbell. Inspecting the Mechanism : An analytical approach to the stochastic growth model. Journal 
of Monetary Economics, 33 :463?508, 1994.
  
Fabio Canova. Statistical Inference in Calibrated Models. Journal of Applied Econometrics, 9 :123?144, 1994.
  
B. Carlin et T. Louis. Bayes and Empirical Bayes Methods for Data Analysis. Chapman & Hill, 2000.
 
33
George Casella et Christian Robert. Monte Carlo Statistical Methods. Springer, 2004.
   
Nicolas Chopin et Florian Pelgrin. Bayesian Inference and State Number Determination for Hidden Markov 
Models : An Application to the Information Content of the Yield Curve about In?ation. Journal of Econome- 
trics, 123(2) :327?344, 2004.
   
Lawrence Christiano, Martin Eichenbaum, et Charles Evans. Nominal Rigidities and the Dynamic Effects of a 
Schock to Monetary Policy. Journal of Political Economy, 113 :1?45, 2003.
   
M.K. Cowles et B.P. Carlin. Markov Chain Monte Carlo Convergence Diagnostics : A Comparative Study. 
Journal of the American Statistical Association, 91 :883?904, 1996.
   
David Dejong, Beth F. Ingram, et Charles H. Whiteman. A Bayesian Approach to Calibration. Journal of 
Business and Economic Statistics, 14(1) :1?9, 1996.
   
David Dejong, Beth F. Ingram, et Charles H. Whiteman. A Bayesian Approach to Dynamic Macroeconomics. 
Journal of Econometrics, 98(21) :203?223, 2000.
   
Marco Del Negro et Frank Schorfheide. Priors from General Equilibrium Models for Vars. International Eco- 
nomic Review, 45(2) :643?673, 2004.
   
Marco Del Negro, Frank Schorfheide, Frank Smets, et Raf Wouters. On the Fit and Forecasting Performance 
of New Keynesian Models. Journal of Business and Economic Statistics, page forthcoming, 2007.
   
Ramdan Dridi, Alain Guay, et Eric Renault. Indirect Inference and Calibration of Dynamic Stochastic General 
Equilibrium Models. Journal of Econometrics, 136(2) :397?430, 2007.
   
Jes?s Fern?ndez-Villaverde et Juan F. Rubio-Ram?rez. Estimating Dynamic Equilibrium Economies : Linear 
versus NonLinear Likelihood. Journal of Applied Econometrics, 20(7) :891?910, 2005.
   
Jesus Fern?ndez-Villaverde et Juan F. Rubio-Ram?rez. Comparing Dynamic Equilibrium Economies to Data. 
Working Paper 2001-23, Federal Reserve Bank of Atlanta, 2001.
   
A.E. Gelfand et A.F.M. Smith. Sampling Based Approaches to Calculating Marginal Densities. Journal of the 
American Statistical Association, 85 :398?409, 1990.
   
Andrew Gelman et Donald B. Rubin. Inference from Iterative Simulations Using Multiple Sequences. Statis- 
tical Science, 7(4) :457?472, 1992.
   
John Geweke. Evaluating the Accuracy of Sampling-based Approaches to the Calculation of Posterior Mo- 
ments. dans , ?dit? par , Oxford University Press, pages 169?193, 1992.
   
John Geweke. Using Simulation Methods for Bayesian Econometric Models : Inference, Development and 
Communication. Econometric Reviews, 18(1) :1?126, 1999.
   
N. Gordon, D.J. Salmond, et A.F.M. Smith. Novel Approach to NonLinear and Non-Gaussian Bayesian State 
Estimation. IEEE Transactions on Signal Processing, 40(2) :107?113, 1993.
   
Christian Gouri?roux et Alain Monfort. Simulation Based Econometric Methods. Oxford University Press, 1996.
   
Christian Gouri?roux et Alain Monfort. Statistique et Mod?les ?conom?triques, volume 1 - Notions g?n?rales, 
Estimation, Pr?visions, Algorithmes. Economica, 1989.
   
Andrew C. Harvey. Forecasting, structural time series models and the Kalman ?lter. Cambridge University Press, 
1989.
   
Beth F. Ingram et Charles H. Whiteman. Supplanting the Minnesota Prior. Forecasting macroeconomic time 
series using real business cycle model. Journal of Monetary Economics, 34 :497?510, 1994.
 
34
Harold Jeffrey. The Theory of Probability. Clarendon Press, 1961.
   
Kenneth L. Judd. Numerical Methods in Economics. MIT, 1998.
   
George G. Judge, W.E. Grif?ths, R. Carter Hill, Helmut L?tkpohl, et Tsoung-Chao Lee. The Theory and Practice 
of Econometrics. John Wiley & Sons, 1985.
   
K. Rao Kadiyala et Sune Karlsson. Numerical Methods for Estimation and Inference in Bayesian VAR-Models. 
Journal of Applied Econometrics, 12(2) :99?132, 1997.
   
Jae-Young Kim. Large Sample Properties of Posterior Densities, Bayesian Information Criterion and the Like- 
lihood Principle in Nonstationary Time Series Models. Econometrica, 66(2) :359?380, 1998.
   
G. Kitagawa. Monte Carlo Filter and Smoother for Non-Gaussian NonLinear State Space Models. Journal of 
Computational and Graphical Statistics, 5(1) :1?25, 1996.
   
Gary Koop. Bayesian Econometrics. John Wiley & Sons, 2003.
   
Finn Kydland et Edwards Prescott. Time to Build and Aggregate Fluctuations. Econometrica, 50 :1345?1370, 
1982.
   
R. B. Litterman. Forecasting with Bayesian Vector Autoregressions ? ?ve years of experience. Journal of 
Business & Economic Statistics, 4(1) :25?38, 1986.
   
C. Liu, J.S. Liu, et Donald B. Rubin. A Varational Control Variable for Assessing the Convergence of the Gibbs 
Sampler. Proceedings of the American Statistical Association, pages 74?78, 1992.
   
Peter C. B. Phillips. Econometric Model Determination. Econometrica, 64(4) :763?812, 1996.
   
Peter C.B. Phillips. To Criticize the Critics : An Objective Bayesian Analysis of Stochastic Trends. Journal of 
Applied Econometrics, 6(4) :333?64, 1991a.
   
Peter C.B. Phillips. Bayesian Routes and Unit Roots : De rebus prioribus semper est disputandum. Journal of 
Applied Econometrics, 6(4) :435?73, 1991b.
   
D. Poirier. Intermediate Statistics and Econometrics : A Comparative Approach. Cambridge, The MIT Press, 1995.
   
Pau Rabanal et Juan F. Rubio Ramirez. Comparing New Keynesian Models of the Business Cycle : a bayesian 
approach. Journal of Monetary Economics, 6 :1151?1166, 2005.
   
A.E. Raftery et S. Lewis. Implementing MCMC. dans Markov Chain Monte Carlo in Practice, ?dit? par W.R. Gilks, 
S.T. Richardson et D.J. Spiegelhalter, Chapman & Hall, pages 115?130, 1996.
   
A.E. Raftery et S. Lewis. How Many Iterations in the Gibbs Sampler ? dans Bayesian Statistics, ?dit? par J.M. 
Bernando, J.O. Berger, A.P. David et A.F.M. Smith, Oxford University Press, pages 763?773, 1992a.
   
A.E. Raftery et S. Lewis. The Number of Iterations, Convergence Diagnostics and Generic Metropolis Algo- 
rithms. Technical report, Department of Statistics, University of Washington, 1992b.
   
Christian Robert. Le Choix Bay?sien. Springer, 2006.
   
G.O. Roberts. Convergence Diagnostics of the Gibbs Sampler. dans Bayesian Statistics, ?dit? par J.M. Bernando, 
J.O. Berger, A.P. David et A.F.M. Smith, Oxford University Press, pages 775?782, 1992.
   
Julio Rotemberg et Michael Woodford. An Optimization-Based Econometric Framework for the Evaluation of 
Monetary Policy. NBER Macroeconomics Annual, 12 :297?346, 1997.
   
B. Schmeiser. Simulation Experiments. Working Paper SMS 89-23, Purdue University, 1989.
 
35
Christopher Sims. Probability Models for Monetary Policy Decisions. mim?o, Princeton University, Septembre 
2003.
   
Christopher Sims. Macroeconomics and Reality. Econometrica, 48(1) :1?48, 1980.
   
Christopher Sims. Are Forecasting Models Usable for Policy Analysis. Federal Reserve Bank of Minneapolis 
Quarterly Review, 10(1) :2?16, 1986.
   
Christopher Sims. Comment on 'To Criticize the Critics,' by Peter C.B. Phillips. Journal of Applied Econometrics, 
6(4) :423?34, 1991.
   
Christopher A Sims et Harald Uhlig. Understanding Unit Rooters : a Helicopter Tour. Econometrica, 59(6) : 
1591?99, 1991.
   
Frank Smets et Rafael Wouters. An Estimated Stochastic Dynamic General Equilibrium Model of the Euro 
Area. Working Paper Series 171, European Central Bank, Ao?t 2002.
   
Anthony Smith. Estimating NonLinear Time-Series Models Using Simulated Vector Autoregressions. Journal 
of Applied Econometrics, 8 :63?84, 1993.
   
Henri Theil. Principles of Econometrics. John Wiley & Sons, 1971.
   
Henri Theil et Arthur S. Golberger. On Pure and Mixed Statistical Estimation in Economics. International 
Economic Review, 2(1) :65?78, 1961.
   
George C. Tiao et Arnold Zellner. Bayes Theorem and the Use of Prior Knowledge in Regression Analysis. 
Biometrika, 51(162) :219?230, 1964.
   
L. Tierney, R. Kass, et J. Kadane. Fully Exponential Laplace Approximations to Expectations and Variances of 
NonPositive Functions. Journal of the American Statistical Association, 84 :710?716, 1989.
   
Luke Tierney. Markov Chains for Exploring Posterior Distributions. The Annals of Statistics, 22(4) :1701?1762, 
1994.
   
Luke Tierney et Joseph B. Kadane. Accurate Approximations for Posterior Moments and Marginal Density. 
Journal of the American Statistical Association, 81(393) :82?86, 1986.
   
B. Yu et P. Mykland. Looking at Markov Samplers through Cusum Path Plots : A Simple Diagnostic Idea. 
Statistics and Computing, 8(3) :275?286, 1998.
   
Arnold Zellner. An Introduction to Bayesian Inference in Econometrics. John Wiley & Sons, 1971. 


A Densit<69>s pour le mod<6F>le BVAR

A.1 Distribution normale matricielle

d<EFBFBD>finition 4. La matrice $$ al<61>atoire $$ est distribu<62>e conform<72>ment <20> une loi normale matricielle $$ o<> 
$$ est une matrice $$, $$ et $$ sont respectivement des matrices $$ et $$ sym<79>triques et d<>finies positives, si
et seulement si $$ est distribu<62> comme une v.a. normale multivari<72>e
				    <DISPLAY EQUATION  ()>
Ainsi, la fonction de densit<69> associ<63>e <20> $$ est donn<6E>e par :
				    <DISPLAY EQUATION  ()>

A.2 Distributions de Wishart 
La loi de Wishart est une version multivari<72>e de la loi du $$. Soit $$ une suite de variables al<61>atoires
gaussiennes ind<6E>pendantes et identiquement distribu<62>es $$, avec $$ une matrice sym<79>trique d<>finie po-
sitive $$. Par d<>finition $$ est distribu<62> selon une loi de Wishart. Les d<>finitions suivantes
caract<EFBFBD>risent cette loi et la densit<69> de l'inverse d'une v.a. de Wishart.

d<EFBFBD>finition 5. La matrice al<61>atoire, de dimension $$, sym<79>trique et semi d<>finie positive Y est distribu<62>e selon une
loi de Wishart, $$, si et seulement si sa densit<69> est donn<6E>e par
				    <DISPLAY EQUATION  ()>
pour $$ une matrice sym<79>trique semie d<>finie positive, et $$ le degr<67> de libert<72>.

d<EFBFBD>finition 6. Une matrice al<61>atoire, de dimension $$, $$ est distribu<62>e selon une loi inverse Wishart,
				    <DISPLAY EQUATION  ()> 
si et seulement si $$.

Ainsi la fonction de densit<69> associ<63>e <20> $$ est d<>finie par :
				    <DISPLAY EQUATION  ()>