stephane-adjemian.fr/assets/papers/malgrange/EcoPrev2007Bayes/article_sans_equations.txt

1336 lines
96 KiB
Plaintext

Un regard Bayésien sur les Modèles Dynamiques de la Macroéconomie
Stéphane Adjemian\note{stephane.adjemian@ens.fr}
Université du Maine, GAINS et CEPREMAP
Florian Pelgrin\note{florian.pelgrin@unil.ch}
Université de Lausanne - HEC, IEMS et CIRANO
3 décembre 2007
Résumé
L'objet de cette contribution est de présenter l'approche bayésienne des modèles dynamiques les plus
considérés en macroéconomie : les modèles DSGE (Dynamic Stochastic General Equilibrium) et les modèles
VAR.
Classification JEL : C3, C5, E3
Mots-Clefs : Économétrie Bayésienne, Modèles VAR, Modèles DSGE.
1 Introduction
Ces dernières années, l'analyse des fluctuations économiques s'est
développée autour des Modèles d'équilibre Général Inter-temporels
Stochastiques (DSGE). Pour au-
tant, jusqu'à très récemment, l'engouement pour l'approche DSGE comme
outil d'analyse de la politique économique est demeure relativement
faible, et l'approche des modèles Vectoriels Auto-régressif (VAR) a été
(est) souvent privilégiée. Plusieurs raisons expliquent cette
préférence. D'une part, la modélisation VAR de la dynamique des
variables macro-économiques impose un nombre très restreint de
contraintes et offre une qualité d'ajustement aux données (et des
prévisions) relativement bonne. Au contraire, en augmentant le nombre
de contraintes sur les données, encourant ainsi le risque d'une
mauvaise spécification, les modèles DSGE de la première génération
(les modèles de la théorie des cycles réels) se sont traduits par des
performances d'ajustement et de prévisions très pauvres. D'autre part,
l'émergence d'une approche plus structurelle des modèles VAR (par
rapport à l'approche a-théorique, Sims (1980)) -- autorisant des
procédures d'identification des chocs à partir de restrictions
contemporaines, de court terme (Sims (1986) ; Bernanke (1986)) ou de
long terme (Blanchard et Quah (1986)) -- ont conduit à exiger que tout
modèle théorique puisse reproduire les fonctions de réponse des
variables macro-économiques à des chocs structurels identifiés dans
les modèles VAR (Rotemberg et Woodford (1997), Christiano et
al. (2003)). Finalement, l'absence d'un traitement économétrique
convaincant n'a fait que renforcer la recommandation de Kydland et
Prescott (1982) -- l'étalonnage est préférable.
Cependant, on a constaté un regain d'intérêt des modèles DSGE et cela
essentiellement pour deux raisons : (i) les avancées théoriques et
notamment la prise en compte de fondements micro-économiques des
rigidités nominales et/ou réelles (ii) les progrès dans l'estimation
et l'évaluation des modèles sur la base de méthodes statistiques
formelles\note{1}. Dans cette perspective, l'idée suivant laquelle de
tels modèles sont utiles pour la pré- vision et l'analyse de la
politique économique s'est répandue dans le milieu académique ainsi
qu'auprès des institutions internationales et des banques
centrales. Parmi toutes ces approches économétriques, la littérature
privilégie, pour de << bonnes >> et << mauvaises >> raisons, la
statistique bayésienne. Parmi les << bonnes >> rai- sons, nous
pourrions souligner le fait que la fonction de vraisemblance d'un
modèle de dimension élevée (de nombreux paramètres à estimer) est
souvent << plate >> dans certaines directions. En d'autres termes, les
données peuvent être insuffisamment informatives pour identifier (avec
précision) les paramètres. En déformant la fonction de vraisemblance à
l'aide d'informations a priori sur les paramètres, c'est-à-dire en
privilégiant une approche bayésienne, l'identification devient
possible. Il est néanmoins trop souvent ignoré que la mise en oeuvre
et l'interprétation des résultats de l'estimation bayésienne
requièrent un certain nombre d'hypothèses et de conditions de
validité, ou que nombre de problèmes rencontrés en économétrie
classique ont leur contrepartie en économétrie bayésienne. Toujours
est-il que l'approche bayésienne a considérablement favorisé le
développement des modèles DSGE comme outil d'analyse et de prévision
de la politique monétaire. Dans le même temps, il n'en demeure pas
moins que les modèles DSGE et VAR continuent à être opposés et que
nombre de papiers cherchent généralement à légitimer leurs résultats
en comparant, par exemple, les prévisions (ou tout autre statistique
ou quantité d'intérêt) de leur(s) modèle(s) avec ceux d'un VAR (Smets
et Wouters (2002)).
L'objet de ce papier est de présenter l'approche bayésienne des
modèles VAR et DSGE en mettant en avant les principaux concepts, leur
mise en oeuvre pratique et les limites sous-jacentes. Nous montrons en
quoi les modèles DSGE et VAR sont des outils complémentaires que l'on
ne doit pas nécessairement chercher à opposer. Nous n'abordons pas ici
certains problèmes importants, comme l'estimation non linéaire des
modèles DSGE\note{2}.
L'article est organisé comme suit. Dans une première section, nous présentons les principaux concepts de
l'analyse bayésienne et montrons comment les appliquer dans le cadre des modèles VAR. Une attention par-
ticulière est attachée à la nature (informative, non informative, empirique) des croyances a priori. Dans une
deuxième section, nous abordons les spécificités de l'approche bayésienne des modèles DSGE. Contrairement
aux modèles VAR, il n'est plus possible d'obtenir une expression analytique de la distribution a posteriori.
Pour remédier à cette difficulté, il est nécessaire de recourir à des méthodes de Monte-Carlo et notamment
à la théorie des chaînes de Markov. Dans cette perspective, après avoir dérivé de manière générale la
densité a posteriori d'un modèle DSGE, nous expliquons les principaux algorithmes d'estimation (algorithme
de Metropolis-Hasting, par fonction d'importance). Dans une troisième section, nous illustrons comment
peuvent se combiner les approches VAR et DSGE.
2 L'approche Bayésienne
2.1 Généralités
L'approche bayésienne propose un cadre rigoureux pour (i) formaliser nos croyances\note{3} a priori et (ii)
déterminer comment celles-ci doivent être mises à jour une fois que les données sont observées. Les croyances,
a priori ou a posteriori, sont représentées à l'aide d'une densité de probabilité jointe sur les paramètres d'un
modèle. Cette densité jointe caractérise l'incertitude quant au processus générateur des données (DGP, pour
Data Generating Process), en décrivant une famille (un continuum) de modèles.
Imaginons que nous souhaitions caractériser nos croyances sur le paramètre de Calvo d'une courbe de
Phillips. Ce paramètre, $$ , est la probabilité pour une firme, en concurrence monopolistique, de ne pas pou-
voir ajuster son prix de façon optimale à une date quelconque. Ainsi, nous savons déjà que ce paramètre doit
appartenir à l'intervalle $$. Nous pourrions donc utiliser une distribution bêta\note{4} définie sur cet intervalle.
A partir de la probabilité $$ , nous pouvons définir le temps moyen pendant lequel une firme ne pourra pas
ajuster son prix de façon optimale : $$. Si par ailleurs, à l'aide d'enquêtes micro-économiques, nous
savons que le temps moyen durant lequel une firme ne réajuste pas son prix de façon << optimale >> est de
quatre trimestres, nous pouvons déduire qu'une valeur pertinente de la probabilité $$ est trois quarts.
L'économiste bayésien pourra donc formaliser son a priori sur le paramètre $$ en sélectionnant une distribution
bêta ayant pour mode $$ et en spécifiant une variance mesurant son incertitude sur le paramètre d'intérêt. Il
choisira une variance d'autant plus grande qu'il est incertain des évaluations micro-économiques dont il dis-
pose\note{5}. Notons qu'il pourrait directement poser son a priori sur le délai moyen d'attente avant qu'il
ne puisse optimalement ajuster son prix, $$; ceci résultera en une distribution différente pour le paramètre $$.
Si $$ est le seul paramètre du modèle pour lequel nous sommes incertain, ie si les autres paramètres ont des variances
a priori nulles, la densité a priori sur ce paramètre décrit une famille de DGP, indexée par $$ : chaque valeur
possible de $$ correspond à un DGP.
Plus généralement, nous noterons l'a priori sur un vecteur de paramètres $$ associé à un modèle paramé-
trique $$, $$ ,de la façon suivante :
<DISPLAY EQUATION (1)>
Cette densité jointe définit notre incertitude quant aux paramètres $$ avant que nous ayons porté attention
aux données. Il convient de noter que nous raisonnons conditionnellement à un modèle. En toute généralité
l'incertitude pourrait aussi porter sur la forme du modèle paramétrique $$. Plus loin nous omettrons
généralement le conditionnement (ainsi que l'indexation) par le modèle pour simplifier les notations.
Nous observons un échantillon $$ où $$ est un vecteur de m variables. Nous nous limiterons
au cas où l'indice t représente le temps. La vraisemblance est la densité de l'échantillon conditionnellement
au modèle et ses paramètres ; on notera :
<DISPLAY EQUATION (2)>
L'estimateur du maximum de vraisemblance (MV) des paramètres $$ d'un modèle $$ est la valeur des pa-
ramètres qui rend le plus << probable >> l'occurrence de l'échantillon à notre disposition. Autrement dit, l'es-
timateur du MV sélectionne le paramètre $$ définissant le DGP qui a le plus probablement généré les don-
nées. La démarche statistique, classique ou bayésienne, est une démarche d'inversion -- il s'agit de remonter
des observations aux paramètres du DGP. Un modèle (la vraisemblance) définit la densité d'un ensemble de
variables conditionnellement à des paramètres inconnus. L'observation de l'échantillon donne en retour de
l'information sur les paramètres. La notation définie par l'équation (2) résume le principe de l'inférence ; la
vraisemblance est la densité de l'échantillon $$ sachant les paramètres $$ mais nous écrivons habituellement
la vraisemblance comme une fonction des paramètres, ie. formellement nous échangeons les rôles de $$ et $$.
Nous disposons des densités $$, qui caractérise l'information postulée a priori, et $$, qui
caractérise l'information amenée par les données. On croise ces deux sources d'informations orthogonales, en
utilisant le théorème de Bayes, pour obtenir la densité de $$ sachant les données $$, ie la densité postérieure :
<DISPLAY EQUATION (3)>
avec
<DISPLAY EQUATION (4)>
la densité marginale. Ainsi, la densité postérieure est proportionnelle à la densité a priori multipliée par la
vraisemblance :
<DISPLAY EQUATION ()>
Puisque le dénominateur dans (3), la densité marginale, ne dépend pas de $$, l'inférence sur les paramètres,
par exemple l'évaluation de l'espérance postérieure, peut être mise en oeuvre à l'aide du seul noyau posté-
rieur, $$. On représente nos croyances a posteriori en exhibant les propriétés de la distribution a
posteriori. Nous pouvons représenter graphiquement la densité postérieure marginale de chaque paramètre $$,
construire des intervalles contenant $$ de la distribution postérieure, ou encore calculer des moments a pos-
teriori. Par exemple, la comparaison des variances a priori et a posteriori peut nous renseigner sur l'information
apportée par les données, relativement à celle contenue dans nos croyances a priori. Les variances de chaque
paramètre sont définies à partir des éléments diagonaux des matrices suivantes :
<DISPLAY EQUATION ()>
et
<DISPLAY EQUATION ()>
Si la variance postérieure d'un paramètre est plus faible que sa variance a priori cela signifie que les données
apportent une information supplémentaire sur ce paramètre, relativement à l'information a priori. Dans cer-
tains cas, il est possible d'obtenir analytiquement la densité postérieure et ses moments\note{6} ; nous verrons un
exemple dans la section suivante. Plus généralement, il est nécessaire de recourir à des algorithmes numériques,
pour caractériser la distribution postérieure, ie pour évaluer les intégrales nécessaires au calcul des
moments.
Pour communiquer nos croyances a posteriori on désire souvent recourir à un média plus synthétique en
résumant, à l'image de l'approche classique, la distribution postérieure par un point. On parle alors
d'estimation ponctuelle. Réduire la distribution postérieure à un point s'apparente à un choix en univers incertain. Il
est donc naturel de construire une estimation ponctuelle en minimisant l'espérance postérieure d'une fonction
de perte :
<DISPLAY EQUATION (5)>
où $$ est une fonction associant une perte au choix $$ si la vraie valeur du paramètre est $$. Si, par exemple,
la fonction de perte est quadratique\note{7} :
<DISPLAY EQUATION ()>
alors on montre (Zellner , 1971 , page 24) que l'estimation ponctuelle doit être l'espérance postérieure de $$.
D'autres fonctions de perte aboutiront à d'autres estimations ponctuelles. La médiane postérieure peut être
rationalisée en considérant la fonction de perte $$ ; plus généralement on peut exhiber une fonction de perte
pour justifier l'utilisation de chaque quantile de la distribution comme une estimation ponctuelle.
Tant que l'inférence porte sur les paramètres d'un modèle, nous pouvons mettre de côté la constante d'intégration,
$$. Cependant, la densité marginale contient une information pertinente si nous désirons
comparer différents modèles. En effet, celle-ci nous renseigne sur la densité de l'échantillon conditionnelle-
ment au modèle. L'interprétation de sa définition (4) est directe : la densité marginale est une moyenne des
vraisemblances, obtenues pour différentes valeurs des paramètres, pondérées par nos croyances a priori sur
les valeurs de ces paramètres. Comme cette quantité ne dépend pas des paramètres, puisque nous avons inté-
gré le noyau postérieur par rapport aux paramètres pour l'obtenir, elle autorise facilement la comparaison de
modèles non emboîtés\note{8}. Par exemple, si nous disposons de deux modèles alternatifs, $$ et $$, pour expliquer
les données et si nous obtenons $$, alors cela signifie que les données à notre disposition ont
plus probablement été générées par le modèle $$ que par le modèle $$. Cette approche ne fournit pas un test
formel, pour prendre une décision il faut spécifier un critère de perte\note{9}. Ici, nous supposons implicitement que
nous n'avons pas de << préférence >> a priori pour un des deux modèles. En toute généralité nous pourrions
définir une densité de probabilité (discrète) a priori pour les modèles $$. Par exemple, nous pourrions
supposer que $$ a priori. Par le théorème de Bayes, nous obtenons la probabilité a posteriori du
modèle $$ :
<DISPLAY EQUATION ()>
L'interprétation est directe, il s'agit d'une version discrète des équations (3) et (6). Si nous devons sélectionner
un modèle, notre préférence ira au modèle qui maximise la densité postérieure. L'élicitation d'une densité de
probabilité a priori sur la collection de modèles n'est pas une chose aisée ; on ne peut associer une probabilité à
un modèle de la même façon que l'on pose une densité a priori sur le paramètre de Calvo d'une courbe de Phil-
lips. C'est pourquoi une densité de probabilité uniforme est souvent utilisée dans la littérature concernée par
l'estimation des modèles DSGE. Pour une revue des enjeux de la comparaison de modèles, on peut lire Robert
(2006 , chapitre 7) ou Sims (2003). Enfin, notons que la comparaison de différents modèles, par l'intermédiaire
de leurs densités marginales, ne doit pas nécessairement aboutir à un choix. Dans certaines situations, il peut
être souhaitable de combiner plusieurs modèles, en les pondérant par leurs densités marginales respectives\note{10}.
Après l'estimation, le modèle peut être utilisé pour construire des prévisions et des fonctions de réponse.
À l'image de l'estimation des paramètres, le paradigme bayésien ne fournit pas en premier lieu des prévisions
ponctuelles mais des densités prédictives. Supposons que nous souhaitions établir des prédictions sur $$,
un vecteur d'endogènes non encore observées, le but est de construire la densité (prédictive) de ce vecteur.
Cette densité peut être obtenue en intégrant par rapport à $$ la densité postérieure jointe de $$ et $$ :
<DISPLAY EQUATION ()>
où la densité sous l'intégrale est définie par :
<DISPLAY EQUATION ()>
par le théorème de Bayes. La densité jointe de $$ et $$ est le produit de la densité postérieure de $$ et de la
densité de $$ conditionnelle à $$. Cette dernière densité est directement obtenue à partir de la définition du
modèle. Donnons un exemple dans le cas scalaire. Si le modèle est un processus auto-régressif d'ordre un : $$
avec $$, $$ et $$, la variance de l'innovation, connue. La distribution de $$ conditionnellement à $$ et $$\note{11}
est gaussienne : $$. La densité prédictive s'écrit finalement :
<DISPLAY EQUATION (6)>
et s'interprète comme une moyenne des densités conditionnelles de $$ sachant $$, pondérées par la densité
postérieure de $$. À partir de cette densité prédictive, on peut construire une prédiction ponctuelle des
variables en se donnant une fonction de perte, représenter un intervalle contenant $$ de la distribution
de $$, ou encore représenter la densité prédictive (marginale) de chaque variable composant le vecteur des
observables. En confrontant la densité prédictive aux réalisations effectives des variables, on peut alors
évaluer dans quelle mesure notre modèle tend à sur-estimer ou sous-estimer, par exemple, le taux de
croissance à un trimestre du PIB par tête. Cette comparaison peut fournir un critère d'évaluation du modèle.
Si on se rend compte que les réalisations effectives d'une variable se situent systématiquement dans les
queues de la densité prédictive, alors on peut conclure que le modèle est mal spécifié vis-à-vis de cette variable.
2.2 Le choix des croyances a priori
On comprend déjà que le choix des croyances a priori est essentiel, dans la mesure où il détermine par-
tiellement les résultats (surtout pour un échantillon de taille réduite comme nous le verrons par la suite). La
subjectivité de d'économétrie ne peut intervenir que dans la première étape d'élicitation de l'a priori, les étapes
(l'évaluation de la vraisemblance,...) suivantes sont automatiques et nécessairement objectives. La question
du choix des croyances a priori est donc crucial, d'autant plus qu'il s'agit du point qui engendre le plus de
méfiance parmi les économistes, de formation -- trés généralement -- classique. Il est donc important de bien
comprendre le rôle de la densité a priori dans les résultats, par exemple en menant des exercices de sensibi-
lité aux croyances a priori. Ces expériences, en donnant une idée du rôle des priors, dévoilent implicitement
la forme de la vraisemblance. L'expérience la plus extrême\note{12} est de considérer un a priori non informatif,
c'est-à-dire le cas où nous n'avons aucune croyance a priori sur la paramétrisation du modèle. De façon assez
surprenante, les statisticiens bayésiens ne parviennent pas à s'accorder sur une chose aussi essentielle que la
caractérisation du non savoir.
Dans la section 2.1 nous avons examiné le cas d'un a priori informatif sur le paramètre de Calvo définis-
sant le degré de rigidité de l'inflation. Dans ce cas notre connaissance a priori provient de l'observation de
données micro-économiques, différentes de celles utilisées pour l'estimation du modèle. Lorsque l'informa-
tion a priori est basée sur des données, celles-ci doivent être différentes des données utilisées pour identifier
le modèle. Dans le cas contraire la démarcation entre vraisemblance et densité a priori devient plus ambiguë,
ce qui paraît inacceptable pour de nombreux statisticiens. Notons néanmoins que de non moins nombreux
statisticiens utilisent l'échantillon pour définir les croyances a priori. Par exemple quand il s'agit de spécifier
la densité a priori de façon à optimiser les capacités prédictives d'un modèle (voir plus loin la section 2.4.3).
Les croyances a priori peuvent aussi être basées sur des considérations purement théoriques (voir la section
4). Dans la littérature concernée par l'estimation des modèles DSGE (et aussi des VAR), les croyances a priori,
indépendamment de l'origine de ces croyances, sont généralement représentées par des densités paramétrées
(distribution gaussienne, gamma,...). Dans certains cas, on parle alors d'a priori conjugués, elles sont choisies
de façon que la densité a posteriori soit de la même famille paramétrique (voir l'exemple du modèle VAR
plus loin). La motivation est essentiellement technique, l'utilisation de formulations conjuguées ou plus gé-
néralement paramétrées des a priori est un héritage du passé. Aujourd'hui, la technologie ne nous empêche
pas d'adopter une formulation non paramétrique plus générale. Par exemple nous pourrions caractériser nos
croyances a priori sur chaque paramètre en spécifiant les quantiles de chaque distribution. Il est vrai que nos
croyances sont rarement aussi précises.
Dans certaines situations nos connaissances a priori sont faibles ou nous désirons faire comme si c'était le
cas (par exemple pour évaluer la sensibilité des résultats aux a priori). Malheureusement la caractérisation de
l'ignorance est toujours sujet à débat. Un exemple frappant est donné par Sims et Uhlig (1991) puis Phillips
(1991a), Phillips (1991b) et Sims (1991), qui débatent de la caractérisation de l'ignorance dans un modèle
autorégressif d'ordre un et des conséquences sur la détection de racines unitaires.
Une première approche est de considérer un prior plat. Pour un paramètre $$ qui peut prendre des valeurs
entre $$ et $$, Jeffrey (1961) propose d'adopter une distribution uniforme entre $$ et $$ :
<DISPLAY EQUATION ()>
Évidemment cette densité est impropre dans le sens où $$ est indéfini. Mais c'est précisément cette
propriété qui, pour Jeffrey , rend ce prior non informatif. En effet, pour tout $$ on ne peut pas dire
que $$ soit a priori plus probable que $$, puisque les probabilités de ces événements sont nulles.
Pour un paramètre $$, par exemple un écart-type, qui peut prendre des valeurs entre 0 et 1, Jeffrey propose
d'adopter une distribution uniforme pour le logarithme de $$ entre $$ et $$ :
<DISPLAY EQUATION ()>
<DISPLAY EQUATION ()>
Comme dans le cas précédent l'intégrale de cette densité est impropre. En particulier, on ne peut définir
$$ et $$, nous ne pouvons dire s'il est plus probable que $$ soit supérieur ou inférieur $$\note{13}.
On note en passant que cette densité a l'heureuse propriété d'être invariante à une transformation puissance\note{14},
si le prior est non informatif sur l'écart type, il en va de même pour la variance ($$).
Plus tard, Jeffrey généralisa ce résultat d'invariance et proposa un prior non informatif (le plus souvent im-
propre) plus général basé sur la matrice d'information de Fisher :
<DISPLAY EQUATION ()>
avec
<DISPLAY EQUATION ()>
La matrice d'information de Fisher quantifie l'information amenée par le modèle et les données sur le para-
mètre $$. En favorisant les valeurs de $$ pour lesquelles l'information de Fisher est plus grande, on diminue
l'influence de la loi a priori puisque l'information véhiculée par celle-ci est peu différente de l'information pro-
venant de la vraisemblance. La définition de la densité a priori est donc liée à la courbure de la vraisemblance.
Cette densité a priori est invariante à toute reparamétrisation (continue) du modèle (voir Zellner (1971, annexe
du chapitre 2) pour une description plus détaillée des propriétés d'invariance).
L'utilisation d'un prior plat ou d'un prior dérivé de la matrice d'information de Fisher pour caractériser
l'absence d'information affecte généralement l'inférence. Par exemple, dans un modèle AR(1), voir Phillips
(1991a), un prior basé sur l'information de Fisher n'est pas équivalent à un prior uniforme (plat). En effet,
dans un modèle dynamique, la quantité d'information véhiculée par les données (ie la vraisemblance) dépend
de la valeur du paramètre autorégressif ($$). Si le paramètre est proche de l'unité, voire égal ou supérieur à
un, les données sont plus informatives. Ainsi, pour Phillips , l'utilisation d'un prior plat, à l'instar de Zellner
(1971) ou Sims et Uhlig (1991), biaise la distribution postérieure de $$ en faveur de la stationnarité. En donnant
autant de poids aux valeurs explosives de $$ qu'aux valeurs stationnaires, le prior plat ne prend pas en compte
le fait que des données générées par un modèle à racine unitaire ou explosif sont plus informatives. Il existe
d'autres approches pour caractériser l'ignorance, on peut lire le chapitre 3 de Robert (2006) et plus spéciale-
ment la section 5.
Le choix d'une densité a priori et ses conséquences sur l'inférence sont l'objet de toutes les critiques de
la part des statisticiens ou économistes classiques. Il ne faudrait pourtant pas oublier que le paradigme clas-
sique n'est pas plus exempt de choix aux conséquences non négligeables sur l'inférence. Par exemple, le choix
d'une métrique (minimiser la somme des carrés des résidus ou la somme des valeurs absolues des résidus), le
choix des variables instrumentales, modèles auxiliaires ou des conditions de moments, sont rarement discutés
même s'ils déterminent les résultats. Dans une certaine mesure, nous n'avons même plus conscience des choix
effectués. L'approche bayésienne est de ce point de vu bien plus transparente.
2.3 Comportement asymptotique et approximations
Même si l'approche bayésienne ne repose pas sur des arguments asymptotiques, comme généralement
l'approche classique, il est utile de s'interroger sur le comportement asymptotique de ses estimateurs. Le
résultat rassurant est que si les conditions de normalité asymptotique de l'estimateur du maximum de vrai-
semblance sont réunies\note{15}, alors la distribution postérieure tend vers une gaussienne multivariée. Asymptoti-
quement, la distribution postérieure est centrée sur l'estimateur du maximum de vraisemblance. Ce résultat,
avancé par Laplace, est intuitif puisque lorsque la taille de l'échantillon tend vers l'infini, le poids de l'infor-
mation a priori relativement à l'information contenue dans l'échantillon devient marginal.
Plus formellement, si on note $$ l'unique mode de la distribution postérieure obtenu en maximisant le
noyau postérieur $$, et s'il est possible d'écrire une approximation de Taylor à l'ordre deux
du noyau postérieur autour de $$, alors nous avons :
<DISPLAY EQUATION ()>
Puisque les dérivées premières sont, par définition, nulles en $$, nous avons de façon équivalente :
<DISPLAY EQUATION ()>
où $$ est l'opposé de l'inverse de la matrice hessienne évaluée au mode. Ainsi, en ne considérant que le
terme quadratique, le noyau postérieur peut être approximé par :
<DISPLAY EQUATION ()>
on reconnaît, à une constante d'intégration près\note{16} la densité d'une loi normale multivariée. En complétant
pour la constante d'intégration, nous obtenons finalement une approximation de la densité postérieure $$
<DISPLAY EQUATION (7)>
Généralement, la matrice hessienne est d'ordre $$, lorsque la taille de l'échantillon augmente la distribu-
tion postérieure se concentre autour du mode. À partir de cette approximation asymptotique on peut alors
trés facilement calculer, par exemple, des moments postérieurs ou approximer les densités prédictives. Par
exemple, l'espérance postérieure de $$ est définie par :
<DISPLAY EQUATION ()>
Tierney et Kadane (1986) montrent que si l'on approxime à l'ordre deux le numérateur autour du mode de
$$ et le dénominateur autour du mode de $$, alors l'erreur d'approximation de l'es-
pérance est d'ordre $$. Les erreurs d'approximation du numérateur et du dénominateur, qui sont d'ordre
$$, se compensent favorablement. L'approche de Tierney et Kadane ne va pas sans poser certains pro-
blèmes. Si on cherche à calculer $$ pour différentes fonctions $$, alors il est nécessaire de recourir à une
nouvelle maximisation pour chaque paramètre et chaque fonction $$. Par exemple, si on désire calculer les
espérances et écart-types a posteriori pour chacun des k paramètres, il faut recourir $$ maximisations,
auxquelles il faut rajouter le calcul des matrices hessiennes. Il est alors évident que si $$ est élevé, une telle
approximation peut devenir coûteuse en temps de calculs. Tierney et al. (1989) propose différentes méthodes
pour pallier cette difficulté\note{17}. Notons néanmoins qu'une approche basée sur des simulations (voir la section
3) devient aussi plus coûteuse lorsque le nombre de paramètres augmente.
2.4 Un modèle linéaire : le modèle VAR
Dans cette section, nous considérons un exemple où les résultats peuvent être obtenus analytiquement. Le
modèle VAR gaussien se prête, comme tout modèle linéaire gaussien, à cet exercice et a l'avantage d'être un
outil couramment utilisé en macro-économie (voir par exemple la contribution de Fabrice Collard et Patrick
Fève dans ce numéro).
Nous considérons un modèle VAR(p) pour caractériser le vecteur $$ de variables endogènes $$ obser-
vées :
<DISPLAY EQUATION ()>
où $$ est une suite de matrice $$ et $$ est un bruit blanc gaussien, de dimension $$ d'espérance nulle
et de variance $$. Nous pourrions compléter le modèle avec des variables exogènes, une constante par
exemple, mais nous allons à l'essentiel en omettant cette possibilité.
On note $$ les données à notre disposition et on note $$ la concaténation horizontale des
vecteurs lignes $$. En concaténant verticalement les vecteurs lignes $$, $$ et $$, pour $$,
on obtient la représentation matricielle suivante du modèle VAR(p) :
<DISPLAY EQUATION ()>
où $$ et $$ sont des matrices $$, $$ est une matrice $$ et $$ la matrice $$ (avec $$) regroupant les
coefficients auto-régressifs. La vraisemblance associée à ce modèle linéaire gaussien
est donnée par :
<DISPLAY EQUATION ()>
L'estimateur du maximum de vraisemblance (MCO) est défini par :
<DISPLAY EQUATION ()>
et
<DISPLAY EQUATION ()>
Nous verrons plus loin qu'il est profitable de réécrire la vraisemblance en faisant apparaître
l'estimateur des MCO :
<DISPLAY EQUATION ()>
Aux constantes d'intégration près on reconnaît ici les fonctions de densité de probabilité d'une gaussienne
matricielle et d'une inverse Wishart (voir l'annexe A). La vraisemblance se réécrit donc sous la forme suivante :
<DISPLAY EQUATION ()>
avec $$ les degrés de liberté et $$. Cette écriture nous apprend que la vraisemblance du VAR(p) est proportionnelle
au produit de la densité d'une normale matricielle et d'une loi inverse Wishart :
<DISPLAY EQUATION (8)>
Cette propriété va nous aider à poser une forme de la densité a priori telle que nous puissions obtenir une
expression analytique de la densité postérieure.
2.4.1 A priori non informatif
Dans cette section nous supposons que nos croyances sont non informatives en adoptant un a priori plat à
la Jeffrey :
<DISPLAY EQUATION (9)>
On note que dans le cas scalaire, m = 1, on retrouve le prior suggéré par Jeffrey ($$) décrit plus haut. La
densité a posteriori satisfait donc :
<DISPLAY EQUATION ()>
La densité jointe postérieure est donc proportionnelle au produit d'une loi normale multivariée et d'une loi
inverse Wishart :
<DISPLAY EQUATION (10)>
avec $$. Ainsi, la densité postérieure s'écrit sous la forme suivante :
<DISPLAY EQUATION (11)>
Il n'est pas surprenant de constater que la distribution postérieure de $$ (conditionnelle à la matrice de va-
riance covariance) est centrée sur l'estimateur du maximum de vraisemblance, puisque notre a priori est non
informatif. Nous pourrions montrer, en intégrant par rapport à $$, que la distribution postérieure (marginale)
de $$ est une version matricielle de la loi de Student (voir (Zellner, 1971, chapitre 8)). L'a priori de Jeffrey n'af-
fecte que le nombre de degré de liberté de la distribution postérieure de $$. On obtient la densité marginale
postérieure de $$ en intégrant le noyau postérieur successivement par rapport à $$ et $$ :
<DISPLAY EQUATION (12)>
Cette quantité nous renseigne sur la qualité d'ajustement du modèle VAR(p). On note que la densité marginale
de $$ est une fonction décroissante de la taille des erreurs $$. Dans cet exemple, nous pouvons caractériser
la distribution postérieure analytiquement. Notons néanmoins que même si nous connaissons l'expression
analytique de la distribution de $$ et $$, la construction des densités prédictives nécessite une approche par
simulations\note{18}, puisque les prévisions sont des fonctions non linéaires des matrices auto-régressives (dont nous
connaissons la distribution postérieure). L'intérêt pratique de l'approche bayésienne peut paraître faible dans
ce cas, dans la mesure où l'espérance postérieure n'est pas différente de l'estimateur du maximum de vrai-
semblance.
2.4.2 Un exemple d'a priori informatif
Nous considérons maintenant un prior plus informatif qui va écarter l'espérance de la distribution a poste-
riori de l'estimateur du maximum de vraisemblance ; dans un modèle linéaire gaussien, l'espérance a posteriori
est une combinaison convexe de l'estimateur du maximum de vraisemblance et de l'espérance a priori. Afin
d'aller à l'essentiel\note{19}, nous adoptons une densité a priori dégénérée pour la matrice de variance-covariance des
erreurs, en supposant que la matrice $$ est connue (on posera $$). Enfin nous spécifions le prior sur A de
la façon suivante :
<DISPLAY EQUATION (13)>
où $$ est une matrice symétrique définie positive de dimension $$. En multipliant la vraisemblance par
(13), on établit facilement que le noyau postérieur est :
<DISPLAY EQUATION (14a)>
<DISPLAY EQUATION (14b)>
<DISPLAY EQUATION (14c)>
La distribution postérieure de $$ est donc gaussienne $$, son interprétation est immédiate. L'inverse
de la variance postérieure ($$, que l'on peut interpréter comme une quantification de l'information a pos-
teriori) est égale à la somme de l'inverse de la variance a priori ($$, l'information a priori) et de l'inverse de
la variance de l'estimateur du maximum de vraisemblance de $$ ($$, l'information apportée par les
données). Ceteris paribus, quand l'information a priori est importante, la matrice de variance-covariance $$ est
petite, la variance a posteriori est faible. L'espérance postérieure est une combinaison linéaire convexe de l'espé-
rance a priori, $$, et de l'estimateur du maximum de vraisemblance, $$. Les pondérations respectives sont
définies par le contenu informatif des croyances a priori et de l'échantillon. Lorsque l'information a priori tend
vers l'infini, ie $$, l'espérance postérieure tend vers l'espérance a priori. Lorsque l'information amenée par
les données tend vers l'infini, ie $$, l'espérance a posteriori tend vers l'estimateur du maximum de
vraisemblance. On peut donc interpréter le paradigme bayésien comme un pont entre la calibration et l'esti-
mation par le maximum de vraisemblance. En notant que $$ est généralement, si le modèle est stationnaire\note{20},
d'ordre O(T), on retrouve un résultat conforme aux considérations asymptotiques introduites dans la section
2.3 : l'espérance postérieure tend vers l'estimateur du maximum de vraisemblance lorsque T tend vers l'infini.
À nouveau, en intégrant le noyau postérieur (14) par rapport aux paramètres auto-régressifs, on obtient une
expression analytique de la densité marginale postérieure :
<DISPLAY EQUATION (15)>
qui mesure la qualité d'ajustement du modèle et permet de comparer le VAR à d'autres modèles estimés à
l'aide du même échantillon.
2.4.3 La pratique
L'intérêt pratique de l'approche bayésienne des modèles VAR s'explique par l'équation (14b). Celle-ci éta-
blit que la variance postérieure de $$ est inférieure à la variance de l'estimateur du maximum de vraisem-
blance, $$, dès lors que l'on apporte de l'information a priori. L'estimation des modèles VAR sur des données
macroéconomiques pose souvent des problèmes de précision. En effet, un modèle avec cinq variables et quatre
retards demande l'estimation de vingt paramètres alors que les échantillons sont habituellement de l'ordre de
la centaine d'observations. En incorporant de l'information à l'aide d'une densité a priori tout se passe comme
si nous augmentions le nombre de degrés de liberté. Ce gain en variance sur les paramètres du modèle, per-
mettra d'obtenir des prévisions ou des fonctions de réponses plus précises.
On peut faire l'analogie avec l'incorporation de contraintes sur les paramètres d'un modèle estimé dans
le paradigme classique. Par exemple, si nous pensons que A doit satisfaire les contraintes linéaires définies
par $$ (où $$ est une matrice $$, $$ est un vecteur $$ et $$ le nombre de restrictions li-
néaires), l'incorporation de ces contraintes lors de l'estimation, ie l'utilisation de moindres carrés contraints,
permet de réduire la variance des estimateurs et aussi l'erreur quadratique moyenne (dans la mesure où la
contrainte n'est pas en contradiction avec le processus générateur des données)\note{21}. Le paradigme bayésien est
plus souple, dans le sens où il ne pose pas des contraintes déterministes. Dans certains cas\note{22}, nous verrons une
application dans la section 4.1, la définition de croyances a priori revient à poser une contrainte probabiliste
de la forme $$, où $$ est une variable aléatoire gaussienne. Plus la variance de $$ est importante,
moins la contrainte sur $$ est forte (plus l'information a priori est floue).
La formalisation de l'information a priori ne se limite pas au choix de la forme d'une distribution. Dans
le cas du modèle BVAR de la section précédente, nous devons aussi choisir les paramètres $$ et $$. Dans
cette perspective, un prior qui s'est montré particuliérement efficace quand on cherche à modéliser des sé-
ries macroéconomiques est le prior de Minnesota\note{23}. Celui-ci correspond à la croyance a priori que les sé-
ries observées sont des marches aléatoires indépendantes. L'espérance a priori de $$ est alors telle que
$$ pour $$. La variance a priori de $$ est supposée diagonale. En no-
tant $$ la variance associée au paramètre correspondant à la variable j dans
l'équation i au retard k, la variance a priori est définie par :
<DISPLAY EQUATION ()>
où les hyperparamètres $$ pour $$ sont positifs, $$ est l'estimateur de la variance des résidus dans
l'estimation d'un AR(p) pour la variable $$. Le ratio des écarts-types permet de prendre en compte les dif-
férences d'échelles entre les différentes variables composant le vecteur des observables. La variance a priori
décroît lorsque le retard $$ augmente, ce qui traduit l'idée que plus le retard est important plus nous croyons
que la matrice $$ est nulle. L'hyperparamètre $$ indique à quelle vitesse la variance a priori tend vers zéro.
Des valeurs fréquemment utilisées pour $$ et $$ sont respectivement 0,05 et 0,005. Cela revient à dire, dans la
mesure où $$ et $$ sont proches, que nos croyances a priori sont plus fortes sur la nullité des termes hors des
diagnonales de $$ ($$), c'est-à-dire sur l'absence decausalité\note{24}. Notons que l'a priori de Minnesota
suppose l'absence de relations de cointégration entre les variables, il y a, a priori, autant de racines unitaires
que de variables. Néanmoins rien n'empêche l'apparition de relations de long terme dans la distribution pos-
térieure.
Il nous reste à choisir les valeurs des hyperparamètres du prior de Minnesota. Cette étape est importante
car l'expérience montre que l'inférence postérieure, en particulier l'évaluation de la densité marginale qui
nous permet d'évaluer le modèle, est trés sensible à ce choix. Si, comme souvent dans la littérature (voir par
exemple Smets et Wouters (2002) ou Fernandez-Villaverde et Rubio-Ramirez (2001)), l'estimation d'un BVAR
ne sert qu'à titre de comparaison afin d'évaluer la qualité d'ajustement d'un modèle DSGE, le choix des hy-
perparamètres devient crucial. Ce point n'est malheureusement jamais abordé dans la littérature. Le contenu
économique d'un modèle VAR étant faible, il paraît difficile de recourir à la théorie pour spécifier la densité
a priori. Un critère objectif à notre disposition est de choisir les hyperparamètres ($$, $$ et $$) qui maximisent
les performances en prévisions du modèle BVAR. En spéciéant ainsi les priors de notre BVAR, nous savons au
moins que nous ne comparons par notre DSGE avec un BVAR aux performances prédictives médiocres. Dans
cet esprit Phillips (1996) propose le critère PIC (Posterior Information Criterion) que l'on peut minimiser par
rapport aux hyperparamètres. Ce critère peut être vu comme une généralisation, au cas non stationnaire, du
bien connu critère BIC\note{25}. Dans le cas du modèle considéré dans la section 2.4.2 on choisit les hyperparamètres
de la façon suivante :
<DISPLAY EQUATION (16)>
où $$ est la matrice de variance covariance des innovations au mode postérieur, les matrices indicées par $$
sont obtenues à partir du sous échantillon $$ (où $$ est supérieur au nombre de paramètres estimés).
Ici nous avons considéré le nombre de retards comme une donnée, mais nous pourrions aussi optimiser par
rapport à $$ le critère PIC (voir Phillips (1996)). À notre connaissance, l'utilisation d'a priori objectif pour les
modèles BVAR, tel que l'optimisation du critère PIC proposé par Phillips (1996), demeure inappliqué dans
la littérature. On peut donc légitimement douter de la pertinence des comparaisons entre BVAR et DSGE
effectuées jusqu'à présent\note{26}.
3 Modèles DSGE
Dans cette section nous présentons de façon générale les modèles DSGE, puis soulignons les problèmes
que peut poser l'estimation. En particulier, nous expliquons pourquoi, à la différence des BVAR, il n'est pas
possible d'obtenir une expression analytique de la distribution postérieure. Nous terminons en présentant les
méthodes de Monte Carlo utilisées pour caractériser les croyances postérieures.
3.1 Résolution et vraisemblance
Nous limitons notre attention aux modèles DSGE que nous pouvons écrire sous la forme suivante :
<DISPLAY EQUATION (17)>
avec $$, une variable aléatoire dans $$, les innovations structurelles, $$ un vecteur
regroupant les variables endogènes, $$ une fonction réelle dans $$ paramétrée par un vecteur
réel $$ regroupant l'ensemble des paramètres structurels du modèle. La fonction $$ est simplement
l'ensemble des équations qui définissent un modèle ; on a autant d'équations que de variables endogènes.
Le vecteur des variables endogènes, $$, inclut des variables d'état (endogènes ou exogènes), des variables de
choix et des variables statiques\note{27}. On supposera qu'il est possible d'exhiber une unique solution stable et
invariante au modèle décrit par l'équation (17) :
<DISPLAY EQUATION (18)>
qui exprime les variables endogènes en fonction du passé et des chocs structurels contemporains. La fonction
paramétrée $$ regroupe les policy rules et les équations de transition (voir la contribution de Michel Juillard
et Tarik Ocaktan dans ce numéro). La solution (18), en décrivant une récurrence stochastique non linéaire,
définit la distribution jointe d'un ensemble de variables.
Pour estimer les paramètres $$ du modèle, ou d'un sous ensemble des paramètres, nous devons évaluer la
vraisemblance associée au modèle (17) ou à sa forme réduite (18). Même si la fonction $$ est linéaire en $$
et $$, cette évaluation ne peut être directe comme dans le cas du modèle VAR examiné plus haut. En effet,
l'équation (18) décrit la distribution jointe d'un ensemble de variables qui ne sont pas toutes observées. Afin
d'amener le modèle aux données on peut l'écrire sous une forme état-mesure :
<DISPLAY EQUATION (19a)>
<DISPLAY EQUATION (19b)>
où $$ est un vecteur $$, avec $$, regroupant les variables observées et $$ est une matrice de
sélection $$. On peut éventuellement augmenter l'équation de mesure d'un bruit blanc multivarié, $$,
représentant l'inadéquation des variables théoriques avec les variables observées, ou plus simplement une
erreur de mesure. On note $$ l'échantillon à notre disposition et $$ le vecteur des paramètres du modèle
état-mesure ($$, $$ et éventuellement la matrice de variance-covariance de
$$). La vraisemblance est la densité de l'échantillon, conditionnellement aux paramètres $$ et au modèle défini
par (19) :
<DISPLAY EQUATION (20)>
L'évaluation de la densité de $$ conditionnellement à $$ n'est généralement pas directe, dans la mesure où
$$ dépend de variables endogènes inobservables. Nous pouvons néanmoins utiliser la relation suivante :
<DISPLAY EQUATION (21)>
La densité de $$ conditionnellement à $$ est obtenue comme la moyenne de la densité de $$ sachant $$,
pondérée par la densité de $$ sachant $$. La première densité sous l'intégrale est specifiée par l'équation
de mesure (19a). L'évaluation de la densité de la prévision des variables latentes, conditionnellement l'infor-
mation disponible en $$, est moins directe, et on doit utiliser un filtre de Kalman. Il s'agit d'une procédure
récursive. À chaque date (entre $$ et $$) on forme une prévision des variables latentes ($$ sachant $$), en
utilisant l'équation d'état ($$ sachant $$, équation 19b) et une estimation initiale des variables latentes
($$ sachant $$ ), puis on corrige cette prévision quand une nouvelle observation ($$) augmente l'ensemble d'in-
formation. On peut interpréter cette démarche comme une estimation récursive bayésienne du vecteur des
variables latentes. En initialisant les variables latentes avec la densité associée à la distribution ergodique des
variables latentes définie par l'équation d'état (19b), $$, la récursion s'écrit de
la façon suivante :
<DISPLAY EQUATION (22a)>
<DISPLAY EQUATION (22b)>
L'interprétation de l'équation de prédiction (22a) est directe : la densité de la prédiction des variables latentes
en $$ est la moyenne de la densité de $$ sachant $$, définie par l'équation d'état (19b), pondérée par la densité
de $$ sachant $$. Cette dernière densité est définie par l'équation de mise à jour (22b) ou la condition
initiale. L'équation de mise à jour (22b) est, à l'instar de l'équation (3), une application directe du théorème de
Bayes. Le premier terme au numérateur, $$, est la densité a priori du vecteur des variables latentes. Le
second terme, $$, la densité de l'observation sachant l'état obtenu via l'équation de mesure (19a), est la
vraisemblance. Le dénominateur est la densité marginale de la nouvelle observation.
Puisque nous pouvons, au moins théoriquement, évaluer la vraisemblance associée au modèle DSGE, nous
devrions être capable d'estimer ses paramètres. Malheureusement, les équations (21) et (22) nécessitent l'éva-
luation d'intégrales\note{28} dans l'espace des variables d'état. Quand le nombre de variables latentes agmente il
devient trés coûteux d'évaluer ces intégrales (on parle de curse of dimensionality). La dérivation de la forme
réduite du modèle (18) nécessite également l'évaluation d'intégrales. En pratique, même pour des modèles
de dimensions modestes, l'évaluation de la vraisemblance est difficile. Nous devons donc approximer celle-
ci. Dans le cas où le modèle état-mesure (19) est linéaire et gaussien, l'évaluation des intégrales devient trés
simple car les variables latentes et observéées sont normalement distribuées à chaque date. Ainsi la dynamique
de la distribution des variables latentes est complétement caractérisée par la dynamique de l'espérance et de
la variance des variables latentes. On peut trouver une présentation du filtre de Kalman dans ce cas simple
dans Gouriéroux et Monfort (1989, chapitre 13), Harvey (1989, chapitre 3) ou encore dans la contribution de
Fabrice Collard et Patrick Fève à ce même numéro. Ceci explique pourquoi les modèles DSGE estimés sont
généralement (log-) linéarisés autour de l'état stationnaire.
Malgré l'approximation (log-) linéaire de la forme réduite du modèle ($$) l'évaluation de la vraisemblance
est numérique. Nous ne disposons pas d'une expression analytique, comme dans le cas du modèle VAR, et
ne pouvons donc écrire formellement la densité postérieure ou les moments postérieurs. Deux possibilités
s'offrent à nous.
La première est de considérer une approximation asymptotique de la densité postérieure. Il est alors possible
d'approximer, voir la section 2.3 et Tierney et Kadane (1986), tout moment a posteriori ou la densité marginale.
Nous avons vu que l'erreur d'approximation des moments est d'ordre $$ et que l'erreur d'approxima-
tion de la densité marginale est d'ordre $$. L'expérience suggère, pour les dimensions d'échantillon, $$,
généralement considérées dans la littérature, que l'approximation de Laplace de la densité marginale est sa-
tisfaisante\note{29}.
La deuxième possibilité est d'évaluer les moments en recourant à des simulations par Monte-Carlo. L'intuition
de cette approche repose sur la loi des grands nombres. Supposons, par exemple, que nous souhaitions éva-
luer l'espérance d'une variable aléatoire $$ de distribution $$. Si l'on génère une suite de variables aléatoires
$$ indépendantes et distribuées selon $$, alors une approximation de l'espérance est donnée par
la moyenne empirique de ces variables\note{30} ; la loi des grands nombres assure que l'erreur d'approximation tend
vers zéro presque sûrement lorsque le nombre de tirages $$ tend vers l'infini. Si on admet de plus que le mo-
ment du second ordre existe, la vitesse de convergence est $$ par application du théorème central limit.
En pratique nous pouvons être intéressés par les moments postérieurs de $$. En notant que :
<DISPLAY EQUATION (23)>
il semble alors naturel d'utiliser la moyenne empirique de $$, où les $$ sont
des tirages indépendants dans la distribution postérieure, pour évaluer l'espérance de $$. L'erreur d'ap-
proximation tend vers zéro lorsque le nombre de simulations ($$) tend vers l'infini. il convient de noter que $$
est généralement d'une forme inconnue et que l'on ne peut donc pas définir un générateur pseudo-aléatoire
reproduisant la distribution a posteriori. Comme nous le verrons par la suite, la méthode de Monte Carlo
dite de fonction d'importance permet de remédier à cette difficulté sous certaines conditions. Ce principe de
Monte Carlo se généralise au cas où les variables simulées ne sont pas indépendantes. Il est ainsi possible dans
certains cas de construire, moyennant certaines conditions, une chaîne de Markov $$ de loi sta-
tionnaire (ergodique) $$ telle que la moyenne empirique des $$ ($$ est la statistique d'intérêt) converge
presque sûrement vers la quantité d'intérêt comme dans le cas des tirages indépendants. Tout l'art de l'exer-
cice est alors de déterminer une chaîne de Markov (et plus précisément son noyau de transition) telle que
sa loi ergodique corresponde à la loi a posteriori désirée et d'évaluer le temps d'arrêt des simulations, ie de
diagnostiquer la convergence de la chaîne de Markov\note{31}.
3.2 L'échantillonnage bayésien par fonction d'importance
Idéalement, on souhaiterait générer les paramètres d'intérêt suivant la distribution a posteriori. Cependant,
à l'exception de rares modèles, ceci n'est pas possible. On peut néanmoins exploiter le fait qu'il n'est pas
nécessaire de générer une suite de tirage $$, suivant la distribution a posteriori, pour obtenir une évaluation
correcte des moments postérieurs. En effet, sous certaines conditions de régularité, on peut utiliser une densité
de probabilité $$, définie sur le même espace et appelée fonction d'importance, suffisamment proche de $$
(dans un sens à préciser) et échantillonner à partir de cette dernière. Il est alors possible de montrer par la loi
des grands nombres que l'intégrale (23) définissant le moment postérieur est approchée par :
<DISPLAY EQUATION ()>
avec
<DISPLAY EQUATION (24)>
Le choix de la fonction d'importance est crucial : elle doit être suffisamment proche de la loi a posteriori, ce
qui n'est pas toujours simple en pratique. En effet, si $$ est une mauvaise approximation de $$, alors les poids
sont généralement faibles pour la plupart des valeurs échantillonnées de $$, la somme est alors dominée par
quelques termes dont les poids sont trés élevés. Il en résulte une estimation peu fiable, voir Casella et Robert
(2004) pour plus de détails. L'algorithme se résume comme suit :
Algorithme 1.
(1) Maximiser le noyau postérieur par rapport à $$. On obtient le mode de la densité postérieure, $$, et le
hessien au mode qui caractérise la courbure de la densité postérieure au mode et dont l'inverse de l'opposé,
noté $$, approxime la variance postérieure.
(2) Générer $$, suivant une fonction d'importance, $$, dont les moments du premier et second ordre dépendent
de $$ et $$.
(3) Déterminer les poids $$ selon (24).
(4) Reprendre (2-3) pour $$.
(5) Calculer :
<DISPLAY EQUATION ()>
<DISPLAY EQUATION ()>
La première étape n'est pas spécifique à l'algorithme par fonction d'importance : il s'agit de calculer les
moments associés à la fonction d'importance, h. Cette << calibration >> des moments de la fonction d'impor-
tance est généralement faite à partir de la maximisation du logarithme du noyau a posteriori. Étant données les
propriétés asymptotiques de la distribution postérieure, ces choix sur les moments d'ordre un et deux associés
à $$ sont d'autant plus satisfaisants que la taille de l'échantillon est importante.
Bien que trés populaire en statistique, cette méthode est peu utilisée dans le cadre de l'estimation de mo-
dèles DSGE. A titre d'exemples, Dejong et al. (2000) estiment avec cette méthode un modèle de croissance
stochastique linéarisé. An et Schorfheide (2007) comparent l'algorithme d'importance avec celui de Metro-
polis (à pas aléatoire) dans une version simplifiée du modèle de Smets et Wouters (2002). Pour ce faire, ils
retiennent comme fonction d'importance une distribution de Student multivariée.
3.3 Les méthodes de Monte-Carlo à chaînes de Markov
Cette seconde classe d'algorithmes permet de générer des variables aléatoires suivant approximativement
la loi a posteriori, lorsque cette dernière n'est pas disponible. Elle évite donc l'appel à une fonction d'impor-
tance, $$, souvent difficile à déterminer pour les modèles DSGE\note{32}. On cherche ainsi à définir une chaîne de Mar-
kov dont la distribution ergodique est approximativement le noyau a posteriori. Si cette chaîne existe, la mé-
thode d'échantillonnage est grossiérement définie comme suit. Dans un premier temps, on initialise (arbitrai-
rement) la chaîne de Markov. Dans un second temps, on génère les $$ à partir de cette chaîne. À l'issue d'un
certain nombre de tirages (disons $$), on dispose de réalisations de variables aléatoires $$
approximativement distribuées comme la distribution a posteriori.
3.3.1 chaînes de Markov
Une chaîne de Markov est une suite de variables aléatoires continues à valeurs dans $$, $$,
générée par un processus de Markov. Une suite de variables aléatoires est générée par un processus de Markov\note{32}
(d'ordre 1) si la distribution de $$ ne dépend que de $$. Une chaîne de Markov est caractérisée par un
noyau de transition qui spécifie la probabilité de passer de $$ à $$. Nous noterons $$ le noyau de
transition, il vérifie $$ pour tout $$ dans $$. Si la chaîne de Markov définie par le noyau P converge
vers une distribution invariante $$, alors le noyau doit satisfaire l'identité suivante :
<DISPLAY EQUATION ()>
pour tout sous ensemble mesurable $$ de $$. Plus généralement, avant d'atteindre la distribution ergodique $$,
si nous notons $$ la probabilité que $$ soit dans S sachant que $$, nous avons :
<DISPLAY EQUATION ()>
la distribution de $$ s'ajuste d'itération en itération puis rejoint la distribution ergodique, $$. L'idée est
alors de choisir le noyau de transition qui nous aménera vers la distribution invariante désirée.
Définissons $$ et $$ les densités associées au noyau $$ et $$ la distribution $$\note{33}. Tierney (1994) montre que
si la densité $$ vérifie la condition de réversibilité\note{34} :
<DISPLAY EQUATION ()>
alors $$ est la distribution invariante associée au noyau $$\note{35}. De façon équivalente :
<DISPLAY EQUATION ()>
Cette condition nous dit simplement que si la densité de $$, $$, domine la densité associée à $$, $$,
alors il doit être plus << facile >> de passer de $$ à $$ que de $$ à $$.
Cette propriété nous aidera à construire une chaîne de Markov dont la distribution invariante est la distri-
bution postérieure des paramètres $$ dans le modèle DSGE. On comprend bien que le noyau de cette chaîne
est difficile à définir. Supposons que l'on puisse choisir un noyau de transition $$ ; alors il est presque
sûr que la condition de réversibilité ne sera pas vérifie, c'est-à-dire que nous aurons $$. L'algorithme de
Metropolis-Hastings est une approche générale qui permet de << corriger >> ce noyau, de façon à respecter la
condition de réversibilité.
3.3.2 L'algorithme de Métropolis-Hasting
Supposons que l'on puisse définir une densité instrumentale, qui permette d'approcher le noyau de tran-
sition de la chaîne de Markov dont la densité ergodique est la loi a posteriori de notre modèle. Cette densité est
définie par $$.
Algorithme 2 (Metropolis-Hastings).
(1) Se donner une condition initiale $$ telle que $$ et poser $$.
(2) Génèrer un candidat (une proposition) $$ à partir d'une densité $$.
(3) Génèrer $$ dans une loi uniforme entre $$.
(4) Appliquer la règle suivante :
<DISPLAY EQUATION ()>
<DISPLAY EQUATION ()>
(5) Reprendre (2-4) pour $$.
Notons qu'il suffit de pouvoir évaluer le noyau postérieur pour mettre en oeuvre cet algorithme ; la connais-
sance de la densité postérieure à une constante près est suffisante. L'algorithme de Metropolis-Hasting re-
quiert le choix d'une fonction instrumentale $$ à partir de laquelle on génère des transitions dans l'espace des
paramètres. La densité conditionnelle $$ permet de génèrer un vecteur candidat $$. Puisqu'elle n'est pas né-
cessairement la densité conditionnelle associée au noyau de transition dont la distribution ergodique est la
distribution a posteriori recherchée, la condition de réversibilité n'est pas vérifie\note{36}. L'algorithme
de MH corrige cette erreur\note{37} en n'acceptant pas systématiquement les propositions de $$. En introduisant
une probabilité d'acceptation de la transition proposée, $$, on peut finalement vérifier la condition de
réversibilité. Pour cela, la probabilité d'acceptation doit être telle que :
<DISPLAY EQUATION ()>
soit
<DISPLAY EQUATION ()>
Il nous reste à déterminer (i) comment nous devons initialiser la chaîne et (ii) la longueur de la chaîne. Nous
reviendrons par la suite, lors de la présentation de l'algorithme de Metropolis à pas aléatoires, sur le premier
point. Nous aborderons la question du nombre de simulations nécessaires, c'est-à-dire de la longueur de la
chaîne, dans la section 3.3.4. Nous reviendrons plus loin sur cette question, pour l'instant nous supposerons
que pour tout $$ les $$ sont tirés dans la distribution ciblée. Afin de s'assurer que les résultats sont
indépendants des conditions initiales, on ne considère pas les simulations indicées par $$. Ainsi,
pour évaluer $$ nous calculons : $$ qui converge vers le moment postérieur recherché lorsque le nombre de
simulations, $$, tend vers l'infini.
3.3.3 Deux variantes de l'algorithme MH
L'algorithme de MH à pas aléatoires. Comme nous l'avons expliqué plus haut, l'utilisation de l'algorithme
de Metropolis-Hastings repose sur le fait qu'il est aisé d'échantillonner à partir de la densité instrumentale
$$. L'inconvénient est que cette dernière n'est pas toujours facile à déterminer. Dans cette perspective, l'algo-
rithme de Metropolis à pas aléatoires est utile lorsqu'il est difficile d'obtenir une bonne approximation de la
densité a posteriori. Une proposition à l'itération $$ est définie par :
<DISPLAY EQUATION ()>
où $$ est le pas aléatoire. Le choix de la densité de $$ détermine la forme précise de la densité instrumentrale, $$.
Un choix standard est la distribution gaussienne multivariée : $$. Ainsi la densité de $$ conditionnel
à $$ est gaussienne :
<DISPLAY EQUATION ()>
Par symétrie de la loi normale, la densité instrumentale vérifie $$, ainsi la probabilité d'accepta-
tion ne dépend que du noyau postérieur :
<DISPLAY EQUATION ()>
Autrement dit, si $$, la chaîne de Markov se déplace en $$. Si ce n'est pas le cas, la
chaîne se déplace avec une probabilité égale au rapport des densités a posteriori. On accepte avec une proba-
bilité unitaire la proposition dans une phase ascendante (c'est-à-dire lorsque la probabilité a posteriori croît)
et avec une probabilité non nulle la proposition dans une phase descendante (si nous décidions de rejeter
systématiquement ces propositions défavorables la chaîne ne Markov ne visiterait pas complétement l'espace
des paramètres et a fortiori elle ne pourrait converger vers la distribution postérieure recherchée).
La probabilité d'acceptation peut être ajustée à partir de la matrice de variance-covariance $$. En effet,
si celle-ci est << grande >> alors il y a de fortes chances pour que la transition proposée nous amène dans les
queues de la distribution a posteriori c'est-à-dire dans une région où la densité est faible et où donc la probabi-
lité d'acceptation est proche de zéro (si on vient d'une zone plus dense). Si la matrice $$ est << petite >> alors les
transitions proposées ne seront que des petits pas, dans ce cas il n'y aura pas de grandes variations de la den-
sité postérieure et donc la probabilité d'acceptation sera proche de un. Nous écrivons $$ sous la forme $$ où $$
est une estimation de la matrice de variance-covariance a posteriori et $$ est un paramètre d'échelle qui permet
de jouer sur le caractère plus ou moins diffus de la matrice de variance-covariance et donc d'ajuster le taux
d'acceptation. On peut expérimenter différentes valeurs de $$ afin de déterminer une probabilité d'acceptation
raisonnable\note{38}.
Cette version de l'algorithme de MH est généralement utilisée dans la littérature concernée par l'estimation
bayésienne des modèles DSGE.
Algorithme 3.
(1) Maximiser le noyau postérieur par rapport à $$. On obtient le mode de la densité postérieure, $$, et le hessien au
mode qui caractérise la courbure de la densité postérieure au mode et dont l'inverse de l'opposé, noté $$, approxime
la variance postérieure. On pose $$ avec $$, $$ et $$.
(2) Génèrer $$ à partir d'une gaussienne d'espérance $$ et de variance $$.
(3) Génèrer $$ dans une loi uniforme entre $$.
(4) Appliquer la règle suivante :
<DISPLAY EQUATION ()>
<DISPLAY EQUATION ()>
(5) Reprendre (2-4) pour $$.
L'algorithme à chaînes indépendantes. Si la proposition est indépendante de l'état courant, l'algorithme est
dit à chaines indépendantes (Tierney (1994)). La probabilité d'acceptation se simplifie alors comme suit :
<DISPLAY EQUATION ()>
Cet algorithme est particuliérement adapté au cas où il existe une approximation naturelle de la densité a
posteriori. En effet, l'algorithme à chaînes indépendantes est alors similaire à l'algorithme par fonction d'im-
portance. Pour s'en convaincre, il suffit de remarquer que l'on peut définir des poids analogues à ceux vus
précédemment comme suit :
<DISPLAY EQUATION ()>
La probabilité d'acceptation est alors donnée par $$. Autrement dit, il s'agit du ratio des poids
d'échantillonnage par importance entre le vecteur candidat et le vecteur précédent.
3.3.4 Les diagnostics de convergence
Un certain nombre de résultats théoriques sont disponibles pour l'étude de la convergence des chaînes
de Markov. Il est cependant extrêmement compliqué d'énoncer des règles pratiques. Ainsi, il n'existe aucune
réponse simple à la question : Quel est le nombre optimal de simulations pour garantir la convergence de
la chaîne de Markov vers la distribution ergodique ? Nous discutons brièvement quelques diagnostics de
convergence. Le lecteur intéressé pourra consulter, par exemple, Casella et Robert (2004, chapitre 12).
La littérature bayésienne distingue généralement trois types de convergence : (i) la convergence vers la
distribution stationnaire, (ii) la convergence des moments empiriques (ou approchés) vers les moments théo-
riques et (iii) la convergence vers un échantillonage i.i.d.. Nous nous intéressons ici aux deux dernières formes
de convergence\note{39}. Quelle que soit la convergence étudiée, les résultats reposent soit sur des méthodes d'éva-
luation graphiques dont il est difficile d'en déduire des règles générales, soit des tests statistiques formels.
Avant de présenter certaines de ces méthodes, il convient de noter qu'il est important de distinguer les mé-
thodes qui font appel à $$ chaînes de Markov parallèles et indépendantes et celles basées sur une seule chaîne
(on-line Markov chain). L'utilisation de plusieurs chaînes est coûteuse en temps mais elle réduit la dépendance
aux conditions initiales et accroît la possibilité de parcourir efficacement l'espace des paramètres, $$. En par-
ticulier, si une chaîne de Markov est mélangeante au sens faible -- elle reste coincée dans des régions (de
mesure dominée) de l'espace des paramètres -- une explication possible est la présence d'une distribution a
posteriori multimodale (notamment lorsque les densités a priori sont en conflit avec la vraisemblance du mo-
dèle). Dans ce cas, la mise en oeuvre de chaînes de Markov en parallèle et indépendantes, très dispersées,
peut permettre de résoudre cette difficulté. L'argument des chaînes multiples est aussi avancé pour s'assurer
de la convergence. Si on se donne plusieurs vecteurs initiaux de paramètres, suffisamment dispersés, et que
l'on obtient les mêmes résultats, la convergence serait assurée. L'argument est valide si et seulement si on a
bien vérifié que chaque chaîne a convergée. Nous revoilà donc au point de départ... Il existe une littérature
abondante discutant des avantages et inconvénients respectifs de chaque méthode\note{40}.
La convergence des moments empiriques, ou approchés, vers les moments théoriques peut s'appréhender
à partir de méthodes graphiques. Yu et Mykland (1998) se basent sur les sommes cumulatives des moments
d'intérêt dans le cas d'une seule chaîne de Markov. Au contraire, Gelman et Rubin (1992) proposent un test
formel qui repose sur des méthodes de chaînes de Markov en parallèle. La convergence est diagnostiquée
si les différences entre $$ des $$ chaines de Markov restent dans un intervalle raisonnable. Gelman et Rubin
formalisent cette idée en recourant à des statistiques de type ANOVA. Pour chaque statistique d'intérêt $$,
ils déterminent la variance intra et inter-chaînes. L'intuition du test est alors la suivante. Si l'effet des va-
leurs initiales de chaque chaîne de Markov a été supprimé, les chaînes en parallèle doivent être relativement
proches. En d'autres termes, la variance inter-chaîne ne devrait pas être trop grande par rapport à la variance
intra-chaîne\note{41}. La statistique de test est alors définie à partir d'un estimateur de la variance a
posteriori de $$. Plus précisément, ce dernier est une moyenne pondérée de la variance intra-chaîne et de
la variance inter-chaîne. Le critère de convergence est ainsi le rapport de cet estimateur à la variance
intra-chaîne. En utilisant une approximation de ce critère, les auteurs montrent que si sa valeur excède 1.2, on
peut en conclure qu'il n'y a pas convergence. Dans une autre optique, Geweke (1992) propose de comparer la
moyenne de deux sous-échantillons disjoints, $$ et $$, d'une chaîne de Markov (aprés avoir éliminé les $$
premières valeurs). On choisit $$ (resp. $$) au début (resp. à la fin) de la chaîne de Markov. Si la chaîne
de Markov a atteint la distribution stationnaire, la moyenne des deux sous-échantillons doit être égale.
Une version modifiée de la statistique $$ est alors élaborée par Geweke\note{42}. Une valeur de la statistique
de test supérieure à 2 indique qu'un nombre plus élevé d'itérations est sans doute nécessaire. Le test de
Raftery et Lewis (1992a) (voir aussi Raftery et Lewis (1992b)) est plus informatif. Il se base sur les quantiles
de la statistique d'intérêt. L'idée est de construire une chaîne de Markov à deux états à partir d'un quantile
(par exemple, 2,5% et 97,5%) qui permette d'estimer les probabilités de transition et ainsi d'estimer le nombre
de simulations nécessaires pour approcher la stationnarité.
Finalement, les méthodes de Monte-Carlo présentées dans les sections précédentes ne sont valides que si
les éléments de la chaîne de Markov sont i.i.d. Or, l'intuition suggère que les valeurs adjacentes d'une chaîne
de Markov devraient être corrélées positivement. De manière plus générale, le fait que des autocorrélations
d'ordre élevé puissent subsister est problématique si la taille de la chaîne de Markov n'est pas suffisamment
grande. Dans cette perspective, il est nécessaire de vérifier cette propriété ou tout du moins d'éviter une
corrélation trop élevée de la chaîne de Markov à partir de laquelle on déduit les quantités ou statistiques
d'intérêt. Plusieurs procédures ont été suggérées dans la littérature. Nous mentionnons ici deux stratégies.
La première repose sur un facteur correctif à appliquer à la dimension de la chaîne de Markov en présence
d'un degré observé $$ d'autocorrélations\note{43}. Une autre stratégie est de conserver seulement chaque
kième élément de la chaîne de Markov (après avoir supprimé les $$ premiers éléments de la chaine de Markov). Cette
technique est connue sous le nom de sous-échantillonnage, voir Schmeiser (1989), Raftery et Lewis (1992a) ou
Raftery et Lewis (1992b).
3.4 Estimation de la densité marginale
Nous disposons d'une suite de vecteurs de paramètres $$ où chaque $$ est extrait de la
distribution postérieure. À partir de cette suite nous pouvons estimer les moments postérieurs, les densités
prédictives, et finalement la densité marginale de l'échantillon, $$. Cette densité marginale, comme nous
l'avons vu en section 2.1, pemet de quantifier la capacité du modèle à expliquer l'échantillon à notre dis-
position et éventuellement de comparer différents modèles. Par exemple, Rabanal et Rubio Ramirez (2005)
évaluent différentes spécifications des rigidités nominales sur les salaires et les prix dans le cadre d'un mo-
dèle DSGE, en comparant des densités marginales. Il existe de nombreuses méthodes pour estimer $$. Dans cette
section nous présentons la méthode généralement utilisée pour les modèles DSGE.
L'estimateur par la moyenne harmonique est motivé par la propriété suivante de l'espérance postérieure :
<DISPLAY EQUATION ()>
où $$ est une fonction de densité quelconque et $$ est l'espérance postérieure. Le membre de droite de l'égalité,
en utilisant la définition de la densité postérieure, s'écrit alternativement :
<DISPLAY EQUATION ()>
On obtient donc :
<DISPLAY EQUATION ()>
Puisque l'intégrale de $$ somme à un, nous obtenons finalement :
<DISPLAY EQUATION ()>
Ainsi, un estimateur de la densité marginale (l'intégrale du noyau postérieur qui apparaît au dénominateur du
second membre), est l'inverse de l'espérance postérieure de $$. Ceci suggère l'estimateur suivant
de la densité marginale :
<DISPLAY EQUATION ()>
Ce résultat est valable pour toute densité f. Geweke (1992) propose d'utiliser une gaussienne tronquée centrée
sur l'espérance postérieure. L'idée est d'accorder moins de poids, voire d'éliminer, les simulations éloignées
du centre de la distribution postérieure. Cela permet de diminuer la variance de l'estimateur de la densité
marginale.
4 Un DSGE pour le B du VAR
Dans cette section, nous illustrons en quoi les modèles VAR et DSGE sont des outils complémentaires que
l'on ne doit pas nécessairement chercher à opposer. Nous avons vu dans la section 2.4 que la spécification des
croyances a priori sur la paramétrisation d'un VAR ne va pas de soi. En effet, dans la mesure où le contenu
économique d'un modèle VAR est ténu, l'interprétation des paramètres du VAR est délicate, ce qui rend l'éli-
citation des priors ardue. Ingram et Whiteman (1994) proposent d'utiliser un modèle DSGE afin de construire
le prior d'un modèle VAR. Ils montrent qu'en utilisant les restrictions définies par un modèle RBC pour dé-
finir le prior d'un modèle VAR, on peut produire avec ce dernier des prévisions comparables, en termes de
précision, à celles que nous obtiendrions avec un prior Minnesota. Ce résultat est remarquable, car même si le
modèle RBC canonique est mal spécifié dans de nombreuses directions, il impose des restrictions utiles pour
améliorer les prévisions du VAR.
Plus récemment, Del Negro et Schorfheide (2004) ont repris cette idée sous une forme plus simple à mettre
en oeuvre. Leur approche permet d'estimer simultanément les paramètres structurels du DSGE et les para-
mètres du modèle VAR. Nous présentons leur approche dans cette section.
4.1 Les régressions mixtes
Dans la section 2.4.3 nous avons noté, au moins dans le cadre d'un modèle linéaire gaussien, une analogie
entre les priors du paradigme bayésien et les contraintes linéaires sur les paramètres de l'approche classique.
Del Negro et Schorfheide utilisent cette analogie (voir Theil et Golberger (1961), Tiao et Zellner (1964) et Theil
(1971)) pour mettre en oeuvre le prior DSGE. Dans le modèle VAR, on peut définir un prior sur $$ en utilisant
des observations artificielles, cohérentes avec nos croyances, et un prior diffus à la Jeffrey. Par exemple, si ces
observations artificielles sont générées par un modèle DSGE, alors l'estimation sur la base de l'échantillon
augmenté sera attirée vers la projection du DSGE dans l'espace des VAR.
Plus formellement supposons que nous disposions des observations artificielles , où $$ est un
vecteur de paramètres qui définit le processus générateur des données artificielles (ie les croyances a priori).
Comme l'échantillon artificiel est indépendant de $$, la vraisemblance de l'échantillon augmenté s'écrit de la
façon suivante :
<DISPLAY EQUATION (25)>
Le premier terme du membre de droite, si l'échantillon artificiel est de dimension $$ où $$, s'écrit :
<DISPLAY EQUATION (26)>
et, à la lumière de l'avant dernière équation, s'interprète comme un prior pour $$ et $$. La croyance a priori est
d'autant plus informative que l'échantillon artificiel est de grande taille. Quand $$ tend vers l'infini, le poids
de la vraisemblance (le second terme sur le membre de droite de (25)) devient négligeable par rapport au prior
(le premier terme sur le membre de droite de (25)). En complétant le prior, défini avec les données artificielles,
par un prior diffus (ou plat) à la Jeffrey :
<DISPLAY EQUATION ()>
le prior est au final de type normal-Wishart, le prior conjugué dans un modèle linéaire gaussien. En particulier,
$$ est a priori normalement distribué :
<DISPLAY EQUATION ()>
où $$, est l'estimateur des MCO (MV) des paramètres autorégressifs pour l'échantillon artificiel. On voit
immédiatement, en considérant la vraisemblance de l'échantillon augmenté (25), le prior diffus à
la Jeffrey et les résultats de la section 2.4.1, que la distribution a posteriori est de type normale-Wishart :
<DISPLAY EQUATION (27)>
où $$ et $$ sont respectivement les estimateurs du maximum de vraisemblance de $$ et $$, pour
l'échantillon augmenté des données artificielles, $$. En intégrant la densité jointe postérieure
par rapport à $$, on montre que la distribution postérieure marginale de $$ est une distribution de student
matricielle, centrée en $$. Lorsque $$ augmente, $$ se rapproche de $$ ; en effet, on établit facilement
que :
<DISPLAY EQUATION ()>
Ainsi, lorsque le poids du prior augmente, la distribution postérieure du VAR se rapproche de la projection
dans l'espace des VAR du modèle générateur des données cohérent avec nos croyances a priori.
4.2 Le modèle BVAR-DSGE
Del Negro et Schorfheide (2004) proposent, à la suite de Ingram et Whiteman (1994), d'utiliser un modèle
DSGE pour spécifier le prior d'un modèle VAR. Contrairement à ces derniers, Del Negro et Schorfheide uti-
lisent les régressions mixtes décrites dans la section 4.1 , même si en pratique ils ne simulent pas des données.
Afin d'éviter que les résultats puissent varier, à cause des simulations, ils préfèrent remplacer les moments em-
piriques dans (26) par des moments théoriques calculés à partir d'une approximation de Taylor d'ordre un de
la forme réduite (18) du modèle DSGE. Par exemple ils remplacent $$ par la matrice de variance-covariance
des endogènes observées, c'est-à-dire une sous matrice de $$, multipliée par la
taille de l'échantillon artificiel, $$. Pour tout vecteur de paramètres structurels, $$, la définition du prior
du VAR est pratiquement immédiate, il suffit d'écrire la forme réduite du modèle DSGE et de calculer ses
moments asymptotiques. Del Negro et Schorfheide ne se contentent pas d'estimer les paramètres du VAR, ils
estiment simultanément les paramètres du modèle DSGE. Ils spécifient donc un prior joint sur les paramètres
du modèle VAR et les paramètres structurels du modèle DSGE :
<DISPLAY EQUATION ()>
Le prior est conditionnel au paramètre $$ qui spécifie la taille de l'échantillon artificiel relativement à l'échan-
tillon d'origine, c'est-à-dire la quantité relative d'information structurelle a priori. On peut alors utiliser l'algo-
rithme de Metropolis-Hastings pour obtenir la distribution postérieure de $$ (et indirectement de $$ et $$) en
utilisant la densité postérieure du modèle BVAR spécifiée par (27). Ici, la vraisemblance du modèle DSGE n'a
pas à être calculée, ce qui simplifie considérablement l'estimation puisque le filltre de Kalman n'est plus né-
cessaire. Les paramètres du modéle DSGE sont identifiés grâce à la vraisemblance, plus exactement la densité
postérieure, de son approximation VAR. Le modèle VAR joue ici en quelque sorte le même rôle qu'un modèle
auxiliaire en inférence indirecte (voir Gouriéroux et Monfort (1996)).
L'estimation de $$ (et donc de $$ et $$) est conditionnelle aux choix de $$, le nombre de retards dans le VAR,
et $$, la quantité relative d'information structurelle a priori dans le VAR. Il convient de choisir un nombre de re-
tard assez grand pour que le modèle VAR puisse être une approximation acceptable du modèle DSGE. En effet
la forme réduite (18) approximée du modèle DSGE n'appartient pas à la famille des modèles VAR, il faudrait
un nombre de retard infini pour approximer au mieux le modèle DSGE\note{44}. Del Negro et Schorfheide estiment
un VAR décrivant l'inflation, le taux d'intérêt et le taux de croissance du produit. Ils affirment qu'un VAR(4)
permet une approximation satisfaisante de leur modèle DSGE. Le choix de $$ est plus délicat, en variant ce
paramètre de zéro à l'infini, on passe d'un prior diffus (l'espérance postérieure de $$ est alors l'estimateur du
MV) à un prior trés informatif (l'espérance postérieur de A tend vers $$ les contraintes DSGE sur
les paramètres du modèle VAR). Del Negro et Schorfheide proposent d'estimer plusieurs modèles pour une
grille de valeurs de $$. Ils choisissent alors le modèle, c'est-à-dire la valeur de $$, qui maximise la densité margi-
nale. Ils sélectionnent le modèle dont la qualité d'ajustement est la meilleure. Del Negro et al. (2007) utilisent
le BVAR-DSGE pour estimer le modèle de Smets et Wouters (2002), ils obtiennent $$. Ils montrent ainsi
que les restrictions apportées par le modèle de Smets et Wouters sont utiles pour améliorer les performances
du modèle VAR. Cette procédure est relativement compliquée à mettre en oeuvre. Pour chaque valeur de $$ il
faut s'assurer de la convergence de l'algorithme de Metropolis-Hastings, afin d'estimer la densité marginale\note{45}.
Plus haut nous avons noté l'analogie entre le choix d'un modèle dans une collection de modèles et l'estimation
d'un paramètre dont les valeurs seraient discrêtes. Une approche plus directe est d'associer une distribution
a priori à $$ puis d'estimer ce paramètre (avec les paramètres structurelles $$). Il faut alors définir un prior joint
sur $$, $$, $$ et $$ :
<DISPLAY EQUATION ()>
Adjemian et Darracq-Pariès (2007) estiment une version deux pays du modèle de Smets et Wouters , avec le
modèle BVAR-DSGE, en posant un prior uniforme (entre 0 et 10) pour le paramètre $$. Ils obtiennent une
distribution postérieure de $$ centrée sur 2,5. Il n'est pas surprenant d'obtenir dans ce cas une valeur de $$
largement supérieure. La version deux pays du modèle de Smets et Wouters est estimée avec un VAR compre-
nant dix-huit variables observables, alors que Del Negro et al. (2007), pour la version un pays, ne considèrent
que sept variables. Avec dix-huit variables, les restrictions structurelles deviennent plus nécessaires, même si
le modèle n'est pas mieux spécifié.
4.3 Usages et avantages du BVAR-DSGE
Del Negro et Schorfheide (2004) et surtout Del Negro et al. (2007) présentent le modèle BVAR-DSGE comme
un outil d'évaluation de la qualité d'ajustement d'un modèle DSGE. Pour ces derniers la valeur de $$, le poids
du prior structurel, donne une idée de l'intérêt empirique du modèle. Si les restrictions structurelles définies
par le modèle DSGE sont pertinentes, alors la procédure sélectionne une valeur élevée de $$. Si le modèle ap-
porte des informations totalement incohérentes avec les données alors la procédure sélectionne une valeur
proche de zéro. Malheureusement cette mesure n'a pas d'échelle et nous ne savons pas à partir de quelle
valeur de $$ on peut dire que le modèle apporte des informations pertinentes. Un autre problème est que ce
paramètre ne mesure pas la qualité d'ajustement du modèle DSGE, il nous donne la quantité optimale, au
sens du fit du modèle BVAR, d'information DSGE qu'il faut incorporer dans le prior du VAR. Del Negro et al.
(2007) utilisent le BVAR-DSGE afin de dévoiler les éventuelles mauvaises, spécifications d'un modèle DSGE.
Or le niveau optimal de $$ ou la densité marginale, $$, du modèle DSGE ne sauraient donner une idée
précise des directions dans lesquels le modèle est insatisfaisant puisque ces deux indicateurs donnent des in-
formations trop agrégées. Les quatre auteurs recherchent les directions dans lesquels le modèle DSGE est mal
spécifié en comparant les fonctions de réponses (IRF) du modèle BVAR-DSGE avec celles du modèle DSGE.
Ils identifient les chocs structurels dans le modèle BVAR-DSGE en se fondant sur le modèle DSGE (17). À
partir de la forme rÉduite (18) il est possible de calculer l'impact instantannÉ de chaque choc structurel sur les
variables observables :
<DISPLAY EQUATION ()>
oÙ Z est une matrice de sélection définie dans l'équation de mesure (19a). Del Negro et Schorfheide uti-
lisent cette information pour indentifier les innovations structurelles dans le modèle BVAR (se reporter à
Del Negro et Schorfheide (2004) pour les détails). Même si le BVAR-DSGE est construit sur la base (au moins
partiellement) d'une information structurelle provenant du DSGE, ce modèle est moins contraint que le mo-
dèle DSGE. Ainsi, l'observation d'une différence significative entre les IRFs du BVAR-DSGE et celles du mo-
dèle DSGE conduit Del Negro et al. (2007) à identifer les directions dans lesquelles le modèle DSGE est mal
spécifié. Par exemple, les quatre auteurs observent que les réponses du produit, de la consommation et des
heures face à un choc de préférence (sur la désutilité du travail) sont plus persistentes dans le BVAR-DSGE que
dans le DSGE. Ils concluent alors que le modèle DSGE manque de mécanismes de propagation des chocs sur
l'offre de travail. Cet exercice de comparaison entre BVAR-DSGE et DSGE peut être mis en oeuvre en utilisant
des statistiques autres que des fonctions de réponse : décompositions de variance des variables observées,
moments théoriques des variables observées,... La limite de l'exercice est que les conditions d'identification
des chocs dans le BVAR sont directement dérivées du modèle DSGE. Si nous n'observons pas de grandes dif-
férences entre les IRFs du BVAR-DSGE et celles du DSGE c'est peut être parce que nous utilisons les mêmes
conditions d'identifications. Ce problème ne se pose pas si on compare des statistiques qui ne reposent pas
sur des conditions d'identification, par exemple si on compare des moments (variances, fonction d'autocorré-
lation,...).
L'avantage du modèle BVAR-DSGE est plus évident en termes de prévisions. Tout modèle est, par nature,
mal spécifié dans une multitude de directions. Malgré cette limite intrinséque les modèles apportent souvent
des informations utiles et pertinentes. L'expérience de Ingram et Whiteman (1994) est, à cet égard, des plus
éclairantes. Ils montrent que même le plus stylisé des modèles DSGE (le modèle de cycle réel canonique)
est suffisament riche pour aider un BVAR à produire des prévisions plus précises et moins biaisées. Un mo-
dèle que personne ne voudrait utiliser pour produire des prévisions peut aider un modèle a-théorique (plus
souple) à produire de meilleures prévisions. Cette idée pourrait être développée dans de nombreuses direc-
tions. Nous pourrions par exemple utiliser plusieurs modèles DSGE pour construire le prior d'un modèle
VAR (ou de tout autre modèle a-théorique, par exemple un modèle à facteurs communs) et optimiser les parts
de chaque modèle dans le prior du VAR.
Références
Stéphane Adjemian et Matthieu Darracq-Pariès. Assessing the International Spillovers Between the US and
Euro Area : Evidence from a two country dsge-var. miméo, CEPREMAP, 2007.
Sungbae An et Frank Schorfheide. Bayesian Analysis of DSGE Models. Econometric Reviews, forthcoming,
2007.
C. Andrieu, A. Doucet, et P.B. Robert. Computational Advances for and from Bayesian Analysis. Statistical
Science, 19(1): 118-127, 2004a.
C. Andrieu, D. Doucet, S.S. Singh, et V.B. Tadi?
c. Particle Methods for Change Detection, System Identi?cation,
and Control. IEEE Transactions on Signal Processing, 92(3) :423-438, 2004b.
S. Arulampalam, T. Clapp, N. Gordon, et S. Maskell. Tutorial on Particle Filters. IEEE Transactions on Signal
Processing, 50(2) :174-188, 2002.
Ben Bernanke. Alternative Explanations of the Money-Income Correlation. Carnegie Rochester Conference Series
on Public Policy, 25(10) :49?99, 1986.
Herman J. Bierens. Econometric Analysis of Linearized Singular Dynamic Stochastic General Equilibrium
Models. Journal of Econometrics, 136(2) :595?627, 2007.
Olivier Blanchard et Danny Quah. The Dynamic Effects of Aggregate Demand and Supply Disturbances. The
American Economic Review, 79 :655?673, 1986.
S.P. Brooks et G. Roberts. Assessing Convergence of Markov Chain Monte Carlo Algorithms. Statistics and
Computing, 8 :319?335, 1998.
John Y. Campbell. Inspecting the Mechanism : An analytical approach to the stochastic growth model. Journal
of Monetary Economics, 33 :463?508, 1994.
Fabio Canova. Statistical Inference in Calibrated Models. Journal of Applied Econometrics, 9 :123?144, 1994.
B. Carlin et T. Louis. Bayes and Empirical Bayes Methods for Data Analysis. Chapman & Hill, 2000.
33
George Casella et Christian Robert. Monte Carlo Statistical Methods. Springer, 2004.
Nicolas Chopin et Florian Pelgrin. Bayesian Inference and State Number Determination for Hidden Markov
Models : An Application to the Information Content of the Yield Curve about In?ation. Journal of Econome-
trics, 123(2) :327?344, 2004.
Lawrence Christiano, Martin Eichenbaum, et Charles Evans. Nominal Rigidities and the Dynamic Effects of a
Schock to Monetary Policy. Journal of Political Economy, 113 :1?45, 2003.
M.K. Cowles et B.P. Carlin. Markov Chain Monte Carlo Convergence Diagnostics : A Comparative Study.
Journal of the American Statistical Association, 91 :883?904, 1996.
David Dejong, Beth F. Ingram, et Charles H. Whiteman. A Bayesian Approach to Calibration. Journal of
Business and Economic Statistics, 14(1) :1?9, 1996.
David Dejong, Beth F. Ingram, et Charles H. Whiteman. A Bayesian Approach to Dynamic Macroeconomics.
Journal of Econometrics, 98(21) :203?223, 2000.
Marco Del Negro et Frank Schorfheide. Priors from General Equilibrium Models for Vars. International Eco-
nomic Review, 45(2) :643?673, 2004.
Marco Del Negro, Frank Schorfheide, Frank Smets, et Raf Wouters. On the Fit and Forecasting Performance
of New Keynesian Models. Journal of Business and Economic Statistics, page forthcoming, 2007.
Ramdan Dridi, Alain Guay, et Eric Renault. Indirect Inference and Calibration of Dynamic Stochastic General
Equilibrium Models. Journal of Econometrics, 136(2) :397?430, 2007.
Jes?s Fern?ndez-Villaverde et Juan F. Rubio-Ram?rez. Estimating Dynamic Equilibrium Economies : Linear
versus NonLinear Likelihood. Journal of Applied Econometrics, 20(7) :891?910, 2005.
Jesus Fern?ndez-Villaverde et Juan F. Rubio-Ram?rez. Comparing Dynamic Equilibrium Economies to Data.
Working Paper 2001-23, Federal Reserve Bank of Atlanta, 2001.
A.E. Gelfand et A.F.M. Smith. Sampling Based Approaches to Calculating Marginal Densities. Journal of the
American Statistical Association, 85 :398?409, 1990.
Andrew Gelman et Donald B. Rubin. Inference from Iterative Simulations Using Multiple Sequences. Statis-
tical Science, 7(4) :457?472, 1992.
John Geweke. Evaluating the Accuracy of Sampling-based Approaches to the Calculation of Posterior Mo-
ments. dans , ?dit? par , Oxford University Press, pages 169?193, 1992.
John Geweke. Using Simulation Methods for Bayesian Econometric Models : Inference, Development and
Communication. Econometric Reviews, 18(1) :1?126, 1999.
N. Gordon, D.J. Salmond, et A.F.M. Smith. Novel Approach to NonLinear and Non-Gaussian Bayesian State
Estimation. IEEE Transactions on Signal Processing, 40(2) :107?113, 1993.
Christian Gouri?roux et Alain Monfort. Simulation Based Econometric Methods. Oxford University Press, 1996.
Christian Gouri?roux et Alain Monfort. Statistique et Mod?les ?conom?triques, volume 1 - Notions g?n?rales,
Estimation, Pr?visions, Algorithmes. Economica, 1989.
Andrew C. Harvey. Forecasting, structural time series models and the Kalman ?lter. Cambridge University Press,
1989.
Beth F. Ingram et Charles H. Whiteman. Supplanting the Minnesota Prior. Forecasting macroeconomic time
series using real business cycle model. Journal of Monetary Economics, 34 :497?510, 1994.
34
Harold Jeffrey. The Theory of Probability. Clarendon Press, 1961.
Kenneth L. Judd. Numerical Methods in Economics. MIT, 1998.
George G. Judge, W.E. Grif?ths, R. Carter Hill, Helmut L?tkpohl, et Tsoung-Chao Lee. The Theory and Practice
of Econometrics. John Wiley & Sons, 1985.
K. Rao Kadiyala et Sune Karlsson. Numerical Methods for Estimation and Inference in Bayesian VAR-Models.
Journal of Applied Econometrics, 12(2) :99?132, 1997.
Jae-Young Kim. Large Sample Properties of Posterior Densities, Bayesian Information Criterion and the Like-
lihood Principle in Nonstationary Time Series Models. Econometrica, 66(2) :359?380, 1998.
G. Kitagawa. Monte Carlo Filter and Smoother for Non-Gaussian NonLinear State Space Models. Journal of
Computational and Graphical Statistics, 5(1) :1?25, 1996.
Gary Koop. Bayesian Econometrics. John Wiley & Sons, 2003.
Finn Kydland et Edwards Prescott. Time to Build and Aggregate Fluctuations. Econometrica, 50 :1345?1370,
1982.
R. B. Litterman. Forecasting with Bayesian Vector Autoregressions ? ?ve years of experience. Journal of
Business & Economic Statistics, 4(1) :25?38, 1986.
C. Liu, J.S. Liu, et Donald B. Rubin. A Varational Control Variable for Assessing the Convergence of the Gibbs
Sampler. Proceedings of the American Statistical Association, pages 74?78, 1992.
Peter C. B. Phillips. Econometric Model Determination. Econometrica, 64(4) :763?812, 1996.
Peter C.B. Phillips. To Criticize the Critics : An Objective Bayesian Analysis of Stochastic Trends. Journal of
Applied Econometrics, 6(4) :333?64, 1991a.
Peter C.B. Phillips. Bayesian Routes and Unit Roots : De rebus prioribus semper est disputandum. Journal of
Applied Econometrics, 6(4) :435?73, 1991b.
D. Poirier. Intermediate Statistics and Econometrics : A Comparative Approach. Cambridge, The MIT Press, 1995.
Pau Rabanal et Juan F. Rubio Ramirez. Comparing New Keynesian Models of the Business Cycle : a bayesian
approach. Journal of Monetary Economics, 6 :1151?1166, 2005.
A.E. Raftery et S. Lewis. Implementing MCMC. dans Markov Chain Monte Carlo in Practice, ?dit? par W.R. Gilks,
S.T. Richardson et D.J. Spiegelhalter, Chapman & Hall, pages 115?130, 1996.
A.E. Raftery et S. Lewis. How Many Iterations in the Gibbs Sampler ? dans Bayesian Statistics, ?dit? par J.M.
Bernando, J.O. Berger, A.P. David et A.F.M. Smith, Oxford University Press, pages 763?773, 1992a.
A.E. Raftery et S. Lewis. The Number of Iterations, Convergence Diagnostics and Generic Metropolis Algo-
rithms. Technical report, Department of Statistics, University of Washington, 1992b.
Christian Robert. Le Choix Bay?sien. Springer, 2006.
G.O. Roberts. Convergence Diagnostics of the Gibbs Sampler. dans Bayesian Statistics, ?dit? par J.M. Bernando,
J.O. Berger, A.P. David et A.F.M. Smith, Oxford University Press, pages 775?782, 1992.
Julio Rotemberg et Michael Woodford. An Optimization-Based Econometric Framework for the Evaluation of
Monetary Policy. NBER Macroeconomics Annual, 12 :297?346, 1997.
B. Schmeiser. Simulation Experiments. Working Paper SMS 89-23, Purdue University, 1989.
35
Christopher Sims. Probability Models for Monetary Policy Decisions. mim?o, Princeton University, Septembre
2003.
Christopher Sims. Macroeconomics and Reality. Econometrica, 48(1) :1?48, 1980.
Christopher Sims. Are Forecasting Models Usable for Policy Analysis. Federal Reserve Bank of Minneapolis
Quarterly Review, 10(1) :2?16, 1986.
Christopher Sims. Comment on 'To Criticize the Critics,' by Peter C.B. Phillips. Journal of Applied Econometrics,
6(4) :423?34, 1991.
Christopher A Sims et Harald Uhlig. Understanding Unit Rooters : a Helicopter Tour. Econometrica, 59(6) :
1591?99, 1991.
Frank Smets et Rafael Wouters. An Estimated Stochastic Dynamic General Equilibrium Model of the Euro
Area. Working Paper Series 171, European Central Bank, Ao?t 2002.
Anthony Smith. Estimating NonLinear Time-Series Models Using Simulated Vector Autoregressions. Journal
of Applied Econometrics, 8 :63?84, 1993.
Henri Theil. Principles of Econometrics. John Wiley & Sons, 1971.
Henri Theil et Arthur S. Golberger. On Pure and Mixed Statistical Estimation in Economics. International
Economic Review, 2(1) :65?78, 1961.
George C. Tiao et Arnold Zellner. Bayes Theorem and the Use of Prior Knowledge in Regression Analysis.
Biometrika, 51(162) :219?230, 1964.
L. Tierney, R. Kass, et J. Kadane. Fully Exponential Laplace Approximations to Expectations and Variances of
NonPositive Functions. Journal of the American Statistical Association, 84 :710?716, 1989.
Luke Tierney. Markov Chains for Exploring Posterior Distributions. The Annals of Statistics, 22(4) :1701?1762,
1994.
Luke Tierney et Joseph B. Kadane. Accurate Approximations for Posterior Moments and Marginal Density.
Journal of the American Statistical Association, 81(393) :82?86, 1986.
B. Yu et P. Mykland. Looking at Markov Samplers through Cusum Path Plots : A Simple Diagnostic Idea.
Statistics and Computing, 8(3) :275?286, 1998.
Arnold Zellner. An Introduction to Bayesian Inference in Econometrics. John Wiley & Sons, 1971.
A Densités pour le modèle BVAR
A.1 Distribution normale matricielle
définition 4. La matrice $$ aléatoire $$ est distribuée conformément à une loi normale matricielle $$ où
$$ est une matrice $$, $$ et $$ sont respectivement des matrices $$ et $$ symétriques et définies positives, si
et seulement si $$ est distribué comme une v.a. normale multivariée
<DISPLAY EQUATION ()>
Ainsi, la fonction de densité associée à $$ est donnée par :
<DISPLAY EQUATION ()>
A.2 Distributions de Wishart
La loi de Wishart est une version multivariée de la loi du $$. Soit $$ une suite de variables aléatoires
gaussiennes indépendantes et identiquement distribuées $$, avec $$ une matrice symétrique définie po-
sitive $$. Par définition $$ est distribué selon une loi de Wishart. Les définitions suivantes
caractérisent cette loi et la densité de l'inverse d'une v.a. de Wishart.
définition 5. La matrice aléatoire, de dimension $$, symétrique et semi définie positive Y est distribuée selon une
loi de Wishart, $$, si et seulement si sa densité est donnée par
<DISPLAY EQUATION ()>
pour $$ une matrice symétrique semie définie positive, et $$ le degré de liberté.
définition 6. Une matrice aléatoire, de dimension $$, $$ est distribuée selon une loi inverse Wishart,
<DISPLAY EQUATION ()>
si et seulement si $$.
Ainsi la fonction de densité associée à $$ est définie par :
<DISPLAY EQUATION ()>