1336 lines
96 KiB
Plaintext
1336 lines
96 KiB
Plaintext
Un regard Bayésien sur les Modèles Dynamiques de la Macroéconomie
|
|
|
|
Stéphane Adjemian\note{stephane.adjemian@ens.fr}
|
|
|
|
Université du Maine, GAINS et CEPREMAP
|
|
|
|
Florian Pelgrin\note{florian.pelgrin@unil.ch}
|
|
|
|
Université de Lausanne - HEC, IEMS et CIRANO
|
|
|
|
3 décembre 2007
|
|
|
|
Résumé
|
|
|
|
L'objet de cette contribution est de présenter l'approche bayésienne des modèles dynamiques les plus
|
|
considérés en macroéconomie : les modèles DSGE (Dynamic Stochastic General Equilibrium) et les modèles
|
|
VAR.
|
|
|
|
Classification JEL : C3, C5, E3
|
|
Mots-Clefs : Économétrie Bayésienne, Modèles VAR, Modèles DSGE.
|
|
|
|
|
|
1 Introduction
|
|
|
|
Ces dernières années, l'analyse des fluctuations économiques s'est
|
|
développée autour des Modèles d'équilibre Général Inter-temporels
|
|
Stochastiques (DSGE). Pour au-
|
|
tant, jusqu'à très récemment, l'engouement pour l'approche DSGE comme
|
|
outil d'analyse de la politique économique est demeure relativement
|
|
faible, et l'approche des modèles Vectoriels Auto-régressif (VAR) a été
|
|
(est) souvent privilégiée. Plusieurs raisons expliquent cette
|
|
préférence. D'une part, la modélisation VAR de la dynamique des
|
|
variables macro-économiques impose un nombre très restreint de
|
|
contraintes et offre une qualité d'ajustement aux données (et des
|
|
prévisions) relativement bonne. Au contraire, en augmentant le nombre
|
|
de contraintes sur les données, encourant ainsi le risque d'une
|
|
mauvaise spécification, les modèles DSGE de la première génération
|
|
(les modèles de la théorie des cycles réels) se sont traduits par des
|
|
performances d'ajustement et de prévisions très pauvres. D'autre part,
|
|
l'émergence d'une approche plus structurelle des modèles VAR (par
|
|
rapport à l'approche a-théorique, Sims (1980)) -- autorisant des
|
|
procédures d'identification des chocs à partir de restrictions
|
|
contemporaines, de court terme (Sims (1986) ; Bernanke (1986)) ou de
|
|
long terme (Blanchard et Quah (1986)) -- ont conduit à exiger que tout
|
|
modèle théorique puisse reproduire les fonctions de réponse des
|
|
variables macro-économiques à des chocs structurels identifiés dans
|
|
les modèles VAR (Rotemberg et Woodford (1997), Christiano et
|
|
al. (2003)). Finalement, l'absence d'un traitement économétrique
|
|
convaincant n'a fait que renforcer la recommandation de Kydland et
|
|
Prescott (1982) -- l'étalonnage est préférable.
|
|
|
|
Cependant, on a constaté un regain d'intérêt des modèles DSGE et cela
|
|
essentiellement pour deux raisons : (i) les avancées théoriques et
|
|
notamment la prise en compte de fondements micro-économiques des
|
|
rigidités nominales et/ou réelles (ii) les progrès dans l'estimation
|
|
et l'évaluation des modèles sur la base de méthodes statistiques
|
|
formelles\note{1}. Dans cette perspective, l'idée suivant laquelle de
|
|
tels modèles sont utiles pour la pré- vision et l'analyse de la
|
|
politique économique s'est répandue dans le milieu académique ainsi
|
|
qu'auprès des institutions internationales et des banques
|
|
centrales. Parmi toutes ces approches économétriques, la littérature
|
|
privilégie, pour de << bonnes >> et << mauvaises >> raisons, la
|
|
statistique bayésienne. Parmi les << bonnes >> rai- sons, nous
|
|
pourrions souligner le fait que la fonction de vraisemblance d'un
|
|
modèle de dimension élevée (de nombreux paramètres à estimer) est
|
|
souvent << plate >> dans certaines directions. En d'autres termes, les
|
|
données peuvent être insuffisamment informatives pour identifier (avec
|
|
précision) les paramètres. En déformant la fonction de vraisemblance à
|
|
l'aide d'informations a priori sur les paramètres, c'est-à-dire en
|
|
privilégiant une approche bayésienne, l'identification devient
|
|
possible. Il est néanmoins trop souvent ignoré que la mise en oeuvre
|
|
et l'interprétation des résultats de l'estimation bayésienne
|
|
requièrent un certain nombre d'hypothèses et de conditions de
|
|
validité, ou que nombre de problèmes rencontrés en économétrie
|
|
classique ont leur contrepartie en économétrie bayésienne. Toujours
|
|
est-il que l'approche bayésienne a considérablement favorisé le
|
|
développement des modèles DSGE comme outil d'analyse et de prévision
|
|
de la politique monétaire. Dans le même temps, il n'en demeure pas
|
|
moins que les modèles DSGE et VAR continuent à être opposés et que
|
|
nombre de papiers cherchent généralement à légitimer leurs résultats
|
|
en comparant, par exemple, les prévisions (ou tout autre statistique
|
|
ou quantité d'intérêt) de leur(s) modèle(s) avec ceux d'un VAR (Smets
|
|
et Wouters (2002)).
|
|
|
|
L'objet de ce papier est de présenter l'approche bayésienne des
|
|
modèles VAR et DSGE en mettant en avant les principaux concepts, leur
|
|
mise en oeuvre pratique et les limites sous-jacentes. Nous montrons en
|
|
quoi les modèles DSGE et VAR sont des outils complémentaires que l'on
|
|
ne doit pas nécessairement chercher à opposer. Nous n'abordons pas ici
|
|
certains problèmes importants, comme l'estimation non linéaire des
|
|
modèles DSGE\note{2}.
|
|
|
|
L'article est organisé comme suit. Dans une première section, nous présentons les principaux concepts de
|
|
l'analyse bayésienne et montrons comment les appliquer dans le cadre des modèles VAR. Une attention par-
|
|
ticulière est attachée à la nature (informative, non informative, empirique) des croyances a priori. Dans une
|
|
deuxième section, nous abordons les spécificités de l'approche bayésienne des modèles DSGE. Contrairement
|
|
aux modèles VAR, il n'est plus possible d'obtenir une expression analytique de la distribution a posteriori.
|
|
Pour remédier à cette difficulté, il est nécessaire de recourir à des méthodes de Monte-Carlo et notamment
|
|
à la théorie des chaînes de Markov. Dans cette perspective, après avoir dérivé de manière générale la
|
|
densité a posteriori d'un modèle DSGE, nous expliquons les principaux algorithmes d'estimation (algorithme
|
|
de Metropolis-Hasting, par fonction d'importance). Dans une troisième section, nous illustrons comment
|
|
peuvent se combiner les approches VAR et DSGE.
|
|
|
|
|
|
2 L'approche Bayésienne
|
|
|
|
2.1 Généralités
|
|
|
|
L'approche bayésienne propose un cadre rigoureux pour (i) formaliser nos croyances\note{3} a priori et (ii)
|
|
déterminer comment celles-ci doivent être mises à jour une fois que les données sont observées. Les croyances,
|
|
a priori ou a posteriori, sont représentées à l'aide d'une densité de probabilité jointe sur les paramètres d'un
|
|
modèle. Cette densité jointe caractérise l'incertitude quant au processus générateur des données (DGP, pour
|
|
Data Generating Process), en décrivant une famille (un continuum) de modèles.
|
|
|
|
Imaginons que nous souhaitions caractériser nos croyances sur le paramètre de Calvo d'une courbe de
|
|
Phillips. Ce paramètre, $$ , est la probabilité pour une firme, en concurrence monopolistique, de ne pas pou-
|
|
voir ajuster son prix de façon optimale à une date quelconque. Ainsi, nous savons déjà que ce paramètre doit
|
|
appartenir à l'intervalle $$. Nous pourrions donc utiliser une distribution bêta\note{4} définie sur cet intervalle.
|
|
A partir de la probabilité $$ , nous pouvons définir le temps moyen pendant lequel une firme ne pourra pas
|
|
ajuster son prix de façon optimale : $$. Si par ailleurs, à l'aide d'enquêtes micro-économiques, nous
|
|
savons que le temps moyen durant lequel une firme ne réajuste pas son prix de façon << optimale >> est de
|
|
quatre trimestres, nous pouvons déduire qu'une valeur pertinente de la probabilité $$ est trois quarts.
|
|
L'économiste bayésien pourra donc formaliser son a priori sur le paramètre $$ en sélectionnant une distribution
|
|
bêta ayant pour mode $$ et en spécifiant une variance mesurant son incertitude sur le paramètre d'intérêt. Il
|
|
choisira une variance d'autant plus grande qu'il est incertain des évaluations micro-économiques dont il dis-
|
|
pose\note{5}. Notons qu'il pourrait directement poser son a priori sur le délai moyen d'attente avant qu'il
|
|
ne puisse optimalement ajuster son prix, $$; ceci résultera en une distribution différente pour le paramètre $$.
|
|
Si $$ est le seul paramètre du modèle pour lequel nous sommes incertain, ie si les autres paramètres ont des variances
|
|
a priori nulles, la densité a priori sur ce paramètre décrit une famille de DGP, indexée par $$ : chaque valeur
|
|
possible de $$ correspond à un DGP.
|
|
|
|
Plus généralement, nous noterons l'a priori sur un vecteur de paramètres $$ associé à un modèle paramé-
|
|
trique $$, $$ ,de la façon suivante :
|
|
<DISPLAY EQUATION (1)>
|
|
Cette densité jointe définit notre incertitude quant aux paramètres $$ avant que nous ayons porté attention
|
|
aux données. Il convient de noter que nous raisonnons conditionnellement à un modèle. En toute généralité
|
|
l'incertitude pourrait aussi porter sur la forme du modèle paramétrique $$. Plus loin nous omettrons
|
|
généralement le conditionnement (ainsi que l'indexation) par le modèle pour simplifier les notations.
|
|
|
|
Nous observons un échantillon $$ où $$ est un vecteur de m variables. Nous nous limiterons
|
|
au cas où l'indice t représente le temps. La vraisemblance est la densité de l'échantillon conditionnellement
|
|
au modèle et ses paramètres ; on notera :
|
|
<DISPLAY EQUATION (2)>
|
|
L'estimateur du maximum de vraisemblance (MV) des paramètres $$ d'un modèle $$ est la valeur des pa-
|
|
ramètres qui rend le plus << probable >> l'occurrence de l'échantillon à notre disposition. Autrement dit, l'es-
|
|
timateur du MV sélectionne le paramètre $$ définissant le DGP qui a le plus probablement généré les don-
|
|
nées. La démarche statistique, classique ou bayésienne, est une démarche d'inversion -- il s'agit de remonter
|
|
des observations aux paramètres du DGP. Un modèle (la vraisemblance) définit la densité d'un ensemble de
|
|
variables conditionnellement à des paramètres inconnus. L'observation de l'échantillon donne en retour de
|
|
l'information sur les paramètres. La notation définie par l'équation (2) résume le principe de l'inférence ; la
|
|
vraisemblance est la densité de l'échantillon $$ sachant les paramètres $$ mais nous écrivons habituellement
|
|
la vraisemblance comme une fonction des paramètres, ie. formellement nous échangeons les rôles de $$ et $$.
|
|
|
|
Nous disposons des densités $$, qui caractérise l'information postulée a priori, et $$, qui
|
|
caractérise l'information amenée par les données. On croise ces deux sources d'informations orthogonales, en
|
|
utilisant le théorème de Bayes, pour obtenir la densité de $$ sachant les données $$, ie la densité postérieure :
|
|
<DISPLAY EQUATION (3)>
|
|
avec
|
|
<DISPLAY EQUATION (4)>
|
|
la densité marginale. Ainsi, la densité postérieure est proportionnelle à la densité a priori multipliée par la
|
|
vraisemblance :
|
|
<DISPLAY EQUATION ()>
|
|
Puisque le dénominateur dans (3), la densité marginale, ne dépend pas de $$, l'inférence sur les paramètres,
|
|
par exemple l'évaluation de l'espérance postérieure, peut être mise en oeuvre à l'aide du seul noyau posté-
|
|
rieur, $$. On représente nos croyances a posteriori en exhibant les propriétés de la distribution a
|
|
posteriori. Nous pouvons représenter graphiquement la densité postérieure marginale de chaque paramètre $$,
|
|
construire des intervalles contenant $$ de la distribution postérieure, ou encore calculer des moments a pos-
|
|
teriori. Par exemple, la comparaison des variances a priori et a posteriori peut nous renseigner sur l'information
|
|
apportée par les données, relativement à celle contenue dans nos croyances a priori. Les variances de chaque
|
|
paramètre sont définies à partir des éléments diagonaux des matrices suivantes :
|
|
<DISPLAY EQUATION ()>
|
|
et
|
|
<DISPLAY EQUATION ()>
|
|
Si la variance postérieure d'un paramètre est plus faible que sa variance a priori cela signifie que les données
|
|
apportent une information supplémentaire sur ce paramètre, relativement à l'information a priori. Dans cer-
|
|
tains cas, il est possible d'obtenir analytiquement la densité postérieure et ses moments\note{6} ; nous verrons un
|
|
exemple dans la section suivante. Plus généralement, il est nécessaire de recourir à des algorithmes numériques,
|
|
pour caractériser la distribution postérieure, ie pour évaluer les intégrales nécessaires au calcul des
|
|
moments.
|
|
|
|
Pour communiquer nos croyances a posteriori on désire souvent recourir à un média plus synthétique en
|
|
résumant, à l'image de l'approche classique, la distribution postérieure par un point. On parle alors
|
|
d'estimation ponctuelle. Réduire la distribution postérieure à un point s'apparente à un choix en univers incertain. Il
|
|
est donc naturel de construire une estimation ponctuelle en minimisant l'espérance postérieure d'une fonction
|
|
de perte :
|
|
<DISPLAY EQUATION (5)>
|
|
où $$ est une fonction associant une perte au choix $$ si la vraie valeur du paramètre est $$. Si, par exemple,
|
|
la fonction de perte est quadratique\note{7} :
|
|
<DISPLAY EQUATION ()>
|
|
alors on montre (Zellner , 1971 , page 24) que l'estimation ponctuelle doit être l'espérance postérieure de $$.
|
|
D'autres fonctions de perte aboutiront à d'autres estimations ponctuelles. La médiane postérieure peut être
|
|
rationalisée en considérant la fonction de perte $$ ; plus généralement on peut exhiber une fonction de perte
|
|
pour justifier l'utilisation de chaque quantile de la distribution comme une estimation ponctuelle.
|
|
|
|
Tant que l'inférence porte sur les paramètres d'un modèle, nous pouvons mettre de côté la constante d'intégration,
|
|
$$. Cependant, la densité marginale contient une information pertinente si nous désirons
|
|
comparer différents modèles. En effet, celle-ci nous renseigne sur la densité de l'échantillon conditionnelle-
|
|
ment au modèle. L'interprétation de sa définition (4) est directe : la densité marginale est une moyenne des
|
|
vraisemblances, obtenues pour différentes valeurs des paramètres, pondérées par nos croyances a priori sur
|
|
les valeurs de ces paramètres. Comme cette quantité ne dépend pas des paramètres, puisque nous avons inté-
|
|
gré le noyau postérieur par rapport aux paramètres pour l'obtenir, elle autorise facilement la comparaison de
|
|
modèles non emboîtés\note{8}. Par exemple, si nous disposons de deux modèles alternatifs, $$ et $$, pour expliquer
|
|
les données et si nous obtenons $$, alors cela signifie que les données à notre disposition ont
|
|
plus probablement été générées par le modèle $$ que par le modèle $$. Cette approche ne fournit pas un test
|
|
formel, pour prendre une décision il faut spécifier un critère de perte\note{9}. Ici, nous supposons implicitement que
|
|
nous n'avons pas de << préférence >> a priori pour un des deux modèles. En toute généralité nous pourrions
|
|
définir une densité de probabilité (discrète) a priori pour les modèles $$. Par exemple, nous pourrions
|
|
supposer que $$ a priori. Par le théorème de Bayes, nous obtenons la probabilité a posteriori du
|
|
modèle $$ :
|
|
<DISPLAY EQUATION ()>
|
|
L'interprétation est directe, il s'agit d'une version discrète des équations (3) et (6). Si nous devons sélectionner
|
|
un modèle, notre préférence ira au modèle qui maximise la densité postérieure. L'élicitation d'une densité de
|
|
probabilité a priori sur la collection de modèles n'est pas une chose aisée ; on ne peut associer une probabilité à
|
|
un modèle de la même façon que l'on pose une densité a priori sur le paramètre de Calvo d'une courbe de Phil-
|
|
lips. C'est pourquoi une densité de probabilité uniforme est souvent utilisée dans la littérature concernée par
|
|
l'estimation des modèles DSGE. Pour une revue des enjeux de la comparaison de modèles, on peut lire Robert
|
|
(2006 , chapitre 7) ou Sims (2003). Enfin, notons que la comparaison de différents modèles, par l'intermédiaire
|
|
de leurs densités marginales, ne doit pas nécessairement aboutir à un choix. Dans certaines situations, il peut
|
|
être souhaitable de combiner plusieurs modèles, en les pondérant par leurs densités marginales respectives\note{10}.
|
|
|
|
Après l'estimation, le modèle peut être utilisé pour construire des prévisions et des fonctions de réponse.
|
|
À l'image de l'estimation des paramètres, le paradigme bayésien ne fournit pas en premier lieu des prévisions
|
|
ponctuelles mais des densités prédictives. Supposons que nous souhaitions établir des prédictions sur $$,
|
|
un vecteur d'endogènes non encore observées, le but est de construire la densité (prédictive) de ce vecteur.
|
|
Cette densité peut être obtenue en intégrant par rapport à $$ la densité postérieure jointe de $$ et $$ :
|
|
<DISPLAY EQUATION ()>
|
|
où la densité sous l'intégrale est définie par :
|
|
<DISPLAY EQUATION ()>
|
|
par le théorème de Bayes. La densité jointe de $$ et $$ est le produit de la densité postérieure de $$ et de la
|
|
densité de $$ conditionnelle à $$. Cette dernière densité est directement obtenue à partir de la définition du
|
|
modèle. Donnons un exemple dans le cas scalaire. Si le modèle est un processus auto-régressif d'ordre un : $$
|
|
avec $$, $$ et $$, la variance de l'innovation, connue. La distribution de $$ conditionnellement à $$ et $$\note{11}
|
|
est gaussienne : $$. La densité prédictive s'écrit finalement :
|
|
<DISPLAY EQUATION (6)>
|
|
et s'interprète comme une moyenne des densités conditionnelles de $$ sachant $$, pondérées par la densité
|
|
postérieure de $$. À partir de cette densité prédictive, on peut construire une prédiction ponctuelle des
|
|
variables en se donnant une fonction de perte, représenter un intervalle contenant $$ de la distribution
|
|
de $$, ou encore représenter la densité prédictive (marginale) de chaque variable composant le vecteur des
|
|
observables. En confrontant la densité prédictive aux réalisations effectives des variables, on peut alors
|
|
évaluer dans quelle mesure notre modèle tend à sur-estimer ou sous-estimer, par exemple, le taux de
|
|
croissance à un trimestre du PIB par tête. Cette comparaison peut fournir un critère d'évaluation du modèle.
|
|
Si on se rend compte que les réalisations effectives d'une variable se situent systématiquement dans les
|
|
queues de la densité prédictive, alors on peut conclure que le modèle est mal spécifié vis-à-vis de cette variable.
|
|
|
|
|
|
2.2 Le choix des croyances a priori
|
|
|
|
On comprend déjà que le choix des croyances a priori est essentiel, dans la mesure où il détermine par-
|
|
tiellement les résultats (surtout pour un échantillon de taille réduite comme nous le verrons par la suite). La
|
|
subjectivité de d'économétrie ne peut intervenir que dans la première étape d'élicitation de l'a priori, les étapes
|
|
(l'évaluation de la vraisemblance,...) suivantes sont automatiques et nécessairement objectives. La question
|
|
du choix des croyances a priori est donc crucial, d'autant plus qu'il s'agit du point qui engendre le plus de
|
|
méfiance parmi les économistes, de formation -- trés généralement -- classique. Il est donc important de bien
|
|
comprendre le rôle de la densité a priori dans les résultats, par exemple en menant des exercices de sensibi-
|
|
lité aux croyances a priori. Ces expériences, en donnant une idée du rôle des priors, dévoilent implicitement
|
|
la forme de la vraisemblance. L'expérience la plus extrême\note{12} est de considérer un a priori non informatif,
|
|
c'est-à-dire le cas où nous n'avons aucune croyance a priori sur la paramétrisation du modèle. De façon assez
|
|
surprenante, les statisticiens bayésiens ne parviennent pas à s'accorder sur une chose aussi essentielle que la
|
|
caractérisation du non savoir.
|
|
|
|
Dans la section 2.1 nous avons examiné le cas d'un a priori informatif sur le paramètre de Calvo définis-
|
|
sant le degré de rigidité de l'inflation. Dans ce cas notre connaissance a priori provient de l'observation de
|
|
données micro-économiques, différentes de celles utilisées pour l'estimation du modèle. Lorsque l'informa-
|
|
tion a priori est basée sur des données, celles-ci doivent être différentes des données utilisées pour identifier
|
|
le modèle. Dans le cas contraire la démarcation entre vraisemblance et densité a priori devient plus ambiguë,
|
|
ce qui paraît inacceptable pour de nombreux statisticiens. Notons néanmoins que de non moins nombreux
|
|
statisticiens utilisent l'échantillon pour définir les croyances a priori. Par exemple quand il s'agit de spécifier
|
|
la densité a priori de façon à optimiser les capacités prédictives d'un modèle (voir plus loin la section 2.4.3).
|
|
Les croyances a priori peuvent aussi être basées sur des considérations purement théoriques (voir la section
|
|
4). Dans la littérature concernée par l'estimation des modèles DSGE (et aussi des VAR), les croyances a priori,
|
|
indépendamment de l'origine de ces croyances, sont généralement représentées par des densités paramétrées
|
|
(distribution gaussienne, gamma,...). Dans certains cas, on parle alors d'a priori conjugués, elles sont choisies
|
|
de façon que la densité a posteriori soit de la même famille paramétrique (voir l'exemple du modèle VAR
|
|
plus loin). La motivation est essentiellement technique, l'utilisation de formulations conjuguées ou plus gé-
|
|
néralement paramétrées des a priori est un héritage du passé. Aujourd'hui, la technologie ne nous empêche
|
|
pas d'adopter une formulation non paramétrique plus générale. Par exemple nous pourrions caractériser nos
|
|
croyances a priori sur chaque paramètre en spécifiant les quantiles de chaque distribution. Il est vrai que nos
|
|
croyances sont rarement aussi précises.
|
|
|
|
Dans certaines situations nos connaissances a priori sont faibles ou nous désirons faire comme si c'était le
|
|
cas (par exemple pour évaluer la sensibilité des résultats aux a priori). Malheureusement la caractérisation de
|
|
l'ignorance est toujours sujet à débat. Un exemple frappant est donné par Sims et Uhlig (1991) puis Phillips
|
|
(1991a), Phillips (1991b) et Sims (1991), qui débatent de la caractérisation de l'ignorance dans un modèle
|
|
autorégressif d'ordre un et des conséquences sur la détection de racines unitaires.
|
|
Une première approche est de considérer un prior plat. Pour un paramètre $$ qui peut prendre des valeurs
|
|
entre $$ et $$, Jeffrey (1961) propose d'adopter une distribution uniforme entre $$ et $$ :
|
|
<DISPLAY EQUATION ()>
|
|
Évidemment cette densité est impropre dans le sens où $$ est indéfini. Mais c'est précisément cette
|
|
propriété qui, pour Jeffrey , rend ce prior non informatif. En effet, pour tout $$ on ne peut pas dire
|
|
que $$ soit a priori plus probable que $$, puisque les probabilités de ces événements sont nulles.
|
|
Pour un paramètre $$, par exemple un écart-type, qui peut prendre des valeurs entre 0 et 1, Jeffrey propose
|
|
d'adopter une distribution uniforme pour le logarithme de $$ entre $$ et $$ :
|
|
<DISPLAY EQUATION ()>
|
|
<DISPLAY EQUATION ()>
|
|
Comme dans le cas précédent l'intégrale de cette densité est impropre. En particulier, on ne peut définir
|
|
$$ et $$, nous ne pouvons dire s'il est plus probable que $$ soit supérieur ou inférieur $$\note{13}.
|
|
On note en passant que cette densité a l'heureuse propriété d'être invariante à une transformation puissance\note{14},
|
|
si le prior est non informatif sur l'écart type, il en va de même pour la variance ($$).
|
|
Plus tard, Jeffrey généralisa ce résultat d'invariance et proposa un prior non informatif (le plus souvent im-
|
|
propre) plus général basé sur la matrice d'information de Fisher :
|
|
<DISPLAY EQUATION ()>
|
|
avec
|
|
<DISPLAY EQUATION ()>
|
|
La matrice d'information de Fisher quantifie l'information amenée par le modèle et les données sur le para-
|
|
mètre $$. En favorisant les valeurs de $$ pour lesquelles l'information de Fisher est plus grande, on diminue
|
|
l'influence de la loi a priori puisque l'information véhiculée par celle-ci est peu différente de l'information pro-
|
|
venant de la vraisemblance. La définition de la densité a priori est donc liée à la courbure de la vraisemblance.
|
|
Cette densité a priori est invariante à toute reparamétrisation (continue) du modèle (voir Zellner (1971, annexe
|
|
du chapitre 2) pour une description plus détaillée des propriétés d'invariance).
|
|
L'utilisation d'un prior plat ou d'un prior dérivé de la matrice d'information de Fisher pour caractériser
|
|
l'absence d'information affecte généralement l'inférence. Par exemple, dans un modèle AR(1), voir Phillips
|
|
(1991a), un prior basé sur l'information de Fisher n'est pas équivalent à un prior uniforme (plat). En effet,
|
|
dans un modèle dynamique, la quantité d'information véhiculée par les données (ie la vraisemblance) dépend
|
|
de la valeur du paramètre autorégressif ($$). Si le paramètre est proche de l'unité, voire égal ou supérieur à
|
|
un, les données sont plus informatives. Ainsi, pour Phillips , l'utilisation d'un prior plat, à l'instar de Zellner
|
|
(1971) ou Sims et Uhlig (1991), biaise la distribution postérieure de $$ en faveur de la stationnarité. En donnant
|
|
autant de poids aux valeurs explosives de $$ qu'aux valeurs stationnaires, le prior plat ne prend pas en compte
|
|
le fait que des données générées par un modèle à racine unitaire ou explosif sont plus informatives. Il existe
|
|
d'autres approches pour caractériser l'ignorance, on peut lire le chapitre 3 de Robert (2006) et plus spéciale-
|
|
ment la section 5.
|
|
|
|
Le choix d'une densité a priori et ses conséquences sur l'inférence sont l'objet de toutes les critiques de
|
|
la part des statisticiens ou économistes classiques. Il ne faudrait pourtant pas oublier que le paradigme clas-
|
|
sique n'est pas plus exempt de choix aux conséquences non négligeables sur l'inférence. Par exemple, le choix
|
|
d'une métrique (minimiser la somme des carrés des résidus ou la somme des valeurs absolues des résidus), le
|
|
choix des variables instrumentales, modèles auxiliaires ou des conditions de moments, sont rarement discutés
|
|
même s'ils déterminent les résultats. Dans une certaine mesure, nous n'avons même plus conscience des choix
|
|
effectués. L'approche bayésienne est de ce point de vu bien plus transparente.
|
|
|
|
2.3 Comportement asymptotique et approximations
|
|
|
|
Même si l'approche bayésienne ne repose pas sur des arguments asymptotiques, comme généralement
|
|
l'approche classique, il est utile de s'interroger sur le comportement asymptotique de ses estimateurs. Le
|
|
résultat rassurant est que si les conditions de normalité asymptotique de l'estimateur du maximum de vrai-
|
|
semblance sont réunies\note{15}, alors la distribution postérieure tend vers une gaussienne multivariée. Asymptoti-
|
|
quement, la distribution postérieure est centrée sur l'estimateur du maximum de vraisemblance. Ce résultat,
|
|
avancé par Laplace, est intuitif puisque lorsque la taille de l'échantillon tend vers l'infini, le poids de l'infor-
|
|
mation a priori relativement à l'information contenue dans l'échantillon devient marginal.
|
|
|
|
Plus formellement, si on note $$ l'unique mode de la distribution postérieure obtenu en maximisant le
|
|
noyau postérieur $$, et s'il est possible d'écrire une approximation de Taylor à l'ordre deux
|
|
du noyau postérieur autour de $$, alors nous avons :
|
|
<DISPLAY EQUATION ()>
|
|
Puisque les dérivées premières sont, par définition, nulles en $$, nous avons de façon équivalente :
|
|
<DISPLAY EQUATION ()>
|
|
où $$ est l'opposé de l'inverse de la matrice hessienne évaluée au mode. Ainsi, en ne considérant que le
|
|
terme quadratique, le noyau postérieur peut être approximé par :
|
|
<DISPLAY EQUATION ()>
|
|
on reconnaît, à une constante d'intégration près\note{16} la densité d'une loi normale multivariée. En complétant
|
|
pour la constante d'intégration, nous obtenons finalement une approximation de la densité postérieure $$
|
|
<DISPLAY EQUATION (7)>
|
|
Généralement, la matrice hessienne est d'ordre $$, lorsque la taille de l'échantillon augmente la distribu-
|
|
tion postérieure se concentre autour du mode. À partir de cette approximation asymptotique on peut alors
|
|
trés facilement calculer, par exemple, des moments postérieurs ou approximer les densités prédictives. Par
|
|
exemple, l'espérance postérieure de $$ est définie par :
|
|
<DISPLAY EQUATION ()>
|
|
Tierney et Kadane (1986) montrent que si l'on approxime à l'ordre deux le numérateur autour du mode de
|
|
$$ et le dénominateur autour du mode de $$, alors l'erreur d'approximation de l'es-
|
|
pérance est d'ordre $$. Les erreurs d'approximation du numérateur et du dénominateur, qui sont d'ordre
|
|
$$, se compensent favorablement. L'approche de Tierney et Kadane ne va pas sans poser certains pro-
|
|
blèmes. Si on cherche à calculer $$ pour différentes fonctions $$, alors il est nécessaire de recourir à une
|
|
nouvelle maximisation pour chaque paramètre et chaque fonction $$. Par exemple, si on désire calculer les
|
|
espérances et écart-types a posteriori pour chacun des k paramètres, il faut recourir $$ maximisations,
|
|
auxquelles il faut rajouter le calcul des matrices hessiennes. Il est alors évident que si $$ est élevé, une telle
|
|
approximation peut devenir coûteuse en temps de calculs. Tierney et al. (1989) propose différentes méthodes
|
|
pour pallier cette difficulté\note{17}. Notons néanmoins qu'une approche basée sur des simulations (voir la section
|
|
3) devient aussi plus coûteuse lorsque le nombre de paramètres augmente.
|
|
|
|
|
|
2.4 Un modèle linéaire : le modèle VAR
|
|
|
|
Dans cette section, nous considérons un exemple où les résultats peuvent être obtenus analytiquement. Le
|
|
modèle VAR gaussien se prête, comme tout modèle linéaire gaussien, à cet exercice et a l'avantage d'être un
|
|
outil couramment utilisé en macro-économie (voir par exemple la contribution de Fabrice Collard et Patrick
|
|
Fève dans ce numéro).
|
|
|
|
Nous considérons un modèle VAR(p) pour caractériser le vecteur $$ de variables endogènes $$ obser-
|
|
vées :
|
|
<DISPLAY EQUATION ()>
|
|
où $$ est une suite de matrice $$ et $$ est un bruit blanc gaussien, de dimension $$ d'espérance nulle
|
|
et de variance $$. Nous pourrions compléter le modèle avec des variables exogènes, une constante par
|
|
exemple, mais nous allons à l'essentiel en omettant cette possibilité.
|
|
|
|
On note $$ les données à notre disposition et on note $$ la concaténation horizontale des
|
|
vecteurs lignes $$. En concaténant verticalement les vecteurs lignes $$, $$ et $$, pour $$,
|
|
on obtient la représentation matricielle suivante du modèle VAR(p) :
|
|
<DISPLAY EQUATION ()>
|
|
où $$ et $$ sont des matrices $$, $$ est une matrice $$ et $$ la matrice $$ (avec $$) regroupant les
|
|
coefficients auto-régressifs. La vraisemblance associée à ce modèle linéaire gaussien
|
|
est donnée par :
|
|
<DISPLAY EQUATION ()>
|
|
L'estimateur du maximum de vraisemblance (MCO) est défini par :
|
|
<DISPLAY EQUATION ()>
|
|
et
|
|
<DISPLAY EQUATION ()>
|
|
Nous verrons plus loin qu'il est profitable de réécrire la vraisemblance en faisant apparaître
|
|
l'estimateur des MCO :
|
|
<DISPLAY EQUATION ()>
|
|
Aux constantes d'intégration près on reconnaît ici les fonctions de densité de probabilité d'une gaussienne
|
|
matricielle et d'une inverse Wishart (voir l'annexe A). La vraisemblance se réécrit donc sous la forme suivante :
|
|
<DISPLAY EQUATION ()>
|
|
avec $$ les degrés de liberté et $$. Cette écriture nous apprend que la vraisemblance du VAR(p) est proportionnelle
|
|
au produit de la densité d'une normale matricielle et d'une loi inverse Wishart :
|
|
<DISPLAY EQUATION (8)>
|
|
Cette propriété va nous aider à poser une forme de la densité a priori telle que nous puissions obtenir une
|
|
expression analytique de la densité postérieure.
|
|
|
|
2.4.1 A priori non informatif
|
|
|
|
Dans cette section nous supposons que nos croyances sont non informatives en adoptant un a priori plat à
|
|
la Jeffrey :
|
|
<DISPLAY EQUATION (9)>
|
|
On note que dans le cas scalaire, m = 1, on retrouve le prior suggéré par Jeffrey ($$) décrit plus haut. La
|
|
densité a posteriori satisfait donc :
|
|
<DISPLAY EQUATION ()>
|
|
La densité jointe postérieure est donc proportionnelle au produit d'une loi normale multivariée et d'une loi
|
|
inverse Wishart :
|
|
<DISPLAY EQUATION (10)>
|
|
avec $$. Ainsi, la densité postérieure s'écrit sous la forme suivante :
|
|
<DISPLAY EQUATION (11)>
|
|
Il n'est pas surprenant de constater que la distribution postérieure de $$ (conditionnelle à la matrice de va-
|
|
riance covariance) est centrée sur l'estimateur du maximum de vraisemblance, puisque notre a priori est non
|
|
informatif. Nous pourrions montrer, en intégrant par rapport à $$, que la distribution postérieure (marginale)
|
|
de $$ est une version matricielle de la loi de Student (voir (Zellner, 1971, chapitre 8)). L'a priori de Jeffrey n'af-
|
|
fecte que le nombre de degré de liberté de la distribution postérieure de $$. On obtient la densité marginale
|
|
postérieure de $$ en intégrant le noyau postérieur successivement par rapport à $$ et $$ :
|
|
<DISPLAY EQUATION (12)>
|
|
Cette quantité nous renseigne sur la qualité d'ajustement du modèle VAR(p). On note que la densité marginale
|
|
de $$ est une fonction décroissante de la taille des erreurs $$. Dans cet exemple, nous pouvons caractériser
|
|
la distribution postérieure analytiquement. Notons néanmoins que même si nous connaissons l'expression
|
|
analytique de la distribution de $$ et $$, la construction des densités prédictives nécessite une approche par
|
|
simulations\note{18}, puisque les prévisions sont des fonctions non linéaires des matrices auto-régressives (dont nous
|
|
connaissons la distribution postérieure). L'intérêt pratique de l'approche bayésienne peut paraître faible dans
|
|
ce cas, dans la mesure où l'espérance postérieure n'est pas différente de l'estimateur du maximum de vrai-
|
|
semblance.
|
|
|
|
2.4.2 Un exemple d'a priori informatif
|
|
|
|
Nous considérons maintenant un prior plus informatif qui va écarter l'espérance de la distribution a poste-
|
|
riori de l'estimateur du maximum de vraisemblance ; dans un modèle linéaire gaussien, l'espérance a posteriori
|
|
est une combinaison convexe de l'estimateur du maximum de vraisemblance et de l'espérance a priori. Afin
|
|
d'aller à l'essentiel\note{19}, nous adoptons une densité a priori dégénérée pour la matrice de variance-covariance des
|
|
erreurs, en supposant que la matrice $$ est connue (on posera $$). Enfin nous spécifions le prior sur A de
|
|
la façon suivante :
|
|
<DISPLAY EQUATION (13)>
|
|
où $$ est une matrice symétrique définie positive de dimension $$. En multipliant la vraisemblance par
|
|
(13), on établit facilement que le noyau postérieur est :
|
|
<DISPLAY EQUATION (14a)>
|
|
<DISPLAY EQUATION (14b)>
|
|
<DISPLAY EQUATION (14c)>
|
|
La distribution postérieure de $$ est donc gaussienne $$, son interprétation est immédiate. L'inverse
|
|
de la variance postérieure ($$, que l'on peut interpréter comme une quantification de l'information a pos-
|
|
teriori) est égale à la somme de l'inverse de la variance a priori ($$, l'information a priori) et de l'inverse de
|
|
la variance de l'estimateur du maximum de vraisemblance de $$ ($$, l'information apportée par les
|
|
données). Ceteris paribus, quand l'information a priori est importante, la matrice de variance-covariance $$ est
|
|
petite, la variance a posteriori est faible. L'espérance postérieure est une combinaison linéaire convexe de l'espé-
|
|
rance a priori, $$, et de l'estimateur du maximum de vraisemblance, $$. Les pondérations respectives sont
|
|
définies par le contenu informatif des croyances a priori et de l'échantillon. Lorsque l'information a priori tend
|
|
vers l'infini, ie $$, l'espérance postérieure tend vers l'espérance a priori. Lorsque l'information amenée par
|
|
les données tend vers l'infini, ie $$, l'espérance a posteriori tend vers l'estimateur du maximum de
|
|
vraisemblance. On peut donc interpréter le paradigme bayésien comme un pont entre la calibration et l'esti-
|
|
mation par le maximum de vraisemblance. En notant que $$ est généralement, si le modèle est stationnaire\note{20},
|
|
d'ordre O(T), on retrouve un résultat conforme aux considérations asymptotiques introduites dans la section
|
|
2.3 : l'espérance postérieure tend vers l'estimateur du maximum de vraisemblance lorsque T tend vers l'infini.
|
|
À nouveau, en intégrant le noyau postérieur (14) par rapport aux paramètres auto-régressifs, on obtient une
|
|
expression analytique de la densité marginale postérieure :
|
|
<DISPLAY EQUATION (15)>
|
|
qui mesure la qualité d'ajustement du modèle et permet de comparer le VAR à d'autres modèles estimés à
|
|
l'aide du même échantillon.
|
|
|
|
2.4.3 La pratique
|
|
|
|
L'intérêt pratique de l'approche bayésienne des modèles VAR s'explique par l'équation (14b). Celle-ci éta-
|
|
blit que la variance postérieure de $$ est inférieure à la variance de l'estimateur du maximum de vraisem-
|
|
blance, $$, dès lors que l'on apporte de l'information a priori. L'estimation des modèles VAR sur des données
|
|
macroéconomiques pose souvent des problèmes de précision. En effet, un modèle avec cinq variables et quatre
|
|
retards demande l'estimation de vingt paramètres alors que les échantillons sont habituellement de l'ordre de
|
|
la centaine d'observations. En incorporant de l'information à l'aide d'une densité a priori tout se passe comme
|
|
si nous augmentions le nombre de degrés de liberté. Ce gain en variance sur les paramètres du modèle, per-
|
|
mettra d'obtenir des prévisions ou des fonctions de réponses plus précises.
|
|
|
|
On peut faire l'analogie avec l'incorporation de contraintes sur les paramètres d'un modèle estimé dans
|
|
le paradigme classique. Par exemple, si nous pensons que A doit satisfaire les contraintes linéaires définies
|
|
par $$ (où $$ est une matrice $$, $$ est un vecteur $$ et $$ le nombre de restrictions li-
|
|
néaires), l'incorporation de ces contraintes lors de l'estimation, ie l'utilisation de moindres carrés contraints,
|
|
permet de réduire la variance des estimateurs et aussi l'erreur quadratique moyenne (dans la mesure où la
|
|
contrainte n'est pas en contradiction avec le processus générateur des données)\note{21}. Le paradigme bayésien est
|
|
plus souple, dans le sens où il ne pose pas des contraintes déterministes. Dans certains cas\note{22}, nous verrons une
|
|
application dans la section 4.1, la définition de croyances a priori revient à poser une contrainte probabiliste
|
|
de la forme $$, où $$ est une variable aléatoire gaussienne. Plus la variance de $$ est importante,
|
|
moins la contrainte sur $$ est forte (plus l'information a priori est floue).
|
|
|
|
La formalisation de l'information a priori ne se limite pas au choix de la forme d'une distribution. Dans
|
|
le cas du modèle BVAR de la section précédente, nous devons aussi choisir les paramètres $$ et $$. Dans
|
|
cette perspective, un prior qui s'est montré particuliérement efficace quand on cherche à modéliser des sé-
|
|
ries macroéconomiques est le prior de Minnesota\note{23}. Celui-ci correspond à la croyance a priori que les sé-
|
|
ries observées sont des marches aléatoires indépendantes. L'espérance a priori de $$ est alors telle que
|
|
$$ pour $$. La variance a priori de $$ est supposée diagonale. En no-
|
|
tant $$ la variance associée au paramètre correspondant à la variable j dans
|
|
l'équation i au retard k, la variance a priori est définie par :
|
|
<DISPLAY EQUATION ()>
|
|
où les hyperparamètres $$ pour $$ sont positifs, $$ est l'estimateur de la variance des résidus dans
|
|
l'estimation d'un AR(p) pour la variable $$. Le ratio des écarts-types permet de prendre en compte les dif-
|
|
férences d'échelles entre les différentes variables composant le vecteur des observables. La variance a priori
|
|
décroît lorsque le retard $$ augmente, ce qui traduit l'idée que plus le retard est important plus nous croyons
|
|
que la matrice $$ est nulle. L'hyperparamètre $$ indique à quelle vitesse la variance a priori tend vers zéro.
|
|
Des valeurs fréquemment utilisées pour $$ et $$ sont respectivement 0,05 et 0,005. Cela revient à dire, dans la
|
|
mesure où $$ et $$ sont proches, que nos croyances a priori sont plus fortes sur la nullité des termes hors des
|
|
diagnonales de $$ ($$), c'est-à-dire sur l'absence decausalité\note{24}. Notons que l'a priori de Minnesota
|
|
suppose l'absence de relations de cointégration entre les variables, il y a, a priori, autant de racines unitaires
|
|
que de variables. Néanmoins rien n'empêche l'apparition de relations de long terme dans la distribution pos-
|
|
térieure.
|
|
|
|
Il nous reste à choisir les valeurs des hyperparamètres du prior de Minnesota. Cette étape est importante
|
|
car l'expérience montre que l'inférence postérieure, en particulier l'évaluation de la densité marginale qui
|
|
nous permet d'évaluer le modèle, est trés sensible à ce choix. Si, comme souvent dans la littérature (voir par
|
|
exemple Smets et Wouters (2002) ou Fernandez-Villaverde et Rubio-Ramirez (2001)), l'estimation d'un BVAR
|
|
ne sert qu'à titre de comparaison afin d'évaluer la qualité d'ajustement d'un modèle DSGE, le choix des hy-
|
|
perparamètres devient crucial. Ce point n'est malheureusement jamais abordé dans la littérature. Le contenu
|
|
économique d'un modèle VAR étant faible, il paraît difficile de recourir à la théorie pour spécifier la densité
|
|
a priori. Un critère objectif à notre disposition est de choisir les hyperparamètres ($$, $$ et $$) qui maximisent
|
|
les performances en prévisions du modèle BVAR. En spéciéant ainsi les priors de notre BVAR, nous savons au
|
|
moins que nous ne comparons par notre DSGE avec un BVAR aux performances prédictives médiocres. Dans
|
|
cet esprit Phillips (1996) propose le critère PIC (Posterior Information Criterion) que l'on peut minimiser par
|
|
rapport aux hyperparamètres. Ce critère peut être vu comme une généralisation, au cas non stationnaire, du
|
|
bien connu critère BIC\note{25}. Dans le cas du modèle considéré dans la section 2.4.2 on choisit les hyperparamètres
|
|
de la façon suivante :
|
|
<DISPLAY EQUATION (16)>
|
|
où $$ est la matrice de variance covariance des innovations au mode postérieur, les matrices indicées par $$
|
|
sont obtenues à partir du sous échantillon $$ (où $$ est supérieur au nombre de paramètres estimés).
|
|
Ici nous avons considéré le nombre de retards comme une donnée, mais nous pourrions aussi optimiser par
|
|
rapport à $$ le critère PIC (voir Phillips (1996)). À notre connaissance, l'utilisation d'a priori objectif pour les
|
|
modèles BVAR, tel que l'optimisation du critère PIC proposé par Phillips (1996), demeure inappliqué dans
|
|
la littérature. On peut donc légitimement douter de la pertinence des comparaisons entre BVAR et DSGE
|
|
effectuées jusqu'à présent\note{26}.
|
|
|
|
|
|
3 Modèles DSGE
|
|
|
|
Dans cette section nous présentons de façon générale les modèles DSGE, puis soulignons les problèmes
|
|
que peut poser l'estimation. En particulier, nous expliquons pourquoi, à la différence des BVAR, il n'est pas
|
|
possible d'obtenir une expression analytique de la distribution postérieure. Nous terminons en présentant les
|
|
méthodes de Monte Carlo utilisées pour caractériser les croyances postérieures.
|
|
|
|
3.1 Résolution et vraisemblance
|
|
|
|
Nous limitons notre attention aux modèles DSGE que nous pouvons écrire sous la forme suivante :
|
|
<DISPLAY EQUATION (17)>
|
|
avec $$, une variable aléatoire dans $$, les innovations structurelles, $$ un vecteur
|
|
regroupant les variables endogènes, $$ une fonction réelle dans $$ paramétrée par un vecteur
|
|
réel $$ regroupant l'ensemble des paramètres structurels du modèle. La fonction $$ est simplement
|
|
l'ensemble des équations qui définissent un modèle ; on a autant d'équations que de variables endogènes.
|
|
Le vecteur des variables endogènes, $$, inclut des variables d'état (endogènes ou exogènes), des variables de
|
|
choix et des variables statiques\note{27}. On supposera qu'il est possible d'exhiber une unique solution stable et
|
|
invariante au modèle décrit par l'équation (17) :
|
|
<DISPLAY EQUATION (18)>
|
|
qui exprime les variables endogènes en fonction du passé et des chocs structurels contemporains. La fonction
|
|
paramétrée $$ regroupe les policy rules et les équations de transition (voir la contribution de Michel Juillard
|
|
et Tarik Ocaktan dans ce numéro). La solution (18), en décrivant une récurrence stochastique non linéaire,
|
|
définit la distribution jointe d'un ensemble de variables.
|
|
|
|
Pour estimer les paramètres $$ du modèle, ou d'un sous ensemble des paramètres, nous devons évaluer la
|
|
vraisemblance associée au modèle (17) ou à sa forme réduite (18). Même si la fonction $$ est linéaire en $$
|
|
et $$, cette évaluation ne peut être directe comme dans le cas du modèle VAR examiné plus haut. En effet,
|
|
l'équation (18) décrit la distribution jointe d'un ensemble de variables qui ne sont pas toutes observées. Afin
|
|
d'amener le modèle aux données on peut l'écrire sous une forme état-mesure :
|
|
<DISPLAY EQUATION (19a)>
|
|
<DISPLAY EQUATION (19b)>
|
|
où $$ est un vecteur $$, avec $$, regroupant les variables observées et $$ est une matrice de
|
|
sélection $$. On peut éventuellement augmenter l'équation de mesure d'un bruit blanc multivarié, $$,
|
|
représentant l'inadéquation des variables théoriques avec les variables observées, ou plus simplement une
|
|
erreur de mesure. On note $$ l'échantillon à notre disposition et $$ le vecteur des paramètres du modèle
|
|
état-mesure ($$, $$ et éventuellement la matrice de variance-covariance de
|
|
$$). La vraisemblance est la densité de l'échantillon, conditionnellement aux paramètres $$ et au modèle défini
|
|
par (19) :
|
|
<DISPLAY EQUATION (20)>
|
|
L'évaluation de la densité de $$ conditionnellement à $$ n'est généralement pas directe, dans la mesure où
|
|
$$ dépend de variables endogènes inobservables. Nous pouvons néanmoins utiliser la relation suivante :
|
|
<DISPLAY EQUATION (21)>
|
|
La densité de $$ conditionnellement à $$ est obtenue comme la moyenne de la densité de $$ sachant $$,
|
|
pondérée par la densité de $$ sachant $$. La première densité sous l'intégrale est specifiée par l'équation
|
|
de mesure (19a). L'évaluation de la densité de la prévision des variables latentes, conditionnellement l'infor-
|
|
mation disponible en $$, est moins directe, et on doit utiliser un filtre de Kalman. Il s'agit d'une procédure
|
|
récursive. À chaque date (entre $$ et $$) on forme une prévision des variables latentes ($$ sachant $$), en
|
|
utilisant l'équation d'état ($$ sachant $$, équation 19b) et une estimation initiale des variables latentes
|
|
($$ sachant $$ ), puis on corrige cette prévision quand une nouvelle observation ($$) augmente l'ensemble d'in-
|
|
formation. On peut interpréter cette démarche comme une estimation récursive bayésienne du vecteur des
|
|
variables latentes. En initialisant les variables latentes avec la densité associée à la distribution ergodique des
|
|
variables latentes définie par l'équation d'état (19b), $$, la récursion s'écrit de
|
|
la façon suivante :
|
|
<DISPLAY EQUATION (22a)>
|
|
<DISPLAY EQUATION (22b)>
|
|
L'interprétation de l'équation de prédiction (22a) est directe : la densité de la prédiction des variables latentes
|
|
en $$ est la moyenne de la densité de $$ sachant $$, définie par l'équation d'état (19b), pondérée par la densité
|
|
de $$ sachant $$. Cette dernière densité est définie par l'équation de mise à jour (22b) ou la condition
|
|
initiale. L'équation de mise à jour (22b) est, à l'instar de l'équation (3), une application directe du théorème de
|
|
Bayes. Le premier terme au numérateur, $$, est la densité a priori du vecteur des variables latentes. Le
|
|
second terme, $$, la densité de l'observation sachant l'état obtenu via l'équation de mesure (19a), est la
|
|
vraisemblance. Le dénominateur est la densité marginale de la nouvelle observation.
|
|
|
|
Puisque nous pouvons, au moins théoriquement, évaluer la vraisemblance associée au modèle DSGE, nous
|
|
devrions être capable d'estimer ses paramètres. Malheureusement, les équations (21) et (22) nécessitent l'éva-
|
|
luation d'intégrales\note{28} dans l'espace des variables d'état. Quand le nombre de variables latentes agmente il
|
|
devient trés coûteux d'évaluer ces intégrales (on parle de curse of dimensionality). La dérivation de la forme
|
|
réduite du modèle (18) nécessite également l'évaluation d'intégrales. En pratique, même pour des modèles
|
|
de dimensions modestes, l'évaluation de la vraisemblance est difficile. Nous devons donc approximer celle-
|
|
ci. Dans le cas où le modèle état-mesure (19) est linéaire et gaussien, l'évaluation des intégrales devient trés
|
|
simple car les variables latentes et observéées sont normalement distribuées à chaque date. Ainsi la dynamique
|
|
de la distribution des variables latentes est complétement caractérisée par la dynamique de l'espérance et de
|
|
la variance des variables latentes. On peut trouver une présentation du filtre de Kalman dans ce cas simple
|
|
dans Gouriéroux et Monfort (1989, chapitre 13), Harvey (1989, chapitre 3) ou encore dans la contribution de
|
|
Fabrice Collard et Patrick Fève à ce même numéro. Ceci explique pourquoi les modèles DSGE estimés sont
|
|
généralement (log-) linéarisés autour de l'état stationnaire.
|
|
|
|
Malgré l'approximation (log-) linéaire de la forme réduite du modèle ($$) l'évaluation de la vraisemblance
|
|
est numérique. Nous ne disposons pas d'une expression analytique, comme dans le cas du modèle VAR, et
|
|
ne pouvons donc écrire formellement la densité postérieure ou les moments postérieurs. Deux possibilités
|
|
s'offrent à nous.
|
|
La première est de considérer une approximation asymptotique de la densité postérieure. Il est alors possible
|
|
d'approximer, voir la section 2.3 et Tierney et Kadane (1986), tout moment a posteriori ou la densité marginale.
|
|
Nous avons vu que l'erreur d'approximation des moments est d'ordre $$ et que l'erreur d'approxima-
|
|
tion de la densité marginale est d'ordre $$. L'expérience suggère, pour les dimensions d'échantillon, $$,
|
|
généralement considérées dans la littérature, que l'approximation de Laplace de la densité marginale est sa-
|
|
tisfaisante\note{29}.
|
|
La deuxième possibilité est d'évaluer les moments en recourant à des simulations par Monte-Carlo. L'intuition
|
|
de cette approche repose sur la loi des grands nombres. Supposons, par exemple, que nous souhaitions éva-
|
|
luer l'espérance d'une variable aléatoire $$ de distribution $$. Si l'on génère une suite de variables aléatoires
|
|
$$ indépendantes et distribuées selon $$, alors une approximation de l'espérance est donnée par
|
|
la moyenne empirique de ces variables\note{30} ; la loi des grands nombres assure que l'erreur d'approximation tend
|
|
vers zéro presque sûrement lorsque le nombre de tirages $$ tend vers l'infini. Si on admet de plus que le mo-
|
|
ment du second ordre existe, la vitesse de convergence est $$ par application du théorème central limit.
|
|
|
|
En pratique nous pouvons être intéressés par les moments postérieurs de $$. En notant que :
|
|
<DISPLAY EQUATION (23)>
|
|
il semble alors naturel d'utiliser la moyenne empirique de $$, où les $$ sont
|
|
des tirages indépendants dans la distribution postérieure, pour évaluer l'espérance de $$. L'erreur d'ap-
|
|
proximation tend vers zéro lorsque le nombre de simulations ($$) tend vers l'infini. il convient de noter que $$
|
|
est généralement d'une forme inconnue et que l'on ne peut donc pas définir un générateur pseudo-aléatoire
|
|
reproduisant la distribution a posteriori. Comme nous le verrons par la suite, la méthode de Monte Carlo
|
|
dite de fonction d'importance permet de remédier à cette difficulté sous certaines conditions. Ce principe de
|
|
Monte Carlo se généralise au cas où les variables simulées ne sont pas indépendantes. Il est ainsi possible dans
|
|
certains cas de construire, moyennant certaines conditions, une chaîne de Markov $$ de loi sta-
|
|
tionnaire (ergodique) $$ telle que la moyenne empirique des $$ ($$ est la statistique d'intérêt) converge
|
|
presque sûrement vers la quantité d'intérêt comme dans le cas des tirages indépendants. Tout l'art de l'exer-
|
|
cice est alors de déterminer une chaîne de Markov (et plus précisément son noyau de transition) telle que
|
|
sa loi ergodique corresponde à la loi a posteriori désirée et d'évaluer le temps d'arrêt des simulations, ie de
|
|
diagnostiquer la convergence de la chaîne de Markov\note{31}.
|
|
|
|
3.2 L'échantillonnage bayésien par fonction d'importance
|
|
|
|
Idéalement, on souhaiterait générer les paramètres d'intérêt suivant la distribution a posteriori. Cependant,
|
|
à l'exception de rares modèles, ceci n'est pas possible. On peut néanmoins exploiter le fait qu'il n'est pas
|
|
nécessaire de générer une suite de tirage $$, suivant la distribution a posteriori, pour obtenir une évaluation
|
|
correcte des moments postérieurs. En effet, sous certaines conditions de régularité, on peut utiliser une densité
|
|
de probabilité $$, définie sur le même espace et appelée fonction d'importance, suffisamment proche de $$
|
|
(dans un sens à préciser) et échantillonner à partir de cette dernière. Il est alors possible de montrer par la loi
|
|
des grands nombres que l'intégrale (23) définissant le moment postérieur est approchée par :
|
|
<DISPLAY EQUATION ()>
|
|
avec
|
|
<DISPLAY EQUATION (24)>
|
|
Le choix de la fonction d'importance est crucial : elle doit être suffisamment proche de la loi a posteriori, ce
|
|
qui n'est pas toujours simple en pratique. En effet, si $$ est une mauvaise approximation de $$, alors les poids
|
|
sont généralement faibles pour la plupart des valeurs échantillonnées de $$, la somme est alors dominée par
|
|
quelques termes dont les poids sont trés élevés. Il en résulte une estimation peu fiable, voir Casella et Robert
|
|
(2004) pour plus de détails. L'algorithme se résume comme suit :
|
|
|
|
Algorithme 1.
|
|
|
|
(1) Maximiser le noyau postérieur par rapport à $$. On obtient le mode de la densité postérieure, $$, et le
|
|
hessien au mode qui caractérise la courbure de la densité postérieure au mode et dont l'inverse de l'opposé,
|
|
noté $$, approxime la variance postérieure.
|
|
|
|
(2) Générer $$, suivant une fonction d'importance, $$, dont les moments du premier et second ordre dépendent
|
|
de $$ et $$.
|
|
|
|
(3) Déterminer les poids $$ selon (24).
|
|
|
|
(4) Reprendre (2-3) pour $$.
|
|
|
|
(5) Calculer :
|
|
<DISPLAY EQUATION ()>
|
|
<DISPLAY EQUATION ()>
|
|
|
|
La première étape n'est pas spécifique à l'algorithme par fonction d'importance : il s'agit de calculer les
|
|
moments associés à la fonction d'importance, h. Cette << calibration >> des moments de la fonction d'impor-
|
|
tance est généralement faite à partir de la maximisation du logarithme du noyau a posteriori. Étant données les
|
|
propriétés asymptotiques de la distribution postérieure, ces choix sur les moments d'ordre un et deux associés
|
|
à $$ sont d'autant plus satisfaisants que la taille de l'échantillon est importante.
|
|
|
|
Bien que trés populaire en statistique, cette méthode est peu utilisée dans le cadre de l'estimation de mo-
|
|
dèles DSGE. A titre d'exemples, Dejong et al. (2000) estiment avec cette méthode un modèle de croissance
|
|
stochastique linéarisé. An et Schorfheide (2007) comparent l'algorithme d'importance avec celui de Metro-
|
|
polis (à pas aléatoire) dans une version simplifiée du modèle de Smets et Wouters (2002). Pour ce faire, ils
|
|
retiennent comme fonction d'importance une distribution de Student multivariée.
|
|
|
|
3.3 Les méthodes de Monte-Carlo à chaînes de Markov
|
|
|
|
Cette seconde classe d'algorithmes permet de générer des variables aléatoires suivant approximativement
|
|
la loi a posteriori, lorsque cette dernière n'est pas disponible. Elle évite donc l'appel à une fonction d'impor-
|
|
tance, $$, souvent difficile à déterminer pour les modèles DSGE\note{32}. On cherche ainsi à définir une chaîne de Mar-
|
|
kov dont la distribution ergodique est approximativement le noyau a posteriori. Si cette chaîne existe, la mé-
|
|
thode d'échantillonnage est grossiérement définie comme suit. Dans un premier temps, on initialise (arbitrai-
|
|
rement) la chaîne de Markov. Dans un second temps, on génère les $$ à partir de cette chaîne. À l'issue d'un
|
|
certain nombre de tirages (disons $$), on dispose de réalisations de variables aléatoires $$
|
|
approximativement distribuées comme la distribution a posteriori.
|
|
|
|
3.3.1 chaînes de Markov
|
|
|
|
Une chaîne de Markov est une suite de variables aléatoires continues à valeurs dans $$, $$,
|
|
générée par un processus de Markov. Une suite de variables aléatoires est générée par un processus de Markov\note{32}
|
|
(d'ordre 1) si la distribution de $$ ne dépend que de $$. Une chaîne de Markov est caractérisée par un
|
|
noyau de transition qui spécifie la probabilité de passer de $$ à $$. Nous noterons $$ le noyau de
|
|
transition, il vérifie $$ pour tout $$ dans $$. Si la chaîne de Markov définie par le noyau P converge
|
|
vers une distribution invariante $$, alors le noyau doit satisfaire l'identité suivante :
|
|
<DISPLAY EQUATION ()>
|
|
pour tout sous ensemble mesurable $$ de $$. Plus généralement, avant d'atteindre la distribution ergodique $$,
|
|
si nous notons $$ la probabilité que $$ soit dans S sachant que $$, nous avons :
|
|
<DISPLAY EQUATION ()>
|
|
la distribution de $$ s'ajuste d'itération en itération puis rejoint la distribution ergodique, $$. L'idée est
|
|
alors de choisir le noyau de transition qui nous aménera vers la distribution invariante désirée.
|
|
|
|
Définissons $$ et $$ les densités associées au noyau $$ et $$ la distribution $$\note{33}. Tierney (1994) montre que
|
|
si la densité $$ vérifie la condition de réversibilité\note{34} :
|
|
<DISPLAY EQUATION ()>
|
|
alors $$ est la distribution invariante associée au noyau $$\note{35}. De façon équivalente :
|
|
<DISPLAY EQUATION ()>
|
|
Cette condition nous dit simplement que si la densité de $$, $$, domine la densité associée à $$, $$,
|
|
alors il doit être plus << facile >> de passer de $$ à $$ que de $$ à $$.
|
|
|
|
Cette propriété nous aidera à construire une chaîne de Markov dont la distribution invariante est la distri-
|
|
bution postérieure des paramètres $$ dans le modèle DSGE. On comprend bien que le noyau de cette chaîne
|
|
est difficile à définir. Supposons que l'on puisse choisir un noyau de transition $$ ; alors il est presque
|
|
sûr que la condition de réversibilité ne sera pas vérifie, c'est-à-dire que nous aurons $$. L'algorithme de
|
|
Metropolis-Hastings est une approche générale qui permet de << corriger >> ce noyau, de façon à respecter la
|
|
condition de réversibilité.
|
|
|
|
3.3.2 L'algorithme de Métropolis-Hasting
|
|
|
|
Supposons que l'on puisse définir une densité instrumentale, qui permette d'approcher le noyau de tran-
|
|
sition de la chaîne de Markov dont la densité ergodique est la loi a posteriori de notre modèle. Cette densité est
|
|
définie par $$.
|
|
|
|
Algorithme 2 (Metropolis-Hastings).
|
|
|
|
(1) Se donner une condition initiale $$ telle que $$ et poser $$.
|
|
|
|
(2) Génèrer un candidat (une proposition) $$ à partir d'une densité $$.
|
|
|
|
(3) Génèrer $$ dans une loi uniforme entre $$.
|
|
|
|
(4) Appliquer la règle suivante :
|
|
<DISPLAY EQUATION ()>
|
|
où
|
|
<DISPLAY EQUATION ()>
|
|
|
|
(5) Reprendre (2-4) pour $$.
|
|
|
|
Notons qu'il suffit de pouvoir évaluer le noyau postérieur pour mettre en oeuvre cet algorithme ; la connais-
|
|
sance de la densité postérieure à une constante près est suffisante. L'algorithme de Metropolis-Hasting re-
|
|
quiert le choix d'une fonction instrumentale $$ à partir de laquelle on génère des transitions dans l'espace des
|
|
paramètres. La densité conditionnelle $$ permet de génèrer un vecteur candidat $$. Puisqu'elle n'est pas né-
|
|
cessairement la densité conditionnelle associée au noyau de transition dont la distribution ergodique est la
|
|
distribution a posteriori recherchée, la condition de réversibilité n'est pas vérifie\note{36}. L'algorithme
|
|
de MH corrige cette erreur\note{37} en n'acceptant pas systématiquement les propositions de $$. En introduisant
|
|
une probabilité d'acceptation de la transition proposée, $$, on peut finalement vérifier la condition de
|
|
réversibilité. Pour cela, la probabilité d'acceptation doit être telle que :
|
|
<DISPLAY EQUATION ()>
|
|
soit
|
|
<DISPLAY EQUATION ()>
|
|
Il nous reste à déterminer (i) comment nous devons initialiser la chaîne et (ii) la longueur de la chaîne. Nous
|
|
reviendrons par la suite, lors de la présentation de l'algorithme de Metropolis à pas aléatoires, sur le premier
|
|
point. Nous aborderons la question du nombre de simulations nécessaires, c'est-à-dire de la longueur de la
|
|
chaîne, dans la section 3.3.4. Nous reviendrons plus loin sur cette question, pour l'instant nous supposerons
|
|
que pour tout $$ les $$ sont tirés dans la distribution ciblée. Afin de s'assurer que les résultats sont
|
|
indépendants des conditions initiales, on ne considère pas les simulations indicées par $$. Ainsi,
|
|
pour évaluer $$ nous calculons : $$ qui converge vers le moment postérieur recherché lorsque le nombre de
|
|
simulations, $$, tend vers l'infini.
|
|
|
|
|
|
3.3.3 Deux variantes de l'algorithme MH
|
|
|
|
|
|
L'algorithme de MH à pas aléatoires. Comme nous l'avons expliqué plus haut, l'utilisation de l'algorithme
|
|
de Metropolis-Hastings repose sur le fait qu'il est aisé d'échantillonner à partir de la densité instrumentale
|
|
$$. L'inconvénient est que cette dernière n'est pas toujours facile à déterminer. Dans cette perspective, l'algo-
|
|
rithme de Metropolis à pas aléatoires est utile lorsqu'il est difficile d'obtenir une bonne approximation de la
|
|
densité a posteriori. Une proposition à l'itération $$ est définie par :
|
|
<DISPLAY EQUATION ()>
|
|
où $$ est le pas aléatoire. Le choix de la densité de $$ détermine la forme précise de la densité instrumentrale, $$.
|
|
Un choix standard est la distribution gaussienne multivariée : $$. Ainsi la densité de $$ conditionnel
|
|
à $$ est gaussienne :
|
|
<DISPLAY EQUATION ()>
|
|
Par symétrie de la loi normale, la densité instrumentale vérifie $$, ainsi la probabilité d'accepta-
|
|
tion ne dépend que du noyau postérieur :
|
|
<DISPLAY EQUATION ()>
|
|
Autrement dit, si $$, la chaîne de Markov se déplace en $$. Si ce n'est pas le cas, la
|
|
chaîne se déplace avec une probabilité égale au rapport des densités a posteriori. On accepte avec une proba-
|
|
bilité unitaire la proposition dans une phase ascendante (c'est-à-dire lorsque la probabilité a posteriori croît)
|
|
et avec une probabilité non nulle la proposition dans une phase descendante (si nous décidions de rejeter
|
|
systématiquement ces propositions défavorables la chaîne ne Markov ne visiterait pas complétement l'espace
|
|
des paramètres et a fortiori elle ne pourrait converger vers la distribution postérieure recherchée).
|
|
|
|
La probabilité d'acceptation peut être ajustée à partir de la matrice de variance-covariance $$. En effet,
|
|
si celle-ci est << grande >> alors il y a de fortes chances pour que la transition proposée nous amène dans les
|
|
queues de la distribution a posteriori c'est-à-dire dans une région où la densité est faible et où donc la probabi-
|
|
lité d'acceptation est proche de zéro (si on vient d'une zone plus dense). Si la matrice $$ est << petite >> alors les
|
|
transitions proposées ne seront que des petits pas, dans ce cas il n'y aura pas de grandes variations de la den-
|
|
sité postérieure et donc la probabilité d'acceptation sera proche de un. Nous écrivons $$ sous la forme $$ où $$
|
|
est une estimation de la matrice de variance-covariance a posteriori et $$ est un paramètre d'échelle qui permet
|
|
de jouer sur le caractère plus ou moins diffus de la matrice de variance-covariance et donc d'ajuster le taux
|
|
d'acceptation. On peut expérimenter différentes valeurs de $$ afin de déterminer une probabilité d'acceptation
|
|
raisonnable\note{38}.
|
|
|
|
Cette version de l'algorithme de MH est généralement utilisée dans la littérature concernée par l'estimation
|
|
bayésienne des modèles DSGE.
|
|
|
|
Algorithme 3.
|
|
|
|
(1) Maximiser le noyau postérieur par rapport à $$. On obtient le mode de la densité postérieure, $$, et le hessien au
|
|
mode qui caractérise la courbure de la densité postérieure au mode et dont l'inverse de l'opposé, noté $$, approxime
|
|
la variance postérieure. On pose $$ avec $$, $$ et $$.
|
|
|
|
(2) Génèrer $$ à partir d'une gaussienne d'espérance $$ et de variance $$.
|
|
|
|
(3) Génèrer $$ dans une loi uniforme entre $$.
|
|
|
|
(4) Appliquer la règle suivante :
|
|
<DISPLAY EQUATION ()>
|
|
où
|
|
<DISPLAY EQUATION ()>
|
|
|
|
(5) Reprendre (2-4) pour $$.
|
|
|
|
|
|
L'algorithme à chaînes indépendantes. Si la proposition est indépendante de l'état courant, l'algorithme est
|
|
dit à chaines indépendantes (Tierney (1994)). La probabilité d'acceptation se simplifie alors comme suit :
|
|
<DISPLAY EQUATION ()>
|
|
Cet algorithme est particuliérement adapté au cas où il existe une approximation naturelle de la densité a
|
|
posteriori. En effet, l'algorithme à chaînes indépendantes est alors similaire à l'algorithme par fonction d'im-
|
|
portance. Pour s'en convaincre, il suffit de remarquer que l'on peut définir des poids analogues à ceux vus
|
|
précédemment comme suit :
|
|
<DISPLAY EQUATION ()>
|
|
La probabilité d'acceptation est alors donnée par $$. Autrement dit, il s'agit du ratio des poids
|
|
d'échantillonnage par importance entre le vecteur candidat et le vecteur précédent.
|
|
|
|
|
|
3.3.4 Les diagnostics de convergence
|
|
|
|
Un certain nombre de résultats théoriques sont disponibles pour l'étude de la convergence des chaînes
|
|
de Markov. Il est cependant extrêmement compliqué d'énoncer des règles pratiques. Ainsi, il n'existe aucune
|
|
réponse simple à la question : Quel est le nombre optimal de simulations pour garantir la convergence de
|
|
la chaîne de Markov vers la distribution ergodique ? Nous discutons brièvement quelques diagnostics de
|
|
convergence. Le lecteur intéressé pourra consulter, par exemple, Casella et Robert (2004, chapitre 12).
|
|
|
|
La littérature bayésienne distingue généralement trois types de convergence : (i) la convergence vers la
|
|
distribution stationnaire, (ii) la convergence des moments empiriques (ou approchés) vers les moments théo-
|
|
riques et (iii) la convergence vers un échantillonage i.i.d.. Nous nous intéressons ici aux deux dernières formes
|
|
de convergence\note{39}. Quelle que soit la convergence étudiée, les résultats reposent soit sur des méthodes d'éva-
|
|
luation graphiques dont il est difficile d'en déduire des règles générales, soit des tests statistiques formels.
|
|
Avant de présenter certaines de ces méthodes, il convient de noter qu'il est important de distinguer les mé-
|
|
thodes qui font appel à $$ chaînes de Markov parallèles et indépendantes et celles basées sur une seule chaîne
|
|
(on-line Markov chain). L'utilisation de plusieurs chaînes est coûteuse en temps mais elle réduit la dépendance
|
|
aux conditions initiales et accroît la possibilité de parcourir efficacement l'espace des paramètres, $$. En par-
|
|
ticulier, si une chaîne de Markov est mélangeante au sens faible -- elle reste coincée dans des régions (de
|
|
mesure dominée) de l'espace des paramètres -- une explication possible est la présence d'une distribution a
|
|
posteriori multimodale (notamment lorsque les densités a priori sont en conflit avec la vraisemblance du mo-
|
|
dèle). Dans ce cas, la mise en oeuvre de chaînes de Markov en parallèle et indépendantes, très dispersées,
|
|
peut permettre de résoudre cette difficulté. L'argument des chaînes multiples est aussi avancé pour s'assurer
|
|
de la convergence. Si on se donne plusieurs vecteurs initiaux de paramètres, suffisamment dispersés, et que
|
|
l'on obtient les mêmes résultats, la convergence serait assurée. L'argument est valide si et seulement si on a
|
|
bien vérifié que chaque chaîne a convergée. Nous revoilà donc au point de départ... Il existe une littérature
|
|
abondante discutant des avantages et inconvénients respectifs de chaque méthode\note{40}.
|
|
|
|
La convergence des moments empiriques, ou approchés, vers les moments théoriques peut s'appréhender
|
|
à partir de méthodes graphiques. Yu et Mykland (1998) se basent sur les sommes cumulatives des moments
|
|
d'intérêt dans le cas d'une seule chaîne de Markov. Au contraire, Gelman et Rubin (1992) proposent un test
|
|
formel qui repose sur des méthodes de chaînes de Markov en parallèle. La convergence est diagnostiquée
|
|
si les différences entre $$ des $$ chaines de Markov restent dans un intervalle raisonnable. Gelman et Rubin
|
|
formalisent cette idée en recourant à des statistiques de type ANOVA. Pour chaque statistique d'intérêt $$,
|
|
ils déterminent la variance intra et inter-chaînes. L'intuition du test est alors la suivante. Si l'effet des va-
|
|
leurs initiales de chaque chaîne de Markov a été supprimé, les chaînes en parallèle doivent être relativement
|
|
proches. En d'autres termes, la variance inter-chaîne ne devrait pas être trop grande par rapport à la variance
|
|
intra-chaîne\note{41}. La statistique de test est alors définie à partir d'un estimateur de la variance a
|
|
posteriori de $$. Plus précisément, ce dernier est une moyenne pondérée de la variance intra-chaîne et de
|
|
la variance inter-chaîne. Le critère de convergence est ainsi le rapport de cet estimateur à la variance
|
|
intra-chaîne. En utilisant une approximation de ce critère, les auteurs montrent que si sa valeur excède 1.2, on
|
|
peut en conclure qu'il n'y a pas convergence. Dans une autre optique, Geweke (1992) propose de comparer la
|
|
moyenne de deux sous-échantillons disjoints, $$ et $$, d'une chaîne de Markov (aprés avoir éliminé les $$
|
|
premières valeurs). On choisit $$ (resp. $$) au début (resp. à la fin) de la chaîne de Markov. Si la chaîne
|
|
de Markov a atteint la distribution stationnaire, la moyenne des deux sous-échantillons doit être égale.
|
|
Une version modifiée de la statistique $$ est alors élaborée par Geweke\note{42}. Une valeur de la statistique
|
|
de test supérieure à 2 indique qu'un nombre plus élevé d'itérations est sans doute nécessaire. Le test de
|
|
Raftery et Lewis (1992a) (voir aussi Raftery et Lewis (1992b)) est plus informatif. Il se base sur les quantiles
|
|
de la statistique d'intérêt. L'idée est de construire une chaîne de Markov à deux états à partir d'un quantile
|
|
(par exemple, 2,5% et 97,5%) qui permette d'estimer les probabilités de transition et ainsi d'estimer le nombre
|
|
de simulations nécessaires pour approcher la stationnarité.
|
|
|
|
Finalement, les méthodes de Monte-Carlo présentées dans les sections précédentes ne sont valides que si
|
|
les éléments de la chaîne de Markov sont i.i.d. Or, l'intuition suggère que les valeurs adjacentes d'une chaîne
|
|
de Markov devraient être corrélées positivement. De manière plus générale, le fait que des autocorrélations
|
|
d'ordre élevé puissent subsister est problématique si la taille de la chaîne de Markov n'est pas suffisamment
|
|
grande. Dans cette perspective, il est nécessaire de vérifier cette propriété ou tout du moins d'éviter une
|
|
corrélation trop élevée de la chaîne de Markov à partir de laquelle on déduit les quantités ou statistiques
|
|
d'intérêt. Plusieurs procédures ont été suggérées dans la littérature. Nous mentionnons ici deux stratégies.
|
|
La première repose sur un facteur correctif à appliquer à la dimension de la chaîne de Markov en présence
|
|
d'un degré observé $$ d'autocorrélations\note{43}. Une autre stratégie est de conserver seulement chaque
|
|
kième élément de la chaîne de Markov (après avoir supprimé les $$ premiers éléments de la chaine de Markov). Cette
|
|
technique est connue sous le nom de sous-échantillonnage, voir Schmeiser (1989), Raftery et Lewis (1992a) ou
|
|
Raftery et Lewis (1992b).
|
|
|
|
|
|
3.4 Estimation de la densité marginale
|
|
|
|
Nous disposons d'une suite de vecteurs de paramètres $$ où chaque $$ est extrait de la
|
|
distribution postérieure. À partir de cette suite nous pouvons estimer les moments postérieurs, les densités
|
|
prédictives, et finalement la densité marginale de l'échantillon, $$. Cette densité marginale, comme nous
|
|
l'avons vu en section 2.1, pemet de quantifier la capacité du modèle à expliquer l'échantillon à notre dis-
|
|
position et éventuellement de comparer différents modèles. Par exemple, Rabanal et Rubio Ramirez (2005)
|
|
évaluent différentes spécifications des rigidités nominales sur les salaires et les prix dans le cadre d'un mo-
|
|
dèle DSGE, en comparant des densités marginales. Il existe de nombreuses méthodes pour estimer $$. Dans cette
|
|
section nous présentons la méthode généralement utilisée pour les modèles DSGE.
|
|
|
|
L'estimateur par la moyenne harmonique est motivé par la propriété suivante de l'espérance postérieure :
|
|
<DISPLAY EQUATION ()>
|
|
où $$ est une fonction de densité quelconque et $$ est l'espérance postérieure. Le membre de droite de l'égalité,
|
|
en utilisant la définition de la densité postérieure, s'écrit alternativement :
|
|
<DISPLAY EQUATION ()>
|
|
On obtient donc :
|
|
<DISPLAY EQUATION ()>
|
|
Puisque l'intégrale de $$ somme à un, nous obtenons finalement :
|
|
<DISPLAY EQUATION ()>
|
|
Ainsi, un estimateur de la densité marginale (l'intégrale du noyau postérieur qui apparaît au dénominateur du
|
|
second membre), est l'inverse de l'espérance postérieure de $$. Ceci suggère l'estimateur suivant
|
|
de la densité marginale :
|
|
<DISPLAY EQUATION ()>
|
|
Ce résultat est valable pour toute densité f. Geweke (1992) propose d'utiliser une gaussienne tronquée centrée
|
|
sur l'espérance postérieure. L'idée est d'accorder moins de poids, voire d'éliminer, les simulations éloignées
|
|
du centre de la distribution postérieure. Cela permet de diminuer la variance de l'estimateur de la densité
|
|
marginale.
|
|
|
|
|
|
|
|
4 Un DSGE pour le B du VAR
|
|
|
|
Dans cette section, nous illustrons en quoi les modèles VAR et DSGE sont des outils complémentaires que
|
|
l'on ne doit pas nécessairement chercher à opposer. Nous avons vu dans la section 2.4 que la spécification des
|
|
croyances a priori sur la paramétrisation d'un VAR ne va pas de soi. En effet, dans la mesure où le contenu
|
|
économique d'un modèle VAR est ténu, l'interprétation des paramètres du VAR est délicate, ce qui rend l'éli-
|
|
citation des priors ardue. Ingram et Whiteman (1994) proposent d'utiliser un modèle DSGE afin de construire
|
|
le prior d'un modèle VAR. Ils montrent qu'en utilisant les restrictions définies par un modèle RBC pour dé-
|
|
finir le prior d'un modèle VAR, on peut produire avec ce dernier des prévisions comparables, en termes de
|
|
précision, à celles que nous obtiendrions avec un prior Minnesota. Ce résultat est remarquable, car même si le
|
|
modèle RBC canonique est mal spécifié dans de nombreuses directions, il impose des restrictions utiles pour
|
|
améliorer les prévisions du VAR.
|
|
|
|
Plus récemment, Del Negro et Schorfheide (2004) ont repris cette idée sous une forme plus simple à mettre
|
|
en oeuvre. Leur approche permet d'estimer simultanément les paramètres structurels du DSGE et les para-
|
|
mètres du modèle VAR. Nous présentons leur approche dans cette section.
|
|
|
|
4.1 Les régressions mixtes
|
|
|
|
Dans la section 2.4.3 nous avons noté, au moins dans le cadre d'un modèle linéaire gaussien, une analogie
|
|
entre les priors du paradigme bayésien et les contraintes linéaires sur les paramètres de l'approche classique.
|
|
Del Negro et Schorfheide utilisent cette analogie (voir Theil et Golberger (1961), Tiao et Zellner (1964) et Theil
|
|
(1971)) pour mettre en oeuvre le prior DSGE. Dans le modèle VAR, on peut définir un prior sur $$ en utilisant
|
|
des observations artificielles, cohérentes avec nos croyances, et un prior diffus à la Jeffrey. Par exemple, si ces
|
|
observations artificielles sont générées par un modèle DSGE, alors l'estimation sur la base de l'échantillon
|
|
augmenté sera attirée vers la projection du DSGE dans l'espace des VAR.
|
|
|
|
Plus formellement supposons que nous disposions des observations artificielles , où $$ est un
|
|
vecteur de paramètres qui définit le processus générateur des données artificielles (ie les croyances a priori).
|
|
Comme l'échantillon artificiel est indépendant de $$, la vraisemblance de l'échantillon augmenté s'écrit de la
|
|
façon suivante :
|
|
<DISPLAY EQUATION (25)>
|
|
Le premier terme du membre de droite, si l'échantillon artificiel est de dimension $$ où $$, s'écrit :
|
|
<DISPLAY EQUATION (26)>
|
|
et, à la lumière de l'avant dernière équation, s'interprète comme un prior pour $$ et $$. La croyance a priori est
|
|
d'autant plus informative que l'échantillon artificiel est de grande taille. Quand $$ tend vers l'infini, le poids
|
|
de la vraisemblance (le second terme sur le membre de droite de (25)) devient négligeable par rapport au prior
|
|
(le premier terme sur le membre de droite de (25)). En complétant le prior, défini avec les données artificielles,
|
|
par un prior diffus (ou plat) à la Jeffrey :
|
|
<DISPLAY EQUATION ()>
|
|
le prior est au final de type normal-Wishart, le prior conjugué dans un modèle linéaire gaussien. En particulier,
|
|
$$ est a priori normalement distribué :
|
|
<DISPLAY EQUATION ()>
|
|
où $$, est l'estimateur des MCO (MV) des paramètres autorégressifs pour l'échantillon artificiel. On voit
|
|
immédiatement, en considérant la vraisemblance de l'échantillon augmenté (25), le prior diffus à
|
|
la Jeffrey et les résultats de la section 2.4.1, que la distribution a posteriori est de type normale-Wishart :
|
|
<DISPLAY EQUATION (27)>
|
|
où $$ et $$ sont respectivement les estimateurs du maximum de vraisemblance de $$ et $$, pour
|
|
l'échantillon augmenté des données artificielles, $$. En intégrant la densité jointe postérieure
|
|
par rapport à $$, on montre que la distribution postérieure marginale de $$ est une distribution de student
|
|
matricielle, centrée en $$. Lorsque $$ augmente, $$ se rapproche de $$ ; en effet, on établit facilement
|
|
que :
|
|
<DISPLAY EQUATION ()>
|
|
Ainsi, lorsque le poids du prior augmente, la distribution postérieure du VAR se rapproche de la projection
|
|
dans l'espace des VAR du modèle générateur des données cohérent avec nos croyances a priori.
|
|
|
|
|
|
4.2 Le modèle BVAR-DSGE
|
|
|
|
Del Negro et Schorfheide (2004) proposent, à la suite de Ingram et Whiteman (1994), d'utiliser un modèle
|
|
DSGE pour spécifier le prior d'un modèle VAR. Contrairement à ces derniers, Del Negro et Schorfheide uti-
|
|
lisent les régressions mixtes décrites dans la section 4.1 , même si en pratique ils ne simulent pas des données.
|
|
Afin d'éviter que les résultats puissent varier, à cause des simulations, ils préfèrent remplacer les moments em-
|
|
piriques dans (26) par des moments théoriques calculés à partir d'une approximation de Taylor d'ordre un de
|
|
la forme réduite (18) du modèle DSGE. Par exemple ils remplacent $$ par la matrice de variance-covariance
|
|
des endogènes observées, c'est-à-dire une sous matrice de $$, multipliée par la
|
|
taille de l'échantillon artificiel, $$. Pour tout vecteur de paramètres structurels, $$, la définition du prior
|
|
du VAR est pratiquement immédiate, il suffit d'écrire la forme réduite du modèle DSGE et de calculer ses
|
|
moments asymptotiques. Del Negro et Schorfheide ne se contentent pas d'estimer les paramètres du VAR, ils
|
|
estiment simultanément les paramètres du modèle DSGE. Ils spécifient donc un prior joint sur les paramètres
|
|
du modèle VAR et les paramètres structurels du modèle DSGE :
|
|
<DISPLAY EQUATION ()>
|
|
Le prior est conditionnel au paramètre $$ qui spécifie la taille de l'échantillon artificiel relativement à l'échan-
|
|
tillon d'origine, c'est-à-dire la quantité relative d'information structurelle a priori. On peut alors utiliser l'algo-
|
|
rithme de Metropolis-Hastings pour obtenir la distribution postérieure de $$ (et indirectement de $$ et $$) en
|
|
utilisant la densité postérieure du modèle BVAR spécifiée par (27). Ici, la vraisemblance du modèle DSGE n'a
|
|
pas à être calculée, ce qui simplifie considérablement l'estimation puisque le filltre de Kalman n'est plus né-
|
|
cessaire. Les paramètres du modéle DSGE sont identifiés grâce à la vraisemblance, plus exactement la densité
|
|
postérieure, de son approximation VAR. Le modèle VAR joue ici en quelque sorte le même rôle qu'un modèle
|
|
auxiliaire en inférence indirecte (voir Gouriéroux et Monfort (1996)).
|
|
|
|
L'estimation de $$ (et donc de $$ et $$) est conditionnelle aux choix de $$, le nombre de retards dans le VAR,
|
|
et $$, la quantité relative d'information structurelle a priori dans le VAR. Il convient de choisir un nombre de re-
|
|
tard assez grand pour que le modèle VAR puisse être une approximation acceptable du modèle DSGE. En effet
|
|
la forme réduite (18) approximée du modèle DSGE n'appartient pas à la famille des modèles VAR, il faudrait
|
|
un nombre de retard infini pour approximer au mieux le modèle DSGE\note{44}. Del Negro et Schorfheide estiment
|
|
un VAR décrivant l'inflation, le taux d'intérêt et le taux de croissance du produit. Ils affirment qu'un VAR(4)
|
|
permet une approximation satisfaisante de leur modèle DSGE. Le choix de $$ est plus délicat, en variant ce
|
|
paramètre de zéro à l'infini, on passe d'un prior diffus (l'espérance postérieure de $$ est alors l'estimateur du
|
|
MV) à un prior trés informatif (l'espérance postérieur de A tend vers $$ les contraintes DSGE sur
|
|
les paramètres du modèle VAR). Del Negro et Schorfheide proposent d'estimer plusieurs modèles pour une
|
|
grille de valeurs de $$. Ils choisissent alors le modèle, c'est-à-dire la valeur de $$, qui maximise la densité margi-
|
|
nale. Ils sélectionnent le modèle dont la qualité d'ajustement est la meilleure. Del Negro et al. (2007) utilisent
|
|
le BVAR-DSGE pour estimer le modèle de Smets et Wouters (2002), ils obtiennent $$. Ils montrent ainsi
|
|
que les restrictions apportées par le modèle de Smets et Wouters sont utiles pour améliorer les performances
|
|
du modèle VAR. Cette procédure est relativement compliquée à mettre en oeuvre. Pour chaque valeur de $$ il
|
|
faut s'assurer de la convergence de l'algorithme de Metropolis-Hastings, afin d'estimer la densité marginale\note{45}.
|
|
Plus haut nous avons noté l'analogie entre le choix d'un modèle dans une collection de modèles et l'estimation
|
|
d'un paramètre dont les valeurs seraient discrêtes. Une approche plus directe est d'associer une distribution
|
|
a priori à $$ puis d'estimer ce paramètre (avec les paramètres structurelles $$). Il faut alors définir un prior joint
|
|
sur $$, $$, $$ et $$ :
|
|
<DISPLAY EQUATION ()>
|
|
Adjemian et Darracq-Pariès (2007) estiment une version deux pays du modèle de Smets et Wouters , avec le
|
|
modèle BVAR-DSGE, en posant un prior uniforme (entre 0 et 10) pour le paramètre $$. Ils obtiennent une
|
|
distribution postérieure de $$ centrée sur 2,5. Il n'est pas surprenant d'obtenir dans ce cas une valeur de $$
|
|
largement supérieure. La version deux pays du modèle de Smets et Wouters est estimée avec un VAR compre-
|
|
nant dix-huit variables observables, alors que Del Negro et al. (2007), pour la version un pays, ne considèrent
|
|
que sept variables. Avec dix-huit variables, les restrictions structurelles deviennent plus nécessaires, même si
|
|
le modèle n'est pas mieux spécifié.
|
|
|
|
|
|
4.3 Usages et avantages du BVAR-DSGE
|
|
|
|
Del Negro et Schorfheide (2004) et surtout Del Negro et al. (2007) présentent le modèle BVAR-DSGE comme
|
|
un outil d'évaluation de la qualité d'ajustement d'un modèle DSGE. Pour ces derniers la valeur de $$, le poids
|
|
du prior structurel, donne une idée de l'intérêt empirique du modèle. Si les restrictions structurelles définies
|
|
par le modèle DSGE sont pertinentes, alors la procédure sélectionne une valeur élevée de $$. Si le modèle ap-
|
|
porte des informations totalement incohérentes avec les données alors la procédure sélectionne une valeur
|
|
proche de zéro. Malheureusement cette mesure n'a pas d'échelle et nous ne savons pas à partir de quelle
|
|
valeur de $$ on peut dire que le modèle apporte des informations pertinentes. Un autre problème est que ce
|
|
paramètre ne mesure pas la qualité d'ajustement du modèle DSGE, il nous donne la quantité optimale, au
|
|
sens du fit du modèle BVAR, d'information DSGE qu'il faut incorporer dans le prior du VAR. Del Negro et al.
|
|
(2007) utilisent le BVAR-DSGE afin de dévoiler les éventuelles mauvaises, spécifications d'un modèle DSGE.
|
|
Or le niveau optimal de $$ ou la densité marginale, $$, du modèle DSGE ne sauraient donner une idée
|
|
précise des directions dans lesquels le modèle est insatisfaisant puisque ces deux indicateurs donnent des in-
|
|
formations trop agrégées. Les quatre auteurs recherchent les directions dans lesquels le modèle DSGE est mal
|
|
spécifié en comparant les fonctions de réponses (IRF) du modèle BVAR-DSGE avec celles du modèle DSGE.
|
|
Ils identifient les chocs structurels dans le modèle BVAR-DSGE en se fondant sur le modèle DSGE (17). À
|
|
partir de la forme rÉduite (18) il est possible de calculer l'impact instantannÉ de chaque choc structurel sur les
|
|
variables observables :
|
|
<DISPLAY EQUATION ()>
|
|
oÙ Z est une matrice de sélection définie dans l'équation de mesure (19a). Del Negro et Schorfheide uti-
|
|
lisent cette information pour indentifier les innovations structurelles dans le modèle BVAR (se reporter à
|
|
Del Negro et Schorfheide (2004) pour les détails). Même si le BVAR-DSGE est construit sur la base (au moins
|
|
partiellement) d'une information structurelle provenant du DSGE, ce modèle est moins contraint que le mo-
|
|
dèle DSGE. Ainsi, l'observation d'une différence significative entre les IRFs du BVAR-DSGE et celles du mo-
|
|
dèle DSGE conduit Del Negro et al. (2007) à identifer les directions dans lesquelles le modèle DSGE est mal
|
|
spécifié. Par exemple, les quatre auteurs observent que les réponses du produit, de la consommation et des
|
|
heures face à un choc de préférence (sur la désutilité du travail) sont plus persistentes dans le BVAR-DSGE que
|
|
dans le DSGE. Ils concluent alors que le modèle DSGE manque de mécanismes de propagation des chocs sur
|
|
l'offre de travail. Cet exercice de comparaison entre BVAR-DSGE et DSGE peut être mis en oeuvre en utilisant
|
|
des statistiques autres que des fonctions de réponse : décompositions de variance des variables observées,
|
|
moments théoriques des variables observées,... La limite de l'exercice est que les conditions d'identification
|
|
des chocs dans le BVAR sont directement dérivées du modèle DSGE. Si nous n'observons pas de grandes dif-
|
|
férences entre les IRFs du BVAR-DSGE et celles du DSGE c'est peut être parce que nous utilisons les mêmes
|
|
conditions d'identifications. Ce problème ne se pose pas si on compare des statistiques qui ne reposent pas
|
|
sur des conditions d'identification, par exemple si on compare des moments (variances, fonction d'autocorré-
|
|
lation,...).
|
|
|
|
L'avantage du modèle BVAR-DSGE est plus évident en termes de prévisions. Tout modèle est, par nature,
|
|
mal spécifié dans une multitude de directions. Malgré cette limite intrinséque les modèles apportent souvent
|
|
des informations utiles et pertinentes. L'expérience de Ingram et Whiteman (1994) est, à cet égard, des plus
|
|
éclairantes. Ils montrent que même le plus stylisé des modèles DSGE (le modèle de cycle réel canonique)
|
|
est suffisament riche pour aider un BVAR à produire des prévisions plus précises et moins biaisées. Un mo-
|
|
dèle que personne ne voudrait utiliser pour produire des prévisions peut aider un modèle a-théorique (plus
|
|
souple) à produire de meilleures prévisions. Cette idée pourrait être développée dans de nombreuses direc-
|
|
tions. Nous pourrions par exemple utiliser plusieurs modèles DSGE pour construire le prior d'un modèle
|
|
VAR (ou de tout autre modèle a-théorique, par exemple un modèle à facteurs communs) et optimiser les parts
|
|
de chaque modèle dans le prior du VAR.
|
|
|
|
|
|
Références
|
|
|
|
Stéphane Adjemian et Matthieu Darracq-Pariès. Assessing the International Spillovers Between the US and
|
|
Euro Area : Evidence from a two country dsge-var. miméo, CEPREMAP, 2007.
|
|
|
|
Sungbae An et Frank Schorfheide. Bayesian Analysis of DSGE Models. Econometric Reviews, forthcoming,
|
|
2007.
|
|
|
|
C. Andrieu, A. Doucet, et P.B. Robert. Computational Advances for and from Bayesian Analysis. Statistical
|
|
Science, 19(1): 118-127, 2004a.
|
|
|
|
C. Andrieu, D. Doucet, S.S. Singh, et V.B. Tadi?
|
|
c. Particle Methods for Change Detection, System Identi?cation,
|
|
and Control. IEEE Transactions on Signal Processing, 92(3) :423-438, 2004b.
|
|
|
|
S. Arulampalam, T. Clapp, N. Gordon, et S. Maskell. Tutorial on Particle Filters. IEEE Transactions on Signal
|
|
Processing, 50(2) :174-188, 2002.
|
|
|
|
Ben Bernanke. Alternative Explanations of the Money-Income Correlation. Carnegie Rochester Conference Series
|
|
on Public Policy, 25(10) :49?99, 1986.
|
|
|
|
Herman J. Bierens. Econometric Analysis of Linearized Singular Dynamic Stochastic General Equilibrium
|
|
Models. Journal of Econometrics, 136(2) :595?627, 2007.
|
|
|
|
Olivier Blanchard et Danny Quah. The Dynamic Effects of Aggregate Demand and Supply Disturbances. The
|
|
American Economic Review, 79 :655?673, 1986.
|
|
|
|
S.P. Brooks et G. Roberts. Assessing Convergence of Markov Chain Monte Carlo Algorithms. Statistics and
|
|
Computing, 8 :319?335, 1998.
|
|
|
|
John Y. Campbell. Inspecting the Mechanism : An analytical approach to the stochastic growth model. Journal
|
|
of Monetary Economics, 33 :463?508, 1994.
|
|
|
|
Fabio Canova. Statistical Inference in Calibrated Models. Journal of Applied Econometrics, 9 :123?144, 1994.
|
|
|
|
B. Carlin et T. Louis. Bayes and Empirical Bayes Methods for Data Analysis. Chapman & Hill, 2000.
|
|
|
|
33
|
|
George Casella et Christian Robert. Monte Carlo Statistical Methods. Springer, 2004.
|
|
|
|
Nicolas Chopin et Florian Pelgrin. Bayesian Inference and State Number Determination for Hidden Markov
|
|
Models : An Application to the Information Content of the Yield Curve about In?ation. Journal of Econome-
|
|
trics, 123(2) :327?344, 2004.
|
|
|
|
Lawrence Christiano, Martin Eichenbaum, et Charles Evans. Nominal Rigidities and the Dynamic Effects of a
|
|
Schock to Monetary Policy. Journal of Political Economy, 113 :1?45, 2003.
|
|
|
|
M.K. Cowles et B.P. Carlin. Markov Chain Monte Carlo Convergence Diagnostics : A Comparative Study.
|
|
Journal of the American Statistical Association, 91 :883?904, 1996.
|
|
|
|
David Dejong, Beth F. Ingram, et Charles H. Whiteman. A Bayesian Approach to Calibration. Journal of
|
|
Business and Economic Statistics, 14(1) :1?9, 1996.
|
|
|
|
David Dejong, Beth F. Ingram, et Charles H. Whiteman. A Bayesian Approach to Dynamic Macroeconomics.
|
|
Journal of Econometrics, 98(21) :203?223, 2000.
|
|
|
|
Marco Del Negro et Frank Schorfheide. Priors from General Equilibrium Models for Vars. International Eco-
|
|
nomic Review, 45(2) :643?673, 2004.
|
|
|
|
Marco Del Negro, Frank Schorfheide, Frank Smets, et Raf Wouters. On the Fit and Forecasting Performance
|
|
of New Keynesian Models. Journal of Business and Economic Statistics, page forthcoming, 2007.
|
|
|
|
Ramdan Dridi, Alain Guay, et Eric Renault. Indirect Inference and Calibration of Dynamic Stochastic General
|
|
Equilibrium Models. Journal of Econometrics, 136(2) :397?430, 2007.
|
|
|
|
Jes?s Fern?ndez-Villaverde et Juan F. Rubio-Ram?rez. Estimating Dynamic Equilibrium Economies : Linear
|
|
versus NonLinear Likelihood. Journal of Applied Econometrics, 20(7) :891?910, 2005.
|
|
|
|
Jesus Fern?ndez-Villaverde et Juan F. Rubio-Ram?rez. Comparing Dynamic Equilibrium Economies to Data.
|
|
Working Paper 2001-23, Federal Reserve Bank of Atlanta, 2001.
|
|
|
|
A.E. Gelfand et A.F.M. Smith. Sampling Based Approaches to Calculating Marginal Densities. Journal of the
|
|
American Statistical Association, 85 :398?409, 1990.
|
|
|
|
Andrew Gelman et Donald B. Rubin. Inference from Iterative Simulations Using Multiple Sequences. Statis-
|
|
tical Science, 7(4) :457?472, 1992.
|
|
|
|
John Geweke. Evaluating the Accuracy of Sampling-based Approaches to the Calculation of Posterior Mo-
|
|
ments. dans , ?dit? par , Oxford University Press, pages 169?193, 1992.
|
|
|
|
John Geweke. Using Simulation Methods for Bayesian Econometric Models : Inference, Development and
|
|
Communication. Econometric Reviews, 18(1) :1?126, 1999.
|
|
|
|
N. Gordon, D.J. Salmond, et A.F.M. Smith. Novel Approach to NonLinear and Non-Gaussian Bayesian State
|
|
Estimation. IEEE Transactions on Signal Processing, 40(2) :107?113, 1993.
|
|
|
|
Christian Gouri?roux et Alain Monfort. Simulation Based Econometric Methods. Oxford University Press, 1996.
|
|
|
|
Christian Gouri?roux et Alain Monfort. Statistique et Mod?les ?conom?triques, volume 1 - Notions g?n?rales,
|
|
Estimation, Pr?visions, Algorithmes. Economica, 1989.
|
|
|
|
Andrew C. Harvey. Forecasting, structural time series models and the Kalman ?lter. Cambridge University Press,
|
|
1989.
|
|
|
|
Beth F. Ingram et Charles H. Whiteman. Supplanting the Minnesota Prior. Forecasting macroeconomic time
|
|
series using real business cycle model. Journal of Monetary Economics, 34 :497?510, 1994.
|
|
|
|
34
|
|
Harold Jeffrey. The Theory of Probability. Clarendon Press, 1961.
|
|
|
|
Kenneth L. Judd. Numerical Methods in Economics. MIT, 1998.
|
|
|
|
George G. Judge, W.E. Grif?ths, R. Carter Hill, Helmut L?tkpohl, et Tsoung-Chao Lee. The Theory and Practice
|
|
of Econometrics. John Wiley & Sons, 1985.
|
|
|
|
K. Rao Kadiyala et Sune Karlsson. Numerical Methods for Estimation and Inference in Bayesian VAR-Models.
|
|
Journal of Applied Econometrics, 12(2) :99?132, 1997.
|
|
|
|
Jae-Young Kim. Large Sample Properties of Posterior Densities, Bayesian Information Criterion and the Like-
|
|
lihood Principle in Nonstationary Time Series Models. Econometrica, 66(2) :359?380, 1998.
|
|
|
|
G. Kitagawa. Monte Carlo Filter and Smoother for Non-Gaussian NonLinear State Space Models. Journal of
|
|
Computational and Graphical Statistics, 5(1) :1?25, 1996.
|
|
|
|
Gary Koop. Bayesian Econometrics. John Wiley & Sons, 2003.
|
|
|
|
Finn Kydland et Edwards Prescott. Time to Build and Aggregate Fluctuations. Econometrica, 50 :1345?1370,
|
|
1982.
|
|
|
|
R. B. Litterman. Forecasting with Bayesian Vector Autoregressions ? ?ve years of experience. Journal of
|
|
Business & Economic Statistics, 4(1) :25?38, 1986.
|
|
|
|
C. Liu, J.S. Liu, et Donald B. Rubin. A Varational Control Variable for Assessing the Convergence of the Gibbs
|
|
Sampler. Proceedings of the American Statistical Association, pages 74?78, 1992.
|
|
|
|
Peter C. B. Phillips. Econometric Model Determination. Econometrica, 64(4) :763?812, 1996.
|
|
|
|
Peter C.B. Phillips. To Criticize the Critics : An Objective Bayesian Analysis of Stochastic Trends. Journal of
|
|
Applied Econometrics, 6(4) :333?64, 1991a.
|
|
|
|
Peter C.B. Phillips. Bayesian Routes and Unit Roots : De rebus prioribus semper est disputandum. Journal of
|
|
Applied Econometrics, 6(4) :435?73, 1991b.
|
|
|
|
D. Poirier. Intermediate Statistics and Econometrics : A Comparative Approach. Cambridge, The MIT Press, 1995.
|
|
|
|
Pau Rabanal et Juan F. Rubio Ramirez. Comparing New Keynesian Models of the Business Cycle : a bayesian
|
|
approach. Journal of Monetary Economics, 6 :1151?1166, 2005.
|
|
|
|
A.E. Raftery et S. Lewis. Implementing MCMC. dans Markov Chain Monte Carlo in Practice, ?dit? par W.R. Gilks,
|
|
S.T. Richardson et D.J. Spiegelhalter, Chapman & Hall, pages 115?130, 1996.
|
|
|
|
A.E. Raftery et S. Lewis. How Many Iterations in the Gibbs Sampler ? dans Bayesian Statistics, ?dit? par J.M.
|
|
Bernando, J.O. Berger, A.P. David et A.F.M. Smith, Oxford University Press, pages 763?773, 1992a.
|
|
|
|
A.E. Raftery et S. Lewis. The Number of Iterations, Convergence Diagnostics and Generic Metropolis Algo-
|
|
rithms. Technical report, Department of Statistics, University of Washington, 1992b.
|
|
|
|
Christian Robert. Le Choix Bay?sien. Springer, 2006.
|
|
|
|
G.O. Roberts. Convergence Diagnostics of the Gibbs Sampler. dans Bayesian Statistics, ?dit? par J.M. Bernando,
|
|
J.O. Berger, A.P. David et A.F.M. Smith, Oxford University Press, pages 775?782, 1992.
|
|
|
|
Julio Rotemberg et Michael Woodford. An Optimization-Based Econometric Framework for the Evaluation of
|
|
Monetary Policy. NBER Macroeconomics Annual, 12 :297?346, 1997.
|
|
|
|
B. Schmeiser. Simulation Experiments. Working Paper SMS 89-23, Purdue University, 1989.
|
|
|
|
35
|
|
Christopher Sims. Probability Models for Monetary Policy Decisions. mim?o, Princeton University, Septembre
|
|
2003.
|
|
|
|
Christopher Sims. Macroeconomics and Reality. Econometrica, 48(1) :1?48, 1980.
|
|
|
|
Christopher Sims. Are Forecasting Models Usable for Policy Analysis. Federal Reserve Bank of Minneapolis
|
|
Quarterly Review, 10(1) :2?16, 1986.
|
|
|
|
Christopher Sims. Comment on 'To Criticize the Critics,' by Peter C.B. Phillips. Journal of Applied Econometrics,
|
|
6(4) :423?34, 1991.
|
|
|
|
Christopher A Sims et Harald Uhlig. Understanding Unit Rooters : a Helicopter Tour. Econometrica, 59(6) :
|
|
1591?99, 1991.
|
|
|
|
Frank Smets et Rafael Wouters. An Estimated Stochastic Dynamic General Equilibrium Model of the Euro
|
|
Area. Working Paper Series 171, European Central Bank, Ao?t 2002.
|
|
|
|
Anthony Smith. Estimating NonLinear Time-Series Models Using Simulated Vector Autoregressions. Journal
|
|
of Applied Econometrics, 8 :63?84, 1993.
|
|
|
|
Henri Theil. Principles of Econometrics. John Wiley & Sons, 1971.
|
|
|
|
Henri Theil et Arthur S. Golberger. On Pure and Mixed Statistical Estimation in Economics. International
|
|
Economic Review, 2(1) :65?78, 1961.
|
|
|
|
George C. Tiao et Arnold Zellner. Bayes Theorem and the Use of Prior Knowledge in Regression Analysis.
|
|
Biometrika, 51(162) :219?230, 1964.
|
|
|
|
L. Tierney, R. Kass, et J. Kadane. Fully Exponential Laplace Approximations to Expectations and Variances of
|
|
NonPositive Functions. Journal of the American Statistical Association, 84 :710?716, 1989.
|
|
|
|
Luke Tierney. Markov Chains for Exploring Posterior Distributions. The Annals of Statistics, 22(4) :1701?1762,
|
|
1994.
|
|
|
|
Luke Tierney et Joseph B. Kadane. Accurate Approximations for Posterior Moments and Marginal Density.
|
|
Journal of the American Statistical Association, 81(393) :82?86, 1986.
|
|
|
|
B. Yu et P. Mykland. Looking at Markov Samplers through Cusum Path Plots : A Simple Diagnostic Idea.
|
|
Statistics and Computing, 8(3) :275?286, 1998.
|
|
|
|
Arnold Zellner. An Introduction to Bayesian Inference in Econometrics. John Wiley & Sons, 1971.
|
|
|
|
|
|
|
|
|
|
|
|
A Densités pour le modèle BVAR
|
|
|
|
A.1 Distribution normale matricielle
|
|
|
|
définition 4. La matrice $$ aléatoire $$ est distribuée conformément à une loi normale matricielle $$ où
|
|
$$ est une matrice $$, $$ et $$ sont respectivement des matrices $$ et $$ symétriques et définies positives, si
|
|
et seulement si $$ est distribué comme une v.a. normale multivariée
|
|
<DISPLAY EQUATION ()>
|
|
Ainsi, la fonction de densité associée à $$ est donnée par :
|
|
<DISPLAY EQUATION ()>
|
|
|
|
A.2 Distributions de Wishart
|
|
La loi de Wishart est une version multivariée de la loi du $$. Soit $$ une suite de variables aléatoires
|
|
gaussiennes indépendantes et identiquement distribuées $$, avec $$ une matrice symétrique définie po-
|
|
sitive $$. Par définition $$ est distribué selon une loi de Wishart. Les définitions suivantes
|
|
caractérisent cette loi et la densité de l'inverse d'une v.a. de Wishart.
|
|
|
|
définition 5. La matrice aléatoire, de dimension $$, symétrique et semi définie positive Y est distribuée selon une
|
|
loi de Wishart, $$, si et seulement si sa densité est donnée par
|
|
<DISPLAY EQUATION ()>
|
|
pour $$ une matrice symétrique semie définie positive, et $$ le degré de liberté.
|
|
|
|
définition 6. Une matrice aléatoire, de dimension $$, $$ est distribuée selon une loi inverse Wishart,
|
|
<DISPLAY EQUATION ()>
|
|
si et seulement si $$.
|
|
|
|
Ainsi la fonction de densité associée à $$ est définie par :
|
|
<DISPLAY EQUATION ()>
|