stephane-adjemian.fr/assets/papers/malgrange/EcoPrev2007Bayes/notes.txt

189 lines
13 KiB
Plaintext

1 Voir les travaux de Smith (1993), Canova (1994), Dejong et al. (1996), Geweke (1999), Dridi et al. (2007) et
Bierens (2007).
2 Le lecteur intéressé trouvera une introduction intéressante pour l'estimation des modèles nonlinéaires dans
Andrieu et al. (2004a), Arulampalam et al. (2002), et Andrieu et al. (2004b), ainsi que dans les contributions
de Gordon et al. (1993) et Kitagawa (1996). Pour des applications en économie, voir Chopin et Pelgrin (2004),
Fernandez-Villaverde et Rubio-Ramirez (2005) et An et Schorfheide (2007).
3 Le mot << croyance >> suggère une dimension subjective de l'information a priori. Il convient néanmoins de signaler
que parmi les économètres bayésiens il n'y a pas de consensus sur l'interprétation subjective ou objective des
probabilités. Par exemple, l'approche bayésienne empirique utilise l'échantillon pour définir l'information a priori
(voir par exemple le prior Minnesota de la section 2.4.3).
4 Pour une présentation des principales distributions utilisées dans cette littérature, le lecteur peut se reporter
aux annexes de Zellner (1971). La distribution uniforme est un cas particulier de la béta.
5 Cette incertitude peut s'expliquer par une adéquation imparfaite entre le concept théorique et l'enquête
microéconomique.
6 Une condition nécessaire est que nous disposions d'une expression analytique de la vraisemblance.
7 Nous supposons un instant qu'il n'y a qu'un paramètre dans le modèle.
8 La comparaison est moins simple dans le cas de l'inférence classique.
9 Se reporter à (Zellner , 1971 , chapitre 10), en particulier la première section pages 292 à 298. Le choix
d'un modèle parmi une collection de modèles s'apparente à l'estimation d'un paramêtre dont la distribution
est discrête. Il y a donc une analogie entre le choix d'un modèle et l'estimation ponctuelle de $$.
10 Pour une description des méthodes Bayesian Model Averaging, voir Koop (2003), chapitre 11.
11 Dans le cas du modèle AR(1) l'information apportée par l'échantillon est résumée par la dernière observation $$.
12 Une expérience moins extrême serait de considérer des densités a priori plus générales. Supposons que notre
a priori sur un paramètre $$ soit caractérisé par une loi normale centrée en $$ et de variance $$. Nous pourrions
évaluer la sensibilité des résultats à ce choix en reprenant l'estimation avec une densité a priori de student :
<DISPLAY EQUATION ()>
L'espérance a priori serait alors $$ mais la variance a priori serait $$ (pour $$ strictement supérieur à 2). En
faisant varier le nombre de degré de liberté $$ on s'écarte ou se rapproche du prior gaussien.
13 Cette propriété est indispensable pour représenter l'ignorance. Dans la littérature DSGE, la distribution
inverse-gamma avec un moment d'ordre deux infini est souvent utilisée pour représenter le peu d'information
dont nous disposons sur la variance des chocs structurels (voir par exemple Smets et Wouters (2002)). Cette
distribution est informative dans le sens où, même si le moment d'ordre deux n'est pas défini, il est possible
de comparer les probabilités qu'une variance soit supérieure ou inférieure à $$.
14 Si le logarithme de $$ est uniformément distribué sur $$ alors le logarithme de $$ (avec $$) est aussi uniformément
distribué sur $$ car $$.
15 Se reporter à Gouriéroux et Monfort (1989, chapitre 7).
16 Notons $$ cette constante d'intégration, c'est-à-dire la constante telle que $$. Cette constante (voir
les équations (3) et (4)) est une approximation de la densité marginale, $$. Par définition de la densité
d'une loi normale, on a :
<DISPLAY EQUATION ()>
On dit que $$ est l'approximation de Laplace de la densité marginale. L'erreur d'approximation est d'ordre $$.
17 Pour plus de détails, voir Carlin et Louis (2000), Poirier (1995), et Tierney et Kadane (1986).
18 Se reporter, par exemple, à Kadiyala et Karlsson (1997) qui comparent différentes spécifications des croyances a
priori et étudient les conséquences sur les prévisions.
19 Nous pourrions choisir un prior conjugué, c'est-à-dire une densité a priori qui confrontée aux données via la
vraisemblance induit une densité postérieure de la même forme. Les propriétés des densités gaussienne et Wishart,
ainsi que l'équation (8), suggèrent la densité jointe a priori conjuguée suivante :
<DISPLAY EQUATION ()>
où $$ est une matrice réelle de même dimension que $$, $$ et $$ sont des matrices symétriques définies postives
respectivement de dimensions $$ et $$, $$ est une matrice symétrique définie positive. On montre alors facilement
que la densité postérieure est encore Normale-Wishart. Ce résultat est direct si on couple le prior non informatif
de la section 2.4.1 et un pré-échantillon pour former le prior normal Wishart, voir Tiao et Zellner (1964) et
la section 4.1.
20 La présence d'une racine unitaire ne ferait qu'accroître l'ordre de divergence, ce qui ne change pas
qualitativement la conclusion.
21 Voir Judge et al. (1985, pages 52-54) la section 3.2.1 intitulée << Exact Nonsample Information >>.
22 Se reporter à Theil (1971, pages 670-673).
23 Voir, par exemple, Litterman (1986) ou Kadiyala et Karlsson (1997). Pour d'autres priors on peut se
reporter à Kadiyala et Karlsson.
24 Nous devons aussi poser un a priori sur la matrice de variance-covariance de l'innovation du VAR, $$.
Litterman (1986) considère que celle-ci est diagonale et donnée (variance a priori nulle). Cela ne correspond
pas à notre hypothèse de la section 2.4.2, où nous avons supposé que cette matrice était pleine (égale à
l'estimateur du maximum de vraisemblance). Nous pourrions, sans changer qualitativement les résultats, adopter
une matrice diagonale dans la section 2.4.2. Nous choisissons de poursuivre avec une matrice pleine, comme
Phillips (1996), mais notre prior ne correspondra plus à des marches al?atoires indépendantes. En fait
la motivation principale de Litterman était de justifier une estimation équation par équation, car à l'époque
l'estimation d'un système était trop coûteuse numériquement, et ne reposait pas sur la croyance que les séries
macroéconomiques sont réellement indépendantes.
25 Voir Kim (1998).
26 Quand Smets et Wouters établissent que leur modèle DSGE surpasse un modèle BVAR en terme de densité marginale
de l'échantillon, on ne peut véritablement conclure à la bonne la qualité du DSGE puisque nous n'avons aucune
idée des performances du modèle BVAR.
27 La première catégorie correspond aux variables prédéterminées, les suivantes aux variables non prédéterminées.
28 Plusieurs approches sont envisageables : quadrature, Monte Carlo, quasi Monte Carlo... voir Judd (1998).
29 Par exemple, Smets et Wouters (2002, tableau 2) estiment la densité marginale de leur modèle DSGE à l'aide
de l'approximation de Laplace et d'une méthode << exacte >> (dans le sens où elle ne repose pas sur une
approximation asymptotique, voir plus bas) basées sur des simulations. Avec l'approximation de Laplace ils
obtiennent (en logarithme) -269,59 ? comparer au -269,20 obtenu avec un exercice de Monte-Carlo. Ces deux évaluations
sont très proches, on retrouve généralement cette proximité dès lors que l'échantillon est assez grand.
30 En fait on peut montrer, dans certains cas, qu'il s'agit d'un estimateur du maximum de vraisemblance.
31 Dans ce qui suit, nous omettons les méthodes d'échantillonnage de Gibbs. Cette méthode consiste à générer
chaque paramètre conditionnellement à tous les autres paramètres. Il est donc nécessaire de pouvoir écrire
toutes les distributions conditionnelles. C'est pourquoi cette méthode n'est généralement pas priviligiée pour
l'estimation des modèles DSGE. Cependant, il est à noter que les algorithmes de Metropolis-Hasting et
d'échantillonnage de Gibbs peuvent être combinés, on parle alors d'algorithme Metroplis-Within-Gibbs.
32 Nous verrons par la suite qu'un algorithme à chaînes de Markov indépendantes peut s'interpréter comme un algorithme
par fonction d'importance. Par ailleurs, les méthodes de Monte-Carlo à chaînes de Markov nécessitent de déterminer le
noyau de transition de la chaîne de Markov, dont on sait seulement qu'il vérifie certaines propriétés d'ergodicité, etc.
Le choix de la fonction définissant les changements d'état peut être assimilé, toutes choses égales par ailleurs, à
celui de la fonction d'importance.
33 Le noyau $$ spécifie la probabilité d'aller de $$ à $$. Dans un cas favorable, $$ est en $$ à l'itération suivante,
nous pouvons envisager deux possibilités : (i) $$ se déplace effectivement et rejoint la région $$ à l'itération
suivante, (ii) $$ ne se déplace pas mais $$ est déjà dans $$. La densité associée au noyau est donc une densité
continue - discrête, Tierney adopte la définition suivante :
<DISPLAY EQUATION ()>
où $$ est la densité associée à la transition de $$ à $$, $$, $$ s'interprète comme la probabilité de
ne pas quitter la position $$, $$ est une fonction indicatrice égale à un si et seulement si $$.
34 Il ne s'agit pas à proprement parler de la condition de réversibilité, mais d'une implication de la propriété de
réversibilité.
35 (Suite de la note 33) Techniquement, il suffit de substituer la définition du noyau dans $$ qui, si la chaîne
est réversible, se réduit alors à $$.
36 Le noyau de transition du MH, $$, est défini de la même façon que $$ dans la section 3.3.1 et la note 33.
37 Par exemple, nous pourrions avoir :
<DISPLAY EQUATION ()>
Dans ce cas, l'échantillonage à partir de $$ ne propose pas assez souvent des transitions de $$ à $$ ou trop souvent
des mouvements de $$ à $$. L'algorithme de MH corrige cette erreur en n'acceptant pas systématiquement les
propositions de $$. En introduisant une probabilité d'acceptation de la transition proposée, $$, élevée (faible)
quand il s'agit de rejoindre une région où la densité a posteriori est élevée (faible), on peut rétablir l'équilibre
et finalement vérifier la condition de réversibilité. Dans notre exemple, la probabilité d'acceptation de la
transition de $$ à $$ devrait être la plus grande possible puisque $$ ne propose pas assez souvent cette transition, nous
poserons donc $$. À l'inverse la densité conditionnelle $$ propose trop de transitions de $$ vers $$, la probabilité
d'acceptation associée à cette proposition, $$, doit donc être inférieure à 1. Pour équilibrer les deux transitions,
elle doit être telle que :
<DISPLAY EQUATION ()>
soit, puisque $$, de façon équivalente :
<DISPLAY EQUATION ()>
On ne rejette donc pas systématiquement la transition proposée par $$. En considérant l'exemple en renversant
l'inégalité, on comprend la règle donnée dans l'étape 4 de l'algorithme 2.
38 Il n'existe pas une règle universelle. Un taux d'acceptation de l'ordre de 0.25-0.40 est généralement considéré
comme approprié. Dans le même temps, il est important de noter que ce n'est pas tant le taux d'acceptation qui est
crucial mais plutôt la garantie que la chaîne de Markov a effectivement convergé. Le taux d'acceptation peut néanmoins
influencer le temps qu'il faudra à la chaîne de Markov pour rejoindre sa distribution invariante.
39 Pour plus de détails sur la convergence vers la distribution stationnaire et l'hypothèse de stationnarité, voir
Gelfand et Smith (1990 ), Roberts (1992 ) et Liu et al. (1992 ).
40 Pour plus de détails, voir Raftery et Lewis (1996), Cowles et Carlin (1996), et Brooks et Roberts (1998).
41 Plus formellement, notons $$ l'estimateur de $$ obtenu à partir du vecteur initial $$ lorsque les $$ der-
nières valeurs de la chaîne sont prises en compte. La variance intra d'une chaîne, obtenue à partir du vecteur
initial $$, est définie par $$. La moyenne des variances intra est alors donnée par $$, où $$ est le
nombre de chaînes en parallèle ou de vecteurs initiaux. De la même manière, on peut montrer que la
variance-inter est estimée par $$ où $$ est donnée par $$. Un estimateur de la variance a posteriori de
$$ est alors défini comme $$.
42 Plus formellement, supposons que l'on dispose d'une chaîne de Markov $$ et que l'on subdivise cette chaîne en sous-
ensembles, $$, $$, $$ et $$. On choisit généralement, $$, $$ et $$, où $$. Le test de Geweke revient à déterminer
la variance a posteriori de $$, $$ et $$, pour les sous-ensembles S1 et S3 et à évaluer $$ et $$. La statistique de
test est alors définie par
<DISPLAY EQUATION ()>
43 L'intuition repose sur un théorème fondamental de l'analyse des séries temporelles qui nous indique que si les $$
sont échantillonnées à partir d'un processus stationnaire et corrélé, les réalisations des tirages (qui sont donc
corrélés) fournissent encore une information non biaisée de la distribution si la taille de l'échantillon est
suffisamment grande.
44 Par exemple, Campbell (1994) établit, en écrivant analytiquement la forme réduite du modèle RBC linéarisé, que le
produit par tête est un processus ARMA(2,1). Ce modèle prédit donc que le produit par tête est un AR(1) que l'on
pourrait approximer avec un AR(p) pour un nombre de retards, $$, assez grand.
45 On pourrait se contenter de l'estimation du mode postérieur et d'une approximation de Laplace, mais cette
possibilité n'est pas évoquée par Del Negro et Schorfheide.