189 lines
13 KiB
Plaintext
189 lines
13 KiB
Plaintext
1 Voir les travaux de Smith (1993), Canova (1994), Dejong et al. (1996), Geweke (1999), Dridi et al. (2007) et
|
|
Bierens (2007).
|
|
|
|
2 Le lecteur intéressé trouvera une introduction intéressante pour l'estimation des modèles nonlinéaires dans
|
|
Andrieu et al. (2004a), Arulampalam et al. (2002), et Andrieu et al. (2004b), ainsi que dans les contributions
|
|
de Gordon et al. (1993) et Kitagawa (1996). Pour des applications en économie, voir Chopin et Pelgrin (2004),
|
|
Fernandez-Villaverde et Rubio-Ramirez (2005) et An et Schorfheide (2007).
|
|
|
|
3 Le mot << croyance >> suggère une dimension subjective de l'information a priori. Il convient néanmoins de signaler
|
|
que parmi les économètres bayésiens il n'y a pas de consensus sur l'interprétation subjective ou objective des
|
|
probabilités. Par exemple, l'approche bayésienne empirique utilise l'échantillon pour définir l'information a priori
|
|
(voir par exemple le prior Minnesota de la section 2.4.3).
|
|
|
|
4 Pour une présentation des principales distributions utilisées dans cette littérature, le lecteur peut se reporter
|
|
aux annexes de Zellner (1971). La distribution uniforme est un cas particulier de la béta.
|
|
|
|
5 Cette incertitude peut s'expliquer par une adéquation imparfaite entre le concept théorique et l'enquête
|
|
microéconomique.
|
|
|
|
6 Une condition nécessaire est que nous disposions d'une expression analytique de la vraisemblance.
|
|
|
|
7 Nous supposons un instant qu'il n'y a qu'un paramètre dans le modèle.
|
|
|
|
8 La comparaison est moins simple dans le cas de l'inférence classique.
|
|
|
|
9 Se reporter à (Zellner , 1971 , chapitre 10), en particulier la première section pages 292 à 298. Le choix
|
|
d'un modèle parmi une collection de modèles s'apparente à l'estimation d'un paramêtre dont la distribution
|
|
est discrête. Il y a donc une analogie entre le choix d'un modèle et l'estimation ponctuelle de $$.
|
|
|
|
10 Pour une description des méthodes Bayesian Model Averaging, voir Koop (2003), chapitre 11.
|
|
|
|
11 Dans le cas du modèle AR(1) l'information apportée par l'échantillon est résumée par la dernière observation $$.
|
|
|
|
12 Une expérience moins extrême serait de considérer des densités a priori plus générales. Supposons que notre
|
|
a priori sur un paramètre $$ soit caractérisé par une loi normale centrée en $$ et de variance $$. Nous pourrions
|
|
évaluer la sensibilité des résultats à ce choix en reprenant l'estimation avec une densité a priori de student :
|
|
<DISPLAY EQUATION ()>
|
|
L'espérance a priori serait alors $$ mais la variance a priori serait $$ (pour $$ strictement supérieur à 2). En
|
|
faisant varier le nombre de degré de liberté $$ on s'écarte ou se rapproche du prior gaussien.
|
|
|
|
13 Cette propriété est indispensable pour représenter l'ignorance. Dans la littérature DSGE, la distribution
|
|
inverse-gamma avec un moment d'ordre deux infini est souvent utilisée pour représenter le peu d'information
|
|
dont nous disposons sur la variance des chocs structurels (voir par exemple Smets et Wouters (2002)). Cette
|
|
distribution est informative dans le sens où, même si le moment d'ordre deux n'est pas défini, il est possible
|
|
de comparer les probabilités qu'une variance soit supérieure ou inférieure à $$.
|
|
|
|
14 Si le logarithme de $$ est uniformément distribué sur $$ alors le logarithme de $$ (avec $$) est aussi uniformément
|
|
distribué sur $$ car $$.
|
|
|
|
15 Se reporter à Gouriéroux et Monfort (1989, chapitre 7).
|
|
|
|
16 Notons $$ cette constante d'intégration, c'est-à-dire la constante telle que $$. Cette constante (voir
|
|
les équations (3) et (4)) est une approximation de la densité marginale, $$. Par définition de la densité
|
|
d'une loi normale, on a :
|
|
<DISPLAY EQUATION ()>
|
|
On dit que $$ est l'approximation de Laplace de la densité marginale. L'erreur d'approximation est d'ordre $$.
|
|
|
|
17 Pour plus de détails, voir Carlin et Louis (2000), Poirier (1995), et Tierney et Kadane (1986).
|
|
|
|
18 Se reporter, par exemple, à Kadiyala et Karlsson (1997) qui comparent différentes spécifications des croyances a
|
|
priori et étudient les conséquences sur les prévisions.
|
|
|
|
19 Nous pourrions choisir un prior conjugué, c'est-à-dire une densité a priori qui confrontée aux données via la
|
|
vraisemblance induit une densité postérieure de la même forme. Les propriétés des densités gaussienne et Wishart,
|
|
ainsi que l'équation (8), suggèrent la densité jointe a priori conjuguée suivante :
|
|
<DISPLAY EQUATION ()>
|
|
où $$ est une matrice réelle de même dimension que $$, $$ et $$ sont des matrices symétriques définies postives
|
|
respectivement de dimensions $$ et $$, $$ est une matrice symétrique définie positive. On montre alors facilement
|
|
que la densité postérieure est encore Normale-Wishart. Ce résultat est direct si on couple le prior non informatif
|
|
de la section 2.4.1 et un pré-échantillon pour former le prior normal Wishart, voir Tiao et Zellner (1964) et
|
|
la section 4.1.
|
|
|
|
20 La présence d'une racine unitaire ne ferait qu'accroître l'ordre de divergence, ce qui ne change pas
|
|
qualitativement la conclusion.
|
|
|
|
21 Voir Judge et al. (1985, pages 52-54) la section 3.2.1 intitulée << Exact Nonsample Information >>.
|
|
|
|
22 Se reporter à Theil (1971, pages 670-673).
|
|
|
|
23 Voir, par exemple, Litterman (1986) ou Kadiyala et Karlsson (1997). Pour d'autres priors on peut se
|
|
reporter à Kadiyala et Karlsson.
|
|
|
|
24 Nous devons aussi poser un a priori sur la matrice de variance-covariance de l'innovation du VAR, $$.
|
|
Litterman (1986) considère que celle-ci est diagonale et donnée (variance a priori nulle). Cela ne correspond
|
|
pas à notre hypothèse de la section 2.4.2, où nous avons supposé que cette matrice était pleine (égale à
|
|
l'estimateur du maximum de vraisemblance). Nous pourrions, sans changer qualitativement les résultats, adopter
|
|
une matrice diagonale dans la section 2.4.2. Nous choisissons de poursuivre avec une matrice pleine, comme
|
|
Phillips (1996), mais notre prior ne correspondra plus à des marches al?atoires indépendantes. En fait
|
|
la motivation principale de Litterman était de justifier une estimation équation par équation, car à l'époque
|
|
l'estimation d'un système était trop coûteuse numériquement, et ne reposait pas sur la croyance que les séries
|
|
macroéconomiques sont réellement indépendantes.
|
|
|
|
25 Voir Kim (1998).
|
|
|
|
26 Quand Smets et Wouters établissent que leur modèle DSGE surpasse un modèle BVAR en terme de densité marginale
|
|
de l'échantillon, on ne peut véritablement conclure à la bonne la qualité du DSGE puisque nous n'avons aucune
|
|
idée des performances du modèle BVAR.
|
|
|
|
27 La première catégorie correspond aux variables prédéterminées, les suivantes aux variables non prédéterminées.
|
|
|
|
28 Plusieurs approches sont envisageables : quadrature, Monte Carlo, quasi Monte Carlo... voir Judd (1998).
|
|
|
|
29 Par exemple, Smets et Wouters (2002, tableau 2) estiment la densité marginale de leur modèle DSGE à l'aide
|
|
de l'approximation de Laplace et d'une méthode << exacte >> (dans le sens où elle ne repose pas sur une
|
|
approximation asymptotique, voir plus bas) basées sur des simulations. Avec l'approximation de Laplace ils
|
|
obtiennent (en logarithme) -269,59 ? comparer au -269,20 obtenu avec un exercice de Monte-Carlo. Ces deux évaluations
|
|
sont très proches, on retrouve généralement cette proximité dès lors que l'échantillon est assez grand.
|
|
|
|
30 En fait on peut montrer, dans certains cas, qu'il s'agit d'un estimateur du maximum de vraisemblance.
|
|
|
|
31 Dans ce qui suit, nous omettons les méthodes d'échantillonnage de Gibbs. Cette méthode consiste à générer
|
|
chaque paramètre conditionnellement à tous les autres paramètres. Il est donc nécessaire de pouvoir écrire
|
|
toutes les distributions conditionnelles. C'est pourquoi cette méthode n'est généralement pas priviligiée pour
|
|
l'estimation des modèles DSGE. Cependant, il est à noter que les algorithmes de Metropolis-Hasting et
|
|
d'échantillonnage de Gibbs peuvent être combinés, on parle alors d'algorithme Metroplis-Within-Gibbs.
|
|
|
|
32 Nous verrons par la suite qu'un algorithme à chaînes de Markov indépendantes peut s'interpréter comme un algorithme
|
|
par fonction d'importance. Par ailleurs, les méthodes de Monte-Carlo à chaînes de Markov nécessitent de déterminer le
|
|
noyau de transition de la chaîne de Markov, dont on sait seulement qu'il vérifie certaines propriétés d'ergodicité, etc.
|
|
Le choix de la fonction définissant les changements d'état peut être assimilé, toutes choses égales par ailleurs, à
|
|
celui de la fonction d'importance.
|
|
|
|
33 Le noyau $$ spécifie la probabilité d'aller de $$ à $$. Dans un cas favorable, $$ est en $$ à l'itération suivante,
|
|
nous pouvons envisager deux possibilités : (i) $$ se déplace effectivement et rejoint la région $$ à l'itération
|
|
suivante, (ii) $$ ne se déplace pas mais $$ est déjà dans $$. La densité associée au noyau est donc une densité
|
|
continue - discrête, Tierney adopte la définition suivante :
|
|
<DISPLAY EQUATION ()>
|
|
où $$ est la densité associée à la transition de $$ à $$, $$, $$ s'interprète comme la probabilité de
|
|
ne pas quitter la position $$, $$ est une fonction indicatrice égale à un si et seulement si $$.
|
|
|
|
34 Il ne s'agit pas à proprement parler de la condition de réversibilité, mais d'une implication de la propriété de
|
|
réversibilité.
|
|
|
|
35 (Suite de la note 33) Techniquement, il suffit de substituer la définition du noyau dans $$ qui, si la chaîne
|
|
est réversible, se réduit alors à $$.
|
|
|
|
36 Le noyau de transition du MH, $$, est défini de la même façon que $$ dans la section 3.3.1 et la note 33.
|
|
|
|
37 Par exemple, nous pourrions avoir :
|
|
<DISPLAY EQUATION ()>
|
|
Dans ce cas, l'échantillonage à partir de $$ ne propose pas assez souvent des transitions de $$ à $$ ou trop souvent
|
|
des mouvements de $$ à $$. L'algorithme de MH corrige cette erreur en n'acceptant pas systématiquement les
|
|
propositions de $$. En introduisant une probabilité d'acceptation de la transition proposée, $$, élevée (faible)
|
|
quand il s'agit de rejoindre une région où la densité a posteriori est élevée (faible), on peut rétablir l'équilibre
|
|
et finalement vérifier la condition de réversibilité. Dans notre exemple, la probabilité d'acceptation de la
|
|
transition de $$ à $$ devrait être la plus grande possible puisque $$ ne propose pas assez souvent cette transition, nous
|
|
poserons donc $$. À l'inverse la densité conditionnelle $$ propose trop de transitions de $$ vers $$, la probabilité
|
|
d'acceptation associée à cette proposition, $$, doit donc être inférieure à 1. Pour équilibrer les deux transitions,
|
|
elle doit être telle que :
|
|
<DISPLAY EQUATION ()>
|
|
soit, puisque $$, de façon équivalente :
|
|
<DISPLAY EQUATION ()>
|
|
On ne rejette donc pas systématiquement la transition proposée par $$. En considérant l'exemple en renversant
|
|
l'inégalité, on comprend la règle donnée dans l'étape 4 de l'algorithme 2.
|
|
|
|
38 Il n'existe pas une règle universelle. Un taux d'acceptation de l'ordre de 0.25-0.40 est généralement considéré
|
|
comme approprié. Dans le même temps, il est important de noter que ce n'est pas tant le taux d'acceptation qui est
|
|
crucial mais plutôt la garantie que la chaîne de Markov a effectivement convergé. Le taux d'acceptation peut néanmoins
|
|
influencer le temps qu'il faudra à la chaîne de Markov pour rejoindre sa distribution invariante.
|
|
|
|
39 Pour plus de détails sur la convergence vers la distribution stationnaire et l'hypothèse de stationnarité, voir
|
|
Gelfand et Smith (1990 ), Roberts (1992 ) et Liu et al. (1992 ).
|
|
|
|
40 Pour plus de détails, voir Raftery et Lewis (1996), Cowles et Carlin (1996), et Brooks et Roberts (1998).
|
|
|
|
41 Plus formellement, notons $$ l'estimateur de $$ obtenu à partir du vecteur initial $$ lorsque les $$ der-
|
|
nières valeurs de la chaîne sont prises en compte. La variance intra d'une chaîne, obtenue à partir du vecteur
|
|
initial $$, est définie par $$. La moyenne des variances intra est alors donnée par $$, où $$ est le
|
|
nombre de chaînes en parallèle ou de vecteurs initiaux. De la même manière, on peut montrer que la
|
|
variance-inter est estimée par $$ où $$ est donnée par $$. Un estimateur de la variance a posteriori de
|
|
$$ est alors défini comme $$.
|
|
42 Plus formellement, supposons que l'on dispose d'une chaîne de Markov $$ et que l'on subdivise cette chaîne en sous-
|
|
ensembles, $$, $$, $$ et $$. On choisit généralement, $$, $$ et $$, où $$. Le test de Geweke revient à déterminer
|
|
la variance a posteriori de $$, $$ et $$, pour les sous-ensembles S1 et S3 et à évaluer $$ et $$. La statistique de
|
|
test est alors définie par
|
|
<DISPLAY EQUATION ()>
|
|
|
|
43 L'intuition repose sur un théorème fondamental de l'analyse des séries temporelles qui nous indique que si les $$
|
|
sont échantillonnées à partir d'un processus stationnaire et corrélé, les réalisations des tirages (qui sont donc
|
|
corrélés) fournissent encore une information non biaisée de la distribution si la taille de l'échantillon est
|
|
suffisamment grande.
|
|
|
|
44 Par exemple, Campbell (1994) établit, en écrivant analytiquement la forme réduite du modèle RBC linéarisé, que le
|
|
produit par tête est un processus ARMA(2,1). Ce modèle prédit donc que le produit par tête est un AR(1) que l'on
|
|
pourrait approximer avec un AR(p) pour un nombre de retards, $$, assez grand.
|
|
|
|
45 On pourrait se contenter de l'estimation du mode postérieur et d'une approximation de Laplace, mais cette
|
|
possibilité n'est pas évoquée par Del Negro et Schorfheide.
|