189 lines
13 KiB
Plaintext
189 lines
13 KiB
Plaintext
|
1 Voir les travaux de Smith (1993), Canova (1994), Dejong et al. (1996), Geweke (1999), Dridi et al. (2007) et
|
|||
|
Bierens (2007).
|
|||
|
|
|||
|
2 Le lecteur int<6E>ress<73> trouvera une introduction int<6E>ressante pour l'estimation des mod<6F>les nonlin<69>aires dans
|
|||
|
Andrieu et al. (2004a), Arulampalam et al. (2002), et Andrieu et al. (2004b), ainsi que dans les contributions
|
|||
|
de Gordon et al. (1993) et Kitagawa (1996). Pour des applications en <20>conomie, voir Chopin et Pelgrin (2004),
|
|||
|
Fernandez-Villaverde et Rubio-Ramirez (2005) et An et Schorfheide (2007).
|
|||
|
|
|||
|
3 Le mot << croyance >> sugg<67>re une dimension subjective de l'information a priori. Il convient n<>anmoins de signaler
|
|||
|
que parmi les <20>conom<6F>tres bay<61>siens il n'y a pas de consensus sur l'interpr<70>tation subjective ou objective des
|
|||
|
probabilit<EFBFBD>s. Par exemple, l'approche bay<61>sienne empirique utilise l'<27>chantillon pour d<>finir l'information a priori
|
|||
|
(voir par exemple le prior Minnesota de la section 2.4.3).
|
|||
|
|
|||
|
4 Pour une pr<70>sentation des principales distributions utilis<69>es dans cette litt<74>rature, le lecteur peut se reporter
|
|||
|
aux annexes de Zellner (1971). La distribution uniforme est un cas particulier de la b<>ta.
|
|||
|
|
|||
|
5 Cette incertitude peut s'expliquer par une ad<61>quation imparfaite entre le concept th<74>orique et l'enqu<71>te
|
|||
|
micro<EFBFBD>conomique.
|
|||
|
|
|||
|
6 Une condition n<>cessaire est que nous disposions d'une expression analytique de la vraisemblance.
|
|||
|
|
|||
|
7 Nous supposons un instant qu'il n'y a qu'un param<61>tre dans le mod<6F>le.
|
|||
|
|
|||
|
8 La comparaison est moins simple dans le cas de l'inf<6E>rence classique.
|
|||
|
|
|||
|
9 Se reporter <20> (Zellner , 1971 , chapitre 10), en particulier la premi<6D>re section pages 292 <20> 298. Le choix
|
|||
|
d'un mod<6F>le parmi une collection de mod<6F>les s'apparente <20> l'estimation d'un param<61>tre dont la distribution
|
|||
|
est discr<63>te. Il y a donc une analogie entre le choix d'un mod<6F>le et l'estimation ponctuelle de $$.
|
|||
|
|
|||
|
10 Pour une description des m<>thodes Bayesian Model Averaging, voir Koop (2003), chapitre 11.
|
|||
|
|
|||
|
11 Dans le cas du mod<6F>le AR(1) l'information apport<72>e par l'<27>chantillon est r<>sum<75>e par la derni<6E>re observation $$.
|
|||
|
|
|||
|
12 Une exp<78>rience moins extr<74>me serait de consid<69>rer des densit<69>s a priori plus g<>n<EFBFBD>rales. Supposons que notre
|
|||
|
a priori sur un param<61>tre $$ soit caract<63>ris<69> par une loi normale centr<74>e en $$ et de variance $$. Nous pourrions
|
|||
|
<EFBFBD>valuer la sensibilit<69> des r<>sultats <20> ce choix en reprenant l'estimation avec une densit<69> a priori de student :
|
|||
|
<DISPLAY EQUATION ()>
|
|||
|
L'esp<73>rance a priori serait alors $$ mais la variance a priori serait $$ (pour $$ strictement sup<75>rieur <20> 2). En
|
|||
|
faisant varier le nombre de degr<67> de libert<72> $$ on s'<27>carte ou se rapproche du prior gaussien.
|
|||
|
|
|||
|
13 Cette propri<72>t<EFBFBD> est indispensable pour repr<70>senter l'ignorance. Dans la litt<74>rature DSGE, la distribution
|
|||
|
inverse-gamma avec un moment d'ordre deux infini est souvent utilis<69>e pour repr<70>senter le peu d'information
|
|||
|
dont nous disposons sur la variance des chocs structurels (voir par exemple Smets et Wouters (2002)). Cette
|
|||
|
distribution est informative dans le sens o<>, m<>me si le moment d'ordre deux n'est pas d<>fini, il est possible
|
|||
|
de comparer les probabilit<69>s qu'une variance soit sup<75>rieure ou inf<6E>rieure <20> $$.
|
|||
|
|
|||
|
14 Si le logarithme de $$ est uniform<72>ment distribu<62> sur $$ alors le logarithme de $$ (avec $$) est aussi uniform<72>ment
|
|||
|
distribu<EFBFBD> sur $$ car $$.
|
|||
|
|
|||
|
15 Se reporter <20> Gouri<72>roux et Monfort (1989, chapitre 7).
|
|||
|
|
|||
|
16 Notons $$ cette constante d'int<6E>gration, c'est-<2D>-dire la constante telle que $$. Cette constante (voir
|
|||
|
les <20>quations (3) et (4)) est une approximation de la densit<69> marginale, $$. Par d<>finition de la densit<69>
|
|||
|
d'une loi normale, on a :
|
|||
|
<DISPLAY EQUATION ()>
|
|||
|
On dit que $$ est l'approximation de Laplace de la densit<69> marginale. L'erreur d'approximation est d'ordre $$.
|
|||
|
|
|||
|
17 Pour plus de d<>tails, voir Carlin et Louis (2000), Poirier (1995), et Tierney et Kadane (1986).
|
|||
|
|
|||
|
18 Se reporter, par exemple, <20> Kadiyala et Karlsson (1997) qui comparent diff<66>rentes sp<73>cifications des croyances a
|
|||
|
priori et <20>tudient les cons<6E>quences sur les pr<70>visions.
|
|||
|
|
|||
|
19 Nous pourrions choisir un prior conjugu<67>, c'est-<2D>-dire une densit<69> a priori qui confront<6E>e aux donn<6E>es via la
|
|||
|
vraisemblance induit une densit<69> post<73>rieure de la m<>me forme. Les propri<72>t<EFBFBD>s des densit<69>s gaussienne et Wishart,
|
|||
|
ainsi que l'<27>quation (8), sugg<67>rent la densit<69> jointe a priori conjugu<67>e suivante :
|
|||
|
<DISPLAY EQUATION ()>
|
|||
|
o<EFBFBD> $$ est une matrice r<>elle de m<>me dimension que $$, $$ et $$ sont des matrices sym<79>triques d<>finies postives
|
|||
|
respectivement de dimensions $$ et $$, $$ est une matrice sym<79>trique d<>finie positive. On montre alors facilement
|
|||
|
que la densit<69> post<73>rieure est encore Normale-Wishart. Ce r<>sultat est direct si on couple le prior non informatif
|
|||
|
de la section 2.4.1 et un pr<70>-<2D>chantillon pour former le prior normal Wishart, voir Tiao et Zellner (1964) et
|
|||
|
la section 4.1.
|
|||
|
|
|||
|
20 La pr<70>sence d'une racine unitaire ne ferait qu'accro<72>tre l'ordre de divergence, ce qui ne change pas
|
|||
|
qualitativement la conclusion.
|
|||
|
|
|||
|
21 Voir Judge et al. (1985, pages 52-54) la section 3.2.1 intitul<75>e << Exact Nonsample Information >>.
|
|||
|
|
|||
|
22 Se reporter <20> Theil (1971, pages 670-673).
|
|||
|
|
|||
|
23 Voir, par exemple, Litterman (1986) ou Kadiyala et Karlsson (1997). Pour d'autres priors on peut se
|
|||
|
reporter <20> Kadiyala et Karlsson.
|
|||
|
|
|||
|
24 Nous devons aussi poser un a priori sur la matrice de variance-covariance de l'innovation du VAR, $$.
|
|||
|
Litterman (1986) consid<69>re que celle-ci est diagonale et donn<6E>e (variance a priori nulle). Cela ne correspond
|
|||
|
pas <20> notre hypoth<74>se de la section 2.4.2, o<> nous avons suppos<6F> que cette matrice <20>tait pleine (<28>gale <20>
|
|||
|
l'estimateur du maximum de vraisemblance). Nous pourrions, sans changer qualitativement les r<>sultats, adopter
|
|||
|
une matrice diagonale dans la section 2.4.2. Nous choisissons de poursuivre avec une matrice pleine, comme
|
|||
|
Phillips (1996), mais notre prior ne correspondra plus <20> des marches al?atoires ind<6E>pendantes. En fait
|
|||
|
la motivation principale de Litterman <20>tait de justifier une estimation <20>quation par <20>quation, car <20> l'<27>poque
|
|||
|
l'estimation d'un syst<73>me <20>tait trop co<63>teuse num<75>riquement, et ne reposait pas sur la croyance que les s<>ries
|
|||
|
macro<EFBFBD>conomiques sont r<>ellement ind<6E>pendantes.
|
|||
|
|
|||
|
25 Voir Kim (1998).
|
|||
|
|
|||
|
26 Quand Smets et Wouters <20>tablissent que leur mod<6F>le DSGE surpasse un mod<6F>le BVAR en terme de densit<69> marginale
|
|||
|
de l'<27>chantillon, on ne peut v<>ritablement conclure <20> la bonne la qualit<69> du DSGE puisque nous n'avons aucune
|
|||
|
id<EFBFBD>e des performances du mod<6F>le BVAR.
|
|||
|
|
|||
|
27 La premi<6D>re cat<61>gorie correspond aux variables pr<70>d<EFBFBD>termin<69>es, les suivantes aux variables non pr<70>d<EFBFBD>termin<69>es.
|
|||
|
|
|||
|
28 Plusieurs approches sont envisageables : quadrature, Monte Carlo, quasi Monte Carlo... voir Judd (1998).
|
|||
|
|
|||
|
29 Par exemple, Smets et Wouters (2002, tableau 2) estiment la densit<69> marginale de leur mod<6F>le DSGE <20> l'aide
|
|||
|
de l'approximation de Laplace et d'une m<>thode << exacte >> (dans le sens o<> elle ne repose pas sur une
|
|||
|
approximation asymptotique, voir plus bas) bas<61>es sur des simulations. Avec l'approximation de Laplace ils
|
|||
|
obtiennent (en logarithme) -269,59 ? comparer au -269,20 obtenu avec un exercice de Monte-Carlo. Ces deux <20>valuations
|
|||
|
sont tr<74>s proches, on retrouve g<>n<EFBFBD>ralement cette proximit<69> d<>s lors que l'<27>chantillon est assez grand.
|
|||
|
|
|||
|
30 En fait on peut montrer, dans certains cas, qu'il s'agit d'un estimateur du maximum de vraisemblance.
|
|||
|
|
|||
|
31 Dans ce qui suit, nous omettons les m<>thodes d'<27>chantillonnage de Gibbs. Cette m<>thode consiste <20> g<>n<EFBFBD>rer
|
|||
|
chaque param<61>tre conditionnellement <20> tous les autres param<61>tres. Il est donc n<>cessaire de pouvoir <20>crire
|
|||
|
toutes les distributions conditionnelles. C'est pourquoi cette m<>thode n'est g<>n<EFBFBD>ralement pas priviligi<67>e pour
|
|||
|
l'estimation des mod<6F>les DSGE. Cependant, il est <20> noter que les algorithmes de Metropolis-Hasting et
|
|||
|
d'<27>chantillonnage de Gibbs peuvent <20>tre combin<69>s, on parle alors d'algorithme Metroplis-Within-Gibbs.
|
|||
|
|
|||
|
32 Nous verrons par la suite qu'un algorithme <20> cha<68>nes de Markov ind<6E>pendantes peut s'interpr<70>ter comme un algorithme
|
|||
|
par fonction d'importance. Par ailleurs, les m<>thodes de Monte-Carlo <20> cha<68>nes de Markov n<>cessitent de d<>terminer le
|
|||
|
noyau de transition de la cha<68>ne de Markov, dont on sait seulement qu'il v<>rifie certaines propri<72>t<EFBFBD>s d'ergodicit<69>, etc.
|
|||
|
Le choix de la fonction d<>finissant les changements d'<27>tat peut <20>tre assimil<69>, toutes choses <20>gales par ailleurs, <20>
|
|||
|
celui de la fonction d'importance.
|
|||
|
|
|||
|
33 Le noyau $$ sp<73>cifie la probabilit<69> d'aller de $$ <20> $$. Dans un cas favorable, $$ est en $$ <20> l'it<69>ration suivante,
|
|||
|
nous pouvons envisager deux possibilit<69>s : (i) $$ se d<>place effectivement et rejoint la r<>gion $$ <20> l'it<69>ration
|
|||
|
suivante, (ii) $$ ne se d<>place pas mais $$ est d<>j<EFBFBD> dans $$. La densit<69> associ<63>e au noyau est donc une densit<69>
|
|||
|
continue - discr<63>te, Tierney adopte la d<>finition suivante :
|
|||
|
<DISPLAY EQUATION ()>
|
|||
|
o<EFBFBD> $$ est la densit<69> associ<63>e <20> la transition de $$ <20> $$, $$, $$ s'interpr<70>te comme la probabilit<69> de
|
|||
|
ne pas quitter la position $$, $$ est une fonction indicatrice <20>gale <20> un si et seulement si $$.
|
|||
|
|
|||
|
34 Il ne s'agit pas <20> proprement parler de la condition de r<>versibilit<69>, mais d'une implication de la propri<72>t<EFBFBD> de
|
|||
|
r<EFBFBD>versibilit<EFBFBD>.
|
|||
|
|
|||
|
35 (Suite de la note 33) Techniquement, il suffit de substituer la d<>finition du noyau dans $$ qui, si la cha<68>ne
|
|||
|
est r<>versible, se r<>duit alors <20> $$.
|
|||
|
|
|||
|
36 Le noyau de transition du MH, $$, est d<>fini de la m<>me fa<66>on que $$ dans la section 3.3.1 et la note 33.
|
|||
|
|
|||
|
37 Par exemple, nous pourrions avoir :
|
|||
|
<DISPLAY EQUATION ()>
|
|||
|
Dans ce cas, l'<27>chantillonage <20> partir de $$ ne propose pas assez souvent des transitions de $$ <20> $$ ou trop souvent
|
|||
|
des mouvements de $$ <20> $$. L'algorithme de MH corrige cette erreur en n'acceptant pas syst<73>matiquement les
|
|||
|
propositions de $$. En introduisant une probabilit<69> d'acceptation de la transition propos<6F>e, $$, <20>lev<65>e (faible)
|
|||
|
quand il s'agit de rejoindre une r<>gion o<> la densit<69> a posteriori est <20>lev<65>e (faible), on peut r<>tablir l'<27>quilibre
|
|||
|
et finalement v<>rifier la condition de r<>versibilit<69>. Dans notre exemple, la probabilit<69> d'acceptation de la
|
|||
|
transition de $$ <20> $$ devrait <20>tre la plus grande possible puisque $$ ne propose pas assez souvent cette transition, nous
|
|||
|
poserons donc $$. <20> l'inverse la densit<69> conditionnelle $$ propose trop de transitions de $$ vers $$, la probabilit<69>
|
|||
|
d'acceptation associ<63>e <20> cette proposition, $$, doit donc <20>tre inf<6E>rieure <20> 1. Pour <20>quilibrer les deux transitions,
|
|||
|
elle doit <20>tre telle que :
|
|||
|
<DISPLAY EQUATION ()>
|
|||
|
soit, puisque $$, de fa<66>on <20>quivalente :
|
|||
|
<DISPLAY EQUATION ()>
|
|||
|
On ne rejette donc pas syst<73>matiquement la transition propos<6F>e par $$. En consid<69>rant l'exemple en renversant
|
|||
|
l'in<69>galit<69>, on comprend la r<>gle donn<6E>e dans l'<27>tape 4 de l'algorithme 2.
|
|||
|
|
|||
|
38 Il n'existe pas une r<>gle universelle. Un taux d'acceptation de l'ordre de 0.25-0.40 est g<>n<EFBFBD>ralement consid<69>r<EFBFBD>
|
|||
|
comme appropri<72>. Dans le m<>me temps, il est important de noter que ce n'est pas tant le taux d'acceptation qui est
|
|||
|
crucial mais plut<75>t la garantie que la cha<68>ne de Markov a effectivement converg<72>. Le taux d'acceptation peut n<>anmoins
|
|||
|
influencer le temps qu'il faudra <20> la cha<68>ne de Markov pour rejoindre sa distribution invariante.
|
|||
|
|
|||
|
39 Pour plus de d<>tails sur la convergence vers la distribution stationnaire et l'hypoth<74>se de stationnarit<69>, voir
|
|||
|
Gelfand et Smith (1990 ), Roberts (1992 ) et Liu et al. (1992 ).
|
|||
|
|
|||
|
40 Pour plus de d<>tails, voir Raftery et Lewis (1996), Cowles et Carlin (1996), et Brooks et Roberts (1998).
|
|||
|
|
|||
|
41 Plus formellement, notons $$ l'estimateur de $$ obtenu <20> partir du vecteur initial $$ lorsque les $$ der-
|
|||
|
ni<EFBFBD>res valeurs de la cha<68>ne sont prises en compte. La variance intra d'une cha<68>ne, obtenue <20> partir du vecteur
|
|||
|
initial $$, est d<>finie par $$. La moyenne des variances intra est alors donn<6E>e par $$, o<> $$ est le
|
|||
|
nombre de cha<68>nes en parall<6C>le ou de vecteurs initiaux. De la m<>me mani<6E>re, on peut montrer que la
|
|||
|
variance-inter est estim<69>e par $$ o<> $$ est donn<6E>e par $$. Un estimateur de la variance a posteriori de
|
|||
|
$$ est alors d<>fini comme $$.
|
|||
|
42 Plus formellement, supposons que l'on dispose d'une cha<68>ne de Markov $$ et que l'on subdivise cette cha<68>ne en sous-
|
|||
|
ensembles, $$, $$, $$ et $$. On choisit g<>n<EFBFBD>ralement, $$, $$ et $$, o<> $$. Le test de Geweke revient <20> d<>terminer
|
|||
|
la variance a posteriori de $$, $$ et $$, pour les sous-ensembles S1 et S3 et <20> <20>valuer $$ et $$. La statistique de
|
|||
|
test est alors d<>finie par
|
|||
|
<DISPLAY EQUATION ()>
|
|||
|
|
|||
|
43 L'intuition repose sur un th<74>or<6F>me fondamental de l'analyse des s<>ries temporelles qui nous indique que si les $$
|
|||
|
sont <20>chantillonn<6E>es <20> partir d'un processus stationnaire et corr<72>l<EFBFBD>, les r<>alisations des tirages (qui sont donc
|
|||
|
corr<EFBFBD>l<EFBFBD>s) fournissent encore une information non biais<69>e de la distribution si la taille de l'<27>chantillon est
|
|||
|
suffisamment grande.
|
|||
|
|
|||
|
44 Par exemple, Campbell (1994) <20>tablit, en <20>crivant analytiquement la forme r<>duite du mod<6F>le RBC lin<69>aris<69>, que le
|
|||
|
produit par t<>te est un processus ARMA(2,1). Ce mod<6F>le pr<70>dit donc que le produit par t<>te est un AR(1) que l'on
|
|||
|
pourrait approximer avec un AR(p) pour un nombre de retards, $$, assez grand.
|
|||
|
|
|||
|
45 On pourrait se contenter de l'estimation du mode post<73>rieur et d'une approximation de Laplace, mais cette
|
|||
|
possibilit<EFBFBD> n'est pas <20>voqu<71>e par Del Negro et Schorfheide.
|