stephane-adjemian.fr/assets/papers/malgrange/EcoPrev2007Bayes/notes.txt

1 Voir les travaux de Smith (1993), Canova (1994), Dejong et al. (1996), Geweke (1999), Dridi et al. (2007) et 
Bierens (2007).
 
2 Le lecteur int<6E>ress<73> trouvera une introduction int<6E>ressante pour l'estimation des mod<6F>les nonlin<69>aires dans 
Andrieu et al. (2004a), Arulampalam et al. (2002), et Andrieu et al. (2004b), ainsi que dans les contributions 
de Gordon et al. (1993) et Kitagawa (1996). Pour des applications en <20>conomie, voir Chopin et Pelgrin (2004), 
Fernandez-Villaverde et Rubio-Ramirez (2005) et An et Schorfheide (2007).

3 Le mot << croyance >> sugg<67>re une dimension subjective de l'information a priori. Il convient n<>anmoins de signaler 
que parmi les <20>conom<6F>tres bay<61>siens il n'y a pas de consensus sur l'interpr<70>tation subjective ou objective des 
probabilit<EFBFBD>s. Par exemple, l'approche bay<61>sienne empirique utilise l'<27>chantillon pour d<>finir l'information a priori 
(voir par exemple le prior Minnesota de la section  2.4.3).
 
4 Pour une pr<70>sentation des principales distributions utilis<69>es dans cette litt<74>rature, le lecteur peut se reporter 
aux annexes de Zellner (1971). La distribution uniforme est un cas particulier de la b<>ta.
 
5 Cette incertitude peut s'expliquer par une ad<61>quation imparfaite entre le concept th<74>orique et l'enqu<71>te 
micro<EFBFBD>conomique.

6 Une condition n<>cessaire est que nous disposions d'une expression analytique de la vraisemblance. 

7 Nous supposons un instant qu'il n'y a qu'un param<61>tre dans le mod<6F>le.

8 La comparaison est moins simple dans le cas de l'inf<6E>rence classique. 

9 Se reporter <20> (Zellner , 1971 , chapitre 10), en particulier la premi<6D>re section pages 292 <20> 298. Le choix 
d'un mod<6F>le parmi une collection de mod<6F>les s'apparente <20> l'estimation d'un param<61>tre dont la distribution 
est discr<63>te. Il y a donc une analogie entre le choix d'un mod<6F>le et l'estimation ponctuelle de $$.
 
10 Pour une description des m<>thodes Bayesian Model Averaging, voir Koop (2003), chapitre 11.

11 Dans le cas du mod<6F>le AR(1) l'information apport<72>e par l'<27>chantillon est r<>sum<75>e par la derni<6E>re observation $$. 

12 Une exp<78>rience moins extr<74>me serait de consid<69>rer des densit<69>s a priori plus g<>n<EFBFBD>rales. Supposons que notre 
a priori sur un param<61>tre $$ soit caract<63>ris<69> par une loi normale centr<74>e en $$ et de variance $$. Nous pourrions
<EFBFBD>valuer la sensibilit<69> des r<>sultats <20> ce choix en reprenant l'estimation avec une densit<69> a priori de student :
				    <DISPLAY EQUATION ()> 
L'esp<73>rance a priori serait alors $$ mais la variance a priori serait $$ (pour $$ strictement sup<75>rieur <20> 2). En 
faisant varier le nombre de degr<67> de libert<72> $$ on s'<27>carte ou se rapproche du prior gaussien.

13 Cette propri<72>t<EFBFBD> est indispensable pour repr<70>senter l'ignorance. Dans la litt<74>rature DSGE, la distribution 
inverse-gamma avec un moment d'ordre deux infini est souvent utilis<69>e pour repr<70>senter le peu d'information 
dont nous disposons sur la variance des chocs structurels (voir par exemple Smets et Wouters (2002)). Cette 
distribution est informative dans le sens o<>, m<>me si le moment d'ordre deux n'est pas d<>fini, il est possible 
de comparer les probabilit<69>s qu'une variance soit sup<75>rieure ou inf<6E>rieure <20> $$. 

14 Si le logarithme de $$ est uniform<72>ment distribu<62> sur $$ alors le logarithme de $$ (avec $$) est aussi uniform<72>ment
distribu<EFBFBD> sur $$ car $$.

15 Se reporter <20> Gouri<72>roux et Monfort (1989, chapitre 7). 

16 Notons $$ cette constante d'int<6E>gration, c'est-<2D>-dire la constante telle que $$. Cette constante (voir 
les <20>quations (3) et (4)) est une approximation de la densit<69> marginale, $$. Par d<>finition de la densit<69> 
d'une loi normale, on a :
				    <DISPLAY EQUATION ()> 
On dit que $$ est l'approximation de Laplace de la densit<69> marginale. L'erreur d'approximation est d'ordre $$.

17 Pour plus de d<>tails, voir Carlin et Louis (2000), Poirier (1995), et Tierney et Kadane (1986).

18 Se reporter, par exemple, <20> Kadiyala et Karlsson (1997) qui comparent diff<66>rentes sp<73>cifications des croyances a 
priori et <20>tudient les cons<6E>quences sur les pr<70>visions.
 
19 Nous pourrions choisir un prior conjugu<67>, c'est-<2D>-dire une densit<69> a priori qui confront<6E>e aux donn<6E>es via la 
vraisemblance induit une densit<69> post<73>rieure de la m<>me forme. Les propri<72>t<EFBFBD>s des densit<69>s gaussienne et Wishart, 
ainsi que l'<27>quation (8), sugg<67>rent la densit<69> jointe a priori conjugu<67>e suivante :
				    <DISPLAY EQUATION ()>
o<EFBFBD> $$ est une matrice r<>elle de m<>me dimension que $$, $$ et $$ sont des matrices sym<79>triques d<>finies postives 
respectivement de dimensions $$ et $$, $$ est une matrice sym<79>trique d<>finie positive. On montre alors facilement 
que la densit<69> post<73>rieure est encore Normale-Wishart. Ce r<>sultat est direct si on couple le prior non informatif 
de la section  2.4.1 et un pr<70>-<2D>chantillon pour former le prior normal Wishart, voir Tiao et Zellner (1964) et 
la section  4.1.
 
20 La pr<70>sence d'une racine unitaire ne ferait qu'accro<72>tre l'ordre de divergence, ce qui ne change pas 
qualitativement la conclusion.

21 Voir Judge et al. (1985, pages 52-54) la section 3.2.1 intitul<75>e << Exact Nonsample Information >>. 

22 Se reporter <20> Theil (1971, pages 670-673). 

23 Voir, par exemple, Litterman (1986) ou Kadiyala et Karlsson (1997). Pour d'autres priors on peut se 
reporter <20> Kadiyala et Karlsson.

24 Nous devons aussi poser un a priori sur la matrice de variance-covariance de l'innovation du VAR, $$. 
Litterman (1986) consid<69>re que celle-ci est diagonale et donn<6E>e (variance a priori nulle). Cela ne correspond 
pas <20> notre hypoth<74>se de la section 2.4.2, o<> nous avons suppos<6F> que cette matrice <20>tait pleine (<28>gale <20> 
l'estimateur du maximum de vraisemblance). Nous pourrions, sans changer qualitativement les r<>sultats, adopter 
une matrice diagonale dans la section 2.4.2. Nous choisissons de poursuivre avec une matrice pleine, comme 
Phillips (1996), mais notre prior ne correspondra plus <20> des marches al?atoires ind<6E>pendantes. En fait 
la motivation principale de Litterman <20>tait de justifier une estimation <20>quation par <20>quation, car <20> l'<27>poque 
l'estimation d'un syst<73>me <20>tait trop co<63>teuse num<75>riquement, et ne reposait pas sur la croyance que les s<>ries 
macro<EFBFBD>conomiques sont r<>ellement ind<6E>pendantes. 

25 Voir Kim (1998).

26 Quand Smets et Wouters <20>tablissent que leur mod<6F>le DSGE surpasse un mod<6F>le BVAR en terme de densit<69> marginale 
de l'<27>chantillon, on ne peut v<>ritablement conclure <20> la bonne la qualit<69> du DSGE puisque nous n'avons aucune 
id<EFBFBD>e des performances du mod<6F>le BVAR.
 
27 La premi<6D>re cat<61>gorie correspond aux variables pr<70>d<EFBFBD>termin<69>es, les suivantes aux variables non pr<70>d<EFBFBD>termin<69>es.

28 Plusieurs approches sont envisageables : quadrature, Monte Carlo, quasi Monte Carlo... voir Judd (1998). 

29 Par exemple, Smets et Wouters (2002, tableau 2) estiment la densit<69> marginale de leur mod<6F>le DSGE <20> l'aide 
de l'approximation de Laplace et d'une m<>thode << exacte >> (dans le sens o<> elle ne repose pas sur une 
approximation asymptotique, voir plus bas) bas<61>es sur des simulations. Avec l'approximation de Laplace ils 
obtiennent (en logarithme) -269,59 ? comparer au -269,20 obtenu avec un exercice de Monte-Carlo. Ces deux <20>valuations 
sont tr<74>s proches, on retrouve g<>n<EFBFBD>ralement cette proximit<69> d<>s lors que l'<27>chantillon est assez grand.
 
30 En fait on peut montrer, dans certains cas, qu'il s'agit d'un estimateur du maximum de vraisemblance.

31 Dans ce qui suit, nous omettons les m<>thodes d'<27>chantillonnage de Gibbs. Cette m<>thode consiste <20> g<>n<EFBFBD>rer 
chaque param<61>tre conditionnellement <20> tous les autres param<61>tres. Il est donc n<>cessaire de pouvoir <20>crire 
toutes les distributions conditionnelles. C'est pourquoi cette m<>thode n'est g<>n<EFBFBD>ralement pas priviligi<67>e pour 
l'estimation des mod<6F>les DSGE. Cependant, il est <20> noter que les algorithmes de Metropolis-Hasting et 
d'<27>chantillonnage de Gibbs peuvent <20>tre combin<69>s, on parle alors d'algorithme Metroplis-Within-Gibbs.
 
32  Nous verrons par la suite qu'un algorithme <20> cha<68>nes de Markov ind<6E>pendantes peut s'interpr<70>ter comme un algorithme 
par fonction d'importance. Par ailleurs, les m<>thodes de Monte-Carlo <20> cha<68>nes de Markov n<>cessitent de d<>terminer le 
noyau de transition de la cha<68>ne de Markov, dont on sait seulement qu'il v<>rifie certaines propri<72>t<EFBFBD>s d'ergodicit<69>, etc. 
Le choix de la fonction d<>finissant les changements d'<27>tat peut <20>tre assimil<69>, toutes choses <20>gales par ailleurs, <20> 
celui de la fonction d'importance.

33 Le noyau $$ sp<73>cifie la probabilit<69> d'aller de $$ <20> $$. Dans un cas favorable, $$ est en $$ <20> l'it<69>ration suivante, 
nous pouvons envisager deux possibilit<69>s : (i) $$ se d<>place effectivement et rejoint la r<>gion $$ <20> l'it<69>ration 
suivante, (ii) $$ ne se d<>place pas mais $$ est d<>j<EFBFBD> dans $$. La densit<69> associ<63>e au noyau est donc une densit<69> 
continue - discr<63>te, Tierney adopte la d<>finition suivante :
				    <DISPLAY EQUATION ()>  
o<EFBFBD> $$ est la densit<69> associ<63>e <20> la transition de $$ <20> $$, $$, $$ s'interpr<70>te comme la probabilit<69> de
ne pas quitter la position $$, $$ est une fonction indicatrice <20>gale <20> un si et seulement si $$.
 
34 Il ne s'agit pas <20> proprement parler de la condition de r<>versibilit<69>, mais d'une implication de la propri<72>t<EFBFBD> de 
r<EFBFBD>versibilit<EFBFBD>.
 
35 (Suite de la note  33) Techniquement, il suffit de substituer la d<>finition du noyau dans $$ qui, si la cha<68>ne 
est r<>versible, se r<>duit alors <20> $$.

36 Le noyau de transition du MH, $$, est d<>fini de la m<>me fa<66>on que $$ dans la section 3.3.1 et la note 33. 

37 Par exemple, nous pourrions avoir : 
				    <DISPLAY EQUATION ()> 
Dans ce cas, l'<27>chantillonage <20> partir de $$ ne propose pas assez souvent des transitions de $$ <20> $$ ou trop souvent 
des mouvements de $$ <20> $$. L'algorithme de MH corrige cette erreur en n'acceptant pas syst<73>matiquement les 
propositions de $$. En introduisant une probabilit<69> d'acceptation de la transition propos<6F>e, $$, <20>lev<65>e (faible) 
quand il s'agit de rejoindre une r<>gion o<> la densit<69> a posteriori est <20>lev<65>e (faible), on peut r<>tablir l'<27>quilibre 
et finalement v<>rifier la condition de r<>versibilit<69>. Dans notre exemple, la probabilit<69> d'acceptation de la 
transition de $$ <20> $$ devrait <20>tre la plus grande possible puisque $$ ne propose pas assez souvent cette transition, nous
poserons donc $$. <20> l'inverse la densit<69> conditionnelle $$ propose trop de transitions de $$ vers $$, la probabilit<69> 
d'acceptation associ<63>e <20> cette proposition, $$, doit donc <20>tre inf<6E>rieure <20> 1. Pour <20>quilibrer les deux transitions, 
elle doit <20>tre telle que :
				    <DISPLAY EQUATION ()>
soit, puisque $$, de fa<66>on <20>quivalente :
				    <DISPLAY EQUATION ()>
On ne rejette donc pas syst<73>matiquement la transition propos<6F>e par $$. En consid<69>rant l'exemple en renversant 
l'in<69>galit<69>, on comprend la r<>gle donn<6E>e dans l'<27>tape 4 de l'algorithme 2.

38 Il n'existe pas une r<>gle universelle. Un taux d'acceptation de l'ordre de 0.25-0.40 est g<>n<EFBFBD>ralement consid<69>r<EFBFBD> 
comme appropri<72>. Dans le m<>me temps, il est important de noter que ce n'est pas tant le taux d'acceptation qui est 
crucial mais plut<75>t la garantie que la cha<68>ne de Markov a effectivement converg<72>. Le taux d'acceptation peut n<>anmoins 
influencer le temps qu'il faudra <20> la cha<68>ne de Markov pour rejoindre sa distribution invariante.

39 Pour plus de d<>tails sur la convergence vers la distribution stationnaire et l'hypoth<74>se de stationnarit<69>, voir 
Gelfand et Smith (1990 ), Roberts (1992 ) et Liu et al. (1992 ).
 
40 Pour plus de d<>tails, voir Raftery et Lewis (1996), Cowles et Carlin (1996), et Brooks et Roberts (1998).

41 Plus formellement, notons $$ l'estimateur de $$ obtenu <20> partir du vecteur initial $$ lorsque les $$ der-
ni<EFBFBD>res valeurs de la cha<68>ne sont prises en compte. La variance intra d'une cha<68>ne, obtenue <20> partir du vecteur 
initial $$, est d<>finie par $$. La moyenne des variances intra est alors donn<6E>e par $$, o<> $$ est le
nombre de cha<68>nes en parall<6C>le ou de vecteurs initiaux. De la m<>me mani<6E>re, on peut montrer que la 
variance-inter est estim<69>e par $$ o<> $$ est donn<6E>e par $$. Un estimateur de la variance a posteriori de 
$$ est alors d<>fini comme $$. 
42 Plus formellement, supposons que l'on dispose d'une cha<68>ne de Markov $$ et que l'on subdivise cette cha<68>ne en sous-
ensembles, $$, $$, $$ et $$. On choisit g<>n<EFBFBD>ralement, $$, $$ et $$, o<> $$. Le test de Geweke revient <20> d<>terminer 
la variance a posteriori de $$, $$ et $$, pour les sous-ensembles S1 et S3 et <20> <20>valuer $$ et $$. La statistique de 
test est alors d<>finie par
				    <DISPLAY EQUATION ()> 
 
43 L'intuition repose sur un th<74>or<6F>me fondamental de l'analyse des s<>ries temporelles qui nous indique que si les $$ 
sont <20>chantillonn<6E>es <20> partir d'un processus stationnaire et corr<72>l<EFBFBD>, les r<>alisations des tirages (qui sont donc 
corr<EFBFBD>l<EFBFBD>s) fournissent encore une information non biais<69>e de la distribution si la taille de l'<27>chantillon est 
suffisamment grande.

44 Par exemple, Campbell (1994) <20>tablit, en <20>crivant analytiquement la forme r<>duite du mod<6F>le RBC lin<69>aris<69>, que le 
produit par t<>te est un processus ARMA(2,1). Ce mod<6F>le pr<70>dit donc que le produit par t<>te est un AR(1) que l'on 
pourrait approximer avec un AR(p) pour un nombre de retards, $$, assez grand.
 
45 On pourrait se contenter de l'estimation du mode post<73>rieur et d'une approximation de Laplace, mais cette 
possibilit<EFBFBD> n'est pas <20>voqu<71>e par Del Negro et Schorfheide.