Modello di correzione dell'errore (MCE)

Abstract

Il Modello a Correzione dell'Errore (MCE) è un modello grazie al quale si risolve il problema della regressione spuria che si verifica nella stima di relazioni in livelli tra processi integrati (non stazionari). Esso rappresenta un collegamento tra l'analisi delle serie storiche e la teoria economica, breve periodo e lungo periodo. Infatti, l'elemento principale del modello è il termine a correzione dell'errore in virtù del quale le variazioni della variabile dipendente sono dovute non solo alle variazioni della variabile indipendente, ma anche all'entità del disequilibrio determinatosi al tempo precedente. Il suddetto termine gioca quindi un ruolo stabilizzatore infraperiodale contribuendo a riportare la variabile dipendente, y, verso l'equilibrio. I modelli a correzione dell'errore si collocano nell'ambito di studio delle serie storiche non stazionarie.
La non stazionarietà di una serie storica può essere ricondotta alla presenza di tre fattori (Hamilton, 1995): di un trend, del fenomeno della stagionalità e di variazioni delle ampiezze e del livello delle oscillazioni al variare del tempo. La struttura probabilistica di una serie storica non stazionaria varia nel tempo; il processo è eteroschedastico e serialmente correlato.

Figura 1. Percorso


Una serie storica, yt = {y1, y2, y3...,yt}, con t = 1,....,T, costituisce una sequenza di osservazioni su un fenomeno y effettuate in istanti o in intervalli (rispettivamente per le variabili di stock e di flusso) di tempo consecutivi e solitamente equispaziati (stock) o della stessa lunghezza (flussi). Esprimendo dunque la dinamica del fenomeno nel tempo, si usa rappresentare la coppia di valori (t, yt), descriventi l'andamento della serie, su un diagramma cartesiano con un grafico a tratto continuo, come se il fenomeno fosse rilevato con continuità. In letteratura esistono due approcci per l'analisi delle serie storiche temporali: quello tradizionale e quello moderno. Secondo l'approccio tradizionale si assume che il processo, Yt = f(t) + ut, generatore dei dati in serie storica relativi al fenomeno Y,  abbia una parte deterministica f(t), che consente di scomporlo in componenti tendenziali, cicliche e stagionali, e una componente residuale (ut), data dalla differenza tra i dati teorici del modello deterministico ed i dati osservati. L'approccio moderno, al quale si farà riferimento in seguito, ipotizza che la parte sistematica manchi o sia già stata eliminata mediante stime o altri modelli, e studia la componente stocastica ut. Dunque si assume che il processo sia stato generato da un processo stocastico descrivibile mediante un modello probabilistico di tipo parametrico. Un processo stocastico è un insieme di variabili aleatorie (Xt)t∈T definite su uno spazio di probabilità (Ω,F,P) a valori in (R,B(R)), dove T è un insieme di indici. Se T è un intervallo di R, allora il processo stocastico si dice continuo e si indica con {X(t) : t ∈ T}; se T ⊆ N (Z), allora il processo stocastico si dice discreto e si indica con {Xt : t ∈ T}. Prendiamo in considerazione processi stocastici a tempo discreto, sapendo che le definizioni e i risultati valgono anche nel caso continuo. A questo punto si può ridefinire una serie temporale come una realizzazione campionaria di un processo stocastico (Proietti, 2011). 

L'analisi delle serie storiche può essere: 1) univariata, se mira a descrivere e interpretare sinteticamente l'andamento nel tempo di un fenomeno (grazie anche all'uso di grafici che mettono in evidenza eventuali valori anomali), tentando di spiegare il meccanismo dinamico che ha generato la serie e cercando di prevedere le sue realizzazioni future. L'informazione che viene sfruttata riguarda esclusivamente la coppia (t, yt), t = 1,...,T. Il punto fondamentale è che il passato ed il presente contengono informazioni rilevanti per prevedere l'evoluzione futura del fenomeno; 2) multivariata, se mira alla ricerca di connessioni e relazioni fra più serie storiche.  È piuttosto raro che un fenomeno complesso come quelli che si studiano di solito in economia possa essere descritto da una sola variabile. Ci si trova molto più comunemente nella situazione in cui i fatti a cui ci si interessa non possano essere riassunti in modo soddisfacente se non usando più di una grandezza. Infatti, di solito si dispone d'informazioni su fenomeni collegati a quello da prevedere che andrebbero opportunamente incorporate al fine di migliorare la performance del modello di previsione. Questo conduce naturalmente all’uso di variabili casuali multiple. Per le ragioni sopra descritte, si può ritenere l'analisi univariata troppo limitativa. Ciò nonostante, quella univariata è un utile benchmark che consente di validare alternative più sofisticate. Inoltre, i risultati ottenuti nell'analisi univariata sono facilmente estendibili al caso multivariato.

Il processo stocastico è noto se è nota la funzione di ripartizione P(Y1 ≤ a1, Y2 ≤ a2,....,Yt ≤ at) per ogni T-upla (a1,...,at), ossia se è nota la densità congiunta di ogni evento nello spazio reale a T dimensioni. Nelle applicazioni si dispone, per ogni t, di una singola realizzazione della variabile casuale yt, per cui il processo inferenziale presenterebbe complicazioni insuperabili se non venissero imposte due classi di restrizioni sulle caratteristiche del processo (Proietti, 2011):

 1. vincoli relativi all'eterogeneità temporale del processo stocastico (a questo tipo di restrizioni appartiene la stazionarietà);

 2. vincoli relativi alla memoria del processo stocastico (a questo tipo di restrizioni appartiene l'ergodicità).

In letteratura sono state introdotte due diverse nozioni di stazionarietà; si parla, infatti, di stazionarietà in senso forte (o in senso stretto) e in senso debole (o del secondo ordine o in covarianza). Nel primo caso si richiede che la serie sia distribuita identicamente, si ha quindi un'omogeneità temporale perfetta. Precisamente, un processo stocastico è stazionario in senso forte se la distribuzione di probabilità congiunta di {Yt, Yt+1,...,Yt+r} è indipendente da t,
∀r. Condizione necessaria e sufficiente perché ciò si verifichi è che tutti i momenti della variabile casuale multipla {Yt,Yt+1,...,Yt+r} siano finiti ed indipendenti da t. La struttura dinamica è dunque invariante nel tempo. Si tratta di una condizione molto restrittiva difficile da verificare in pratica perché fa riferimento alla funzione di distribuzione. In generale, è stazionario in senso forte un processo gaussiano per cui la densità congiunta dipende esclusivamente dal vettore delle medie delle variabili casuali Yt,Yt+1,...,Yt+r e dalla loro matrice di covarianza; pertanto, esso è stazionario se i suoi momenti fino al secondo sono finiti ed indipendenti da t, vale a dire

                                                          E(Yt) = µ                                                                         (1)

                                                   E(Yt −µ)2 = γ(0) < ∞                                                              (2)

                                            E [(Yt −µ)(Yt−k −µ)] = γ(k) < ∞                                                     (3)


∀t,k, dove γ(k) denota l’autocovarianza tra Yt e Yt−k, che si assume essere funzione esclusivamente di k. Invece, per un processo stocastico non gaussiano i cui momenti  µ e γ(k) sono indipendenti da t si parla di stazionarietà in senso debole (in covarianza). In tal caso la stazionarietà in covarianza non implica quella in senso forte, ma è generalmente sufficiente per ottenere i risultati più rilevanti. Un processo stocastico si definisce stazionario in senso debole se 

                                                        E(Xt) = μ                                                                            (4)

                                                      Var(Xt) = σ2                                                                          (5)

                                       Cov(Xt,Xt+h) = Cov(Xs,Xs+h) = γ(h)                                                        (6)


cioè le covarianze tra gli elementi del processo sono determinate soltanto dalla distanza h tra gli indici temporali. y(h) si assume essere funzione esclusivamente di h. Un esempio di processo stocastico stazionario in senso debole è il white noise, una sequenza di variabili casuali incorrelate a media nulla e varianza costante. Esso viene indicato εt ∼ WN(0,σ2) dove E(εt) = 0, E(εt2) = σ2 (il processo è omoschedastico) e E(εtεt−k) = 0 (processo serialmente incorrelato), per k ≠ 0. Ricordiamo che l'incorrelazione non implica indipendenza che è un concetto più forte, l'unica eccezione è il processo gaussiano dove è vero anche il contrario.

L'ergodicità richiede invece che la memoria del processo sia limitata così che eventi distanti nel tempo abbiano un basso grado di dipendenza. Un processo stocastico è ergodico   

                                                                 K=0 ∑∞ | γ(k) | < ∞                                                   (7)

dove γ(k) è la funzione di autocovarianza a lag K. 

In un contesto dinamico è necessario operare una generalizzazione definendo il concetto di processo stocastico multivariato (Johnson e Wichern 2002). Questo è un processo stocastico i cui elementi non sono variabili casuali semplici, ma multiple; si può pensare ad un processo stocastico multivariato come ad un vettore i cui elementi sono processi stocastici univariati. Tale definizione rende ovvia l’estensione al caso multivariato di molti dei concetti visti a proposito dei processi stocastici univariati: ad esempio, le definizioni di stazionarietà ed ergodicità rimangono immutate. Sia yt = (y1t,....,ynt)' un vettore NX1 di serie temporali, t = 1,...,T; yt è stazionario in senso debole se 

                                                               E(yt) = μ                                                                       (8) 

                                                 E[(yt – μ) (yt-r – μ')] = Γ'(τ)                                                          (9)


Come per il caso univariato la funzione di autocovarianza gode della proprietà Γ(τ) = Γ'(-τ). La stima dei momenti di un processo stazionario ed ergodico avviene attraverso i corrispondenti momenti campionari. Anche la definizione di white noise multivariato è molto simile a quella di white noise univariato. Il fatto che un processo multivariato sia un white noise esclude la correlazione fra ogni elemento del processo e la storia passata di tutto il processo, ma non esclude che possa esserci correlazione fra elementi contemporanei.  

Alla classe dei processi stazionari si applica un importante risultato noto come teorema di wold. Esso afferma che ogni processo stocastico stazionario in senso debole può essere scomposto in due processi stocastici mutualmente incorrelati, uno dei quali è lineare deterministico, c(t), ossia può essere previsto senza errore a partire dai valori passati di Yt; mentre l'altro indeterministico, è una sequenza infinita di variabili causali incorrelate (processo lineare):

                                                 Yt = c(t) + εt + ψ1εt−1 + ψ2εt−2 +···,                                       (10)


con ∑|ψj| < ∞ e E[c(t)εt−j] = 0, ∀t, j. Il termine εt è WN e rappresenta l’errore di previsione uniperiodale: εt = Yt − E(Yt|Yt−1,Yt−2,...), ed è anche detto innovazione. Solitamente la parte deterministica corrisponde alla media del processo, c(t) = µ. 

La rappresentazione di Wold di un processo stazionario multivariato yt è

                                                     yt = μ + ∞∑j=0  ψjεt-j =  ψ(L)εt, εt ∼ WN(0, ∑)                      (11)

con      ψ(L) = In + ψ1L +...., e con ∑j|ψj| < ∞

Si assume che tale rappresentazione possa essere approssimata da un modello vettoriale autoregressivo (VAR) di ordine p:

                                                                   Φ(L) yt = m +  εt,                                                 (12)

con Φ(L) = I – Φ1L - … - ΦpLp. Il processo VAR è stazionario se tutte le radici del polinomio |Φ(L)| sono in modulo superiori ad 1. Ad esempio in un VAR(1): yt = m + Φyt-1 + εt,            εt ∼ WN(0, ∑) il processo è stazionario se gli autovalori della matrice Φ hanno modulo inferiore o uguale ad 1, o, in modo equivalente, se det(In – ΦL) ≠ 0 per |L| ≤ 1.                
Per rappresentare algebricamente un processo, viene utilizzato, nelle serie storiche, l'operatore ritardo L (lag). Esso produce il valore ritardato di un periodo Yt−1: LYt = Yt−1. In generale, 

                                                      LkYt+r = Yt+r−k,     k = 0, ±1,....                                        (13)


Un polinomio di ordine m nell’operatore ritardo è definito: α(L) = 1 + α1L + α2L2 +···+ αmLm. Le radici del polinomio si ottengono ponendo α(L) = 0 e risolvendo rispetto a L. Le radici saranno reali o complesse coniugate: si dice che esse giacciono al di fuori del cerchio di raggio unitario se il loro modulo è superiore a 1. In particolare, definendo il polinomio infinito ψ(L) = 1 + ψ1L + ψ2L2 +.... possiamo riscrivere la rappresentazione di Wold in maniera sintetica yt = c(t)+ ψ(L)εt.. Anche l’operatore L può essere applicato in modo del tutto analogo: Lxt = xt−1 anche nel caso in cui xt sia un vettore.

L'importante conclusione che si può trarre dal teorema di Wold è che qualunque processo stazionario può essere espresso come una combinazione lineare di processi WN. Il problema che sorge nella rappresentazione del processo è che la struttura dei ritardi in εt è di ordine infinito, e non possiamo ambire a stimare infiniti parametri a partire da una realizzazione finita. Per questo si introducono i processi autoregressivi che rendono possibile notevole parsimonia nel numero dei parametri richiesti per descrivere la struttura dinamica del processo. Indichiamo con AR(p) un processo autoregressivo di ordine p,  

                                            Yt = m + ϕ1Yt−1 + ϕ2Yt−2 +···+ ϕpYt−p + εt                               (14)                                       
con εt ∼ WN(0,σ2). Si può riscrivere il processo applicando l'operatore ritardo, ϕ(L)Yt = εt, dove ϕ(L) = 1 − ϕ1L −···− ϕpLp è il polinomio autoregressivo di ordine p. Il processo è stazionario se le p radici del polinomio ϕ(L) sono in modulo superiori all'unità.

Che succede quando il processo è non stazionario
Un processo stocastico è non stazionario se non rispetta i requisiti di stazionarietà in senso debole sopra descritti (Green, William, 2007). Il più elementare processo non stazionario è chiamato Random Walk:

                                                                     yt = yt-1 + εt                                                  (15)                                                       
dove  εt ∼ WN(0,σ2). Il RW è un processo Markoviano del primo ordine e una martingala, in quanto E(yt|yt-1) = yt-1. La natura del processo RW (la varianza linearmente crescente) implica che esso possa vagare indefinitamente lontano dal valore iniziale con il procedere del tempo. Diversamente dal processo autoregressivo stazionario, non gode della proprietà di regressione verso la media (mean reversion). Il RW è inoltre un processo dalla memoria lunga in quanto il peso delle realizzazioni passate della variabile casuale εt nella determinazione del presente rimane inalterato, mentre nel caso del processo autoregressivo stazionario decade in maniera esponenziale. Il processo RW può essere considerato come un processo AR (1) di parametro ϕ = 1, non stazionario. Da notare che uno shock passato ha effetti persistenti sul livello della serie (viene per intero accumulato, o integrato, nel livello). Il RW è un esempio di processo integrato del primo ordine yt ∼ I(1). Che cos'è l'ordine di integrazione di un processo? 

Ordine di integrazione: Il processo yt è integrato di ordine d, yt ∼ I(d), se le differenze d-esime Δdyt ammettono una rappresentazione di Wold stazionaria ed invertibile. In altre parole applicando d volte l’operatore differenza, ∆ = 1−L, si ottiene un processo stazionario ed invertibile, per il quale vale la tradizionale teoria asintotica.

                                                                     ∆dyt = μ + Ψ(L)εt                                                  (16)

con j=0 ∑ ∞ |Ψj| < ∞ Il comportamento dei processi integrati differisce da quello dei processi stazionari per molti aspetti. Uno di questi è sicuramente il fatto che la presenza di un termine costante in un modello autoregressivo non ha conseguenze drammatiche sulle sue proprietà temporali: 

                                                   yt = µ + Φyt−1 + εt          t = 1,2,...,T                                     (17)

yt è infatti un processo stazionario attorno a m = E(yt) = µ/(1 − Φ), ed è noto che m e Φ possono essere stimati in maniera (asintoticamente) indipendente; inoltre i momenti di ordine superiore al primo non sono affetti dalla presenza della media, la quale si configura come un parametro di disturbo eliminabile prendendo in considerazione il processo scarti dalla media. Nel caso Φ = 1, invece, il processo 

                                                          ∆yt = µ + εt               t = 1,2,...,T                                    (18)

è ancora I(1), ma le sue realizzazioni sono notevolmente diverse da quelle di un RW; mediante sostituzione successiva troviamo infatti che

                                                         yt = y0 + µt + j=0εt−j                                                          (19)       e che pertanto il valore medio del processo è un trend lineare deterministico attorno al quale le oscillazioni si fanno sempre più accentuate. Questo processo è denominato RW con drift. In molte circostanze ha rilievo determinare l’ordine di integrazione di una variabile. L’ordine di integrazione possiede un contenuto informativo autonomo sulle proprietà dinamiche della serie. Date le numerose differenze tra un processo stazionario e uno che non lo è diventa evidente la necessità di poter discriminare, tramite appropriati test, la natura del processo che si vuole esaminare. Nella letteratura econometrica, la classe dei test di radice unitaria sottopone a verifica l'ipotesi che yt sia stazionario nelle differenze, ossi che ∆yt ha una rappresentazione di Wold stazionaria ed invertibile contro l'alternativa che sia stazionario attorno ad un processo deterministico. Ci sono due test in particolare il Dickey Fuller, che suppone εt incorrelato e omoschedastio, e l'Agumented D-F, che invece postula l'autocorrelazione e l'eteroschedasticità. I test di radice unitaria hanno giocato un ruolo fondamentale nell'interpretazione del trend nelle serie storiche economiche (Kwiatkowski, Phillips, Schmidt, e Shin, 1992). Il modello Φ(L)yt = dt + εt,  εt ∼ WN(0, σ2), con dt componente deterministica (trend lineare), annida due contrapposte classi di processi stocastici, entrambi candidati ad interpretare la dinamica delle serie macroeconomiche reali.

 1. Processi Trend-Stationary (TS) : la cui componente evolutiva di lungo periodo è esprimibile in termini di una funzione deterministica del tempo e la cui componente di breve periodo è rappresentata da un processo stazionario a media nulla: yt = f(t) + ct. Nel lungo periodo il fenomeno ha un’evoluzione deterministica nella cui determinazione il presente ed il passato non hanno alcun ruolo, mentre l’informazione rilevante per la previsione è la posizione nel tempo.

 2. Processi Difference-Stationary (DS) :  per i quali le differenze prime della variabile yt ammettono una rappresentazione AR stazionaria. Originano nel caso in cui dt = m e  Φ(1) = 1.

Al fine di discriminare tra i due tipi di processo si effettua un test ADF dell’ipotesi Φ∗ τ = 0 (Φ* = Φ - 1) e β = 0. Nel caso di accettazione dell’ipotesi nulla si concluderà che la serie appartiene alla categoria DS. E’ noto che l’accettazione dell’ipotesi nulla non esclude che l’alternativa sia vera. Nel caso in questione la potenza dei test per la presenza di radici unitarie (1 - P(H0|H1)) è estremamente bassa riflettendo la circostanza che in campioni finiti è difficile discriminare un processo con una radice unitaria da uno con radice 1−δ, δ > 0 qualsiasi. Le realizzazioni possono essere virtualmente identiche per dimensioni campionarie non elevatissime e pertanto sia i metodi basati sui momenti che sulla funzione di verosimiglianza non riescono a discernere le due situazioni.

Problemi nella regressione tra due processi integrati

Quando si fa inferenza con processi integrati, molte delle certezze che accompagnavano il mondo della stazionarietà cedono il posto a risultati inconsueti. Supponiamo che yt e xt siano entrambe I(1) e che esista una relazione causale unidirezionale x → y; ci proponiamo allora di stimare una relazione econometrica tra l’endogena y e l’esogena x. L’ordine di integrazione delle variabili non è indifferente e concorre a determinare diversi modi di formalizzare la relazione tra le due variabili dal punto di vista econometrico. Partiamo dalla seguente rappresentazione  ADL(r,s) (Autoregressive Distributed Lag): 

                                                             α(L)zt = µ + β(L)vt + ξt                                                  (20)       dove α(L) = 1−α1L−...−αrLr e β(L) = β0 + β1L + ... + βsLs. Il modello ADL è stabile se le radici del polinomio α(L) giacciono tutte al di fuori del cerchio di raggio unitario; tale proprietà è importante per l’esistenza di una soluzione di lungo periodo. Se l' ADL è un modello nei livelli, si ha 

                                                                      zt = yt e vt = xt.                                                  (21)  

Consideriamo per semplicità il caso di regressione statica:  

                                                          yt = µ + βxt + εt,         εt ∼ WN(0,σ2)                                (22)

in cui si ipotizza una dipendenza istantanea tra le due variabili; la presenza di integrazione può dar luogo al fenomeno che prende il nome di regressione spuria: se yt e xt sono generate da due random walk indipendenti la stima dei MQO di β può risultare significativamente diversa da zero; inoltre si otterrà un coefficiente di determinazione R2 alto in presenza di un DW estremamente basso e prossimo a zero. Pertanto nella stima di relazioni in livelli tra processi integrati si va incontro al rischio che il “buon adattamento” del modello ai dati sia del tutto illusoria. È evidente che, sulla base di una regressione così, un ricercatore incauto, il quale non si ponga il problema dell’ordine di integrazione delle variabili, potrebbe “scoprire” relazioni fra variabili assolutamente inesistenti nella realtà: da qui l’espressione ‘regressione spuria’. Né vale il ricorso agli usuali test statistici in quanto la correlazione seriale esistente nei residui implica che i livelli di significatività dei test t ed F non risultino più corretti. Il fenomeno ha trovato una spiegazione formale in campo asintotico grazie a Phillips (1985), il quale ha dimostrato che per T → ∞ il test DW tende a zero, R2 all’unità e che le usuali statistiche test divergono, con la conseguenza che la probabilità di rifiutare H0 : β = 0 cresce al crescere di T. Questo risultato è piuttosto sconfortante dal punto di vista della teoria economica, la quale formula delle relazioni tra variabili in livello.  

Considerati i problemi posti dalla regressione statica in livelli si sono cercati possibili rimedi.

 1. Si potrebbe pensare di formulare una relazione econometrica tra le variazioni delle variabili; la differenziazione dei dati è una delle trasformazioni che viene solitamente suggerita per aggirare il problema: ∆ yt = µ + β∆xt + εt . Si noti che se le due variabili sono generate da RW indipendenti, la differenziazione consente di eliminare il problema di regressione spuria, poiché per il test t dell’ipotesi β = 0 vale la tradizionale teoria distributiva. Tuttavia, anche questo approccio non va esente da critiche: innanzitutto non contiene alcuna relazione sui livelli, per cui, se esiste una relazione di equilibrio di lungo periodo y = cx, essa non può essere incorporata nel modello: infatti quando il sistema raggiunge lo stato di equilibrio stazionario, yt = ye e xt = xe, entrambe le differenze prime sono nulle. 

 2.Regressione tra serie detrendizzate: la non stazionarietà può essere incorporata nel modello introducendo un trend lineare tra i regressori: 

                                                           yt = α + γt + βxt + εt                                                       (23)

Tale procedura ha qualche probabilità di successo solo se le variabili sono processi TS; un importante risultato, noto come teorema di Frisch e Waugh, ha infatti stabilito che inserire un trend lineare equivale ad effettuare una regressione statica tra serie detrendizzate mediante l’eliminazione di un trend lineare. Pertanto se le variabili sono generate da RW indipendenti si incorre in una regressione spuria poiché la detrendizzazione ha effetto solo sul nucleo deterministico, lasciando inalterato quello stocastico.

 3.Un altro possibile rimedio alla regressione spuria può consistere nell’inclusione di valori ritardati delle variabili esplicative e della dipendente; nel caso dei RW indipendenti, ad esempio, aggiungendo tra i regressori il valore ritardato di entrambe le variabili,

                                                       yt = µ + αyt−1 + β0xt + β1xt−1 + εt                                     (24)                                                       

esiste la combinazione con α = 1, β0 = β1 = 0, tale che εt ∼ I(0). 

Il più importante metodo per correggere la regressione spuria è il Modello a Crrezione dell'Errore (MCE). Si può pensare ad esso come ad un VAR riscritto in forma ECM (Engle e Granger 1987). I modelli ECM occupano giustamente un posto di primo piano nell’econometria moderna, proprio perché rappresentano lo snodo che collega analisi delle serie storiche e teoria economica, breve periodo e lungo periodo. Se in un sistema ci sono squilibri diversi da 0, si avrà un movimento tale per cui lo squilibrio tende a venire riassorbito. Un concetto che spesso si rivela utile per la comprensione di questa idea è quello di attrattore. Questo concetto è molto generale, ma si può rendere l’idea dicendo che un attrattore è un insieme di punti attorno ai quali un sistema dinamico tende a trovarsi. Prendiamo l'ADL (r, s) in livelli (introdotto sopra)

                                                                      α(L)yt = µ + β(L)xt + εt 

con α(L) = 1−α1L−...−αrLr, β(L) = β0 + β1L + ... + βsLs e εt ∼ WN(0,σ2). Questo può essere riparametrizzato nella forma “a correzione dell’errore”. Riscriviamo α(L) = α(1)L + ∆α†(L), β(L) = β(1)L+∆β†(L), dove α†(L) e β†(L), sono polinomi di ordine r−1 e s−1 rispettivamente. Sostituendo e riordinando i termini otteniamo: 

                                          α†(L)∆yt = µ−α(1)(yt−1 −cxt−1) + β†(L)∆xt + εt,                              (25)                                           

ovvero: 

                                         α†(L)∆yt = −α(1)(yt−1 −m−cxt−1) + β†(L)∆xt + εt,                           (26)

dove m = µ/α(1) e c = β(1)/α(1) è il moltiplicatore totale che può essere validamente interpretato come il coefficiente di risposta di lungo periodo della relazione di equilibrio (statico) tra y e x; se le variabili sono espresse in logaritmi c rappresenta l’elasticità di lungo periodo di y rispetto a x. In equilibrio yt = ye e xt = xe: Sostituendo si ottiene la relazione di equilibrio y = cx; è evidente che yt−1−cxt−1 misura l’entità del disequilibrio realizzatosi nel periodo precedente; il primo termine al secondo membro si configura pertanto come un “meccanismo di correzione dell’errore” (MCE). La parametrizzazione con MCE presenta alcuni pregi: il primo, di natura interpretativa, consiste nel combinare opportunamente la dinamica di breve periodo con le proprietà di equilibrio di lungo periodo suggerite dalla teoria economica. Le variazioni di y dipendono non soltanto dalle variazioni di x e dal loro passato ma anche dall’entità del disequilibrio al tempo precedente che grazie all'effetto del termine a correzione dell'errore ci dice di quanto deve variare y per ristabilire l'equilibrio tra x e y (processo mean reverting). A titolo esemplificativo consideriamo un modello ADL(1,1), che ammette la parametrizzazione MCE:

                                                     ∆yt = µ + (α1 −1)(yt−1 −cxt−1) + β0∆xt + εt,                       (27)

con c = (β0+β1)/(1−α1); se il modello è stabile (|α1| < 1) allora il secondo termine al secondo membro gioca un rilevante ruolo stabilizzatore: qualora nel periodo precedente y si fosse rivelata superiore (inferiore) al suo livello di equilibrio statico cx, il tasso di crescita di y risulterebbe diminuito (aumentato), contribuendo a riportare la y verso il sentiero di equilibrio. Un altro vantaggio di natura più strettamente econometrica sta nel fatto che le variabili originarie {yt,yt−1,...,yt−r, xt,xt−1,...,xt−s} costituiscono un insieme fortemente collineare, mentre la forma con MCE realizza un notevole ridimensionamento della multicollinearità. Se εt ∼ WN(0,σ2) allora, supposto noto c, i coefficienti possono essere stimati in maniera consistente ed efficiente mediante i MQO. In maniera quasi equivalente, nel caso multivariato si ha, considerando la scomposizione del polinomio AR:

                                                              Φ(L) =  Φ(1) L +  ∆Φ*(L)                                             (28)

dove

 Φ(1) = In – Φ1 – Φp e Φ*(L) = In – Φ1*L - ….- Φp-1*Lp-1,                   Φ*j = ∑i=j+1 pΦi

Sostituendo possiamo scrivere :

                                                           Φ*(L) ∆yt = m – Φ(1)yt-1 + εt                                         (29)                                              

Si possono verificare tre casi:

1)se  Φ(1) ha rango pieno (il det ≠ 0), allora yt è un processo VAR(p) stazionario nei livelli. 

2)se  Φ(1) ha rango zero (il det = 0), allora yt ∼ I(1) e ∆yt ∼ I(0). Il processo ∆yt ammette una rappresentazione  VAR           (p-1) stazionaria: Φ*(L) ∆yt = m + εt        

3)se Φ(1) ha rango r < N, allora possiamo scrivere  Φ(1) = - AB', dove A e B sono matrici N x r di rango colonna pieno.

Nell'ultimo caso si ottiene la rappresentazione VECM (MCE vettoriale)

                                                             Φ*(L) ∆yt = m + AB' yt-1 + εt                                      (30)                                                


la matrice B prende il nome di matrice di cointegrazione, mentre A contiene i coefficienti di aggiustamento verso l'equilibrio. Il termine zt = Byt è l'errore di equilibrio al tempo t. La matrice Φ*(L) serve a modellare la dinamica del sistema nel breve periodo. 

Bibliografia

Banerjee, A., Dolado, J., Galbraith, J.W., Hendry, D.F., Cointegration, error-correction and the econometric analysis of nonstationary data, Oxford 1993. 

Carlucci, F., Analisi delle serie storiche: i modelli stocastici, in Statistica economica (a cura di G. Marbach), Torino 1991. 

Engle, R. F. and Granger, C. W. J. (1987). Co–integration and error correction: Representation, estimation and testing. Econometrica, 55, 251–276.

Fuller, W.A. (1996) Introduction to Statistical Time Series, John Wiley & Sons, New York.

Granger, C. W. J. (1981). Some properties of time series data and their use in econometric model specification. Journal of Econometrics, 16, 121–130.

Green, William H. (2007), Econometric Analysis, Prentice Hall, 5th edition.

Hamilton, J.D., Time series analysis, Princeton, N.J., 1994 (tr. it.: Econometria delle serie storiche, a cura di B. Stizia, Bologna 1995). 

Hannan, E.J., Multiple time-series, New York 1973. 

Johnson,R.A. and D.W.Wichern (2002), Applied Multivariate Statistical Analysis, 5th edition, Prentice Hall, Upper Saddle River.

Kwiatkowski, D., Phillips, P. C. B., Schmidt, P., and Shin, Y. (1992). Testing the null hypothesis of stationarity against the alternative of a unit root. Journal of Econometrics, 54, 159–178.

Lutkepohl, H. (2005). New introduction to multiple time series analysis. Springer- Verlag.

Phillips, P. C. B. and Perron, P. (1988). Testing for a unit root in time series regression. Biometrika, 75, 335–346.

Proietti T., Econometria Applicata, 2011.

Redattore: Carmela CAPASSO