Tidsserieanalys Kap 18, samt Baudin 1-4.4
Tidsserieanalys En tidsserie är en mängd mätningar som är tidsordnade. Med tidsserieanalys försöker man upptäcka och förstå regelbundenheter i variationen i data över tiden. Regelbundenhet i tidserier kan vara ett resultat av en tendens att öka eller minska med tiden - trend- eller en tendens att följa ett cykliskt mönster över tiden – säsongsvariation eller cyklisk variation (t ex konjukturer). Prognoser/Förutsägelser (Forecasting) är extrapolering av värden utanför den region där man har data. Regelbunden variation kan förutsägas, men slumpmässig variation kan inte förutsägas. Exempel: Med data över glassförsäljning från 1980 till 2002 försöker vi förutsäga glassförsäljningen 2003 och 2004.
Tidsserieanalys (forts.) Tidsserieanalys handlar ofta om att dela upp tidsserievariabeln, Y t, i komponenter så som trend (T), konjunkur (C), säsong (S) och slump (I). Additiv modell Y t = T t + S t + C t + I t Multiplikativ modell Y t = (T t )(S t )(C t )(I t )
Random walk När skillnaden mellan Y vid tidpunkten t och föregående tidpunkt t-1 endast är ett slumpmässigt fel kallas tidserien för en random walk. Felet betecknar vi med a t. Y t - Y t-1 =a t eller ekvivalent: Y t =Y t-1 +a t t Z Random Walk a
Cykliska mönster En tidsserie som skulle kunna modelleras som bestående av två cykliska funktioner plus ett slumpmässigt fel. Till skillnad från en sk random walk, uppvisar den här serien en cyklisk variation. Den underliggande cykliska variationen kan analyseras och förutsägas.
Säsongsvariation t P a s s e n g e r s Monthly Numbers of Airline Passengers Year E a r n i n g s Gross Earnings: Annual AJJMAMFJDNOSAJJMAMFJDNOSAJJMAMFJ Time S a l e s Monthly Sales of Suntan Oil När ett cykliskt mönster har en period på ett år, ett kvartal, en månad etc. kallas den oftast för säsongsvariation. Om mönstret är ett annat kallas det bara cyklisk variation.
Trendanalys Med trend avses den långsiktiga utvecklingen. Linjär trend: Y t = 0 + 1 t+a t, där a t =S t + C t + I t Exempel : = t + a t, där 1994 är kodad som t=1,1995 som t=2 osv
Trendanalys Exponentiell trend: Y t = a t Skattas via logaritmering: lnY t = ln 0 + ln 1 t + ln a t, Där ln 0 samt ln 1 skattas “som vanligt”med MK-metoden Därefter exponentiering (antilogaritmering) Se vidare: Baudin sid 40
Trendrensning Ibland är syftet med att skatta en trend att man sedan vill göra en trendrensning, dvs ta bort trenden från sina serier så att man lättare ska kunna se om det finns cykliska eller säsongs variationer. Trendrensning för en additiv modell: 1) Skatta trendmodellen. 2) Beräkna residualerna, dvs ta observerade värden minus skattade värden, dvs Y t - = Y t - (b 0 + b 1 t) Trendrensning för en multiplikativ modell: 1) Skatta trendmodellen. 2) Ta observerade värden delat med skattade värden, dvs Y t / = Y t /(b 0 + b 1 t)
Säsongsdummymetoden En additiv regressionsmodell med säsong: Y t = 0 + 1 t+ 2 S 1 + 3 S 2 + 4 S 3 + t där S 1 =1 om observationen är från första kvartalet och 0 annars S 2 =1 om observationen är från andra kvartalet och 0 annars S 3 =1 om observationen är från tredje kvartalet och 0 annars Säsongsrensingen sker genom att skatta modellen och beräkna residualerna. Dessa innehåller då varken säsong eller trend. Här är kvartal fyra referenskvartal.
Säsongsmedelvärdesmetoden Utgå från trendrensade observationer, bilda medelvärden (M i ) för varje säsong Ger prognoser identiska med de som fås via säsongsdummymetoden, med den skillnaden att inget kvartal sätts som referenskvartal. =b 0 + b 1 t+ M 1 S 1 + M 2 S 2 + M 3 S 3 + M 4 S 4 I säsongdummymetoden ingår ju effekten av referenskvartalet i b 0 … Se vidare i Baudin avsnitt 4.3
Löpande medelvärde (moving average, MA) Ett löpande medelvärde för en tidserie är ett medelvärde av ett fixt antal observationer, som flyttar sig när längs med serien. Det löpande medelvärdet visar trend och längre cykliska komponenter, dvs kan ses som en säsongsrensningsmetod. Denna metod kan även användas för en multiplikativ modell. För att få en riktig utjämning är det viktigt att alla säsongstypiska värden inkluderas. Ex. 1) Dagsdata, 5/7 dagar per vecka: “Fem-/Sju- termers löpande medelvärde” Ex. 2) Månadsdata, 12 mån per år: “12-termers löpande medelvärde” Ex. 3) Kvartalsdata: “Fyratermers löpande medelvärde” OBS! I alla exemplen ovan måste vi har flera upprepningar av hela perioderna, dvs flera hela veckor (ex. 1) och flera hela år (ex. 2-3).
Löpande medelvärde (exempel) t: Y t : termers MA: t: Y t : ( )/5=15.4 ( )/5=15.6 ( )/5= ( )/5=17.6
Löpande medelvärde (exempel)
The Ratio-to-Moving Average Method Det löpande medelvärdet (MA) visar trend och längre cykliska komponenter. Om orginalserien divideras med MA har vi alltså isolerat säsongs- och slumpvariationen. Om detta multipliceras med 100 kallas det för ratio-to-moving average. Om medelvärdet av detta beräknas för respektive säsong fås ett säsongsindex (S) där (det mesta av) slumpvariationen är borta. Säsongsrensning fås genom att beräkna
Exempel S a l e s Time Actual Smoothed Actual Smoothed MSD: MAD: MAPE: Length: Moving Average Four-Quarter Moving Averages Simple Centered Ratio Moving Moving to Moving QuarterSales Average Average Average 1998W170*** 1998S148*** 1998S141* F W S S F W S S F W S S ** 2002F **
Exempel (forts.) Quarter Year Winter Spring Summer Fall Sum Average Sum of Averages = Seasonal Index = (Average)(400)/ Seasonal Index Säsongsindex
Exempel (forts) Quarter Sales Seas. Index (S) Des.Series(Y/S)* W S S F W S S F W S S F W S S F
Cyklisk komponent F1992S1992S1992W t S a l e s Trend Line and Moving Averages Den cykliska komponenten tillsammans med trenden är det som återstår sedan i MA. En jämförelse mellan MA och den skattade trendlinjen: Vi ser att den cykliska komponenten är försumbar i denna serie.
Förutsägelser (multiplikativ modell)
Sammanfattning (multiplikativ modell)
Exponentiell utjämning Utjämning används för att förutsäga en serie genom att först ta bort variation, så som löpande medelvärden också gör. Exponentiell utjämning är en metod för att förutsäga som baseras på ett viktat medelvärde av nuvarande och tidigare observationer av serien. Störst vikt får nuvarande observationen och därefter den just innan osv. Vikterna summerar till ett Lag W e i g h t Weights Decline as We Go Back in Time and Sum to 1 Vikterna minskar när vi går bakåt i tiden Weight Lag
Exponentiell utjämning (forts.)
Exempel DayZw=.4w= * Original data: Smoothed, w=0.4: Smoothed, w=0.8: Day w =. 4 Exponential Smoothing: w=0.4 and w=0.8
Regression - är slumptermerna oberoende? (Durbin–Watsons test) Modell: Y= 0 + 1 x 1 +…+ p x p + j k ober. j ≠ k Som vi har sett kan det finnas många slags beroenden med avseende på ordning hos en variabel som är observerad i en särskild ordning (oftast är ordningen tidsordning). Om beroende (autokorrelation) finns så är antagandet om oberoende slumptermer naturligtvis ej uppfyllt. D-W är ett test för beroende (autokorrelation) vid “lag 1”, dvs. testar om det finns något beroende mellan residualen vid aktuell tidpunkt och residualen ett steg bakåt. “Missar” andra typer av beroende…
Durbin–Watson-test: D-W är ett test för autokorrelation vid lag 1. Om autokorrelation finns så är antagandet om oberoende slumptermer ej uppfyllt. Residual vid tidpunkt t Denna teststatistika kan anta värden mellan 0 och 4, dvs 0 ≤ d ≤ 4
Positiv autokorrelation med lag Residualer Tid Om residualerna med ett stegs förskjutning, tenderar att ha samma tecken så har vi positiv autokorrelation med lag 1. Det observerade värdet på d är då “litet” (mindre än 2). 0 +
Negativ autokorrelation med lag Residualer Tid Om residualerna med ett stegs förskjutning, tenderar att ha olika tecken så har vi negativ autokorrelation med lag 1. Det observerade värdet på d är då “stort” (större än 2).
Enkelsidigt test av positiv autokorrelation med lag 1 Autokorrelationskoefficienten kallas i Anderson (och oftast även hos andra författare) för Vi testar till att börja med: H 0 : =0 H 1 : >0 Tabell över kritiska värden för given signifikansnivå finns i Anderson sid
Om d<d L förkastas H 0. Det finns empiriskt stöd för positiv autokorrelation vid lag 1. Om d>d U kan ej H 0 förkastas. Det finns inte empiriskt stöd för positiv autokorrelation vid lag 1. Om d är mellan d L och d U har vi fått en observation i en “gråzon” där vi ej kan dra någon slutsats. (Misstänkt men otillräckliga bevis…) Enkelsidigt test av positiv autokorrelation med lag 1 dLdL Stöd för positiv autokor- relation vid lag 1 “Gråzon” Nollhypotesen kan ej förkastas dUdU 0 4
Enkelsidigt test av negativ autokorrelation med lag 1 Vi testar här: H 0 : =0 H 1 : <0 Om d>4-d L förkastas H 0. Det finns empiriskt stöd för negativ autokorrelation vid lag 1.. Om d<4-d U kan ej H 0 förkastas. Det finns inte empiriskt stöd för negativ autokorrelation vid lag 1. Om d är mellan 4-d U och 4-d L har vi fått en observation i “gråzonen” där vi ej kan dra någon slutsats. Stöd för Negativ Autokor- relation med lag 1 4-d U 4-d L “Gråzon”Nollhypotesen kan ej förkastas 0 4
Vi testar här: H 0 : =0 H 1 : ≠0. Om d 4-d L förkastas H 0. Det finns empiriskt stöd för autokorrelation vid lag 1. Om vi får en observation på d mellan d U och 4-d U kan ej H 0 förkastas. Det finns inte empiriskt stöd för autokorrelation vid lag 1. Om vi får en observation på d mellan d L och d U eller mellan 4-d U och 4-d L kan vi ej dra någon slutsats. dLdL dUdU d U 4-d L Förkasta nollhypo- tesen Förkasta nollhypo- tesen Ingen slutsats Ingen slutsats Förkasta ej nollhypo- tesen Tvåsidigt test av autokorrelation med lag 1
Exempel Test av autokorrelation vid lag 1 Vi har observationer på Y och x tagna i tidsordning. Modell 1: Y t = 0 + 1 x+ t
Exempel Test av autokorrelation vid lag 1 txYtxY 16,589,29168,678,37 28,1611,81172,414,71 38,9911,12183,185,47 42,069,65193,034,20 50,118,32202,534,01 67,559,72213,904,47 72,566,91220,861,61 82,917,24234,454,12 91,295,92248,607,23 101,904,80258,137,80 115,397,72264,586,47 128,998,13270,365,39 136,807,90284,569,63 141,374,64295,039,19 154,036,10306,5810,79
Regression Analysis: y versus x The regression equation is y = 4,60 + 0,550 x Predictor Coef SE Coef T P Constant 4,6037 0,6871 6,70 0,000 x 0,5504 0,1299 4,24 0,000 S = 1,95673 R-Sq = 39,1% R-Sq(adj) = 36,9% Analysis of Variance Source DF SS MS F P Regression 1 68,752 68,752 17,96 0,000 Residual Error ,206 3,829 Total ,959 Unusual Observations Obs x y Fit SE Fit Residual St Resid 4 2,06 9,650 5,738 0,479 3,912 2,06R R denotes an observation with a large standardized residual. Durbin-Watson statistic = 0, Vi har autokorrelation!!
Vi har alltså: t = t-1 + U t, U t ~ N(0, ) Vi kan använda observationerna på t, dvs. e t, från skattningen av modell 1, och göra en ny modell där vi tar hänsyn till residualerna i föregående tidpunkt Modell 2: Y t = 0 + 1 x+ e t-1 + U t, U t ~ N(0, )
Regression Analysis: y versus x; et-1 The regression equation is y = 4,69 + 0,540 x + 0,853 et-1 Predictor Coef SE Coef T P Constant 4,6899 0, ,86 0,000 x 0, , ,16 0,000 et-1 0,8532 0,1123 7,60 0,000 S = 1,12525 R-Sq = 80,7% R-Sq(adj) = 79,3% Analysis of Variance Source DF SS MS F P Regression 2 138,036 69,018 54,51 0,000 Residual Error 26 32,921 1,266 Total ,957 Unusual Observations Obs x y Fit SE Fit Residual St Resid 4 2,06 9,650 7,139 0,333 2,511 2,34R 6 7,55 9,720 11,884 0,524 -2,164 -2,17R R denotes an observation with a large standardized residual. Durbin-Watson statistic = 2,06234 Ingen autokorrelation kvar!