Tidsserieanalys Vad karaktäriserar data? Exempel: Observationerna är inte oberoende Observationerna ger ett mönster över tiden t ex stigande värden med tiden t ex periodisk variation över en tidsperiod av bestämd längd
Exempel på tidsseriedata Olika typer av ekonomiska data: Arbetslöshetssiffror Försäljningsvärden Konsumentprisindex och andra index Export- och importmängder Miljömätdata: Fosforhalt i havsvattenbassänger Ozonhalt i luftrummet över en storstad
Modeller för tidsseriedata Tidsserieregression: TRt står här för trendfunktionen i modellen
Skapande av säsongdummies x1, x2, … , x11: sold time month x1 x2 x3 x4 x5 x6 x7 x8 x9 x10 x11 2 1 1 1 0 0 0 0 0 0 0 0 0 0 6 2 2 0 1 0 0 0 0 0 0 0 0 0 5 3 3 0 0 1 0 0 0 0 0 0 0 0 5 4 4 0 0 0 1 0 0 0 0 0 0 0 10 5 5 0 0 0 0 1 0 0 0 0 0 0 8 6 6 0 0 0 0 0 1 0 0 0 0 0 . . . . . . . . . . . . . . 7 46 10 0 0 0 0 0 0 0 0 0 1 0 6 47 11 0 0 0 0 0 0 0 0 0 0 1
StatRegressionFitted Line plot…
Regression Analysis: sold versus time The regression equation is sold = 5,78 + 0,0430 time Predictor Coef StDev T P Constant 5,7761 0,9429 6,13 0,000 time 0,04302 0,03420 1,26 0,215 S = 3,181 R-Sq = 3,4% R-Sq(adj) = 1,2% Analysis of Variance Source DF SS MS F P Regression 1 16,00 16,00 1,58 0,215 Residual Error 45 455,27 10,12 Total 46 471,28
StatRegressionRegression…
Regression Analysis: sold versus time, x1, ... The regression equation is sold = 3,65 + 0,0285 time - 1,69 x1 - 0,47 x2 + 2,75 x3 + 1,22 x4 + 6,20 x5 + 2,42 x6 + 8,14 x7 + 6,36 x8 + 0,58 x9 + 2,55 x10 + 1,02 x11 Predictor Coef StDev T P Constant 3,6491 0,8526 4,28 0,000 time 0,02851 0,01481 1,92 0,063 x1 -1,691 1,028 -1,65 0,109 x2 -0,469 1,027 -0,46 0,651 x3 2,752 1,026 2,68 0,011 x4 1,224 1,026 1,19 0,241 x5 6,195 1,025 6,04 0,000 x6 2,417 1,025 2,36 0,024 x7 8,138 1,025 7,94 0,000 x8 6,360 1,026 6,20 0,000 x9 0,581 1,026 0,57 0,575 x10 2,553 1,027 2,49 0,018 x11 1,024 1,028 1,00 0,326 S = 1,342 R-Sq = 87,0% R-Sq(adj) = 82,4% Analysis of Variance Source DF SS MS F P Regression 12 410,031 34,169 18,97 0,000 Residual Error 34 61,246 1,801 Total 46 471,277
Tolkning av parametrar: Predictor Coef StDev T P Constant 3,6491 0,8526 4,28 0,000 time 0,02851 0,01481 1,92 0,063 x1 -1,691 1,028 -1,65 0,109 x2 -0,469 1,027 -0,46 0,651 x3 2,752 1,026 2,68 0,011 x4 1,224 1,026 1,19 0,241 x5 6,195 1,025 6,04 0,000 x6 2,417 1,025 2,36 0,024 x7 8,138 1,025 7,94 0,000 x8 6,360 1,026 6,20 0,000 x9 0,581 1,026 0,57 0,575 x10 2,553 1,027 2,49 0,018 x11 1,024 1,028 1,00 0,326 Fungerar statistiskt som vanlig regression Tolkning av parametrar: Givet att vi håller oss inom en månad ökar sales med i genomsnitt 0,0285 enheter per tidsenhet I januari sjunker sales med i genomsnitt 1.69 enheter, i mars ökar sales med i genomsnitt 2.75 enheter etc. Residualanalys bör göras för att kontrollera om villkoren för regression är uppfyllt: Oberoende residualer Normalfördelade residualer (för att kunna lita på testen) Residualer med konstant varians (inga strutmönster)
Vanligtvis är inte oberoendeantagandet uppfyllt. Följs residualerna åt eller är de mer sammanhängande här?
Test av oberoende (Durbin-Watson)
Durbin-Watson’s test bedömer om s k enstegs autokorrelation eller seriell korrelation förekommer bland residualerna: Corr(et,et-1 ) Positiv autokorrelation innebär att värdena följs åt: en positiv residual åtföljs oftast av en annan positiv residual, en negativ residual åtföljs oftast av en annan negativ residual. Negativ autokorrelation innebär att en positiv residual oftast åtföljs av en negativ residual och vice versa.
d MTB > regress ’sold' 1 'time'; SUBC> DW. Regression Analysis: Sold versus time The regression equation is sold = 5.78 + 0.0430 time Predictor Coef SE Coef T P Constant 5.7761 0.9429 6.13 0.000 time 0.04302 0.03420 1.26 0.215 S = 3.181 R-Sq = 3.4% R-Sq(adj) = 1.2% Analysis of Variance Source DF SS MS F P Regression 1 16.00 16.00 1.58 0.215 Residual Error 45 455.27 10.12 Total 46 471.28 Unusual Observations Obs time Sold Fit SE Fit Residual St Resid 19 19.0 14.000 6.593 0.494 7.407 2.36R 43 43.0 14.000 7.626 0.798 6.374 2.07R R denotes an observation with a large standardized residual Durbin-Watson statistic = 1.51 d
Bedömningen av d görs enligt följande approximativa tumregler (tabeller för mer ordentlig bedömning finns men inte i den aktuella kursboken) Om d är nära 2 Ingen signifikant autokorrelation Om d är < 1 Signifikant positiv autokorrelation Om d är > 3 Signifikant negativ autokorrelation 1.51 i vår analys är varken lägre än 1 eller högre än 3Ingen autokorrelation kan påvisas.
Vissa tidsserier har s k exponentiell trend: Modell: där 0 och 1 är konstanter och t är en multiplikativ felterm med väntevärde 1. Modellen logaritmeras och analyseras sedan med regression som vanligt. Jämför avsnittet om exponentiella modeller.
Klassisk komponentuppdelning En tidsserie kan tänkas bestå av ett antal komponenter: 1) Trend, som beskriver en långsiktig ökning (eller minskning) i nivån hos värdena. Vid tidpunkten t betecknas denna komponent TRt 2) Säsong(svariation) som beskriver förändringsmönstret inom vanligtvis ett år (förändring från kvartal till kvartal, från månad till månad etc.) Vid tidpunkten t betecknas denna komponent SNt 3) Cyklisk variation, som beskriver långsiktiga svängningar i nivån hos värdena (konjunkturvariationer, meteorologisk variation) Vid tidpunkten t betecknas denna komponent CLt 4) Oregelbunden variation: Sådant som ej kan förklaras, betecknas IRt
Trenden är som regel ganska måttlig, men givetvis dominerande för exponentiellt växande tidsserier. Trenden kan annars vara linjär (som kanske här) eller kvadratisk Säsongsvariation brukar vara den mest dominerande och som ger tidsserien dess ständigt svängande mönster Den cykliska variation är för korta serier närmast obefintlig och syns bäst i långa tidsserier av speciellt nationalekonomisk karaktär Vanligt är (som i AJÅ) att trend och cyklisk komponent hålls ihop till en, oftast betecknad TCt . Orsaken är att vissa analytiker inte vill tala om för långsiktiga trender utan menar att den cykliska variationen ingår i det man avser med “trend”
Modeller för klassisk komponentuppdelning: Denna beskrivning överensstämmer inte helt med AJÅ, men är mer fullständig Som tidigare betecknar vi tidsseriens värde vid tidpunkten t med yt Multiplikativ modell: Karaktäriseras av att säsongseffekter och cykliska mönster verkar multiplikativt på nivån hos tidsserien. Ju högre nivå desto större säsongsvariation. Passar bra för ekonomiska data som ofta har den karaktären Additiv modell: Denna modell passar bättre för tidsserier där säsongsvariationen inte har särskilt mycket med nivån att göra (oftast där mänskliga faktorn inte är lika dominant) Passar bra för naturvetenskapliga data (variation i vattenflöden, naturlig nedbrytning av näringsämnen i mark, nederbörd mm.)
Skattning av komponenter, arbetsgång Säsongrensning: Säsongkomponenten är den komponent som varierar mest och med detta överskuggar de övriga komponenterna. Serien rensas från säsongkomponenten genom beräkning av s k centrerade och viktade glidande medelvärden (centered moving avereages): där L=Antal säsonger i serien (L=2 för halvårsdata, 4 för kvartalsdata och 12 för månadsdata)
Exempel (sales data från tidigare)
Trend och cyklisk komponent (TCt ) skattas tillfälligt (grovt) av CMAt.
Grova säsongkomponenter erhålls genom yt/CMAt i en multiplikativ modell yt – CMAt i en additiv modell Medelvärden av dessa bildas över alla säsonger, t ex vid månadsdata bildas medelvärden av alla grova säsongkomponenter för januari, för februari, etc. Totalt L medelvärden. Medelvärdena justeras så att de vid multiplikativ modell får medelvärde 1, dvs. summan av alla justerade säsongmedelvärden skall bli L (4 för kvartalsdata, 12 för månadsdata). vid additiv modell får medelvärde 0, dvs. summan av alla justerade säsongmedelvärden skall bli 0. Slutligt skattade säsongkomponenter blir dessa justerade medelvärden och betecknas sn1, sn2, … , snL
Exempel, forts Med multiplikativ modell får vi
Medelvärden av grova säsongkomponenter: Juli: (1.61074+2.14013+1.64571)/3 1.7989 Aug: (1.80822+1.36709+1.64571)/3 1.6070 Sep: (0.67133+0.58896+0.83237)/3 0.6976 Okt: (1.15862+1.01818+0.97110)/3 1.0493 Nov: (0.49655+1.01205+0.82286)/3 0.7772 Dec: (0.50350+0.71006+0.69767)/3 0.6371 Jan: (0.49315+0.28571+0.42353)/3 0.4008 Feb: (0.32432+0.56805+0.42105)/3 0.4378 Mar: (0.98630+1.24138+1.12941)/3 1.1190 Apr: (0.98630+0.68182+0.84706)/3 0.8384 Maj: (1.44000+1.50857)/2 1.4743 Obs! Bara två värden här! Juni: (1.07692+1.10345)/2 1.0902 …och här!
Summan av de beräknade medelvärdena: 1.7989 +1.6070 + 0.6976 + 1.0493 + 0.7772 + 0.6371 + 0.4008 + + 0.4378 + 1.1190 + 0.8384 + 1.4743 + 1.0902) 11.9276 Summan skall bli L=12 För att få den till 12 multipliceras samtliga medelvärden med 12/11.9276 1.00607 Alternativt kan samtliga medelvärden divideras med medelvärdet av dem, dvs. divideras med 11.9276/12, vilket ju blir samma sak.
Slutligt skattade säsongkomponenter: Jan: sn1 = 0.4008 · 1.00607 0.403 Feb: sn2 = 0.4378 · 1.00607 0.440 Mar: sn3 = 1.1190 · 1.00607 1.126 Apr: sn4 = 0.8384 · 1.00607 0.843 Maj: sn5 = 1.4743 · 1.00607 1.483 Juni: sn6 = 1.0902 · 1.00607 1.097 Juli: sn7 = 1.7989 · 1.00607 1.809 Aug: sn8 = 1.6070 · 1.00607 1.617 Sep: sn9 = 0.6976 · 1.00607 0.702 Okt: sn10 = 1.0493 · 1.00607 1.056 Nov: sn11 = 0.7772 · 1.00607 0.782 Dec: sn12 = 0.6371 · 1.00607 0.641
Obs! Värdena hos denna komponent varierar runt 1 vid multiplikativ modell och runt 0 vid additiv modell Ingen större mening att plotta denna komponent tillsammans med y
Tidsserien säsongrensas genom vid multiplikativ modell vid additiv modell där är något av värdena beroende på vilken av säsongerna som t motsvarar.
Exempel, forts
De säsongrensade värdena används för att skatta trendkomponent Tillämpa regressionsanalys på de säsongrensade värdena. Skatta en linjär eller kvadratisk trend TRt. trt
3. Cyklisk och oregelbunden komponent: Om cyklisk komponent ej finns med: Residualerna från regressionsanalysen utgör skattning av termen IRt i den klassiska modellen. irt Om cyklisk komponent finns med: Skatta cyklisk och oregelbunden komponent ihop (dvs. sära ej på dem) med
Även värdena hos denna komponent varierar runt 1 vid multiplikativ modell och runt 0 vid additiv modell Ingen större mening här heller att plotta denna komponent tillsammans med y
Den cykliska komponenten skattas nu genom ett centrerat oviktat glidande medelvärde: och den oregelbundna komponenten skattas slutligen som
2m+1 väljs i regel till något av värdena 3, 5, 7, 9, 11, 13 Hur m skall väljas bestäms genom att titta på den slutliga skattningen av IRt m väljs så att autokorrelationen och variansen för dessa värden blir så låg som möjligt. 2m+1 kallas antal punkter i det glidande medelvärdet
Exempel, forts Glidande medelvärde med 2m + 1 = 5 (dvs. m = 3)
Minitab kan användas för komponentuppdelning med StatTime seriesDecomposition Multiplikativ modell är dock något annorlunda i Minitab: yt = TRt·SNt + IRt Val av modelltyp Möjlighet att välja komponenter, men dock begränsat
Tidsskalan sätts något annorlunda här Säsongrensade data
Det här är trt men anges något missvisande som Yt Time Series Decomposition for sold Multiplicative Model Data sold Length 47 NMissing 0 Fitted Trend Equation Yt = 6.277 + 0.0219*t Seasonal Indices Period Index 1 0.42633 2 0.42383 3 1.13687 4 0.85265 5 1.51853 6 1.09738 7 1.65658 8 1.65658 9 0.67576 10 1.02491 11 0.82829 12 0.70228 Det här är trt men anges något missvisande som Yt Dessa blir något annorlunda jämfört med handräkningen tidigare p g a att modellen är något annorlunda Accuracy Measures MAPE 17.0198 MAD 0.9058 MSD 1.6179
Vad står måtten MAPE, MAD och MSD för? Alla tre är mått på anpassning och kan delvis jämföras med MSE i den multipla regressionen: Denna är den som är mest lik MSE. Notera dock att vi dividerar med n och inte med n – k – 1. Orsaken är att vi här inte har någon regressionsmodell med parametrar, typ 2 som skall skattas väntevärdesriktigt. MSD är bara ett mått på anpassning som kan jämföras mellan olika modeller. Storleksmässigt kan dock MSD jämföras med MSE från tidsserieregressionen och är skillnaden markant kan vi också se vilken av modellerna som får bäst anpassning. Mean Square Deviation
Mean Absolute Deviation MAD mäter ”direkt” anpassning som MSD men skillnaden är att här tar vi absolutavvikelser istället för kvadratiska avvikelser. Det blir alltså stor skillnad på värdena mellan MAD och MSD och de skall inte jämföras inom en modell. MAD är mindre känslig för avvikande värden och blir mer användbar när vi har något enstaka värde som uppträder konstigt, t ex att campingintäkterna en viss sommar är extremt lågt p g a att det har regnat hela juli. Ytterligare en fördel med MAD är att dess värde är i samma skala som yt-observationerna själva, vilket gör det lättare att tolka
Mean Absolute Percentage Error Måttet går också på absoluta avvikelser, men mäter dem relativt nivån hos y. Vi får alltså relativa (procentuella) avvikelser istället för absoluta avvikelser. Måttet är praktiskt för multiplikativa modeller där den oregelbundna komponenten (IRt ) är ganska betydande, eftersom avvikelserna då blir stora när vi har stora värden på y och vice versa. Gemensamt för alla tre mått är att de skall vara så små som möjligt. Vid val mellan t ex additiv modell och multiplikativ modell kan det hända att något av måtten är högre för den ena modellen mellan ett annat mått är lägre. Det gäller alltså att tolka måtten med visst förnuft.
Till analysen följer automatiskt (men kan väljas bort) tre diagram:
Skattade trend- och säsongkomponenter har lagrats i kolumnerna TREN1 resp. SEAS1 Beräkning av (cl ir )t kan göras genom att dividera originaldata med produkten av dessa två CLIR1=Sold/(TREN1· SEAS1) Den cykliska komponenten skall nu skattas genom beräkning av glidande medelvärden på CLIR1
StatTime SeriesMoving Average… Antal punkter i det glidande medelvärdet
Vi vill se de glidande medelvärdena och inte hur de kan användas för att beräkna ettstegsprognoser Sparar de glidande medelvärdena, dvs. den skattade cykliska komponenten i en ny kolumn, som får namnet AVER1
Den oregelbundna komponenten (IR) skattas slutligen genom att dividera CLIR1 med AVER1 De resulterade värdena studeras sedan med avseende på spridning, s och seriell korrelation, Corr ( irt , irt-1) 2m+1 s Corr(irt,irt-1) 3 0.219 -0.685 5 0.197 -0.293 7 0.173 -0.343 9 0.171 -0.345 11 0.181 -0.277 13 0.166 -0.199
Seriella korrelationer kan enkelt beräknas med StatTime seriesLag och sedan StatBasic statisticsCorrelation eller manuellt i Session window: MTB > lag ’IR6’ c125 MTB > corr ’IR6’ c125
Analys med additiv modell:
Inga större skillnader i skattad trend Time Series Decomposition for sold Additive Model Data sold Length 47 NMissing 0 Fitted Trend Equation Yt = 6.117 + 0.0269*t Seasonal Indices Period Index 1 -4.09028 2 -4.13194 3 0.90972 4 -1.09028 5 3.70139 6 0.61806 7 4.70139 8 4.70139 9 -1.96528 10 0.11806 11 -1.29861 12 -2.17361 Inga större skillnader i skattad trend Accuracy Measures MAPE 15.7605 MAD 0.8817 MSD 1.6401 Dessa blir alla något lägre än vid multiplikativ modell vilket indikerar att den additiva modellen är något bättre Dessa blir helt annorlunda jämfört med multiplikativ modell (summerar till 0 istället för till 1)
additiv multiplikativ
multiplikativ