Tidsserieanalys Kap 18, samt Baudin 1-4.4. Tidsserieanalys En tidsserie är en mängd mätningar som är tidsordnade. Med tidsserieanalys försöker man upptäcka.

Slides:



Advertisements
Liknande presentationer
Bedömning av uppfyllelse av miljökvalitetsnormer
Advertisements

Inferens om en population Sid
Talföljder formler och summor
Hur bra är modellen som vi har anpassat?
FL10 732G81 Linköpings universitet.
Något om val mellan olika metoder
Felkalkyl Ofta mäter man inte direkt den storhet som är den intressanta, utan en grundläggande variabel som sedan används för att beräkna det som man är.
Chitvå-test Regression forts.
Grundläggande programmering
2. Enkel regressionsanalys
Regressionsanalys Vi vill ha svar på frågan hur mycket kommer y att förändras om x ändras med enhet. Sambandets funktionsform Tillåta att andra saker än.
Förelasning 6 Hypotesprövning
En mycket vanlig frågeställning gäller om två storheter har ett samband eller inte, många gånger är det helt klart: y x För en mätserie som denna är det.
Skattning av trendkurvor/trendytor och förändringar över tiden Claudia von Brömssen SLU.
Egenskaper för punktskattning
1 Regression Analysis: Hyra versus Kv-meter The regression equation is Hyra = Kv-meter Predictor Coef SE Coef T P Constant
Multipel linjär regressionsanalys
Tidsserieanalys Vad karaktäriserar data? Exempel:
Föreläsning 7 Fysikexperiment 5p Poissonfördelningen Poissonfördelningen är en sannolikhetsfördelning för diskreta variabler som är mycket.
Hur bra är modellen som vi har anpassat?
Linjär regression föreläsning 9
Normalfördelningen och centrala gränsvärdessatsen
Matematisk statistik och signal-behandling - ESS011 Föreläsning 3 Igor Rychlik 2015 (baserat på föreläsningar av Jesper Rydén)
Regressionsanalys Vi vill ha svar på frågan hur mycket kommer y att förändras om x ändras med enhet. Sambandets funktionsform Tillåta att andra saker än.
Exempel: Vad påverkar kostnaden för produktion av korrugerat papper, dvs sådant som ingår i wellpapp och kartonger? Amerikansk studie: Kostnaden kan förmodligen.
Mål Matematiska modeller Biologi/Kemi Statistik Datorer
Fysikexperiment, 5p1 Random Walk 36 försök med Random walk med 1000 steg. Beräknad genomsnittlig räckvidd är  1000  32. Visualisering av utfallsrum.
Tidsserieregression fungerar statistiskt som vanlig regression. Regression Analysis The regression equation is Sold = 5,78 + 0,0430 time Predictor.
Regression Analysis The regression equation is Sold = 5,78 + 0,0430 time Predictor Coef StDev T P Constant 5,7761 0,9429 6,13 0,000 time 0, ,03420.
Regressions- och tidsserieanalys
732G22 Grunder i statistisk metodik
Kapitel 2 Nationalekonomiska verktyg. 1 Modeller och data En modell –är en teoretisk referensram baserad på förenklande antaganden –som hjälper en att.
1 Om sambandet inte är linjärt? Om sambandet till en variabel inte är linjärt så kan vi inkludera ytterligare en term i regressionsmodellen I en modell.
Grundläggande statistik, ht 09, AN
Säsongrensning: Serien rensas från säsongkomponenten genom beräkning av centrerade och viktade glidande medelvärden (centered moving averages, CMA): där.
Kvadratisk regression, forts.
Tidsserieanalys Exempel:
SAMBAND. Vi vill undersöka om det finns ett samband mellan tentamensresultat och genomsnittligt antal timmar/dag man studerat. Person ABCDEFGHIJ Timmar/
Medicinsk statistik II Läkarprogrammet T5 HT 2013 Susann Ullén FoU-centrum Skåne Skånes Universitetssjukhus.
Lars Madej  Talmönster och talföljder  Funktioner.
  2 f ( 2 ) Chi-Square Distribution: df=10, df=30, df=50 df = 10 df = 30 df = 50 Chi-2-fördelningen.
Föreläsning 5 Kap 13 Tidsserier- vad är det? Trend/Säsong/Konjuktur/Slump Identifiering av trender (Glidande medelvärde) Säsongsmedelvärdesmetoden Säsongsdummymetoden.
Modell för konsumtionen i Sverige Från Baudins kompendium.
1 Icke-linjär regression Sid (i kapitel 16.1)
Statistisk hypotesprövning. Test av hypoteser Ofta när man gör undersökningar så vill man ha svar på olika frågor (s.k. hypoteser). T.ex. Stämmer en spelares.
Föreläsning 4 (Kajsa Fröjd) Multipel regression Kap 11.3 A.Man har en kvantitativ responsvariabel som är linjärt relaterad till en/flera kvantitativa förklarande.
Statistisk inferensteori. Inledning Den statistiska inferensteorin handlar i huvudsak om att dra slutsatser från ett slumpmässigt urval (sannolikhetsurval)
Samband & Inferens Konfidensintervall Statistisk hypotesprövning –Hypotetisk –deduktiv metod Samband mellan nominal/ordinal-variabler –Chi2-test Samband.
1 Numeriska Deskriptiva Tekniker. 2 Centralmått §Vanligtvis fokuserar vi vår uppmärksamhet på två typer av mått när vi beskriver en population: l Centraläge.
Hypotesprövning. Statistisk hypotesprövning och hypotetisk-deduktiv metod Hypotetisk-deduktiv metod: –Hypotes: Alla svanar är vita. –Empirisk konsekvens:
1 Multipel Regression Kapitel Modell Vi har p oberoende variabler som vi tänker oss kan vara relaterade till den beroende variabeln. Y ~ N( , 
Föreläsning 5 (Kajsa Fröjd) Tidsserier Kap 13.1 Man har en kvantitativ responsvariabel som mäts vid olika tidpunkter. 1.
Samband & Inferens Konfidensintervall Statistisk hypotesprövning –Hypotetisk –deduktiv metod Samband mellan nominal/ordinal-variabler –Chi2-test Samband.
Samband & Inferens Konfidensintervall Statistisk hypotesprövning
INFERENS & SAMBAND. population Population Stickprov, urval INFERENS = Dra slutsatser om hela populationen utifrån ett stickprov Data, observationer.
INFERENS & SAMBAND. population Population Stickprov, urval INFERENS = Dra slutsatser från data om hela populationen utifrån ett stickprov Data, observationer.
Regression Har långa högre inkomst?. Världsrekord på engelska milen.
Samband & Inferens Hypotetisk –deduktiv metod Samband mellan nominal/ordinal-variabler –Chi2-test Samband mellan kvot-varibaler –Korrelationskoefficient.
Föreläsning 4 Kap 11.3 Icke-linjära modeller Indikatorvariabel (dummyvariabel) Interaktionsterm.
Enkel Linjär Regression. 1 Introduktion Vi undersöker relationer mellan variabler via en matematisk ekvation. Motivet för att använda denna teknik är:
INFERENS OCH SAMBAND. Vi vill undersöka om det finns ett samband mellan tentamensresultat och genomsnittligt antal timmar/dag man studerat. Person ABCDEFGHIJ.
1 Utvärdering och tolkning: MBA Program Admission Policy Rektorn vid ett stort universitet vill höja standarden på de som antas till deras populära MBA-program.
Icke-linjära modeller:
Regiongemensam enkät i förskola och familjedaghem 2017
Multipel regression och att bygga (fungerande) modeller
Trender och fluktuationer
Fördelning av data och index
Relation mellan variabler – samvariation, korrelation, regression
Naturkunskapsprojekt
Naturkunskapsprojekt
Presentationens avskrift:

Tidsserieanalys Kap 18, samt Baudin 1-4.4

Tidsserieanalys En tidsserie är en mängd mätningar som är tidsordnade. Med tidsserieanalys försöker man upptäcka och förstå regelbundenheter i variationen i data över tiden. Regelbundenhet i tidserier kan vara ett resultat av en tendens att öka eller minska med tiden - trend- eller en tendens att följa ett cykliskt mönster över tiden – säsongsvariation eller cyklisk variation (t ex konjukturer). Prognoser/Förutsägelser (Forecasting) är extrapolering av värden utanför den region där man har data. Regelbunden variation kan förutsägas, men slumpmässig variation kan inte förutsägas. Exempel: Med data över glassförsäljning från 1980 till 2002 försöker vi förutsäga glassförsäljningen 2003 och 2004.

Tidsserieanalys (forts.) Tidsserieanalys handlar ofta om att dela upp tidsserievariabeln, Y t, i komponenter så som trend (T), konjunkur (C), säsong (S) och slump (I). Additiv modell Y t = T t + S t + C t + I t Multiplikativ modell Y t = (T t )(S t )(C t )(I t )

Random walk När skillnaden mellan Y vid tidpunkten t och föregående tidpunkt t-1 endast är ett slumpmässigt fel kallas tidserien för en random walk. Felet betecknar vi med a t. Y t - Y t-1 =a t eller ekvivalent: Y t =Y t-1 +a t t Z Random Walk a

Cykliska mönster En tidsserie som skulle kunna modelleras som bestående av två cykliska funktioner plus ett slumpmässigt fel. Till skillnad från en sk random walk, uppvisar den här serien en cyklisk variation. Den underliggande cykliska variationen kan analyseras och förutsägas.

Säsongsvariation t P a s s e n g e r s Monthly Numbers of Airline Passengers Year E a r n i n g s Gross Earnings: Annual AJJMAMFJDNOSAJJMAMFJDNOSAJJMAMFJ Time S a l e s Monthly Sales of Suntan Oil När ett cykliskt mönster har en period på ett år, ett kvartal, en månad etc. kallas den oftast för säsongsvariation. Om mönstret är ett annat kallas det bara cyklisk variation.

Trendanalys Med trend avses den långsiktiga utvecklingen. Linjär trend: Y t =  0 +  1 t+a t, där a t =S t + C t + I t Exempel : = t + a t, där 1994 är kodad som t=1,1995 som t=2 osv

Trendanalys Exponentiell trend: Y t = a t Skattas via logaritmering: lnY t = ln  0 + ln  1 t + ln a t, Där ln  0 samt ln  1 skattas “som vanligt”med MK-metoden Därefter exponentiering (antilogaritmering) Se vidare: Baudin sid 40

Trendrensning Ibland är syftet med att skatta en trend att man sedan vill göra en trendrensning, dvs ta bort trenden från sina serier så att man lättare ska kunna se om det finns cykliska eller säsongs variationer. Trendrensning för en additiv modell: 1) Skatta trendmodellen. 2) Beräkna residualerna, dvs ta observerade värden minus skattade värden, dvs Y t - = Y t - (b 0 + b 1 t) Trendrensning för en multiplikativ modell: 1) Skatta trendmodellen. 2) Ta observerade värden delat med skattade värden, dvs Y t / = Y t /(b 0 + b 1 t)

Säsongsdummymetoden En additiv regressionsmodell med säsong: Y t =  0 +  1 t+  2 S 1 +  3 S 2 +  4 S 3 +  t där S 1 =1 om observationen är från första kvartalet och 0 annars S 2 =1 om observationen är från andra kvartalet och 0 annars S 3 =1 om observationen är från tredje kvartalet och 0 annars Säsongsrensingen sker genom att skatta modellen och beräkna residualerna. Dessa innehåller då varken säsong eller trend. Här är kvartal fyra referenskvartal.

Säsongsmedelvärdesmetoden Utgå från trendrensade observationer, bilda medelvärden (M i ) för varje säsong Ger prognoser identiska med de som fås via säsongsdummymetoden, med den skillnaden att inget kvartal sätts som referenskvartal. =b 0 + b 1 t+ M 1 S 1 + M 2 S 2 + M 3 S 3 + M 4 S 4 I säsongdummymetoden ingår ju effekten av referenskvartalet i b 0 … Se vidare i Baudin avsnitt 4.3

Löpande medelvärde (moving average, MA) Ett löpande medelvärde för en tidserie är ett medelvärde av ett fixt antal observationer, som flyttar sig när längs med serien. Det löpande medelvärdet visar trend och längre cykliska komponenter, dvs kan ses som en säsongsrensningsmetod. Denna metod kan även användas för en multiplikativ modell. För att få en riktig utjämning är det viktigt att alla säsongstypiska värden inkluderas. Ex. 1) Dagsdata, 5/7 dagar per vecka: “Fem-/Sju- termers löpande medelvärde” Ex. 2) Månadsdata, 12 mån per år: “12-termers löpande medelvärde” Ex. 3) Kvartalsdata: “Fyratermers löpande medelvärde” OBS! I alla exemplen ovan måste vi har flera upprepningar av hela perioderna, dvs flera hela veckor (ex. 1) och flera hela år (ex. 2-3).

Löpande medelvärde (exempel) t: Y t : termers MA: t: Y t : ( )/5=15.4 ( )/5=15.6 ( )/5= ( )/5=17.6

Löpande medelvärde (exempel)

The Ratio-to-Moving Average Method Det löpande medelvärdet (MA) visar trend och längre cykliska komponenter. Om orginalserien divideras med MA har vi alltså isolerat säsongs- och slumpvariationen. Om detta multipliceras med 100 kallas det för ratio-to-moving average. Om medelvärdet av detta beräknas för respektive säsong fås ett säsongsindex (S) där (det mesta av) slumpvariationen är borta. Säsongsrensning fås genom att beräkna

Exempel S a l e s Time Actual Smoothed Actual Smoothed MSD: MAD: MAPE: Length: Moving Average Four-Quarter Moving Averages Simple Centered Ratio Moving Moving to Moving QuarterSales Average Average Average 1998W170*** 1998S148*** 1998S141* F W S S F W S S F W S S ** 2002F **

Exempel (forts.) Quarter Year Winter Spring Summer Fall Sum Average Sum of Averages = Seasonal Index = (Average)(400)/ Seasonal Index Säsongsindex

Exempel (forts) Quarter Sales Seas. Index (S) Des.Series(Y/S)* W S S F W S S F W S S F W S S F

Cyklisk komponent F1992S1992S1992W t S a l e s Trend Line and Moving Averages Den cykliska komponenten tillsammans med trenden är det som återstår sedan i MA. En jämförelse mellan MA och den skattade trendlinjen: Vi ser att den cykliska komponenten är försumbar i denna serie.

Förutsägelser (multiplikativ modell)

Sammanfattning (multiplikativ modell)

Exponentiell utjämning Utjämning används för att förutsäga en serie genom att först ta bort variation, så som löpande medelvärden också gör. Exponentiell utjämning är en metod för att förutsäga som baseras på ett viktat medelvärde av nuvarande och tidigare observationer av serien. Störst vikt får nuvarande observationen och därefter den just innan osv. Vikterna summerar till ett Lag W e i g h t Weights Decline as We Go Back in Time and Sum to 1 Vikterna minskar när vi går bakåt i tiden Weight Lag

Exponentiell utjämning (forts.)

Exempel DayZw=.4w= * Original data: Smoothed, w=0.4: Smoothed, w=0.8: Day w =. 4 Exponential Smoothing: w=0.4 and w=0.8

Regression - är slumptermerna oberoende? (Durbin–Watsons test) Modell: Y=  0 +  1 x 1 +…+  p x p +  j  k ober. j ≠ k Som vi har sett kan det finnas många slags beroenden med avseende på ordning hos en variabel som är observerad i en särskild ordning (oftast är ordningen tidsordning). Om beroende (autokorrelation) finns så är antagandet om oberoende slumptermer naturligtvis ej uppfyllt. D-W är ett test för beroende (autokorrelation) vid “lag 1”, dvs. testar om det finns något beroende mellan residualen vid aktuell tidpunkt och residualen ett steg bakåt. “Missar” andra typer av beroende…

Durbin–Watson-test: D-W är ett test för autokorrelation vid lag 1. Om autokorrelation finns så är antagandet om oberoende slumptermer ej uppfyllt. Residual vid tidpunkt t Denna teststatistika kan anta värden mellan 0 och 4, dvs 0 ≤ d ≤ 4

Positiv autokorrelation med lag Residualer Tid Om residualerna med ett stegs förskjutning, tenderar att ha samma tecken så har vi positiv autokorrelation med lag 1. Det observerade värdet på d är då “litet” (mindre än 2). 0 +

Negativ autokorrelation med lag Residualer Tid Om residualerna med ett stegs förskjutning, tenderar att ha olika tecken så har vi negativ autokorrelation med lag 1. Det observerade värdet på d är då “stort” (större än 2).

Enkelsidigt test av positiv autokorrelation med lag 1 Autokorrelationskoefficienten kallas i Anderson (och oftast även hos andra författare) för  Vi testar till att börja med: H 0 :  =0 H 1 :  >0 Tabell över kritiska värden för given signifikansnivå  finns i Anderson sid

Om d<d L förkastas H 0. Det finns empiriskt stöd för positiv autokorrelation vid lag 1. Om d>d U kan ej H 0 förkastas. Det finns inte empiriskt stöd för positiv autokorrelation vid lag 1. Om d är mellan d L och d U har vi fått en observation i en “gråzon” där vi ej kan dra någon slutsats. (Misstänkt men otillräckliga bevis…) Enkelsidigt test av positiv autokorrelation med lag 1 dLdL Stöd för positiv autokor- relation vid lag 1 “Gråzon” Nollhypotesen kan ej förkastas dUdU 0 4

Enkelsidigt test av negativ autokorrelation med lag 1 Vi testar här: H 0 :  =0 H 1 :  <0 Om d>4-d L förkastas H 0. Det finns empiriskt stöd för negativ autokorrelation vid lag 1.. Om d<4-d U kan ej H 0 förkastas. Det finns inte empiriskt stöd för negativ autokorrelation vid lag 1. Om d är mellan 4-d U och 4-d L har vi fått en observation i “gråzonen” där vi ej kan dra någon slutsats. Stöd för Negativ Autokor- relation med lag 1 4-d U 4-d L “Gråzon”Nollhypotesen kan ej förkastas 0 4

Vi testar här: H 0 :  =0 H 1 :  ≠0. Om d 4-d L förkastas H 0. Det finns empiriskt stöd för autokorrelation vid lag 1. Om vi får en observation på d mellan d U och 4-d U kan ej H 0 förkastas. Det finns inte empiriskt stöd för autokorrelation vid lag 1. Om vi får en observation på d mellan d L och d U eller mellan 4-d U och 4-d L kan vi ej dra någon slutsats. dLdL dUdU d U 4-d L Förkasta nollhypo- tesen Förkasta nollhypo- tesen Ingen slutsats Ingen slutsats Förkasta ej nollhypo- tesen Tvåsidigt test av autokorrelation med lag 1

Exempel Test av autokorrelation vid lag 1 Vi har observationer på Y och x tagna i tidsordning. Modell 1: Y t =  0 +  1 x+  t

Exempel Test av autokorrelation vid lag 1 txYtxY 16,589,29168,678,37 28,1611,81172,414,71 38,9911,12183,185,47 42,069,65193,034,20 50,118,32202,534,01 67,559,72213,904,47 72,566,91220,861,61 82,917,24234,454,12 91,295,92248,607,23 101,904,80258,137,80 115,397,72264,586,47 128,998,13270,365,39 136,807,90284,569,63 141,374,64295,039,19 154,036,10306,5810,79

Regression Analysis: y versus x The regression equation is y = 4,60 + 0,550 x Predictor Coef SE Coef T P Constant 4,6037 0,6871 6,70 0,000 x 0,5504 0,1299 4,24 0,000 S = 1,95673 R-Sq = 39,1% R-Sq(adj) = 36,9% Analysis of Variance Source DF SS MS F P Regression 1 68,752 68,752 17,96 0,000 Residual Error ,206 3,829 Total ,959 Unusual Observations Obs x y Fit SE Fit Residual St Resid 4 2,06 9,650 5,738 0,479 3,912 2,06R R denotes an observation with a large standardized residual. Durbin-Watson statistic = 0, Vi har autokorrelation!!

Vi har alltså:  t =  t-1 + U t, U t ~ N(0,  ) Vi kan använda observationerna på  t, dvs. e t, från skattningen av modell 1, och göra en ny modell där vi tar hänsyn till residualerna i föregående tidpunkt Modell 2: Y t =  0 +  1 x+  e t-1 + U t, U t ~ N(0,  )

Regression Analysis: y versus x; et-1 The regression equation is y = 4,69 + 0,540 x + 0,853 et-1 Predictor Coef SE Coef T P Constant 4,6899 0, ,86 0,000 x 0, , ,16 0,000 et-1 0,8532 0,1123 7,60 0,000 S = 1,12525 R-Sq = 80,7% R-Sq(adj) = 79,3% Analysis of Variance Source DF SS MS F P Regression 2 138,036 69,018 54,51 0,000 Residual Error 26 32,921 1,266 Total ,957 Unusual Observations Obs x y Fit SE Fit Residual St Resid 4 2,06 9,650 7,139 0,333 2,511 2,34R 6 7,55 9,720 11,884 0,524 -2,164 -2,17R R denotes an observation with a large standardized residual. Durbin-Watson statistic = 2,06234 Ingen autokorrelation kvar!