Tidsserieanalys Exempel:

Slides:



Advertisements
Liknande presentationer
Föreläsning 3 25 jan 2010.
Advertisements

Bedömning av uppfyllelse av miljökvalitetsnormer
Vetenskaplig studie av det alkoholpreventiva
Inferens om en population Sid
Talföljder formler och summor
Vattenkemiska data Workshop, maj 2014 Claudia von Brömssen, SLU.
Klusterurval, forts..
Numeriska beräkningar i Naturvetenskap och Teknik
FL10 732G81 Linköpings universitet.
Inferens om en ändlig population Sid
Jämförelse av två populationer Sid
Linda Wänström och Elisabet Nikolic (Karl Wahlin)
F11 Olika urvalsmetoder, speciellt obundet slumpmässigt urval (OSU)
Olika mått på grad av fetma - Spelar det någon roll hur vi mäter?
Något om val mellan olika metoder
Vibeke Horstmann, Inst för hälsa, vård, samhälle, Centre for Ageing and Supportive Environments Jämförelse av två behandlingar.
Felkalkyl Ofta mäter man inte direkt den storhet som är den intressanta, utan en grundläggande variabel som sedan används för att beräkna det som man är.
Chitvå-test Regression forts.
Grundläggande programmering
2. Enkel regressionsanalys
Regressionsanalys Vi vill ha svar på frågan hur mycket kommer y att förändras om x ändras med enhet. Sambandets funktionsform Tillåta att andra saker än.
Centrala Gränsvärdessatsen:
En mycket vanlig frågeställning gäller om två storheter har ett samband eller inte, många gånger är det helt klart: y x För en mätserie som denna är det.
Skattning av trendkurvor/trendytor och förändringar över tiden Claudia von Brömssen SLU.
732G71 STATISTIK B Vad förväntas man egentligen kunna efter genomgången kurs? Exempel: Du sitter i ett projektmöte på din arbetsplats. Din chef (om det.
Binomialsannolikheter ritas i ett stolpdiagram
Multipel linjär regressionsanalys
Tidsserieanalys Vad karaktäriserar data? Exempel:
Simulering Introduktion Exempel: Antag att någon kastar tärning
Hur bra är modellen som vi har anpassat?
Linjär regression föreläsning 9
Logistisk regression SCB September 2004 Dan Hedlin, U/MET-S.
Kvadratsummeuppdelning/Variansanalys
Regressionsanalys Vi vill ha svar på frågan hur mycket kommer y att förändras om x ändras med enhet. Sambandets funktionsform Tillåta att andra saker än.
Exempel: Vad påverkar kostnaden för produktion av korrugerat papper, dvs sådant som ingår i wellpapp och kartonger? Amerikansk studie: Kostnaden kan förmodligen.
Mål Matematiska modeller Biologi/Kemi Statistik Datorer
Fysikexperiment, 5p1 Random Walk 36 försök med Random walk med 1000 steg. Beräknad genomsnittlig räckvidd är  1000  32. Visualisering av utfallsrum.
Tidsserieregression fungerar statistiskt som vanlig regression. Regression Analysis The regression equation is Sold = 5,78 + 0,0430 time Predictor.
Regression Analysis The regression equation is Sold = 5,78 + 0,0430 time Predictor Coef StDev T P Constant 5,7761 0,9429 6,13 0,000 time 0, ,03420.
Regressions- och tidsserieanalys
VetU termin 4 moment 3 Analysera nivåer av kalium och kreatinin Mätningar genomförda på 120 män och 120 kvinnor (tidigare studenter KI) Dagens uppgift:
NKI nr 2 november 2014 Alingsås lasarett.
NKI nr 2 november 2014 Närhälsan. REGIONSERVICEREGIONSERVICE Genomförande Webbenkät med 2-3 påminnelser Sjukhusförvaltningar, NH, FTV, H&H och Regionservice.
1 Om sambandet inte är linjärt? Om sambandet till en variabel inte är linjärt så kan vi inkludera ytterligare en term i regressionsmodellen I en modell.
Säsongrensning: Serien rensas från säsongkomponenten genom beräkning av centrerade och viktade glidande medelvärden (centered moving averages, CMA): där.
Kvadratisk regression, forts.
Multipel regressionsanalys Den generella metoden i vilken Enkel linjär regression är ett specialfall Syften: –Att förklara variationen i en intressant.
Föreläsning 5 Kap 13 Tidsserier- vad är det? Trend/Säsong/Konjuktur/Slump Identifiering av trender (Glidande medelvärde) Säsongsmedelvärdesmetoden Säsongsdummymetoden.
Modell för konsumtionen i Sverige Från Baudins kompendium.
Deskription Normalfördelningsmodellen 1. 2 En modell är en förenklad beskrivning av någon del av verkligheten. Beskrivningen måste vara relevant för det.
1 Icke-linjär regression Sid (i kapitel 16.1)
Statistisk hypotesprövning. Test av hypoteser Ofta när man gör undersökningar så vill man ha svar på olika frågor (s.k. hypoteser). T.ex. Stämmer en spelares.
Vad är Statistik? Inom statistik teorin studeras -Hur vi samlar in data. -Hur data analyseras och vilka slutsatser som kan dras från data. -Hur insamlad.
Föreläsning 4 (Kajsa Fröjd) Multipel regression Kap 11.3 A.Man har en kvantitativ responsvariabel som är linjärt relaterad till en/flera kvantitativa förklarande.
Statistisk inferensteori. Inledning Den statistiska inferensteorin handlar i huvudsak om att dra slutsatser från ett slumpmässigt urval (sannolikhetsurval)
1 Multipel Regression Kapitel Modell Vi har p oberoende variabler som vi tänker oss kan vara relaterade till den beroende variabeln. Y ~ N( , 
Föreläsning 5 (Kajsa Fröjd) Tidsserier Kap 13.1 Man har en kvantitativ responsvariabel som mäts vid olika tidpunkter. 1.
Korstabeller och logistisk regression Samband mellan kvalitativa variabler.
Regression Har långa högre inkomst?. Världsrekord på engelska milen.
Föreläsning 4 Kap 11.3 Icke-linjära modeller Indikatorvariabel (dummyvariabel) Interaktionsterm.
Enkel Linjär Regression. 1 Introduktion Vi undersöker relationer mellan variabler via en matematisk ekvation. Motivet för att använda denna teknik är:
1 Utvärdering och tolkning: MBA Program Admission Policy Rektorn vid ett stort universitet vill höja standarden på de som antas till deras populära MBA-program.
Tidsserieanalys Kap 18, samt Baudin Tidsserieanalys En tidsserie är en mängd mätningar som är tidsordnade. Med tidsserieanalys försöker man upptäcka.
Icke-linjära modeller:
Multipel regression och att bygga (fungerande) modeller
Trender och fluktuationer
Data och att presentera data
Fördelning av data och index
Relation mellan variabler – samvariation, korrelation, regression
Presentation av antal spelande par år 2017
Presentationens avskrift:

Tidsserieanalys Exempel: Vilka särdrag har tidsseriedata? Varför behövs nya metoder?

Vilka särdrag har tidsseriedata? Varför behövs nya metoder? Observationerna är inte oberoende, eftersom det finns ett beroende i tiden Observationerna ger ett mönster över tiden en trend: fallande eller stigande värden med tiden en periodisk variation över en tidsperiod av bestämd längd (säsongseffekter eller liknande)

Exempel på tidsseriedata Olika typer av ekonomiska data: Arbetslöshetssiffror Försäljningsvärden Konsumentprisindex och andra index Export- och importmängder Miljömätdata: Fosforhalt i havsvattenbassänger Ozonhalt i luftrummet över en storstad Medicinska data: Antal fall av viss sjukdom (influensa, påssjuka ...)

Tidsserieregression:

sold time month x1 x2 x3 x4 x5 x6 x7 x8 x9 x10 x11 2 1 1 1 0 0 0 0 0 0 0 0 0 0 6 2 2 0 1 0 0 0 0 0 0 0 0 0 5 3 3 0 0 1 0 0 0 0 0 0 0 0 5 4 4 0 0 0 1 0 0 0 0 0 0 0 10 5 5 0 0 0 0 1 0 0 0 0 0 0 8 6 6 0 0 0 0 0 1 0 0 0 0 0 . . . . . . . . . . . . . . 7 46 10 0 0 0 0 0 0 0 0 0 1 0 6 47 11 0 0 0 0 0 0 0 0 0 0 1 3 48 12 0 0 0 0 0 0 0 0 0 0 0

Tidsserieregression med enbart en linjär trend.

Tidsserieregression fungerar statistiskt som vanlig regression. Regression Analysis The regression equation is Sold = 5,78 + 0,0430 time Predictor Coef StDev T P Constant 5,7761 0,9429 6,13 0,000 time 0,04302 0,03420 1,26 0,215 S = 3,181 R-Sq = 3,4% R-Sq(adj) = 1,2% Analysis of Variance Source DF SS MS F P Regression 1 16,00 16,00 1,58 0,215 Residual Error 45 455,27 10,12 Total 46 471,28 Tidsserieregression fungerar statistiskt som vanlig regression.

Regression Analysis The regression equation is Sold = 3,65 + 0,0285 time - 1,69 x1 - 0,47 x2 + 2,75 x3 + 1,22 x4 + 6,20 x5 + 2,42 x6 + 8,14 x7 + 6,36 x8 + 0,58 x9 + 2,55 x10 + 1,02 x11 Predictor Coef StDev T P Constant 3,6491 0,8526 4,28 0,000 time 0,02851 0,01481 1,92 0,063 x1 -1,691 1,028 -1,65 0,109 x2 -0,469 1,027 -0,46 0,651 x3 2,752 1,026 2,68 0,011 x4 1,224 1,026 1,19 0,241 x5 6,195 1,025 6,04 0,000 x6 2,417 1,025 2,36 0,024 x7 8,138 1,025 7,94 0,000 x8 6,360 1,026 6,20 0,000 x9 0,581 1,026 0,57 0,575 x10 2,553 1,027 2,49 0,018 x11 1,024 1,028 1,00 0,326 S = 1,342 R-Sq = 87,0% R-Sq(adj) = 82,4% Analysis of Variance Source DF SS MS F P Regression 12 410,031 34,169 18,97 0,000 Residual Error 34 61,246 1,801 Total 46 471,277

Tolkning av parametrar: Predictor Coef StDev T P Constant 3,6491 0,8526 4,28 0,000 time 0,02851 0,01481 1,92 0,063 x1 -1,691 1,028 -1,65 0,109 x2 -0,469 1,027 -0,46 0,651 x3 2,752 1,026 2,68 0,011 x4 1,224 1,026 1,19 0,241 x5 6,195 1,025 6,04 0,000 x6 2,417 1,025 2,36 0,024 x7 8,138 1,025 7,94 0,000 x8 6,360 1,026 6,20 0,000 x9 0,581 1,026 0,57 0,575 x10 2,553 1,027 2,49 0,018 x11 1,024 1,028 1,00 0,326 Tolkning av parametrar: Antal sålda hus ökar i genomsnitt med 0,0285 enheter per tidsenhet (månad) I januari säljs det färre hus (-1.69 hus) jämfört med december, i mars säljs det fler hus (+ 2.75).... (observera att december är basperioden, eftersom dummy- variabeln för december inte finns med – decembernivån är alltså inbakad i konstanten)

Inferens, som konfidensintervall, prognosintervall, t-test, F-test, partiellt F-test... kan göras på samma sätt som i vanlig regressionsanalys. Residualanalys bör göras för att kontrollera om villkoren för regression är uppfyllt: Oberoende residualer Normalfördelade residualer (för att kunna lita på testen) Residualer med konstant varians (inga strutmönster)

Antagandet om oberoende residualer är ofta inte uppfyllt när det gäller tidsseriedata. Det kan också vara svårt att kolla detta antagande visuellt.

Enklare att se om observationerna är sammanbundna Enklare att se om observationerna är sammanbundna. Här ser man tydligt att en negativ residual vanligtvis följs av en positiv residual och tvärtom. Detta är ett tecken på autokorrelation.

Statistiskt test för att kontrollera om residualerna är oberoende: Durbin-Watson-test Durbin-Watson-testet bedömer om autokorrelation (eller seriell korrelation) förekommer bland residualerna: Corr(et,et-1) Vi skiljer mellan positiv autokorrelation och negativ autokorrelation

Negativ autokorrelation Positiv autokorrelation

Durbin-Watson-test testvariabeln: I vårt exempel: Durbin-Watson statistic = 2.66

Vi kan testa nollhypotesen: H0: Det finns ingen autokorrelation i residualerna Om d > dU,/2 eller (4 – d ) > dU,/2 Ingen signifikant autokorrelation, H0 kan ej förkastas Om d < dL,/2 Signifikant positiv autokorrelation Om (4 – d ) < dL,/2 Signifikant negativ autokorrelation Om dL,/2  d  dU,/2 och dL,/2  (4 – d )  dU,/2 Inget uttalande kan göras

Om det inte finns någon autokorrelation i residualerna så kommer d att ligga nära 2. En approximativ kontroll kan göras genom att se om d är lägre än 1 eller högre än 3 Då finns autokorrelation i residualerna.

Vissa tidsserier har en så kallad exponentiell trend: Modell: Modellen kallas i boken ’growth curve model’ och jag har gått igenom de här modellerna i förra föreläsningen (avsnittet om exponentiella modeller).

Klassisk komponentuppdelning: Multiplikativ modell: Additiv modell: där TRt=Trendkomponenten SNt=Säsongkomponenten CLt=Cykliska komponenten IRt=Slumpkomponenten

Trendkomponenten TR står för en (ofta) linjär funktion av tiden t Säsongkomponenten SN består av ett värde per säsong, som uttrycker skillnaden mellan denna säsong och årsgenomsnittet (jämför säsongsdummies) Cykliska komponenten CL står för en oregelbunden funktion som avspeglar konjunktursvängningar, alltså i form av en cykel. Slumpkomponenten är resten av variationen som är helt oregelbunden och som inte kan förklaras.

Multiplikativ eller additiv modell? Multiplikativ modell: Modellen används om säsongssvängningarna ökar med ökat nivå i serien. För ekonomiska data brukar denna modell ofta vara bäst. Additiv modell: Fungerar vid mer stabila tidsserier där säsongssvängningarna ej beror av nivån.

Skattning av komponenter, termer Säsongrensning: Borttagandet av säsongsvariation yt - SNt i den additiva modellen yt / SNt i den multiplikativa modellen Säsongsvariation överskuggar ofta andra relevanta komponenter. Genom säsongrensningen kan man alltså enklare se trender och andra komponenter. ’Detrending’: Borttagandet av trenden yt - TRt yt / TRt

Skattning av komponenter, steg-för-steg Säsongrensning: Serien rensas från säsongkomponenten genom beräkning av centrerade och viktade glidande medelvärden (centered moving averages, CMA): där L=Antal säsonger i serien (L=2 för halvårsdata, 4 för kvartalsdata och 12 för månadsdata)

Exempel (sales data från tidigare) tid månad antal CMA 1 1 2 * 2 2 6 * 3 3 5 * 4 4 5 * 5 5 10 * 6 6 8 * 7 7 10 6.21 8 8 11 6.08 9 9 4 5.95 10 10 7 .... 11 11 3 12 12 3 13 1 3 14 2 2 15 3 6

Trend och cyklisk komponent skattas grovt av CMAt. En första skattning av säsongkomponenterna erhålls genom att beräkna yt/CMAt i en multiplikativ modell yt – CMAt i en additiv modell och sen beräkna medelvärden för alla värden som avser samma säsong. (t.ex. alla januari-värden av yt/CMAt, etc.)  Totalt L medelvärden.

Medelvärdena måste dessutom justeras så att de vid multiplikativ modell får medelvärde 1, (dvs summan av alla justerade säsongmedelvärden ska bli L) vid additiv modell får medelvärde 0, (dvs summan av alla justerade säsongmedelvärden ska bli 0.) De justerade värdena kallas för säsongskomponenter sn1,...,snL

Exempel, forts

Medelvärden av grova säsongskomponenter: Juli: (1.61074+2.14013+1.64571)/3  1.7989 Aug: (1.80822+1.36709+1.64571)/3  1.6070 Sep: (0.67133+0.58896+0.83237)/3  0.6976 Okt: (1.15862+1.01818+0.97110)/3  1.0493 Nov: (0.49655+1.01205+0.82286)/3  0.7772 Dec: (0.50350+0.71006+0.69767)/3  0.6371 Jan: (0.49315+0.28571+0.42353)/3  0.4008 Feb: (0.32432+0.56805+0.42105)/3  0.4378 Mar: (0.98630+1.24138+1.12941)/3  1.1190 Apr: (0.98630+0.68182+0.84706)/3  0.8384 Maj: (1.44000+1.50857)/2  1.4743 Obs! Bara två värden här! Juni: (1.07692+1.10345)/2  1.0902 …och här!

Summan av de beräknade medelvärdena: 1.7989 +1.6070 + 0.6976 + 1.0493 + 0.7772 + 0.6371 + 0.4008 + 0.4378 + 1.1190 + 0.8384 + 1.4743 + 1.0902)  11.9276 Summan skall bli L=12 För att få den till 12 multipliceras samtliga medelvärden med 12/11.9276  1.00607

Slutligt skattade säsongkomponenter: Jan: sn1 = 0.4008 · 1.00607  0.403 Feb: sn2 = 0.4378 · 1.00607  0.440 Mar: sn3 = 1.1190 · 1.00607  1.126 Apr: sn4 = 0.8384 · 1.00607  0.843 Maj: sn5 = 1.4743 · 1.00607  1.483 Juni: sn6 = 1.0902 · 1.00607  1.097 Juli: sn7 = 1.7989 · 1.00607  1.809 Aug: sn8 = 1.6070 · 1.00607  1.617 Sep: sn9 = 0.6976 · 1.00607  0.702 Okt: sn10 = 1.0493 · 1.00607  1.056 Nov: sn11 = 0.7772 · 1.00607  0.782 Dec: sn12 = 0.6371 · 1.00607  0.641

Tidsserien säsongrensas genom vid multiplikativ modell vid additiv modell där är något av värdena beroende på vilken av säsongerna som t motsvarar.

Exempel, forts

De säsongrensade värdena används för att skatta trendkomponenten De säsongrensade värdena används för att skatta trendkomponenten. Skatta en linjär (eller kvadratisk) trend TRt med hjälp av regressionsanalys

3. Cyklisk och oregelbunden komponent: Om cyklisk komponent ej finns med: Residualerna från regressionsanalysen utgör skattning av termen IRt i den klassiska modellen. Om cyklisk komponent finns med: Skatta cyklisk och oregelbunden komponent som en komponent (CLIRt)

Den cykliska komponenten skattas nu genom ett centrerat oviktat glidande medelvärde: och den oregelbundna komponenten skattas slutligen som

Vilka glidande medelvärden ska användas? 2m+1 väljs i regel till något av värdena 3, 5, 7, 9, 11, 13 Hur m skall väljas bestäms genom att titta på den slutliga skattningen av IRt m väljs så att autokorrelationen och variansen för dessa värden blir så låg som möjligt. 2m+1 kallas antal punkter i det glidande medelvärdet

Minitab kan användas för komponentuppdelning med StatTime seriesDecomposition Multiplikativ modell är dock något annorlunda: yt = TRt·SNt+IRt Val av modelltyp Möjlighet att välja komponenter, men dock begränsat

Säsongrensade data

Time Series Decomposition Data Sold Length 47,0000 NMissing 0 Trend Line Equation Yt = 5,77613 + 4,30E-02*t Seasonal Indices Period Index 1 0,425997 2 0,425278 3 1,14238 4 0,856404 5 1,52471 6 1,10138 7 1,65646 8 1,65053 9 0,670985 10 1,02048 11 0,825072 12 0,700325 Dessa blir något annorlunda jämfört med handräkningen tidigare p g a att modellen är annorlunda Accuracy of Model MAPE: 16,8643 MAD: 0,9057 MSD: 1,6388

Skattade trend- och säsongkomponenter har lagrats i kolumnerna TREN1 resp. SEAS1 Beräkning av kan göras genom att dividera originaldata med produkten av dessa två CLIR1=Sold/(TREN1· SEAS1) Den cykliska komponenten skall nu skattas genom beräkning av glidande medelvärden på CLIR1

StatTime SeriesMoving Average… Antal punkter i det glidande medelvärdet

Sparar de glidande medelvärdena, dvs den skattade cykliska komponenten i en ny kolumn, som får namnet AVER1

Den oregelbundna komponenten (IR) skattas slutligen genom att dividera CLIR1 med AVER1 De resulterade värdena studeras sedan med avseende på spridning, s och seriell korrelation, Corr ( irt , irt-1) 2m+1 s Corr(irt,irt-1) 3 0.219 -0.686 5 0.197 -0.292 7 0.173 -0.343 9 0.171 -0.345 11 0.181 -0.276 13 0.165 -0.200

Seriella korrelationer kan enkelt beräknas med StatTime seriesLag och sedan StatBasic statisticsCorrelation eller manuellt i Session window: MTB > lag ’RESI4’ c50 MTB > corr ’RESI4’ c50

Analys med additiv modell:

Time Series Decomposition Data Sold Length 47,0000 NMissing 0 Trend Line Equation Yt = 5,77613 + 4,30E-02*t Seasonal Indices Period Index 1 -4,09028 2 -4,13194 3 0,909722 4 -1,09028 5 3,70139 6 0,618056 7 4,70139 8 4,70139 9 -1,96528 10 0,118056 11 -1,29861 12 -2,17361 Accuracy of Model MAPE: 16,4122 MAD: 0,9025 MSD: 1,6902

Vad står måtten MAPE, MAD och MSD för? Alla tre är mått på hur bra anpassningen är och kan användas för att jämföra olika modeller. Den modell som har lägst MAPE, MAD och MSD har bäst anpassning. Oftast visar alla 3 måtten åt samma håll. Men i vissa fall kan man vara tvungen att välja en av dem. Vid val mellan t ex additiv modell och multiplikativ modell kan det hända att något av måtten är högre för den ena modellen medan ett annat mått är lägre. Det gäller alltså att tolka måtten med visst förnuft.

MSD kan också jämföras med MSE i den multipla regressionen: Formlerna är väldigt lika. Notera dock att vi dividerar med n och inte med n-k-1. Orsaken är att vi här inte har någon regressionsmodell med parametrar som måste skattas väntevärdesriktigt. Storleksmässigt kan dock MSD jämföras med MSE från tidsserieregressionen och är skillnaden markant kan vi också se vilken av modellerna som ger bäst anpassning. Mean Square Deviation Mean Square Error

Mean Absolute Deviation Skillnaden mellan MAD och MSD är att MAD använder absolutavvikelser istället för kvadratiska avvikelser. MAD är mindre känslig för avvikande värden och blir mer användbar när vi har något enstaka värde som uppträder konstigt. Ytterligare en fördel med MAD är att dess värde är i samma skala som yt - observationerna själva, vilket gör det lättare att tolka.

Mean Absolute Percentage Error Måttet använder också absoluta avvikelser, men mäter dem relativt nivån hos y. Vi får alltså relativa (procentuella) avvikelser. Måttet är praktiskt för multiplikativa modeller där den oregelbundna komponenten (IRt ) är ganska betydande, eftersom avvikelserna då blir stora när vi har stora värden på y.

Multiplikativ Additiv

multiplikativ

multiplikativ additiv Trend Line Equation Trend Line Equation Yt = 5.77613 + 4.30E-02*t Seasonal Indices Period Index 1 -4.09028 2 -4.13194 3 0.909722 4 -1.09028 5 3.70139 6 0.618056 7 4.70139 8 4.70139 9 -1.96528 10 0.118056 11 -1.29861 12 -2.17361 Trend Line Equation Yt = 5.77613 + 4.30E-02*t Seasonal Indices Period Index 1 0.425997 2 0.425278 3 1.14238 4 0.856404 5 1.52471 6 1.10138 7 1.65646 8 1.65053 9 0.670985 10 1.02048 11 0.825072 12 0.700325 multiplikativ additiv