Något om val mellan olika metoder

Slides:



Advertisements
Liknande presentationer
Talföljder formler och summor
Advertisements

Icke-linjära modeller:
Kap 1 - Algebra och linjära modeller
Point Estimation Dan Hedlin
FL4 732G70 Statistik A Detta är en generell mall för att göra PowerPoint presentationer enligt LiUs grafiska profil. Du skriver in din rubrik,
Tillämpning av bolagsstyrningskoden vid årsstämmor 2005 och 2006.
Föreläsning 10 Kurvanpassning som en del av problemlösning med datorer
Projektföljeforskning
Matematik Kurs C Grafer och derivator.
Redovisning av drogvaneundersökning åk 7-9 Strömsunds kommun 2010
Eddie Arnold - Make The World Go Away Images colorées de par le monde Déroulement automatique ou manuel à votre choix 1 för dig.
Kundundersökning mars 2010 Operatör: Västtrafik Trafikslag: Tåg Sträcka: Göteborg - Nässjö.
Inferens om en ändlig population Sid
Karolinska Institutet, studentundersökning Studentundersökning på Karolinska Institutet HT 2013.
F11 Olika urvalsmetoder, speciellt obundet slumpmässigt urval (OSU)
Punktprevalensmätning av trycksår 2011, v.40 Resultat från landstingen
Bastugatan 2. Box S Stockholm. Blad 1 Läsarundersökning Maskinentreprenören 2007.
Fastighetsbyrån Konjunkturundersökning Oktober 2012.
Enkätresultat för Grundskolan Elever 2014 Skola:Hällby skola.
Från binära till hexadecimala
Robert Gidehag & Jonas Arnberg. Studiens frågeställningar Övergripande: Är den svenska alkoholpolitiken effektiv på 2000-talet?
1 Vänsterskolan Debattartiklar. 2 Aktuell krok 3 Aktuella krokar 1. Direkt krok.
Kostnader för läkemedelsförmån Utveckling t.o.m. september 2014 Materialet: avser kostnader inklusive moms är ej åldersstandardiserat Lennart Tingvall:
Hittarps IK Kartläggningspresentation år 3.
Från Gotland på kvällen (tågtider enligt 2007) 18:28 19:03 19:41 19:32 20:32 20:53 21:19 18:30 20:32 19:06 19:54 19:58 20:22 19:01 21:40 20:44 23:37 20:11.
Arbetspensionssystemet i bilder Bildserie med centrala uppgifter om arbetspensionssystemet och dess funktion
Brukarundersökning socialpsykiatri Kön 1. Man16 (44%) 2. Kvinna20 (56%)
TÄNK PÅ ETT HELTAL MELLAN 1-50
Greppa Näringen Medlemsundersökning, kvartal 1. 1.
Skattningens medelfel
Chitvå-test Regression forts.
Kouzlo starých časů… Letadla Pár foteček pro vzpomínku na dávné doby, tak hezké snění… M.K. 1 I Norrköping får man inte.
Novus Unga om vården Vårdförbundet Lina Lidell 1718.
Regressionsanalys Vi vill ha svar på frågan hur mycket kommer y att förändras om x ändras med enhet. Sambandets funktionsform Tillåta att andra saker än.
732G81 Statistik för internationella civilekonomer
2 Agenda 1. Börja arbeta med Excel Hantera arbetsböcker 3. Formler 4. Formatera 5. Diagram 6. Skriva ut 7. Referenser mellan kalkylblad 8. Arbeta.
Arbetspensionssystemet i bilder Bildserie med centrala uppgifter om arbetspensionssystemet och dess funktion
En mycket vanlig frågeställning gäller om två storheter har ett samband eller inte, många gånger är det helt klart: y x För en mätserie som denna är det.
Fysikexperiment 5p Föreläsning Korrelationer Ett effektivt sätt att beskriva sambandet mellan två variabler (ett observationspar) är i.
Enkätresultat för Grundskolan Föräldrar 2014 Skola - Gillberga skola.
Skattning av trendkurvor/trendytor och förändringar över tiden Claudia von Brömssen SLU.
Regional handlingsplan ”Det goda livet för sjuka äldre” RESULTAT i VG+Skaraborg.
Binomialsannolikheter ritas i ett stolpdiagram
Multipel linjär regressionsanalys
Simulering Introduktion Exempel: Antag att någon kastar tärning
Vara kommun Grundskoleundersökning 2014 Föräldrar 2 Levene skola årskurs 5 Antal svar 2014 för aktuell årskurs i skola: 12 Antal svar 2014 för årskurs.
Projekt 5.3 Gilpins och Ayalas θ-logistiska modell A Course in Mathematical Modeling - Mooney & Swift.
Räkna till en miljard 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13,14,15,16,17,18,19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, En miljard är ett.
© Anders Broberg, Ulrika Hägglund, Lena Kallin Westin, 2003 Föreläsning 12 Sökning och Sökträd.
Hur bra är modellen som vi har anpassat?
Förskoleenkät Föräldrar 2012 Förskoleenkät – Föräldrar Enhet:Hattmakarns förskola.
Bild 1 Prognos för länets arbetsmarknad Stefan Tjb.
Diskret stokasticitet Projekt 2.3, Talltita
Fysikexperiment, 5p1 Random Walk 36 försök med Random walk med 1000 steg. Beräknad genomsnittlig räckvidd är  1000  32. Visualisering av utfallsrum.
Tidsserieregression fungerar statistiskt som vanlig regression. Regression Analysis The regression equation is Sold = 5,78 + 0,0430 time Predictor.
Regression Analysis The regression equation is Sold = 5,78 + 0,0430 time Predictor Coef StDev T P Constant 5,7761 0,9429 6,13 0,000 time 0, ,03420.
Regressions- och tidsserieanalys
1 Om sambandet inte är linjärt? Om sambandet till en variabel inte är linjärt så kan vi inkludera ytterligare en term i regressionsmodellen I en modell.
Säsongrensning: Serien rensas från säsongkomponenten genom beräkning av centrerade och viktade glidande medelvärden (centered moving averages, CMA): där.
Tidsserieanalys Exempel:
Föreläsning 5 Kap 13 Tidsserier- vad är det? Trend/Säsong/Konjuktur/Slump Identifiering av trender (Glidande medelvärde) Säsongsmedelvärdesmetoden Säsongsdummymetoden.
Modell för konsumtionen i Sverige Från Baudins kompendium.
1 Multipel Regression Kapitel Modell Vi har p oberoende variabler som vi tänker oss kan vara relaterade till den beroende variabeln. Y ~ N( , 
Regression Har långa högre inkomst?. Världsrekord på engelska milen.
Föreläsning 4 Kap 11.3 Icke-linjära modeller Indikatorvariabel (dummyvariabel) Interaktionsterm.
Enkel Linjär Regression. 1 Introduktion Vi undersöker relationer mellan variabler via en matematisk ekvation. Motivet för att använda denna teknik är:
Tidsserieanalys Kap 18, samt Baudin Tidsserieanalys En tidsserie är en mängd mätningar som är tidsordnade. Med tidsserieanalys försöker man upptäcka.
Icke-linjära modeller:
Multipel regression och att bygga (fungerande) modeller
Trender och fluktuationer
Presentationens avskrift:

Något om val mellan olika metoder Givet är en observerad tidsserie: y1, y2,…,yn Nej Nej Säsonger? ARMA-modeller Enkel exponentiell utjämning Trend? Ja Tidsserieregression ARIMA-modeller Dubbel exponentiell utjämning Tidsserieregression Klassisk komponentuppdelning (S)ARIMA-modeller Winters’ metod

Modernare metoder för tidsserieanalys och prognoser ARMA-, ARIMA, (S)ARIMA Modernare metoder för tidsserieanalys och prognoser Box, George and Jenkins, Gwilym (1970) Time series analysis: Forecasting and control, San Francisco: Holden-Day Ett “standardverk” som samlade upp idéer, uppkomna från c:a 1950-talet inom ekonometri och ingenjörsvetenskap Skapade ett system för att identifiera, skatta och utvärdera modeller för tidsserier Metodologin går fortfarande under namnen “Box-Jenkins-metodik”

Exempel: Växelkurs EUR/SEK 25 sep – 25 nov 2008 (Källa: www. oanda Exempel: Växelkurs EUR/SEK 25 sep – 25 nov 2008 (Källa: www.oanda.com, 2008-11-25) Säsongsvariation? Trend? Konjunktur? Om vi skulle vilja göra korttidsprognoser för t.ex. en dag eller två?

Tidsserieregression, linjär trend Med hittills genomgångna metoder: 1) Tidsserieregression med linjär/kvadratisk trend, men utan säsongdummies 2) Dubbel exponentiell utjämning (Holt’s metod) Fungerar dessa bra? Smoothing Constants Alpha (level) 1.30980 Gamma (trend) 0.04006 Tidsserieregression, linjär trend Holt’s metod

En vanlig metod som inte tagits upp till fullo i kursen: Rullande medelvärden (mer korrekt: Glidande oviktade medelvärden) StatTime SeriesMoving Average… Veckovis “rullande” medelvärden

Inte så imponerande heller!

Är nedanstående bättre Är nedanstående bättre? (De gröna trianglarna motsvarar prognoserna för 26/11 och 27/11 samt prognosintervallgränser, resten är originaldata.) Vad är detta för metod?

Några viktiga begrepp i sammanhanget Stationaritet En tidsserie säges vara stationär om den i princip består av data med konstant väntevärde och varians Något mer matematiskt: E( yt ) =  Var( yt ) =  2 Corr( yt , yt-k ) beror bara av k och alltså inte av t.

Hur kan icke-stationära tidsserier se ut? Linjär trend, icke-stationär av första ordningen Kvadratisk trend, icke-stationär av andra ordningen Icke-konstant varians, även om väntevärdet verkar konstant

Är växelkursexemplet en stationär tidsserie? Beror på tidsperspektivet. Här ser det ut som att en trend finns, men i ett längre tidsperspektiv rör det sig nog bara om en tendens.

Kan en tidsserie göras stationär? Differentiering En tidsserie wt som är icke-stationär av första ordningen (i princip uppvisar en linjär trend) kan differentieras en gång: yt = wt = wt – wt – 1 yt kan då bli en stationär serie (men inte nödvändigtvis) En tidsserie som är icke-stationär av andra ordningen (i princip uppvisar en kvadratisk trend) kan differentieras två gånger: yt = (ut ) = ut – ut – 1 = ut – ut – 1 – ( ut – 1 – ut – 2 ) = ut – 2 ∙ ut – 1 + ut – 2 yt kan då bli en stationär serie (men inte nödvändigtvis)

Har den blivit stationär?

Variansstabilisering Om variansen inte bedöms vara konstant  Transformera på samma sätt som vid regressionsanalys, oftast med logaritmering w’t = ln ( wt ) Konstant varians?

Efter variansstabilisering kanske det blir OK att differentiera (log(Wt)) Stationär?

Fungerar detta för våra växelkursdata? Inte otänkbart!

Autokorrelation För en tidsserie yt definieras autokorrelationsfunktionen (acf) som k = Corr ( yt , yt – k ) för k = 1, 2, 3, 4, … Anger alltså korrelationen (graden av linjärt beroende) mellan två värden på tidsavstånd k i tidsserien. För en stationär tidsserie skall acf endast vara en funktion av k, dvs. det skall inte spela någon roll var i tidsserien de två värdena ligger utan endast vilket tidsavstånd det är mellan dem. Värdena kan både vara positiva och negativa (beroende på hur beroendet ser ut)

För serier med korta beroenden avtar acf snabbt mot 0 då k växer För serier med långa beroenden avtar acf långsammare, men tydligt mot 0 då k växer

En tidsserie med väntevärde 0 och där acf är = 0 överallt kallas vitt brus Innehåller egentligen ingen information Kan man se i figuren att acf = 0 överallt?

Skattning av acf Minitab (och andra statistiska programpaket) har funktioner för att skatta acf från existerande data

Typiskt exempel på en skattad acf för en tidsserie som inte är stationär. Mycket långsamt avklingande mönster. Autokorrelationen är hög för värden som ligger på en gemensam trend. Skattad acf brukar i litteraturen förkortas SAC (Sample AutoCorrelation function)

Hur ser SAC ut för växelkursdata? Litet väl långsamt avklingande. Tyder på icke-stationaritet i form av linjär trend.

Med hjälp av SAC kan man tydligen bedöma om en serie är stationär eller ej. Bra hjälpmedel för att t.ex. se om en differentiering räcker. Icke-stationär (men det visste vi i och för sig) Differentiera en gång Mer stationär, men ännu inte tillräckligt avklingande

Logaritmera och differentiera sedan Bättre än tidigare. Snabbare avklingning mot 0.

Partiell autokorrelation Svårare begrepp. Den partiella autokorrelationen mellan y och x definieras som den del av korrelationen mellan y och x som inte har att göra med andra variabler. Partiell autokorrelationsfunktion (pacf) för tidsserier k = Corr( yt , yt – k | yt – (k – 1) , yt – (k – 2) , …, yt – 1 ) Funktionen har egenskaper som effektivt kan utnyttjas vid identifiering av modeller (se nedan) Även den partiella autokorrelationsfunktionen kan skattas från existerande data. Den brukar då kallas SPAC y Röd korrelation är unik mellan y och x , dvs. partiell korrelation Blå korrelation kommer från y:s och x:s respektive samband med z Röd + Blå är den totala korrelationen. z x

Autoregressiva modeller (AR-modeller) En tidsserie y1, y2, y3, … satisfierar en autoregressiv modell av ordning 1, en s.k. AR(1)-modell om där  och 1 är konstanter (parametrar) och at är vitt brus, dvs. en serie av okorrelerade värden (Corr(at , at – k ) = 0 för alla k) med väntevärde 0 och konstant varians (jfr. t från tidsserieregressionen) (till exempel: yt = 2.0 + 0.4  yt – 1 + at ) “autoregressiv” innebär alltså att y har regression “på sig själv” (fast ett tidssteg bakåt)

Exempel: yt = 2.0 + 0.4  yt – 1 + at där at antas vara okorrelerade och N(0, 2)-fördelade En realisering av denna tidsserie i 200 tidpunkter kan se ut på följande sätt

Om vi istället realiserar 200 värden av följande modell yt = 2.0 – 0.4  yt – 1 + at där at antas vara okorrelerade och N(0, 2)-fördelade dvs. 1 = – 0.4 istället för 0.4 kan vi få Jämför med 1 = 0.4 :

Stationära och icke stationära AR(1)-modeller En tidsserie som satisfierar en AR(1)-modell är stationär om –1 < 1 < 1 Om 1 = 1 eller –1 råder instabilt läge. Serien kan urarta men behöver inte göra det. Om 1 = 1 och  = 0 säges tidsserien vara en random walk (slumpvandring) yt = yt – 1 + at En vanlig modell för enskilda aktiekurser. Prognoser beräknas med den enkla formeln persistensprognos

Exempel på realisering av en random walk Skulle mycket väl kunna motsvara utvecklingen av en aktiekurs, men kan vi med utgångspunkt från det tycka att det rör sig om en trend?

Tydligt icke-stationär! Om | 1 | > 1 säger man ibland att AR(1)-modellen är explosiv. Exempel: En realisering av modellen yt = 2.0 + 1.01  yt – 1 + at med at ~ N(0, 2) Tydligt icke-stationär!

Identifiering av AR(1)-modeller För tidsserier som satisfierar en AR(1)-modell och är stationära, dvs. | 1 | < 1, gäller att autokorrelationsfunktionen (acf) är Exempel: 1 = 0.4 1 = –0.7

Vidare gäller att den partiella autokorrelationsfunktionen är Exempel: 1 = 0.4 1 = –0.7

Antag nu att vi har en observerad tidsserie i n tidpunkter: y1, y2,…, yn Om tidsserien satisfierar en AR(1)-modell borde detta avspeglas i SAC och SPAC, dvs. skattningarna av acf och pacf. Vi förväntar oss att få liknande utseenden som de teoretiska funktionerna har.

SAC: Verkar i början avta ungefär som den teoretiska acf. De “spikar” som hamnar inom de röda linjerna kan bortses från om de ligger långt från 0. SPAC: En tydlig spik för k = 1. Övriga kan negligeras. Utseendet överensstämmer alltså med den teoretiska pacf. Verkar vara en AR(1)-modell

Skattning av parametrar i en AR(1)-modell Minitab (liksom andra statistiska programpaket) har procedurer för att skatta parametrar i autoregressiva modeller. AR(1) är ett specialfall av de generella ARIMA-modellerna. Skattningsproceduren är betydligt mer komplicerad än t.ex. För multipel regressionsanalys Ingen närmare teoretisk genomgång görs här.

Ger skattning av en AR(1)-modell Här kan man välja om  skall vara med eller ej

ARIMA model for Yt Estimates at each iteration Iteration SSE Parameters 0 5144.80 0.100 114.252 1 3985.36 0.250 95.207 2 3095.92 0.400 76.162 4 2127.03 0.700 38.070 7 2041.72 0.819 22.948 8 2041.72 0.819 22.929 Relative change in each estimate less than 0.0010 Final Estimates of Parameters Type Coef SE Coef T P AR 1 0.8190 0.0409 20.00 0.000 Constant 22.9295 0.2263 101.31 0.000 Mean 126.700 1.251

Skattad modell är alltså: Number of observations: 200 Residuals: SS = 2027.86 (backforecasts excluded) MS = 10.24 DF = 198 Modified Box-Pierce (Ljung-Box) Chi-Square statistic Lag 12 24 36 48 Chi-Square 8.8 25.1 36.7 50.8 DF 10 22 34 46 P-Value 0.552 0.290 0.346 0.291 Ljung-Box är mått på hur bra anpassningen har blivit. Alla P-värden skall vara stora här om modellen skall anses vara bra. Skattad modell är alltså: och automatiskt erhålls prognosmodellen:

Fler modeller Autoregressiv modell av ordning 2, AR(2): Har längre beroenden än AR(1) Typiska utseenden hos acf och pacf: acf: Avtar relativt snabbt mot noll, ev. med växlande tecken pacf: Är skild från 0 för k=1 och 2, är 0 för k = 3, 4, 5, ….

Glidande medelvärdesmodell av ordning 1, MA(1) (Moving Average): yt “skapas” alltså genom en sammanvägning av det vita bruset (ett sorts glidande medelvärde av en underliggande slumpvariation. en MA(1) är alltid stationär svårare att tolka, svårare att uttrycka en generell prognosformel acf: har motsvarande utseenden som en pacf för AR(1) pacf: har motsvarande utseenden som en acf för AR(1)  Lika “enkelt” att identifiera en MA(1) som en AR(1) skattningar av parametrar och prognoser kan beräknas med samma program som tidigare

Glidande medelvärdesmodell av ordning 2, MA(2): har längre beroenden än en MA(1) är alltid stationär acf: motsvarande utseenden som pacf för AR(2) pacf: motsvarande utseenden som acf för AR(2) Kombinerad autoregressiv och glidande medelvärdesmodell av ordningarna p och q, ARMA(p, q): har mer komplicerade beroenden acf: avtar mot noll, ofta med växlande tecken pacf: avtar mot noll, ofta med växlande tecken

Exempel: Tidsserien innehåller trend och är därför inte stationär. Differentiering behövs! Obs! Kvartalsdata, men det är tydligt att någon säsongsvariation ej finns. Betrakta data som varandes utan säsongkomponent.

Efter en differentiering: Kan den vara stationär? Kolla med SAC och SPAC.

SAC: Verkar definitivt vara stationär. Frågan är vad det kan röra sig om för modell. Ingen ren AR- eller MA-modell kan ses. Prova med en ARMA(1,1) SPAC:

Notera att en ARMA(1,1) skulle gälla för den differentierade serien. Prognoser vill vi dock ha för originalserien! Minitab (och andra) fixar detta! StatTime SeriesARIMA… Originalserien Anger att vi vill differentiera 1 gång Ordningarna, dvs. 1 och 1 i den ARMA-modell som anpassas till diff. data

Anger som vanligt att vi vill ha prognoser 4 tidpunkter framåt räknat från slutet. (dvs. prognoser för kvartal 1, 2, 3 och 4 2002)

Signifikanta parameterskattningar! ARIMA Model: Yt . Final Estimates of Parameters Type Coef SE Coef T P AR 1 1.0455 0.0731 14.29 0.000 MA 1 0.8875 0.1663 5.34 0.000 Differencing: 1 regular difference Number of observations: Original series 39, after differencing 38 Residuals: SS = 59067529 (backforecasts excluded) MS = 1640765 DF = 36 Signifikanta parameterskattningar!

Modified Box-Pierce (Ljung-Box) Chi-Square statistic Lag 12 24 36 48 Chi-Square 6.3 15.0 30.2 * DF 10 22 34 * P-Value 0.793 0.861 0.656 * Ljung-Box ser bra ut! Forecasts from period 39 95 Percent Limits Period Forecast Lower Upper Actual 40 45657.6 43146.5 48168.7 41 47636.4 43794.3 51478.5 42 49705.3 44625.7 54784.9 Prognoserna med intervall! 43 51868.4 45550.6 58186.1

Följande figur kan även “beställas” vid körningen:

Åter till växelkursdata! Om vi nu tror att den differentierade serien är stationär SAC SPAC Ingen renodlad AR- eller MA-modell här heller. Pröva med en ARMA(1,1)

Ej signifikanta! Final Estimates of Parameters Type Coef SE Coef T P Constant 0.01607 0.01161 1.38 0.172 Differencing: 1 regular difference Number of observations: Original series 62, after differencing 61 Residuals: SS = 0.210938 (backforecasts excluded) MS = 0.003637 DF = 58 Ej signifikanta!

Modified Box-Pierce (Ljung-Box) Chi-Square statistic Lag 12 24 36 48 Chi-Square 11.8 31.1 41.0 54.0 DF 9 21 33 45 P-Value 0.227 0.072 0.160 0.169 Forecasts from period 62 95 Percent Limits Period Forecast Lower Upper Actual 63 10.4524 10.3342 10.5707 64 10.4701 10.2767 10.6634 65 10.4825 10.2403 10.7246 OK här! Detta är det diagram vi först såg (men då med trianglarna grönfärgade).

Andra tillämpningar: Residualerna från en tidsserieregression, eller från vilken regression som helst där tiden är inblandad kan ofta uppvisa beroendemönster (jfr. Durbin-Watson’s test) Residualerna kan modelleras separat med en AR-modell och därigenom erhålls bättre skattningar och prognoser (smalare prognosintervall) Exempel: I datorövning 6 gjordes en tidsserieregression på andel arbetslösa 1994-2002.

Residualerna uppvisar en tydlig positiv seriell korrelation, dvs Residualerna uppvisar en tydlig positiv seriell korrelation, dvs. autokorrelation, eftersom mönstret är en ”följsam” kurva.

Osäkra parameterskattningar, breda prognosintervall Detta är den variationbredd som skattningen av s baseras på Detta är den egentliga variationsbredden som själva slumpen omfattar Om inte hänsyn tas till att residualerna är korrelerade kan man i vissa fall överskatta slumpvariationen Osäkra parameterskattningar, breda prognosintervall

Går det nu att anpassa t.ex. en AR-modell till residualerna? SAC: SPAC: Kanske inte helt orimligt med en AR(1)-modell även om det finns en störande spik i SPAC längst t.h. Det är dock snudd på icke-stationaritet.

Ingen konstantterm tas med eftersom residualerna varierar runt 0 Final Estimates of Parameters Type Coef SE Coef T P AR 1 0.9126 0.0409 22.31 0.000 Number of observations: 108 Residuals: SS = 8.24689 (backforecasts excluded) MS = 0.07707 DF = 107 Modified Box-Pierce (Ljung-Box) Chi-Square statistic Lag 12 24 36 48 Chi-Square 16.5 24.5 45.1 54.3 DF 11 23 35 47 P-Value 0.124 0.377 0.118 0.217

Anpassningen av en AR-modell till residualerna skall göras samtidigt med anpassningen av själva regressionsmodellen (för att få rätt standardavvikelse och medelfel för skattningar) Kan dock ej göras i Minitab, men i t.ex. SAS Överhuvudtaget kan modellerna byggas ut till att omfatta säsongsvariation (SARIMA) men även för att inkludera andra tidsserier som förklaringsvariabler (s.k. Transfer Function Models) En intressant delmodell av detta är s.k. interventionsmodeller (t.ex. inkludering av 11-september-effekten i analyserna) För allt detta krävs fler kurser i tidsserieanalys!