732G71 STATISTIK B Vad förväntas man egentligen kunna efter genomgången kurs? Exempel: Du sitter i ett projektmöte på din arbetsplats. Din chef (om det.

Slides:



Advertisements
Liknande presentationer
Målvakter Detta talar för Tre Kronor Detta talar för Tre Kronor Detta talar emot Tre Kronor Detta talar emot Tre Kronor Performance-analyserIndividuella.
Advertisements

Inferens om en population Sid
Talföljder formler och summor
Icke-linjära modeller:
Här ser ni några sidor som hjälper er att lösa uppgifterna:
Kap 1 - Algebra och linjära modeller
hej och välkomna EKVATIONER Ta reda på det okända talet.
FL4 732G70 Statistik A Detta är en generell mall för att göra PowerPoint presentationer enligt LiUs grafiska profil. Du skriver in din rubrik,
Hur bra är modellen som vi har anpassat?
Redovisning av drogvaneundersökning åk 7-9 Strömsunds kommun 2010
FL8 732G70 Statistik A Detta är en generell mall för att göra PowerPoint presentationer enligt LiUs grafiska profil. Du skriver in din rubrik,
FL10 732G81 Linköpings universitet.
FL9 732G70 Statistik A Detta är en generell mall för att göra PowerPoint presentationer enligt LiUs grafiska profil. Du skriver in din rubrik,
Inferens om en ändlig population Sid
Linda Wänström och Elisabet Nikolic (Karl Wahlin)
732G22 Grunder i statistisk metodik
UNIONEN - tillgänglighet under semestern 2014
Karolinska Institutet, studentundersökning Studentundersökning på Karolinska Institutet HT 2013.
F11 Olika urvalsmetoder, speciellt obundet slumpmässigt urval (OSU)
Punktprevalensmätning av trycksår 2011, v.40 Resultat från landstingen
Fastighetsbyrån Konjunkturundersökning Oktober 2012.
Enkätresultat för Grundskolan Elever 2014 Skola:Hällby skola.
Antag att följande värden hos kapitalet har gällt:
1 Vänsterskolan Debattartiklar. 2 Aktuell krok 3 Aktuella krokar 1. Direkt krok.
Hittarps IK Kartläggningspresentation år 3.
Beräkna en ekvation (metod 1)
Från Gotland på kvällen (tågtider enligt 2007) 18:28 19:03 19:41 19:32 20:32 20:53 21:19 18:30 20:32 19:06 19:54 19:58 20:22 19:01 21:40 20:44 23:37 20:11.
Felkalkyl Ofta mäter man inte direkt den storhet som är den intressanta, utan en grundläggande variabel som sedan används för att beräkna det som man är.
TÄNK PÅ ETT HELTAL MELLAN 1-50
Greppa Näringen Medlemsundersökning, kvartal 1. 1.
Skattningens medelfel
Chitvå-test Regression forts.
Kouzlo starých časů… Letadla Pár foteček pro vzpomínku na dávné doby, tak hezké snění… M.K. 1 I Norrköping får man inte.
Novus Unga om vården Vårdförbundet Lina Lidell 1718.
Diskreta, deterministiska system Projekt 1.2; Vildkatt
En mycket vanlig frågeställning gäller om två storheter har ett samband eller inte, många gånger är det helt klart: y x För en mätserie som denna är det.
Fysikexperiment 5p Föreläsning Korrelationer Ett effektivt sätt att beskriva sambandet mellan två variabler (ett observationspar) är i.
Enkätresultat för Grundskolan Föräldrar 2014 Skola - Gillberga skola.
FL7 732G70 Statistik A Detta är en generell mall för att göra PowerPoint presentationer enligt LiUs grafiska profil. Du skriver in din rubrik,
Binomialsannolikheter ritas i ett stolpdiagram
1 Regression Analysis: Hyra versus Kv-meter The regression equation is Hyra = Kv-meter Predictor Coef SE Coef T P Constant
Multipel linjär regressionsanalys
Vägda medeltal och standardvägning Index
Föreläsning 7 Fysikexperiment 5p Poissonfördelningen Poissonfördelningen är en sannolikhetsfördelning för diskreta variabler som är mycket.
Vara kommun Grundskoleundersökning 2014 Föräldrar 2 Levene skola årskurs 5 Antal svar 2014 för aktuell årskurs i skola: 12 Antal svar 2014 för årskurs.
Projekt 5.3 Gilpins och Ayalas θ-logistiska modell A Course in Mathematical Modeling - Mooney & Swift.
© Anders Broberg, Ulrika Hägglund, Lena Kallin Westin, 2003 Föreläsning 12 Sökning och Sökträd.
Hur bra är modellen som vi har anpassat?
Förskoleenkät Föräldrar 2012 Förskoleenkät – Föräldrar Enhet:Hattmakarns förskola.
Övningsexempel till Kapitel 7 Ex 1. BRÄNNBOLLSDILEMMAT ! En person funderar över hur man bäst uppskattar 28 meter. Av erfarenhet vet han att hans steglängd,
Kvadratsummeuppdelning/Variansanalys
Grundskola Elever 2013 Grundskoleenkät - Elever Enhet: Gillberga skola.
Exempel: Vad påverkar kostnaden för produktion av korrugerat papper, dvs sådant som ingår i wellpapp och kartonger? Amerikansk studie: Kostnaden kan förmodligen.
Tidsserieregression fungerar statistiskt som vanlig regression. Regression Analysis The regression equation is Sold = 5,78 + 0,0430 time Predictor.
Regression Analysis The regression equation is Sold = 5,78 + 0,0430 time Predictor Coef StDev T P Constant 5,7761 0,9429 6,13 0,000 time 0, ,03420.
Regressions- och tidsserieanalys
VetU termin 4 moment 3 Analysera nivåer av kalium och kreatinin Mätningar genomförda på 120 män och 120 kvinnor (tidigare studenter KI) Dagens uppgift:
1 Om sambandet inte är linjärt? Om sambandet till en variabel inte är linjärt så kan vi inkludera ytterligare en term i regressionsmodellen I en modell.
Säsongrensning: Serien rensas från säsongkomponenten genom beräkning av centrerade och viktade glidande medelvärden (centered moving averages, CMA): där.
Tidsserieanalys Exempel:
1 Icke-linjär regression Sid (i kapitel 16.1)
Statistisk hypotesprövning. Test av hypoteser Ofta när man gör undersökningar så vill man ha svar på olika frågor (s.k. hypoteser). T.ex. Stämmer en spelares.
Statistisk inferensteori. Inledning Den statistiska inferensteorin handlar i huvudsak om att dra slutsatser från ett slumpmässigt urval (sannolikhetsurval)
1 Multipel Regression Kapitel Modell Vi har p oberoende variabler som vi tänker oss kan vara relaterade till den beroende variabeln. Y ~ N( , 
INFERENS & SAMBAND. population Population Stickprov, urval INFERENS = Dra slutsatser om hela populationen utifrån ett stickprov Data, observationer.
Regression Har långa högre inkomst?. Världsrekord på engelska milen.
Föreläsning 4 Kap 11.3 Icke-linjära modeller Indikatorvariabel (dummyvariabel) Interaktionsterm.
Enkel Linjär Regression. 1 Introduktion Vi undersöker relationer mellan variabler via en matematisk ekvation. Motivet för att använda denna teknik är:
Icke-linjära modeller:
Multipel regression och att bygga (fungerande) modeller
Presentationens avskrift:

732G71 STATISTIK B Vad förväntas man egentligen kunna efter genomgången kurs? Exempel: Du sitter i ett projektmöte på din arbetsplats. Din chef (om det inte är du) är något upprörd över att en ny amerikansk studie påstås visa att försäljningsresultat kan förbättras om lager är spridda geografiskt än om de är samlade till ett fåtal ställen. Inom företaget har man på senare år arbetat enligt det motsatta förhållandet. Chefen säger till dig: Du är ju en relativt nyutbildad ekonom. Har du inte läst statistik? Ditt svar blir förstås: Javisst! (även om du inombords blir en aning panikslagen) Chefen: Då så! Du kan väl ta och kolla upp den där studien. Jag är ganska säker på att det är trams det mesta, men för säkerhets skull…

Saxat ur “den amerikanska studien”: …The slopes are clearly significant, which tells us that it seems reasonable to assume that the covariates have a clear impact on the sales, especially when we have removed the units that were supposed to induce undesired intra-relationships between the predictors. The interpretation of the final model is that the mean result increases with approximately 2% per storage unit with a 99% error margin of 0.7%. There is some intra-annual variation, that might affect the predictions, especially in summer months… Ovanstående innehåller komponenter som alla har tagits upp på ett eller annat sätt i kursen. Vad borde du kunna göra i detta fall?

1.Naturligtvis läsa, förstå och kunna återge innehållet i den amerikanska studien. 2.Validera resultaten mot data ni har i ert eget företag, dvs. försöka upprepa vad amerikanerna har gjort men med egna data. 3.Kritiskt ifrågasätta sådant som är tveksamt i studien Skall man verkligen ta bort observationer när de ger upphov till multikolinjäritetsproblem? Skall man blanda rena regressionsmodeller med tidsseriemodeller innehållande säsongsmodellering? Finns det problem med modellantagandena? 4.Återföra till “chefen” och endera bekräfta eller motbevisa hans uppfattning om att det mesta är “trams”

Den enkla linjära regressionen Ni skall kunna “för hand” räkna fram parameterskattningar, konfidensintervall, prognosintervall, korrelationskoefficienter, förklaringsgrader etc. − Varför skall vi kunna göra detta för hand när det i praktiken alltid görs med datorprogram? − Handräkningen visar att man förstår vad de olika komponenterna i en modell “står för”. Vad som är y, vad som är x, vad det är man skattar och vad det t.ex. är för skillnad på konfidens- och prognosintervall. Vidare är den enkla linjära regression grund för att även kunna räkna på enkla exponentiella modeller och elasticitetsmodeller. “Omsättning av formler” är nyttig att göra för att inte bli låst till att allt måste heta y och x.

Exempel på uppgift ni förväntas kunna lösa (Övningstentan, uppgift 1) I en omfattande studie har man undersökt ett urval om 10 koncerner med avseende pä deras affärsstrategier. I studien ställer man bl.a. frågor om graden av miljöinriktad affärsstrategi och frågorna ställs dels till en ansvarig person i koncernledningen, dels till en ansvarig person i den viktigaste affärsenheten i koncernen. En av de frågor som ställs är den övergripande (här i något förenklad form): Vilken grad av miljöinriktning bedömer du att ni har i er strategi? Låg O O O O O O O O O Hög Svarsskalan brukar kallas Likert-skala och är sådan att svarsstegen kan antas ligga lika långt från varandra (en s.k. intervallskala). Detta möjliggör användande av korrelations- koefficienter och regressionsmodeller vid analysarbetet. De erhållna svaren kodas med talen 1, 2,..., 9 där 1 används för ett svar längst till vänster i skalan och 9 för ett svar längst till höger. Med hjälp av de inkomna svaren vill man försöka hitta ett regressionssamband där ett svar på koncernnivå förklaras av svaret på affärsenhetsnivå.

Följande kodade svar har erhållits: Koncern (i) Svar på koncernnivå (y) Svar på affärsenhetsnivå (x) Följande har beräknats:  x 2 =221  y 2 =209  xy =207 Antag modellen y i =  0 +  1  x i +  i ; i = 1, 2, …, 10

a) Vilka antaganden måste göras för  1,  2,…,  10 för att modellen skall kunna analyseras på vanligt sätt? Försök komma på minst en orsak till att något av antaganden inte skulle vara uppfyllt. (1p) b) Beräkna punktskattningar av parametrarna  0 och  1. (1.5p) c) Avgör med ett lämpligt test på 5% nivå om det föreligger någon regression mellan y och x. (1.5p) d) Beräkna den anpassade modellens förklaringsgrad och tolka denna. (1p) e) Beräkna ett 95% konfidensintervall för det genomsnittliga svaret på koncernnivå för alla koncerner i populationen där svaren på affärsnivå samtliga är 7. (1.5p) f) Gör en prognos av svaret på koncernnivå för en koncern där svaret på affärsenhetsnivå är 7. Beräkna också ett 99% prognosintervall. (1.5p) a)De skall ha väntevärde 0, konstant varians, vara oberoende och normalfördelade. Det som främst inte är självklart är antagandet om normalfördelning, Teoretiskt kan vi inte ha normalfördelade avvikelser eftersom svarsvärdena bara kan vara något av talen 1, 2, …, 9. Övriga antagande kan förstås också diskuteras men där är det svårare att hitta orsaker, t.ex. skulle det kunna finnas samband mellan olika koncerner som stör oberoendeantagandet.

b) Beräkna punktskattningar… Använd t.ex. formlerna I utskriften ges de komplicerade summorna medan  x och  y får lov att beräknas denna gång:  x = = 41  y = = 39

c) Avgör med ett lämpligt test på 5% nivå om det föreligger någon regression mellan y och x. Det finns två ekvivalenta sätt att göra detta. Gemensamt är dock formuleringen av hypoteserna som bör se ut så här: H 0 :  1 = 0H 1 :  1  0 Varför det då? Jo det enda som reglerar regressionen är  1. Om denna är 0 finns ingen regression. Vad  0 är spelar ingen som helst roll! Testmetod 1: t- test Testvariabeln beräknas som Vi behöver beräkna s !

Testvariabelns värde blir nu Värdet skall nu jämföras med en t-fördelning med n – 2 = 8 frihetsgrader. Tabellvärdet för 5% nivå (95% konfidensnivå) blir 2.31 Eftersom 2.31 < 4.74 förkastas H 0  Signifikant regression föreligger! Testmetod 2: F-test Testvariabeln beräknas som Med våra data blir Vi jämför med F [0.05] (1,8) = 5.32 Eftersom 22.4 > 5.32 kan H 0 förkastas

d) Beräkna den anpassade modellen förklaringsgrad och tolka denna Förklaringsgraden beräknas till På tentorna ser man ofta att tolkningen glöms bort (  poängavdrag) Tolkningen är att 73.7% av variationen i y förklaras av x. e) Beräkna ett 95% konfidensintervall för det genomsnittliga svaret på koncernnivå för alla koncerner i populationen där svaren på affärsnivå samtliga är 7. Här söker vi alltså ett konfidensintervall för Formel:

f) Gör en prognos av svaret på koncernnivå för en koncern där svaret på affärsenhetsnivå är 7. Beräkna också ett 99% prognosintervall. Denna uppgift är mycket lika e). Lägg bara till en etta under rottecknet i formeln: Notera att den övre gränsen faktiskt ligger utanför det möjliga dataområdet! Glöm inte att specifikt ange att prognosen är 6.5

Den multipla regressionen Här är det svårare att räkna för hand! Från datorutskrifter kan ni räkna med att få ut parameterskattningar (b 0, b 1, …, b k ) medelfel för parameterskattningar ( ) kvadratsummor (SSR, SSE, SST samt SSR(x k | x 1,…,x k – 1 ) dvs. sekventiella kvadratsummor) konfidens- och prognosintervall i en given punkt Vad måste ni själva kunna inse eller beräkna utifrån datorutskriften? antal frihetsgrader (framgår ju av formelsamlingen när man vet n ) medelkvadratsummor, s testvariabler förklaringsgrader omräkning av intervall från 95% till 99% och vice versa

Speciella utskrifter: VIF-värden Resultat från breg Resultat från stepwise Dessa måste förstås kunna tolkas. Utskrifterna på denna punkt ges dock i sin helhet utan “censurering”.

Exempel på uppgift ni förväntas kunna lösa (Övningstentan, uppgift 2) Vid en bank i Chicago har man för 93 anställda samlat in uppgifter om lön y antal utbildningsår vid anställningx 1 tidigare erfarenhet av bankarbete i månaderx 2 anställningstid i månader x 3 kön x 4 = 1 för män och = 0 för kvinnor. Följande visar ett litet utdrag ur datamaterialet: lön (y) utbildningstid (x 1 ) erfarenhet (x 2 ) anst.tid (x 3 ) kön (x 4 )

Man lägger till variabeln x2 · x4 och gör en anpassning av modellen y =  0 +  2 · x 2 +  4 · x 4 +  5 · x 2 · x 4 +  Ett utdrag ur en analys med Minitab är följande: MTB > regress c1 3 c3 c5 c6; SUBC> vif; SUBC> predict Regression Analysis: y versus x2, x4, x2*x4 The regression equation is y = x x x2*x4 Predictor Coef SE Coef T P VIF Constant * * x * * 1.7 x * * 2.2 x2*x * * 2.9 S = R-Sq = * R-Sq(adj) = * Analysis of Variance Source DF SS MS F P Regression * * * Residual Error * Total

Source DF Seq SS x x x2*x Predicted Values for New Observations New Obs Fit SE Fit 95.0% CI 95.0% PI ( , ) ( , ) Values of Predictors for New Observations New Obs x2 x4 x2*x Notera att i denna utskrift har medvetet censurerats bort: T-kvoter och P-värden för dessa Medelkvadratsummor, F-kvot och P-värde R-sq och R-sq(adj)

a) Beräkna (i) den anpassade modellens justerade förklaringsgrad. (ii) ett 95% konfidensintervall för  2 (1p) Analysis of Variance Source DF SS MS F P Regression * * * Residual Error * Total (i) (ii) Predictor Coef SE Coef Constant x x x2*x Residual Error 89

Svarsalternativen i facit är följande: 1 (i) 34.9% (ii) 2.20 ± (i) 32.7% (ii) ± (i) 65.1% (ii) ± (i) 34.9% (ii) ± (i) 34.9% (ii) 2.20 ± (i) 32.7% (ii) 2.20 ± 1.73 Alternativ 6 är alltså det korrekta. Hur har då de andra alternativen uppstått? 34.9% är förklaringsgraden, men det är alltså den justerade som efterfrågas. 65.1% är 100% – R 2 vilket alltså är en felräkning på det som inte efterfrågas 2.20  4.90 uppstår om man får för sig att felmarginalen är kvadraten på s dividerad med roten ur n (93). Långsökt fel!  är ett K.I. för  4. Detta kan av slarv uppstå om man fått för sig att koefficienternas index (i detta fall 2) utgår från i vilken ordning variabeln tas in i analysen.

b) Beräkna ett 99% prognosintervall för lönen hos en kvinnlig anställd med 100 månaders tidigare erfarenhet. (0.5p) Predicted Values for New Observations New Obs Fit SE Fit 95.0% CI 95.0% PI ( , ) ( , ) Values of Predictors for New Observations New Obs x2 x4 x2*x Den prognos och de intervall som redovisas i utskriften är just för en kvinna (x 4 = 0) med 100 månaders erfarenhet (x 2 = 100) Formel för ett 99% prognosintervall: S = 582.2

I tentan ingående t-tabell omfattar inte frihetsgradstalet 89  Helt OK att använda normalfördelningsvärden istället. (står också i tentan)  99% P.I. ger normalfördelningsvärdet Svarsalternativen i facit är följande: 1 (3973,6305) 2 (4991,5287) 3 (3769,6571) 4 (3627,6651) 5 (3755,6523) 6 (4944,5334) Alternativ 4 är alltså det som stämmer. Övriga alternativ: Alternativ 1 är det 95%-iga prognosintervallet som finns i utskriften Alternativ 2 är det 95%-iga konfidensintervallet som finns i utskriften Övriga alternativ är mer långsökta

Man vill testa hypotesen H 0 :  4 =  5 = 0 på 5% nivå. d) Beräkna testfunktionens värde och avgör om nollhypotesen skall förkastas eller ej. (1p) Här skall vi alltså göra ett partiellt F-test. Analysis of Variance Source DF SS Regression Residual Error Total Source DF Seq SS x x x2*x Jämför med F [0.05] (2,89). Tabellen har dock inga frihetsgrader mellan 80 och 100, men värdena sjunker med ökad frihetsgrad.  F [0.05] (2,89). < F [0.05] (2,80) = 3.11 <  H 0 förkastas

Svarsalternativen i facit är följande: 1 Testfunktionens värde=0.53, H 0 förkastas ej 2 Testfunktionens värde=3.81, H 0 förkastas ej 3 Testfunktionens värde=15.88, H 0 förkastas ej 4 Testfunktionens värde=15.88, H 0 förkastas 5 Testfunktionens värde=21.92, H 0 förkastas 6 Testfunktionens värde=23.82, H 0 förkastas Alternativ 5 är alltså det korrekta. Alternativ 1 uppstår om man försöker räkna ut testvariabeln för det “vanliga” F- testet men tar SSR/SSE istället för MSR/MSE. Alternativ 2 uppstår om man tar SSR(x 2 ) istället för SSR(x 4 |x 2 )+SSR(x 2  x 4 |x 2,x 4 ) i täljaren till testvariabeln Alternativ 3 och 4 ger teststorheten för det vanliga F-testet med olika slutsatser. Alternativ 6 är mer långsökt

e) Vilket av följande uttalanden om multikolinjäritetsproblem är inte korrekt? (i) Tecknen på de skattade lutningsparametrarna kan bli orealistiska om problem finns med multikolinjäritet. (ii) Man bör definitivt ta bort två av förklaringsvariablerna i modellen för att undvika svåra problem med multikolinjäritet. (iii) Variabeln x 2 ·x 4 förklaras till (1− 1/2.9 )·100%  65.5% av de andra två förklaringsvariablerna. (iv) VIF–värdena ger information om huruvida en förklaringsvariabel har multipel korrelation med de övriga förklaringsvariablerna. (v) Inget av VIF-värdena är över 10, vilket tyder på måttliga problem med multikolinjäritet. (0.5p) Predictor Coef SE Coef VIF Constant x x x2*x Alternativ (ii) är inte korrekt. Det finns inga svåra problem med multikolinjäritet här då VIF-värdena är långt under 10. Alternativ (iii) är helt korrekt även om det kan låta komplicerat. VIF värdet 2.9 är = 1/(1-R 2 3 ) där R 2 3 är förklaringsgraden i en modell där x 2  x 4 förklaras av x 2 och x 4

Nedan följer ytterligare en analys med samtliga x-variabler inblandade: MTB > breg c1 c2-c6 Best Subsets Regression: y versus x1, x2, x3, x4, x2*x4 Response is y x 2 * x x x x x Vars R-Sq R-Sq(adj) C-p S X X X X X X X X X X X X X X X X X X X X X X X X X

f) Vilket av följande påståenden stämmer bäst beträffande val av modell? (i) Modellen med fem förklaringsvariabler är bäst eftersom den har högst förklaringsgrad. (ii) Modellen med x 1, x 2, x 3 och x 4 bör väljas eftersom dess C–värde är i paritet med vad det bör vara. (iii) Modellen med fem förklaringsvariabler bäst eftersom R 2, R 2 och s 2 samtidigt får gynnsamma värden. (iv) Modellen med x 1 bör väljas p g a att den har högst värde på C. (v) Modellen med x 1, x 3 och x 4 är bäst eftersom dess C–värde är närmast 2 · k + 1. (1p) Alternativ (ii) stämmer bäst. C =4.9 som är det lägsta värdet och samtidigt lägre än antal variabler (4) + 1 Alternativ (i) stämmer inte eftersom förklaringsgraden alltid ökar med antalet variabler. Alternativ (iii) stämmer inte bra. Värdena skall inte vara ”gynnsamma” utan kriterierna skall användas (högst justerad förklaringsgrad eller lägsta godkända värde på C) Alternativ (iv) är tvärt emot vad kriterierna säger Alternativ (v) är nonsens. Sådana kriterier finns inte.

Indexen Beräkning av index brukar ofta upplevas som “jobbigt”! Det finns inga genvägar utan det gäller att behärska formlerna och inse vad man gör. Exempel på uppgift ni förväntas kunna lösa (Övningstentan, uppgift 3) Ett företag säljer golv och färg. Man vill beräkna ett prisindex som speglar företagets prisutveckling på kort sikt och väljer därför ut representantvaror för de två varugrupperna. Följande data har sammanställts: År Varugrupp Golv Färg Totalt Pris, representantvara försäljningsvärde Beräkna ett sammansatt kedjeprisindex av Laspeyre-typ för företagets priser. Ange indexv ärdena för 2003, 2004 och (1p)

Svarsalternativen i facit är följande: (a) 100.0, 105.0, (b) 100.0, 101.5, (c) 100.0, 101.8, (d) 100.0, 101.8, (e) 100.0, 105.0, (f) 100.0, 101.5, Alternativ (c) är det korrekta. Övriga alternativ uppstår om man blandar ihop vad som är försäljningsvärden och priser, om man använder länkarna som index etc. Avrundningsfel kan inte ge ett av de andra svarsalternativen. Sådant kollas alltid noggrant när alternativen skapas!

Elasticitetsmodellerna och de exponentiella modellerna “Knäcknöten” är logaritmerandet. I elasticitetsmodellerna står förklaringsvariabeln/variablerna i basen/baserna och parametern/parametrarna i exponenten/exponenterna (som tidigare används 10-logaritmen lg här för att inte komplicera saker och ting): Modell i originalskala Logaritmerad modell Räknande “för hand” kan bara göras i modeller med en förklaringsvariabel Då kan allt användas från enkel linjär regression

Exempel Modellen analyseras genom att tillämpa enkel linjär regression på det logaritmerade sambandet I formlerna ersätts därför y med log y och x med log x. I den logaritmerade modellen ingår  1 på samma sätt som i en enkel regression, dvs. framför det som utgör x-variabel   0 ingår dock inte på samma sätt som i enkel linjär regression utan i logaritmerad form. 

Exempel på uppgift ni förväntas kunna lösa (Övningstentan, uppgift 4) Man har anpassat en modell där efterfrågan, Q av en viss vara förklaras av en prisvariabel, P. Såväl Q som P har justerats för inflationseffekter. Modellen är följande: där E P är priselasticiteten och  är en slumpvariabel. Nedanstående Minitab-analys har genomförts: The regression equation is lg(Q) = lg(P) Predictor Coef SE Coef T P Constant lg(P) S = R-Sq = 42.1% R-Sq(adj) = 38.9% Analysis of Variance Source DF SS MS F P Regression Residual Error Total Testa på 5% nivå H 0 : E P  −1 mot H 1 : E P > −1. Ange teststorhetens värde samt om H 0 förkastas eller ej.

Den logaritmerade modellen som analyserats är Det innebär att det skattade värdet (b 1 ) i utskriften, dvs. – är skattningen av E P (alltså inte något logaritmerat värde). Däremot går det inte att använda den beräknade T-kvoten i utskriften, för den gäller ju ett test av hypotesen H 0 : E P = 0 och det är inte den hypotesen vi testar. Den testvariabel vi behöver för att testa H 0 : E P  −1 mot H 1 : E P > −1 beräknas som Jfr. Formelsamlingen, sid. VI. B är i detta fall = –1. (Där skrivs ”log” istället för ”lg” men det har ingen betydelse.) Här behöver vi dock inte manuellt beräkna nämnaren. Den fås ur utskriften under kolumnen ”SE Coef”. Notera att denna inte påverkas av vilket B som sätts in i formeln!  Predictor Coef SE Coef Constant lg(P) Frihetsgraderna är 18 och testet är enkelsidigt. Tabellvärdet blir därför 1.73 (kolumnen 0.90 i tabellen) –1.32 > –1.73  H 0 förkastas ej!

Svarsalternativen i facit är följande: 1. Testvariabelns värde= –3.62, H 0 förkastas ej 2. Testvariabelns värde=5.15, H 0 förkastas ej 3. Testvariabelns värde= – 1.32, H 0 förkastas ej 4. Testvariabelns värde=6.28, H 0 förkastas 5. Testvariabelns värde= – 3.62, H 0 förkastas 6. Testvariabelns värde=13.10, H 0 förkastas Alternativ 3 är alltså det korrekta. Värdet –3.62 är T-kvoten i utskriften, som alltså inte är korrekt att använda. Övriga värden är mer långsökta. Värdet 5.15 är T-kvoten i utskriften för konstanten, som inte har med detta att göra. Övriga alternativ är mer långsökta.

I de exponentiella modellerna står parametern/parametrarna i basen/baserna och förklaringsvariabeln/variablerna i exponenten/exponenterna. Modell i originalskala Logaritmerad modell Räknande “för hand” kan bara göras i modeller med en förklaringsvariabel Då kan allt användas från enkel linjär regression

Exempel Modellen analyseras genom att tillämpa enkel linjär regression på det logaritmerade sambandet: I formlerna ersätts därför y med log y men x logaritmeras inte. I det logaritmerade sambandet ingår parametrarna  0 och  1 i logaritmerad form. 

Exempel på uppgift om exponentiella modeller ni förväntas kunna lösa (ej ingående i övningstentan) 4. Ett okänt belopp placerades för länge sedan i en intressant fond och har behållits i denna. För att skatta avkastningen på fonden mellan åren 1990 och 2004 införs en parameter, r och man antar att modellen v t = v 0 · (1 + r) t−1989  t Gäller, där v t är värdet år t, v 0 är det förväntade värdet år 1989 och  t är en slumpstörning sådan att lg  är N(0,  ). För befintliga data över värdena de aktuella åren har följande analyser gjorts i Minitab.

Regression Analysis: v versus (t-1989) The regression equation is v = (t-1989) Predictor Coef SE Coef T P Constant (t-1989) S = R-Sq = 89.6% R-Sq(adj) = 88.8% Regression Analysis: v versus lg(t-1989) The regression equation is v = lg(t-1989) Predictor Coef SE Coef T P Constant lg(t-1989) S = R-Sq = 72.8% R-Sq(adj) = 70.8%

Regression Analysis: lg(v) versus (t-1989) The regression equation is lg(v) = (t-1989) Predictor Coef SE Coef T P Constant (t-1989) S = R-Sq = 93.6% R-Sq(adj) = 93.1% Regression Analysis: lg(v) versus lg(t-1989) The regression equation is lg(v) = lg(t-1989) Predictor Coef SE Coef T P Constant lg(t-1989) S = R-Sq = 83.8% R-Sq(adj) = 82.5% Skatta på lämpligt sätt parametern r och testa på 5% nivå H 0 : r > 0. Svara med det skattade värdet samt om testet är signifikant eller ej. (1p)

Modellen är en exponentiell modell. Den beroende variabeln är i detta fall v t och förklaringsvariabeln är t eller t – Att man här har valt att dra bort 1989 är för att få en naturlig koppling till “nollan” i v 0. År 1989 blir här alltså år 0, den tidpunkt som motsvarar grundkapitalet. För att kunna analysera med regressionsanalys måste vi logaritmera modellen: I en regressionsanalys skall alltså lg v utgöra y-variabeln och t – 1989 x-variabeln. Det blir därför den tredje av de fyra Minitab-analyserna som skall användas. Från den kan vi avläsa skattad lutningsparameter (dvs. tillfällig b 1 ):  Genomsnittlig avkastning skattas alltså till c:a 6.6%

För att kunna testa H 0 : r > 0 krävs att vi omformar hypotesen så att den istället gäller för lg(1+r). r > 0 blir detsamma som att 1 + r > 1 vilket blir detsamma som att lg(1+r) > 0. Vi kan alltså direkt från analysen använda den beräknade t-kvoten (eftersom den just handlar om lg(1+r). T är Vi ser på P-värdet att den är signifikant, men observera att detta P- värde gäller för en dubbelsidig mothypotes, dvs. för hypotesparet H 0 : lg(1+r) = 0 H a : lg(1+r)  0 Vad blir skillnaden med en enkelsidig mothypotes? 1)Kolla först så att själva värdet på T-kvoten är positivt. Det är det i detta fall, men om det skulle ha varit negativt har vi inget bevis för att lg(1+r) är större än noll. 2) Om det dubbelsidiga testet är signifikant så är även det enkelsidiga det (förutsatt att testvariabeln är positiv, vilket den alltså är)

Den här uppgiften är förstås aningen svårare, men räkna med att det kan finnas en och annan “kluring” med. Felaktiga svarsalternativ på denna uppgift skulle utgöras av svar där man använd resultat från de andra Minitab-anayserna, kombinerade med olika slutsatser om signifikansen.

Tidsserieanalysen Mycket av detta examineras genom inlämningsuppgiften. Det handlar om att lära sig använda modeller för tidsserieregression och klassisk komponentuppdelning samt exponentiella utjämningsmetoder för prognoser. Själva räknandet görs dock uteslutande med datorns hjälp. Visst hum om stationaritet och ARMA-modeller ingår också, men ingen kunskap om hur man räknar förutsätts. För att få den totala examinationen individuell finns en uppgift med på tentan. Den brukar vara värd max. 1.5 poäng. Denna kan handla om att kunna tolka en utskrift från tidsserieregression eller klassisk komponentuppdelning kunna tolka en utskrift från enkel eller dubbel exponentiell utjämning eller Winters’ metod kunna för hand beräkna en prognos med hjälp av skattade komponenter från en komponentuppdelning kunna besvara diverse teorifrågor runt tidsserieanalys

Exempel på uppgift ni förväntas kunna lösa (Övningstentan, uppgift 5) Nedanstående diagram visar kvartalsvisa försäljningsvärden 1985–1994 hos ett företag, som säljer vintersportartiklar. Man har gjort en analys med Minitab och bl a fått följande resultat: Time Series Decomposition Data sales Length NMissing 0 Trend Line Equation Yt = *t Seasonal Indices Period Index Accuracy of Model MAPE: MAD: MSD:

a) Vilken av följande tolkningar rörande de skattade säsongkomponenterna är korrekt? (i) Försäljningen i första kvartalet är i genomsnitt c:a 15 enheter högre än trendnivån. (ii) Försäljningen i första kvartalet är i genomsnitt c:a 15% högre än trendnivån. (iii) Försäljningen under april-september ligger i genomsnitt drygt 13% under årsgenomsnittet. (iv) Försäljningen i fjärde kvartalet ligger i genomsnitt c:a 3% under försäljningen i det första kvartalet. (v) Försäljningen i fjärde kvartalet ligger i genomsnitt c:a 12 enheter över genomsnittet under perioden 1985–1994. (vi) Försäljningen i fjärde kvartalet ligger i genomsnitt c:a 12 procent över genomsnittet under perioden 1985–1994. (0.5p) Seasonal Indices Period Index Den modell som anpassats är additiv. Detta syns på att säsongskomponenterna varierar runt 0. Säsongskomponenterna skall därför tolkas som avvikelser i enheter och inte i %. Vidare tolkas alltid säsongskomponenter som avvikelse från trendnivån i en komponentupp- delningsmodell.  Alternativ (i) är korrekt, övriga är felaktiga.

b) Beräkna prognoser av försäljningsvärdena för kvartal 1 och 2 år (1p) Använd skattad trendfunktion och säsongskomponent för respektive kvartal. Tidpunkterna som de två kvartalen motsvarar är 41 och 42. Detta kan inses direkt från utskriften (man behöver inte räkna alla kvartal från 1985 till 1994) Time Series Decomposition Data sales Length NMissing 0 Trend Line Equation Yt = *t Seasonal Indices Period Index Prognoserna blir Kvartal 1, 1995: Kvartal 2, 1995:

Svarsalternativen i facit är följande: , , , , , , Alternativ 1 är det korrekta. Alternativ 2 fås om man glömmer säsongskomponenterna Alternativ 3 fås om man tror att säsongskomponenterna är i % och alltså multiplicerar trendskattningen med resp. med (1 – ) Övriga alternativ är mer långsökta.

c) Vilket av följande påståenden är sant? (i) Diagrammet med rubrik “Seasonally Adjusted Data” i figur 3 innehåller enbart information om trend- och slumpkomponent (ii) I diagrammet med rubrik “Seasonally Adj. and Detrended Data” i figur 3 kan man se om det kan finnas någon cyklisk variation i data. (iii) I diagrammet med rubrik “Detrended Data” i figur 3 finns enbart information om säsongkomponent. (iv) Diagrammet (och dess bakomliggande värden) med rubrik “Seasonally Adjusted Data” i figur 3 är det som används för att beräkna prognoser av framtida värden. (v) Diagrammet med rubrik “Seasonally Adj. and Detrended Data” i figur 3 visar på en svagt nedåtgående trend i originaldata, som är dold av säsongsvariationen i diagrammet över originaldata. (vi) Inget av diagrammen i figur 3 ger någon information om slumpkomponenten. (0.5p) Alternativ (ii) är sant. Alternativ (i) stämmer inte då man aldrig kan bortse från cyklisk variation. Alternativ (iii) stämmer inte då information om såväl cyklisk som oregelbunden komponent finns där. Alternativ(iv) är nonsens. Alternativ (v) är inte korrekt eftersom såväl säsong som trend är bortrensad Alternativ (vi) stämmer inte. Information om denna finns i alla diagram.