Regression Har långa högre inkomst?. Världsrekord på engelska milen.

Slides:



Advertisements
Liknande presentationer
Punkt- och intervallskattning Felmarginal
Advertisements

Icke-linjära modeller:
FL4 732G70 Statistik A Detta är en generell mall för att göra PowerPoint presentationer enligt LiUs grafiska profil. Du skriver in din rubrik,
Regressions- och tidserieanalys, 5 p
Exempel Utifrån medicinsk erfarenhet är 5% av befolkningen smittade av ett visst virus. Ett nytt test har visat sig ge 80% av de smittade korrekt diagnos.
Hur bra är modellen som vi har anpassat?
Numeriska beräkningar i Naturvetenskap och Teknik
Regressions- och tidsserieanalys
FL3 732G81 Linköpings universitet.
Linda Wänström och Elisabet Nikolic (Karl Wahlin)
F11 Olika urvalsmetoder, speciellt obundet slumpmässigt urval (OSU)
Tillämpad statistik Naprapathögskolan
Felkalkyl Ofta mäter man inte direkt den storhet som är den intressanta, utan en grundläggande variabel som sedan används för att beräkna det som man är.
Grundlägande statistik,ht 09, AN1 F5 Kombinatorik (KW 1.6) Ex.: På en matsedel finns tre förrätter, två huvudrätter och två efterrätter. På hur många olika.
Skattningens medelfel
Chitvå-test Regression forts.
Lunds Tekniska Högskola, 18 november 2011
2. Enkel regressionsanalys
Experimentell utvärdering Språkteknologisk forskning och utveckling (HT 2006)
Regressionsanalys Vi vill ha svar på frågan hur mycket kommer y att förändras om x ändras med enhet. Sambandets funktionsform Tillåta att andra saker än.
Centrala Gränsvärdessatsen:
Ekonometrisk analys av fastighetsmarknader
En mycket vanlig frågeställning gäller om två storheter har ett samband eller inte, många gånger är det helt klart: y x För en mätserie som denna är det.
Fysikexperiment 5p Föreläsning Korrelationer Ett effektivt sätt att beskriva sambandet mellan två variabler (ett observationspar) är i.
Binomialsannolikheter ritas i ett stolpdiagram
732G71 Statistik B Institution: IDA, avd. för statistik
1 Regression Analysis: Hyra versus Kv-meter The regression equation is Hyra = Kv-meter Predictor Coef SE Coef T P Constant
Multipel linjär regressionsanalys
Simulering Introduktion Exempel: Antag att någon kastar tärning
Hur bra är modellen som vi har anpassat?
Linjär regression föreläsning 9
Sambandsmodeller, 10 p = 15 hp
3. Multipel regression 2005 © Rune Höglund Multipel regression.
Från att värdera ett enstaka fastighetsobjekt till att göra en fastighetsprisprognos avseende Mats Wilhelmsson KTH.
Matematisk statistik och signal-behandling - ESS011 Föreläsning 3 Igor Rychlik 2015 (baserat på föreläsningar av Jesper Rydén)
Kvadratsummeuppdelning/Variansanalys
Regressionsanalys Vi vill ha svar på frågan hur mycket kommer y att förändras om x ändras med enhet. Sambandets funktionsform Tillåta att andra saker än.
Slumptal Pseudoslumptal Fysikexperiment 5p Föreläsning 2
Exempel: Vad påverkar kostnaden för produktion av korrugerat papper, dvs sådant som ingår i wellpapp och kartonger? Amerikansk studie: Kostnaden kan förmodligen.
Fysikexperiment, 5p1 Random Walk 36 försök med Random walk med 1000 steg. Beräknad genomsnittlig räckvidd är  1000  32. Visualisering av utfallsrum.
Regression Analysis The regression equation is Sold = 5,78 + 0,0430 time Predictor Coef StDev T P Constant 5,7761 0,9429 6,13 0,000 time 0, ,03420.
Regressions- och tidsserieanalys
1 Om sambandet inte är linjärt? Om sambandet till en variabel inte är linjärt så kan vi inkludera ytterligare en term i regressionsmodellen I en modell.
Kvadratisk regression, forts.
Grundläggande statistik, ht 09, AN1 F6 Slumpmässigt urval 1. Population där X är diskret med fördelningen p(x). Medelvärdet μ och variansen σ². Observationer:
Tidsserieanalys Exempel:
1 Normalfördelningsmodellen. 2 En modell är en förenklad beskrivning av någon del av verkligheten. Beskrivningen måste vara relevant för det vi skall.
1 Stokastiska variabler. 2 Variabler En variabel är en egenskap hos en individ /objekt. En variabel kan, som vi tidigare sett, vara kvalitativ eller kvantitativ.
1 Dummyvariabler (se 15.7) Man stöter ofta på förklaringsvariabler där den skala som använts vid mätning ej ger intervall- eller kvotskala. Denna typ av.
Samband och förändring. Delen i procent Finns två metoder. Antingen räknar man först 1 % (genom att dividera med 100) och multiplicerar till den procenten.
Medicinsk statistik II Läkarprogrammet T5 HT 2013 Susann Ullén FoU-centrum Skåne Skånes Universitetssjukhus.
Statistik för AT-läkare Robert Hahn, Södertälje sjukhus.
Föreläsning 5 Kap 13 Tidsserier- vad är det? Trend/Säsong/Konjuktur/Slump Identifiering av trender (Glidande medelvärde) Säsongsmedelvärdesmetoden Säsongsdummymetoden.
Modell för konsumtionen i Sverige Från Baudins kompendium.
Deskription Normalfördelningsmodellen 1. 2 En modell är en förenklad beskrivning av någon del av verkligheten. Beskrivningen måste vara relevant för det.
1 Icke-linjär regression Sid (i kapitel 16.1)
Statistisk hypotesprövning. Test av hypoteser Ofta när man gör undersökningar så vill man ha svar på olika frågor (s.k. hypoteser). T.ex. Stämmer en spelares.
Föreläsning 4 (Kajsa Fröjd) Multipel regression Kap 11.3 A.Man har en kvantitativ responsvariabel som är linjärt relaterad till en/flera kvantitativa förklarande.
Diskreta slumpvariabler. Stokastiskvariabel En slumpvariabel (stokastisk variabel) är en Funktion eller regel som tilldelar ett tal till varje Utfall.
1. Kontinuerliga variabler
1 Multipel Regression Kapitel Modell Vi har p oberoende variabler som vi tänker oss kan vara relaterade till den beroende variabeln. Y ~ N( , 
Korstabeller och logistisk regression Samband mellan kvalitativa variabler.
INFERENS & SAMBAND. population Population Stickprov, urval INFERENS = Dra slutsatser om hela populationen utifrån ett stickprov Data, observationer.
Föreläsning 4 Kap 11.3 Icke-linjära modeller Indikatorvariabel (dummyvariabel) Interaktionsterm.
Enkel Linjär Regression. 1 Introduktion Vi undersöker relationer mellan variabler via en matematisk ekvation. Motivet för att använda denna teknik är:
1 Utvärdering och tolkning: MBA Program Admission Policy Rektorn vid ett stort universitet vill höja standarden på de som antas till deras populära MBA-program.
Icke-linjära modeller:
Multipel regression och att bygga (fungerande) modeller
Relation mellan variabler – samvariation, korrelation, regression
Grundlägande statistik,ht 09, AN
Presentationens avskrift:

Regression Har långa högre inkomst?

Världsrekord på engelska milen

Metabolismen hos djur, Watt mot kilo

Regression Ex Finns det något samband mellan längd å ena sidan och kön och faderns längd å andra? En regressionsanalys kan visa på ev. samband

Resultat av regressionsanalys R-2, mått på hur bra hela modellen är Om R-2 är nära 1 är modellen bra, Nära noll dålig…

F-test

T-test:

Enkel linjär regression Enkel linjär regressionsmodell: Y=  0 +  1 x +  Systematisk del Stokastisk (slumpmässig) del där Y är beroende variabel, den variabel som vi vill förklara eller prediktera. Den kallas även responsvariabel. x är oberoende variabel, även kallad förklaringsvariabel.  är störningsterm (felterm), den stokastiska delen i modellen, dvs den enda källan till slumpmässighet i Y.  0 är linjens intercept, dvs där linjen skär y-axeln.  1 är linjens lutning.

Enkel linjär regression (forts.) X Y E[Y]=  0 +  1 x XiXi } }  1 = Slope 1  0 = Intercept YiYi { Error:  i Regression Plot Den enkla linjära regressionsmodellen ansätter ett exakt linjärt samband mellan väntevärdet (eller genomsnittliga) värdet på Y, den beroende variabeln, och x, den obereonde variabeln: E[Y i ]=  0 +  1 x i Det faktiska observerade värdet på Y skiljer sig från väntevärdet med ett slumpmässigt fel: Y i = E[Y i ] +  i =  0 +  1 x i +  i

Antaganden X Y E[Y]=  0 +  1 X Antaganden Normalfördelande feltermer, centrerade på regressionslinjen och med lika stor varians. Relationen mellan x och Y är linjärt.

Antaganden om är normal fördelad Har väntevärde noll: E( ) = 0 Dess standardavvikelse är lika och oberoende av x. Värdet av ett är oberoende av andra.

Skattning av modellen Skattning av modellen (den linjära relationen) innebär att skatta värdet på interceptet och lutningen på regressionslinjen. Den skattade regressionsekvationen: Y = b 0 + b 1 x + e där b 0 är ett estimat (skattning) av interceptet,  0 b 1 är ett estimat av lutningen,  1 e är observerade feltermer – så kallade residualer, dvs skillnaden mellan den skattade regressionslinjen = b 0 + b 1 x och de n punkterna. kallas “y-tak”

Minsta-kvadratmetoden (Method of Least Squares) Minsta-kvadratmetoden är en speciell metod för att skatta parametrarna i modellen. Med minsta-kvadrat metroden väljs de skattade parametrarna så att summan av residualerna i kvadrat minimeras. X Y Data Y Residualer. Summan av kvadraterna av residualerna minimeras. X

Minsta-kvadratmetoden (forts.). { y x xixi

Total varians och variansen för feltermen Y X Vad du ser när du tittar på den totala variationen för Y, är variansen för Y. X Vad du ser när du tittar längs med regressionslinjen, är feltermsvariansen (error variance) dvs. Y

Hur ”bra” är modellen? Förklaringsgraden (coefficient of determination), r 2, är ett mått som beskriver styrkan på regressionssambandet, ett mått på hur väl regressionslinjen passar data.. { Y X { } Total Deviation Explained Deviation Unexplained Deviation Procent av totala variationen som förklaras av regressionen.

SST: mått på den totala variationen SSE: mått på variationen kring den skattade linjen.

Förklaringsgrad, r 2 Y X r 2 =0 SSE SST Y X r 2 =0.90 SSESSE SST SSR Y X r 2 =0.50 SSE SST SSR

Modellkontroll

Modell där längd förklaras med fars längd

Skatta …

Modell med bara kön Dummyvariable för kön

Resultat av regressionsanalys, bägge variablerna

Modell kontroll Spara prediktioner och residualer Plotta dessa Gör histogram för residualerna

Y-tak

Histogram över residualer:

Prediktion Punktprediktion Ett punktestimat av Y för ett visst värde på x, som fås av att sätta in värdet på x i den skattade regressionsekvationen. Prediktionsintervall För ett värde på Y givet ett visst värdet på x. Osäkerheten (variationen) i skattningen av regressionlinjen Variationen runt regressionslinjen Konfidensintervall För väntevärdet för Y givet ett visst värde på x, dvs för E[Y|x]. Osäkerheten (variationen) i skattningen av regressionlinjen

Konfidensintervall för E[Y|x] X Y X Y Regressionslinje Övre gräns för lutningen Nedre gräns för lutningen 1) Osäkerhet om lutningen X Y X Y Regressionslinje Övre gräns för interceptet Nedre gräns för interceptet 2) Osäkerhet om interceptet.

Konfidensintervall för E[Y|x] (forts.) X Y X Konfidensintervall för E[Y|x] Y Regressions- linje Konfidenintervall för E[Y|x]

Konfidensintervall för E[Y|x] (forts.)

Prediktionsintervall för Y 3) Variation runt linjen + osäkerhet om linjen, dvs 1) och 2). X Y Regression linje X Y X Prediktionsintervall för Y Y Regressions- linje Konfidensband för E[Y|x] Prediktionsband för Y

Prediktionsintervall för Y (forts.)