Enkel Linjär Regression. 1 Introduktion Vi undersöker relationer mellan variabler via en matematisk ekvation. Motivet för att använda denna teknik är:

Slides:



Advertisements
Liknande presentationer
Punkt- och intervallskattning Felmarginal
Advertisements

Inferens om en population Sid
Icke-linjära modeller:
FL4 732G70 Statistik A Detta är en generell mall för att göra PowerPoint presentationer enligt LiUs grafiska profil. Du skriver in din rubrik,
Klusterurval, forts..
Hur bra är modellen som vi har anpassat?
Numeriska beräkningar i Naturvetenskap och Teknik
FL8 732G70 Statistik A Detta är en generell mall för att göra PowerPoint presentationer enligt LiUs grafiska profil. Du skriver in din rubrik,
732G22 Grunder i statistisk metodik
FL10 732G81 Linköpings universitet.
Inferens om en ändlig population Sid
Jämförelse av två populationer Sid
Kapitel 5 Stickprovsteori Sid
Linda Wänström och Elisabet Nikolic (Karl Wahlin)
F11 Olika urvalsmetoder, speciellt obundet slumpmässigt urval (OSU)
Workshop i statistik för medicinska bibliotekarier!
Tillämpad statistik Naprapathögskolan
2. Enkel regressionsanalys
Regressionsanalys Vi vill ha svar på frågan hur mycket kommer y att förändras om x ändras med enhet. Sambandets funktionsform Tillåta att andra saker än.
Förelasning 6 Hypotesprövning
En mycket vanlig frågeställning gäller om två storheter har ett samband eller inte, många gånger är det helt klart: y x För en mätserie som denna är det.
Fysikexperiment 5p Föreläsning Korrelationer Ett effektivt sätt att beskriva sambandet mellan två variabler (ett observationspar) är i.
FL7 732G70 Statistik A Detta är en generell mall för att göra PowerPoint presentationer enligt LiUs grafiska profil. Du skriver in din rubrik,
Binomialsannolikheter ritas i ett stolpdiagram
Multipel linjär regressionsanalys
Simulering Introduktion Exempel: Antag att någon kastar tärning
Föreläsning 7 Fysikexperiment 5p Poissonfördelningen Poissonfördelningen är en sannolikhetsfördelning för diskreta variabler som är mycket.
Hur bra är modellen som vi har anpassat?
Linjär regression föreläsning 9
F8 Hypotesprövning. Begrepp
Regressionsanalys Vi vill ha svar på frågan hur mycket kommer y att förändras om x ändras med enhet. Sambandets funktionsform Tillåta att andra saker än.
Fysikexperiment, 5p1 Random Walk 36 försök med Random walk med 1000 steg. Beräknad genomsnittlig räckvidd är  1000  32. Visualisering av utfallsrum.
Regressions- och tidsserieanalys
732G22 Grunder i statistisk metodik
1 Om sambandet inte är linjärt? Om sambandet till en variabel inte är linjärt så kan vi inkludera ytterligare en term i regressionsmodellen I en modell.
1 Fler uträkningar med normalfördelningstabell Låt X vara Nf(170,5). Beräkna Lösning:
Grundläggande statistik, ht 09, AN
Grundläggande statistik, ht 09, AN1 F6 Slumpmässigt urval 1. Population där X är diskret med fördelningen p(x). Medelvärdet μ och variansen σ². Observationer:
1 Normalfördelningsmodellen. 2 En modell är en förenklad beskrivning av någon del av verkligheten. Beskrivningen måste vara relevant för det vi skall.
K9: sid. 1 Kapitel 9 Phillipskurvan, jämviktsarbetslösheten och inflationen   IDAG:   Arbetslöshet, priser och inflation.   Phillips-kurvan – en.
SAMBAND. Vi vill undersöka om det finns ett samband mellan tentamensresultat och genomsnittligt antal timmar/dag man studerat. Person ABCDEFGHIJ Timmar/
1 Dummyvariabler (se 15.7) Man stöter ofta på förklaringsvariabler där den skala som använts vid mätning ej ger intervall- eller kvotskala. Denna typ av.
Samband och förändring. Delen i procent Finns två metoder. Antingen räknar man först 1 % (genom att dividera med 100) och multiplicerar till den procenten.
Medicinsk statistik II Läkarprogrammet T5 HT 2013 Susann Ullén FoU-centrum Skåne Skånes Universitetssjukhus.
  2 f ( 2 ) Chi-Square Distribution: df=10, df=30, df=50 df = 10 df = 30 df = 50 Chi-2-fördelningen.
Föreläsning 5 Kap 13 Tidsserier- vad är det? Trend/Säsong/Konjuktur/Slump Identifiering av trender (Glidande medelvärde) Säsongsmedelvärdesmetoden Säsongsdummymetoden.
Modell för konsumtionen i Sverige Från Baudins kompendium.
Deskription Normalfördelningsmodellen 1. 2 En modell är en förenklad beskrivning av någon del av verkligheten. Beskrivningen måste vara relevant för det.
1 Icke-linjär regression Sid (i kapitel 16.1)
Statistisk hypotesprövning. Test av hypoteser Ofta när man gör undersökningar så vill man ha svar på olika frågor (s.k. hypoteser). T.ex. Stämmer en spelares.
Statistisk inferensteori. Inledning Den statistiska inferensteorin handlar i huvudsak om att dra slutsatser från ett slumpmässigt urval (sannolikhetsurval)
Kvantitativa forskningsmetoder Sociologi A VT 2015 Ilkka Henrik Mäkinen (momentansvarig)
1. Kontinuerliga variabler
Samband & Inferens Konfidensintervall Statistisk hypotesprövning –Hypotetisk –deduktiv metod Samband mellan nominal/ordinal-variabler –Chi2-test Samband.
Hypotesprövning. Statistisk hypotesprövning och hypotetisk-deduktiv metod Hypotetisk-deduktiv metod: –Hypotes: Alla svanar är vita. –Empirisk konsekvens:
1 Multipel Regression Kapitel Modell Vi har p oberoende variabler som vi tänker oss kan vara relaterade till den beroende variabeln. Y ~ N( , 
Korstabeller och logistisk regression Samband mellan kvalitativa variabler.
Samband & Inferens Konfidensintervall Statistisk hypotesprövning –Hypotetisk –deduktiv metod Samband mellan nominal/ordinal-variabler –Chi2-test Samband.
Samband & Inferens Konfidensintervall Statistisk hypotesprövning
INFERENS & SAMBAND. population Population Stickprov, urval INFERENS = Dra slutsatser om hela populationen utifrån ett stickprov Data, observationer.
INFERENS & SAMBAND. population Population Stickprov, urval INFERENS = Dra slutsatser från data om hela populationen utifrån ett stickprov Data, observationer.
Regression Har långa högre inkomst?. Världsrekord på engelska milen.
Samband & Inferens Hypotetisk –deduktiv metod Samband mellan nominal/ordinal-variabler –Chi2-test Samband mellan kvot-varibaler –Korrelationskoefficient.
Föreläsning 4 Kap 11.3 Icke-linjära modeller Indikatorvariabel (dummyvariabel) Interaktionsterm.
INFERENS OCH SAMBAND. Vi vill undersöka om det finns ett samband mellan tentamensresultat och genomsnittligt antal timmar/dag man studerat. Person ABCDEFGHIJ.
1 Utvärdering och tolkning: MBA Program Admission Policy Rektorn vid ett stort universitet vill höja standarden på de som antas till deras populära MBA-program.
Lite matterepetition Räknesätten, bråk, förkorta, parenteser
Icke-linjära modeller:
Multipel regression och att bygga (fungerande) modeller
Relation mellan variabler – samvariation, korrelation, regression
Presentationens avskrift:

Enkel Linjär Regression

1 Introduktion Vi undersöker relationer mellan variabler via en matematisk ekvation. Motivet för att använda denna teknik är: –Att vi vill prediktera värdet på en beroende variabel (y) från värden på oberoende variabler (x 1, x 2,…x k.). –Att vi vill analysera relationen mellan de oberoende variablerna och den beroende variabeln.

Husets storlek Hus- kostnad Tomtkostnad ca $25,000 Att bygga ett hus kostar ca $75 per kvadratfot. Kostnad = (Storlek) 2 Modellen Modellen har en “deterministisk” komponent och en slumpkomponent.

Kostnad = (Storlek) Husets storlek Hus- kostnad Tomtkostnad $25,000   Men kostnaden varierar även för hus av samma storlek! Eftersom kostnaden delvis är oförutsägbar lägger vi till en slumpterm.

En första ordningens linjär modell y = beroende variabel x = oberoende variabel (förklaringsvariabel)  0 = y-intercept  1 = linjens lutning  = slumpterm x y 00 Run Rise   = Rise/Run  0 och  1 är okända populations- parametrar, som skattas med hjälp av data.

3. Skattning av regressionskoefficienter Skattningarna ges genom att man –drar ett sampel från populationen –beräknar vissa sampelstatistikor –beräknar en rät linje som går rakt genom datamaterialet.           Fråga: Vad skall vi betrakta som en “bra” linje? x y

Minsta-kvadrat-skattning En “bra” linje är en linje som minimerar summan av kvadrerade differenser mellan observationerna och linjen.

3 3     (1,2) 2 2 (2,4) (3,1.5) Summa av kvadrerade differenser =(2 - 1) 2 +(4 - 2) 2 +( ) 2 + (4,3.2) ( ) 2 = 6.89 Summa av kvadrerade differenser =(2 -2.5) 2 +( ) 2 +( ) 2 +( ) 2 = Låt oss jämföra två linjer Den andra linjen är horisontal Ju mindre kvadratsumman är desto bättre anpassar linjen till data.

MK-skattningar av  1 och  0 MK-skattningar av  1 och  0 fås på följande sätt: Den skattade linjen blir då:

Exempel –En bilförsäljare vill veta relationen mellan vägmätarens ställning och priset på begagnade bil. –Han/hon tar ett urval av 100 begagnade bilar och noterar vägmätarställning och pris. –Beräkna regressionslinjen. Oberoende variabel x Beroende variabel y Enkel linjär regression

Lösning –Först “för hand” och sedan med Excel:

Detta är linjens lutning. För varje mile på vägmätaren minskar genomsnittspriset med tusen dollar. Tolkning Interceptet är b 0 = tusen dollar. 0Inga obs. Tolka inte interceptet som “Genomsnittspriset på bilar som har gått noll miles” 17249

4. Antaganden för  Vill vi beräkna konfidensintervall och genomföra statistiska hypotesprövningar måste följande fyra antaganden vara uppfyllda: –  är normalfördelad. –Väntevärdet för  är noll: E(  ) = 0. –Standardavvikelsen för  är   för alla värden på x. –Slumptermer för olika värden på y är alla oberoende.

Våra antagnaden innebär att y är normalfördelad med väntevärdet E(y) =  0 +  1 x, och en konstant standardavvikelse   Våra antagnaden innebär att y är normalfördelad med väntevärdet E(y) =  0 +  1 x, och en konstant standardavvikelse     0 +  1 x 1  0 +  1 x 2  0 +  1 x 3 E(y|x 2 ) E(y|x 3 ) x1x1 x2x2 x3x3  E(y|x 1 )  Standardavvikelsen är konstant, men väntevärdet förändras med x

5. Utvärdering av modellen Med minstakvadratmetoden kan man alltid räkna fram en linje oavsett om det existerar ett linjärt samband eller ej. Det är därför viktigt att alltid utvärdera hur pass väl modellen överensstämmer med verkligheten (de data man samlat in). Vi kommer att titta på flera olika sätt för att utvärdera modellen. Alla bygger på något sätt på residualkvadratsumman, SSE.

–Detta är summan av de kvadrerade skillnaderna mellan observationerna och den skattade linjen. –Residualkvadratsumman kan fungera som ett mått på hur väl linjen anpassar till data. SSE definieras som Residualkvadratsumman

–Om   är liten tenderar slumptermerna att vara när noll. Detta innebär att modellen anpassar väldigt bra till “verkligheten” (våra data). –En estimator av   får vi som “Standard Error of Estimate” (egentligen en skattning av standardavvikelsen för 

Utgå ifrån exempel 17.2 och beräkna en skattning av standardavvikelsen för  Lösning (se t.ex. Minitab-utskriften på sid 587): “Standard Error of Estimate” Exempel

                      Test av lutning (  1 ) –När det inte finns någon linjär relation mellan variablerna bör regressionslinjen vara horisontal.                                                                                           Olika värden på x ger olika medelvärden för y. Ingen linjär relation. Olika värden på x ger samma medelvärde för y Lutningen är skild från noll Lutningen är lika med noll Linjär relation.

Vi kan dra slutsatser om  1 från b 1 t.ex. genom en hypotesprövning H 0 :  1 = 0 H 1 :  1  0 (eller 0) –Teststatistika: –Om  är normalfördelad så är teststatistikan t- fördelad med n-2 frihetsgrader. Standardavvikelsen för b 1. där

Fortsättning på exempel med bilarna.Vi skall testa om det finns tillräckligt med empiriskt stöd för hypotesen att det finns ett linjärt samband mellan vägmätarens ställning och priset på tre år gamla Ford Tauruses. Använd signifikansnivån  = 5%. Test av  1 Exempel

Lösning –H 0 :  1 =0 H 1 :  1  0 (Vi tar ett dubbelsidigt test) –För att beräkna en observation på t behöver vi en observation på b 1 och en skattad standardavvikelse för b 1 (se t.ex. sid 587). –Med 98 frihetsgrader blir de kritiska gränserna ungefär och (Med så här många observationer kan ni även använda standardnormalfördelningen).

Det finns överväldigande empiriskt stöd för att vägmätarens ställning har betydelse för bilens pris. (Kausal tolkning) Exempel, Datorutskrift

–För att beräkna styrkan av en linjär relation kan vi använda determinationskoefficienten. Determinationskoefficienten

Total variation i y Regressionsmodellen Är delvis oförklarad Slumpterm Förklaras delvis av

x1x1 x2x2 y1y1 y2y2 y Två observationer (x 1,y 1 ) och (x 2,y 2 ) i ett sampel visas. Total variation i y = Variation förklarad av regressionslinjen + Oförklarad variation (slump) Variation i y = SSR + SSE

R 2 mäter andelen av variationen i y som förklaras av variationen i x. Kallas ibland för förklaringsgrad. R 2 kan anta vilket värde som helst mellan noll och ett. R 2 = 1: Observationerna ligger exakt efter en rät linje (perfekt anpassning). R 2 = 0: Inget linjärt samband mellan x och y.

exempel se tidigare exempel Lösning Determinationskoefficienten Exempel

Nästan 65% av variationen i pris kan förklaras av variation i vägmätarens ställning. Resten ( ca 35%) förblir oförklarat av denna modell. datorutskrift