Linda Wänström och Elisabet Nikolic (Karl Wahlin)

Slides:



Advertisements
Liknande presentationer
Punkt- och intervallskattning Felmarginal
Advertisements

Inferens om en population Sid
Talföljder formler och summor
Icke-linjära modeller:
FL4 732G70 Statistik A Detta är en generell mall för att göra PowerPoint presentationer enligt LiUs grafiska profil. Du skriver in din rubrik,
Regressions- och tidserieanalys, 5 p
Kundundersökning mars 2010
FL3 732G81 Linköpings universitet.
FL8 732G70 Statistik A Detta är en generell mall för att göra PowerPoint presentationer enligt LiUs grafiska profil. Du skriver in din rubrik,
732G22 Grunder i statistisk metodik
FL10 732G81 Linköpings universitet.
FL9 732G70 Statistik A Detta är en generell mall för att göra PowerPoint presentationer enligt LiUs grafiska profil. Du skriver in din rubrik,
FL5 732G70 Statistik A Detta är en generell mall för att göra PowerPoint presentationer enligt LiUs grafiska profil. Du skriver in din rubrik,
732G22 Grunder i statistisk metodik
Inferens om en ändlig population Sid
Jämförelse av två populationer Sid
Kapitel 5 Stickprovsteori Sid
732G22 Grunder i statistisk metodik
F11 Olika urvalsmetoder, speciellt obundet slumpmässigt urval (OSU)
Vad ingår kursen? i korta drag
Felkalkyl Ofta mäter man inte direkt den storhet som är den intressanta, utan en grundläggande variabel som sedan används för att beräkna det som man är.
TÄNK PÅ ETT HELTAL MELLAN 1-50
Skattningens medelfel
Chitvå-test Regression forts.
2. Enkel regressionsanalys
Regressionsanalys Vi vill ha svar på frågan hur mycket kommer y att förändras om x ändras med enhet. Sambandets funktionsform Tillåta att andra saker än.
Förelasning 1 Kursintroduktion Statistiska undersökningar
Förelasning 6 Hypotesprövning
FL1 732G70 Statistik A Linköpings universitet.
En mycket vanlig frågeställning gäller om två storheter har ett samband eller inte, många gånger är det helt klart: y x För en mätserie som denna är det.
Fysikexperiment 5p Föreläsning Korrelationer Ett effektivt sätt att beskriva sambandet mellan två variabler (ett observationspar) är i.
FL7 732G70 Statistik A Detta är en generell mall för att göra PowerPoint presentationer enligt LiUs grafiska profil. Du skriver in din rubrik,
Binomialsannolikheter ritas i ett stolpdiagram
Egenskaper för punktskattning
Statistik för internationella civilekonomer
Multipel linjär regressionsanalys
Sannolikhet Stickprov Fördelningar
Föreläsning 7 Fysikexperiment 5p Poissonfördelningen Poissonfördelningen är en sannolikhetsfördelning för diskreta variabler som är mycket.
Projekt 5.3 Gilpins och Ayalas θ-logistiska modell A Course in Mathematical Modeling - Mooney & Swift.
© Anders Broberg, Ulrika Hägglund, Lena Kallin Westin, 2003 Föreläsning 12 Sökning och Sökträd.
Hur bra är modellen som vi har anpassat?
Linjär regression föreläsning 9
Sambandsmodeller, 10 p = 15 hp
Övningsexempel till Kapitel 7 Ex 1. BRÄNNBOLLSDILEMMAT ! En person funderar över hur man bäst uppskattar 28 meter. Av erfarenhet vet han att hans steglängd,
Exempel: Vad påverkar kostnaden för produktion av korrugerat papper, dvs sådant som ingår i wellpapp och kartonger? Amerikansk studie: Kostnaden kan förmodligen.
Fysikexperiment, 5p1 Random Walk 36 försök med Random walk med 1000 steg. Beräknad genomsnittlig räckvidd är  1000  32. Visualisering av utfallsrum.
Tidsserieregression fungerar statistiskt som vanlig regression. Regression Analysis The regression equation is Sold = 5,78 + 0,0430 time Predictor.
Regression Analysis The regression equation is Sold = 5,78 + 0,0430 time Predictor Coef StDev T P Constant 5,7761 0,9429 6,13 0,000 time 0, ,03420.
Regressions- och tidsserieanalys
732G22 Grunder i statistisk metodik
1 Om sambandet inte är linjärt? Om sambandet till en variabel inte är linjärt så kan vi inkludera ytterligare en term i regressionsmodellen I en modell.
Grundläggande statistik, ht 09, AN
1 Stokastiska variabler. 2 Variabler En variabel är en egenskap hos en individ /objekt. En variabel kan, som vi tidigare sett, vara kvalitativ eller kvantitativ.
SAMBAND. Vi vill undersöka om det finns ett samband mellan tentamensresultat och genomsnittligt antal timmar/dag man studerat. Person ABCDEFGHIJ Timmar/
Medicinsk statistik II Läkarprogrammet T5 HT 2013 Susann Ullén FoU-centrum Skåne Skånes Universitetssjukhus.
Föreläsning 5 Kap 13 Tidsserier- vad är det? Trend/Säsong/Konjuktur/Slump Identifiering av trender (Glidande medelvärde) Säsongsmedelvärdesmetoden Säsongsdummymetoden.
Statistisk hypotesprövning. Test av hypoteser Ofta när man gör undersökningar så vill man ha svar på olika frågor (s.k. hypoteser). T.ex. Stämmer en spelares.
Statistisk inferensteori. Inledning Den statistiska inferensteorin handlar i huvudsak om att dra slutsatser från ett slumpmässigt urval (sannolikhetsurval)
1 Multipel Regression Kapitel Modell Vi har p oberoende variabler som vi tänker oss kan vara relaterade till den beroende variabeln. Y ~ N( , 
Samband & Inferens Konfidensintervall Statistisk hypotesprövning –Hypotetisk –deduktiv metod Samband mellan nominal/ordinal-variabler –Chi2-test Samband.
Samband & Inferens Konfidensintervall Statistisk hypotesprövning
INFERENS & SAMBAND. population Population Stickprov, urval INFERENS = Dra slutsatser om hela populationen utifrån ett stickprov Data, observationer.
INFERENS & SAMBAND. population Population Stickprov, urval INFERENS = Dra slutsatser från data om hela populationen utifrån ett stickprov Data, observationer.
Regression Har långa högre inkomst?. Världsrekord på engelska milen.
Samband & Inferens Hypotetisk –deduktiv metod Samband mellan nominal/ordinal-variabler –Chi2-test Samband mellan kvot-varibaler –Korrelationskoefficient.
Föreläsning 4 Kap 11.3 Icke-linjära modeller Indikatorvariabel (dummyvariabel) Interaktionsterm.
Enkel Linjär Regression. 1 Introduktion Vi undersöker relationer mellan variabler via en matematisk ekvation. Motivet för att använda denna teknik är:
INFERENS OCH SAMBAND. Vi vill undersöka om det finns ett samband mellan tentamensresultat och genomsnittligt antal timmar/dag man studerat. Person ABCDEFGHIJ.
Icke-linjära modeller:
Multipel regression och att bygga (fungerande) modeller
Presentationens avskrift:

Linda Wänström och Elisabet Nikolic (Karl Wahlin) 2017-04-06 732G71 Statistik B 8 hp Linda Wänström och Elisabet Nikolic (Karl Wahlin) Detta är en generell mall för att göra PowerPoint presentationer enligt LiUs grafiska profil. Du skriver in din rubrik, namn osv på sid 1. Börja sedan skriva in din text på sid 2. För att skapa nya sidor, tryck Ctrl+M. Sidan 3 anger placering av bilder och grafik. Titta gärna på ”Baspresentation 2008” för exempel. Den sista bilden är en avslutningsbild som visar LiUs logotype och webadress. Om du vill ha fast datum, eller ändra författarnamn, gå in under Visa, Sidhuvud och Sidfot. Linköpings universitet

Mål och innehåll http://www.ida.liu.se/~732G71/ind Tillägna sig metodik för att analysera samt tolka statistiska modeller för samband mellan variabler och statistiska modeller för tidsseriedata . Innehåll: Enkel och multipel linjär regressionsanalys Index Efterfrågeanalysmodeller Modeller för tidsseriedata Analys av data med hjälp av statistisk programvara

Kurslitteratur, examination och kontaktuppgifter Bowerman, O’Connell, Koehler & Brooks (2005) 4th ed. Forecasting, time series, and regression Examination Salstentamen värd 5.5 hp den 2013-12-10 Projekt del 1: Index och efterfrågeanalys Projekt del 2: Tidsserieanalys Projektdelarna är tillsammans värda 2.5 hp och inlämning ska ske senast 2013-12-05 Närmare instruktion för projektarbetena läggs upp på kurshemsidan under veckan.

Enkel linjär regression Kapitel 3 2017-04-06 Enkel linjär regression Kapitel 3 732G71 Statistik B Detta är en generell mall för att göra PowerPoint presentationer enligt LiUs grafiska profil. Du skriver in din rubrik, namn osv på sid 1. Börja sedan skriva in din text på sid 2. För att skapa nya sidor, tryck Ctrl+M. Sidan 3 anger placering av bilder och grafik. Titta gärna på ”Baspresentation 2008” för exempel. Den sista bilden är en avslutningsbild som visar LiUs logotype och webadress. Om du vill ha fast datum, eller ändra författarnamn, gå in under Visa, Sidhuvud och Sidfot. Linköpings universitet

Exempel En marknadsstrateg studerar årlig marknadsföringskostnad (i hundratusentals kronor) och försäljning (i miljoner kronor) av en viss vara i åtta slumpmässigt utvalda länder, bland det stora antal länder varan säljs i. Land Marknadsföring Försäljning 1 8 161 2 12 246 3 25 357 4 212 5 16 381 6 380 7 21 703 26 591

Spridningsdiagram

Att studera i ett spridningsdiagram Är sambandet linjärt? Undersök om punktsvärmen faller längs en tänkt rät linje. Lutar punktsvärmen? Om punktsvärmen lutar uppåt råder det ett positivt samband mellan variablerna: när den förklarande variabeln ökar så ökar också responsvariabeln. Om punktsvärmen lutar nedåt råder det omvända sambandet: när den förklarande variabeln ökar så minskar responsvariabeln. Hur starkt är sambandet? Titta på hur tätt observationerna ligger längs en tänkt rät linje. Om observationerna är mycket utspridda är sambandet svagt, medan sambandet kan betraktas som starkt om observationerna ligger nära tillsammans. Finns det några observationer som avviker kraftigt från övriga? Sådana observationer kallas outliers och kan (men behöver inte) bero på felmätning eller felinmatning.

Korrelationskoefficienten Matematiskt mått för graden av linjärt samband mellan två kvantitativa variabler. Korrelationskoefficienten antar värden mellan –1 och +1. Ju närmare –1 desto starkare negativt linjärt samband Ju närmare +1 desto starkare positivt linjärt samband Om korrelationskoefficienten är nära 0 finns inget linjärt samband Marknadsföring 8 12 25 3 16 21 26 Försäljning 161 246 357 212 381 380 703 591

Tabell för tolkning av korrelationskoefficienten Vi tolkar absolutvärdet av korrelationskoefficienten (betecknas |r|) (med absolutvärdet menas att vi betraktar den observerade korrelationskoefficienten utan att ta hänsyn till dess tecken): |r| Samband > 0.85 Mycket starkt 0.65 – 0.85 Starkt 0.35 – 0.65 Måttligt 0.20 – 0.35 Svagt < 0.20 Mycket svagt

Enkel linjär regression Genom att rita in en rät linje i svärmen av observationer i spridningsdiagrammet, kan vi kvantifiera sambandet mellan de två variablerna och därmed få reda på hur mycket y-variabeln förändras när x-variabeln ökar en enhet. Det är viktigt att här tänka i termer av population och stickprov: vi har definierat en population, exempelvis alla anställda med en viss funktion vid ett stort företag och ur denna population har vi dragit ett OSU. Om vi drar ett nytt stickprov skulle vi få andra personer och därmed andra mätvärden. Denna slumpfaktor betyder att det finns två typer av modeller för att beskriva en regressionslinje: en teoretisk populationsmodell och en praktiskt använd stickprovsmodell.

Enkel linjär regression Populationsmodellen Den teoretiska regressionslinje vi skulle erhålla om vi hade tillgång till exakta mätningar för båda variablerna för samtliga enheter i populationen. Modellen uttrycks enligt där yi är observerade värden på responsvariabeln xi är observerade värden på förklaringsvariabeln β0 är regressionslinjens intercept (dess skärning med y-axeln när x = 0) β1 är regressionslinjens lutning εi är modellens feltermer. Vi återkommer till förklaring och analys av begreppet feltermer.

Enkel linjär regression Stickprovsmodellen Den modell vi använder när vi baserar modellen på ett stickprov: där yi är observerade värden på responsvariabeln xi är observerade värden på förklaringsvariabeln b0 är regressionslinjens intercept (dess skärning med y-axeln när x = 0) b1 är regressionslinjens lutning b0 och b1 kallas för stickprovsmodellens regressionsparametrar och är punktskattningar av populationsmodellens regressionsparametrar β0 och β1

Skattning av stickprovsmodellens regressionsparametrar Värdena på b0 och b1 beräknas enligt Den metodik som används för att anpassa regressionslinjen till datamaterialet kallas minsta kvadratmetoden. Namnet kommer sig av att metodiken bygger på att minimera summan av det kvadrerade vertikala avståndet från varje punkt upp (eller ned) till regressionslinjen. Det finns andra skattningsmetoder, men minsta kvadratmetoden är den enklaste, mest intuitiva och också den vanligaste.

Spridningsdiagram med inritad regressionslinje b1 tolkas som hur mycket y-variabeln förändras när x-variabeln ökar med en enhet. b0 tolkas som vilken nivå y-variabeln ligger på när x = 0. b0 är bara tolkningsbar om x = 0 ingår i intervallet av insamlade x-värden (det så kallade observationsområdet).

Prognosticering En punktskattning av det förväntade värdet på y när x har värdet x*, vilket uttrycks fås enligt Generellt ska man akta sig för att göra prognoser för x-värden som ligger utanför observationsområdet (detta brukar kallas extrapolering), eftersom vi inte kan veta om trenden fortsätter att råda utanför det observerade intervallet eller om ett annat samband råder där. Istället lämpar sig regressionsmodellen bäst för att göra prognoser inom intervallet av observerade x‑värden (interpolering). Prognosticering kräver försiktighet och eftertanke! Exempel: Vilken försäljning av den studerade varan kan ett land där man årligen spenderar 1 miljon på marknadsföring i genomsnitt förvänta sig?

Förklaringsgrad Mått på hur stor andel av variationen i y‑variabeln som förklaras av den x‑variabel vi har med i modellen. Beräknas som korrelationskoefficienten i kvadrat: r2 Antar värden mellan 0 och 1, men uttrycks oftast i procent (0-100%). r2 Förklaringsgrad > 70% Mycket hög 50% - 70% Hög 30% - 50% Måttlig < 30% Låg

Feltermer Om vi känner hela populationen för våra två variabler och anpassar populationsmodellen så är feltermerna εi de vertikala avvikelserna från varje observation till regressionslinjen. Men vi känner inte hela populationen och därför är också β0 och β1 okända. De skattas med punktskattningarna b0 och b1 och eftersom dessa är slumpvariabler kommer de att anta olika värden varje gång vi drar ett nytt stickprov ur populationen. Detta innebär att feltermerna inte går att observera! Trots det innehåller feltermerna viktig information – hur ska vi få fram den?

Residualer Residualerna, ei, kan betraktas som skattningar av feltermerna εi, och beräknas Genom att studera residualerna kan vi undersöka hur välanpassad modellen är till data och detta kallas att göra en residualanalys. Eftersom residualerna är avvikelserna från respektive observation till regressionslinjen, vill vi att de ska vara så små som möjligt. Den enkla linjära regressionsmodellen baseras på antagandet att populationsmodellens feltermer (εi) har väntevärde 0, konstant varians, är oberoende samt är normalfördelade. Eftersom εi ej är observerbara studerar vi iställer dessa egenskaper hos residualerna. Marknadsföring 8 12 25 3 16 21 26 Försäljning 161 246 357 212 381 380 703 591

Residualanalys Den enkla linjära regressionsmodellen garanterar genom sin konstruktion att residualerna får medelvärde 0, därför uppfylls alltid detta krav. Att variansen är konstant undersöks normalt genom att göra ett spridningsdiagram med residualerna på y-axeln och modellens förklarande variabel på x-axeln. Diagrammet undersöks sedan med avseende på att residualerna är jämnt och slumpmässigt spridda kring noll Att residualerna är normalfördelade undersöks normalt genom att göra ett histogram över residualerna. Histogrammet undersöks sedan med avseende på om residualerna är normalfördelade. Att residualerna är oberoende går däremot i normalfallet inte att undersöka, men man kan och bör fundera över hur stickprovet har dragits: har en urvalsdesign använts som kan antas ge oberoende mellan observationerna och därmed mellan residualerna? Var också observant på förekomsten av outliers bland residualerna.

Spridningsdiagram av residualerna för exempeldata

Histogram av residualerna för exempeldata

Hypotesprövning av lutningsparametern Regressionsparametrarna b0 och b1 är slumpvariabler. Av detta följer att när vi tolkar sambandet mellan responsvariabeln och förklaringsvariabeln med hjälp av lutningsparametern b1 baseras denna tolkning på en slumpvariabel. För att hantera osäkerheten som detta medför genomför man ofta en hypotesprövning av om populationsmodellens lutningsparameter β1 är noll. Figuren åskådliggör sambandet mellan variablerna X och Y för en population. Antag att vi ur populationen slumpmässigt dragit de enheter som markeras med röda punkter. Baserat på det stickprovet skulle vi dra slutsatsen att det föreligger ett positivt samband mellan X och Y. Men betraktar vi hela populationen är det uppenbart att det inte föreligger något samband – lutningen på en regressionslinje anpassad till hela populationen skulle bli mycket nära noll!

Hypotesprövning av lutningsparametern Steg 1: Välj signifikansnivå och formulera hypoteser Steg 2: Bestäm testvariabeln där Regressionsmodellens standardavvikelse, ofta kallad residualspridningen

Hypotesprövning av lutningsparametern Steg 3: Ska vi tro på H0 eller Ha? Om Ha: β1 < 0 ligger det kritiska området till vänster om det kritiska värdet tn-2; α Om Ha: β1 > 0 ligger det kritiska området till höger om det kritiska värdet tn-2; 1-α Om Ha: β1 ≠ 0 har vi kritiska områden både till vänster och höger om de kritiska värdena som är tn-2; α/2 respektive tn-2; 1-α/2 Steg 4: Dra slutsats

Konfidensintervall för lutningsparametern

Intervall för prognosticering En punktskattning av y när x = x* beräknas enligt Det finns två typer av intervall för prognosticering: Konfidensintervall, om vi vill dra slutsatser om den sanna genomsnittsnivån µx* för enheter med x = x* Prognosintervall, om vi vill dra slutsatser om en enskild enhets nivå yx* när x = x*

Enkel linjär regression i datorn Regression Analysis: Försäljning versus Marknadsföring   The regression equation is Försäljning = 146 + 15.7 Marknadsföring Predictor Coef SE Coef T P Constant 145.6 105.1 1.39 0.215 Marknadsföring 15.681 6.227 2.52 0.045 S = 140.461 R-Sq = 51.4% R-Sq(adj) = 43.3% Utskrift från Minitab 16

Multipel linjär regression Populationsmodellen där yi är observerade värden på responsvariabeln x1,i är observerade värden på den första förklaringsvariabeln xp,i är observerade värden på den p:te förklaringsvariabeln β0 är regressionsmodellens intercept β1 är regressionsparameter för den första förklaringsvariabeln βp är regressionsparameter för den p:te förklaringsvariabeln εi är modellens feltermer, som liksom för den enkla linjära regressionsmodellen ska ha väntevärde 0, konstant varians, vara oberoende och normalfördelade.

Multipel linjär regression Stickprovsmodellen Den modell vi använder när vi baserar modellen på ett stickprov: där b0 är regressionsparameter för den första förklaringsvariabeln bp är regressionsparameter för den p:te förklaringsvariabeln Det lämpar sig inte att anpassa en multipel linjär regressionsmodell med handräkning. För det är formlerna alldeles för långa och omständliga, och vi är hänvisade till att använda datorn för att bestämma regressionsparametrarnas värden.