Föreläsning 81 Sampling och urval Ofta möter vi påståenden av typen “4.5 miljoner svenskar såg VM-finalen i fotboll”, “en svensk tolvåring väger i genomsnitt.

Slides:



Advertisements
Liknande presentationer
Punkt- och intervallskattning Felmarginal
Advertisements

Inferens om en population Sid
PowerPoint av Bendik S. Søvegjarto Koncept, text och regler av Skage Hansen.
Talföljder formler och summor
X-mas algebra Är du redo? Klicka!!.
PowerPoint av Bendik S. Søvegjarto Koncept, text och regler av Skage Hansen.
Hej hypotestest!. Bakgrund  Signifikansanalys  Signifikansprövning  Signifikanstest  Hypotesprövning  Hypotestest Kärt barn har många namn Inblandade:
F3 Matematikrep Summatecknet Potensräkning Logaritmer Kombinatorik.
FL4 732G70 Statistik A Detta är en generell mall för att göra PowerPoint presentationer enligt LiUs grafiska profil. Du skriver in din rubrik,
Klusterurval, forts..
Exempel Utifrån medicinsk erfarenhet är 5% av befolkningen smittade av ett visst virus. Ett nytt test har visat sig ge 80% av de smittade korrekt diagnos.
Föreläsning 7 Analys av algoritmer T(n) och ordo
FL3 732G81 Linköpings universitet.
FL8 732G70 Statistik A Detta är en generell mall för att göra PowerPoint presentationer enligt LiUs grafiska profil. Du skriver in din rubrik,
FL9 732G70 Statistik A Detta är en generell mall för att göra PowerPoint presentationer enligt LiUs grafiska profil. Du skriver in din rubrik,
FL5 732G70 Statistik A Detta är en generell mall för att göra PowerPoint presentationer enligt LiUs grafiska profil. Du skriver in din rubrik,
732G22 Grunder i statistisk metodik
Inferens om en ändlig population Sid
Jämförelse av två populationer Sid
Kapitel 5 Stickprovsteori Sid
MEDELVÄRDE, MEDIAN & TYPVÄRDE
732G22 Grunder i statistisk metodik
F11 Olika urvalsmetoder, speciellt obundet slumpmässigt urval (OSU)
Out of home Jannike Sköldebjer MMS. Bakgrund People Meter-panelen mäter endast tittandet i hemmet. Gäster representerar panelmedlemmar som tittar i annans.
Algebra och ekvationer
Tillämpad statistik Naprapathögskolan
Procent.
Kunskap 2 Egna upplevelser
Felkalkyl Ofta mäter man inte direkt den storhet som är den intressanta, utan en grundläggande variabel som sedan används för att beräkna det som man är.
Skattningens medelfel
Förelasning 6 Hypotesprövning
Centrala Gränsvärdessatsen:
FK2002,FK2004 Föreläsning 2.
732G22 Grunder i statistisk metodik
En mycket vanlig frågeställning gäller om två storheter har ett samband eller inte, många gånger är det helt klart: y x För en mätserie som denna är det.
Fysikexperiment 5p Föreläsning Korrelationer Ett effektivt sätt att beskriva sambandet mellan två variabler (ett observationspar) är i.
Logikprogrammering 21/10 Binära träd
FL7 732G70 Statistik A Detta är en generell mall för att göra PowerPoint presentationer enligt LiUs grafiska profil. Du skriver in din rubrik,
Binomialsannolikheter ritas i ett stolpdiagram
Egenskaper för punktskattning
Statistik för internationella civilekonomer
Sannolikhet Stickprov Fördelningar
FL6 732G70 Statistik A Detta är en generell mall för att göra PowerPoint presentationer enligt LiUs grafiska profil. Du skriver in din rubrik,
Simulering Introduktion Exempel: Antag att någon kastar tärning
Föreläsning 7 Fysikexperiment 5p Poissonfördelningen Poissonfördelningen är en sannolikhetsfördelning för diskreta variabler som är mycket.
Linjär regression föreläsning 9
Normalfördelningen och centrala gränsvärdessatsen
Övningsexempel till Kapitel 7 Ex 1. BRÄNNBOLLSDILEMMAT ! En person funderar över hur man bäst uppskattar 28 meter. Av erfarenhet vet han att hans steglängd,
F8 Hypotesprövning. Begrepp
F8 Hypotesprövning. Begrepp
Forskningsmetodik Sampling och urval Hypotesprövning Lektion 9
Fysikexperiment, 5p1 Random Walk 36 försök med Random walk med 1000 steg. Beräknad genomsnittlig räckvidd är  1000  32. Visualisering av utfallsrum.
Matematisk statistik och signal-behandling - ESS011 Föreläsning 1 Igor Rychlik 2015 (baserat på föreläsningar av Jesper Rydén)
Några allmänna räkneregler för sannolikheter
732G22 Grunder i statistisk metodik
VetU termin 4 moment 3 Analysera nivåer av kalium och kreatinin Mätningar genomförda på 120 män och 120 kvinnor (tidigare studenter KI) Dagens uppgift:
1 Fler uträkningar med normalfördelningstabell Låt X vara Nf(170,5). Beräkna Lösning:
SAMBAND. Vi vill undersöka om det finns ett samband mellan tentamensresultat och genomsnittligt antal timmar/dag man studerat. Person ABCDEFGHIJ Timmar/
Deskription Normalfördelningsmodellen 1. 2 En modell är en förenklad beskrivning av någon del av verkligheten. Beskrivningen måste vara relevant för det.
Statistisk hypotesprövning. Test av hypoteser Ofta när man gör undersökningar så vill man ha svar på olika frågor (s.k. hypoteser). T.ex. Stämmer en spelares.
Statistisk inferensteori. Inledning Den statistiska inferensteorin handlar i huvudsak om att dra slutsatser från ett slumpmässigt urval (sannolikhetsurval)
1. Kontinuerliga variabler
Sannolikhet och statistik Tabell Används för att ge en bra överblick av svaren man fått in, datan. Består av rader och kolumner. Frekvens Är hur många.
Samband & Inferens Konfidensintervall Statistisk hypotesprövning
INFERENS & SAMBAND. population Population Stickprov, urval INFERENS = Dra slutsatser om hela populationen utifrån ett stickprov Data, observationer.
INFERENS & SAMBAND. population Population Stickprov, urval INFERENS = Dra slutsatser från data om hela populationen utifrån ett stickprov Data, observationer.
Samband & Inferens Hypotetisk –deduktiv metod Samband mellan nominal/ordinal-variabler –Chi2-test Samband mellan kvot-varibaler –Korrelationskoefficient.
Enkel Linjär Regression. 1 Introduktion Vi undersöker relationer mellan variabler via en matematisk ekvation. Motivet för att använda denna teknik är:
INFERENS OCH SAMBAND. Vi vill undersöka om det finns ett samband mellan tentamensresultat och genomsnittligt antal timmar/dag man studerat. Person ABCDEFGHIJ.
Marknadsundersökning Kap 12
Presentationens avskrift:

Föreläsning 81 Sampling och urval Ofta möter vi påståenden av typen “4.5 miljoner svenskar såg VM-finalen i fotboll”, “en svensk tolvåring väger i genomsnitt 34 kig”. Självklart bygger inte dessa påståenden på en undersökning av det faktum man uttalar sig om, man har inte frågat alla svenskar om de såg VM-finalen eller inte, man har inte vägt alla barn under 12 år. Istället baserar sig den här typen av uttalanden på att man har valt ut en mindre mängd ur den grupp man uttalar sig om, mätt frekvensen i den gruppen och sedan antagit att detta är representativt för hela gruppen. Ett sådant förfarande kallas sampling. Att korrekt dra slutsatser som är giltiga för stora grupper genom att studera delsampel av dem kräver varsamhet och förtrogenhet med sampling teori. Om vi till att börja med gör som i läroboken avsnitt 8.1 och betraktar en mycket liten grupp, nämligen 5 basketspelare ser vi att det finns ett antal olika sätt att välja ur en liten delmängd (sample, urval) ur hela gruppen (populationen). En person kan väljas på 5 sätt, väljer vi däremot 2 personer så finns det tio kombinationer, man säger att det finns 10 möjliga samples om 2 personer för en population om 5. Samplestorlek12345 Antal möjliga samples (Vi får vara försikitga och inte låta oss luras av det här exemplet som har en väldigt liten population: Det är alltid sant att det bara finns ett sample där samplet är lika stort som populationen. Det är också sant att antalet samples av storleken ett är lika med storleken på populationen, så talar vi t ex om Sveriges befolkning så finns det 9 miljoner möjliga sample med 1 person (och även 9 miljoner sample med personer), men så fort vi flyttar oss från extremerna så fullkomligt exploderar antalet samples när populationen är stor. Antalet samples med 2 personer är till exempel ungefär miljarder!) Medelvärdet hos en population Antag att vi skulle göra som i avsnitt 8.1 i läroboken, det vill säga faktiskt betrakta varje möjligt sample av en given storlek, t.ex. 3 spelare för varje sådant sample beräkna medelvärdet av den storhet vi är intresserad av (här de tre spelarnas vikt). göra ett histogram för dessa medelvärden (det vill säga medelvärdet av vikten inom det sample vi valt) I tabellen ovan ser vi att det finns tio möjliga samples med storleken 3. I vårt histogram finns då tio datavärden, som var och en är medelvärdet av vikten hos just den kominationen av tre spelarel

Föreläsning 82 Vi lägger då märke till några intressanta saker: 1.I varje sådant histogram kommer medelvärdet av våra data att vara lika med medelvärdet hos populationen. Detta är inte så konstig: eftersom vi tar med alla möjliga samples så kommer alla spelare att förekomma lika många gånger när det totala medelvärdet beräknas och detta måste därför rent matematisk bli just lika med medelvärdet hos populationen. 2.När vi gör våra histogram så kommer de som innehåller data från större samples att ha en mindre spridning kring det gemensamma medelvärdet. Detta är en följd av centrala gränsvärdessatsen. 3.Om vi histogrammerar medelvårdet hos våra sample för ett stort antal samples så kommer fördelningen av dessa att gå mot en normalfördelning, igen en följd av centrala gränsvärdessatsen. (Detta förutsätter att vårt sample är slumpmässigt draget så att det är representativt för populationen - långt ifrån trivialt i praktiken) Vi drar då två slutsatser om hur man kommer från medelvärdet hos ett sample till medelvärdet hos en population: 1.Vi kan uppskatta medelvärdet hos populationen, , med medelvärdet hos vårt sampel. (Om vi dragit vårt sampel helt slumpmässigt kan man visa matematiskt att medelvärdet hos vårt sampel är den bästa uppskattningen av medelvärdet hos populationen) 2.Osäkerheten i denna uppskattning av populationens medelvärde (sampling felet) hänger samman med spridningen kring detta medelvärde i populationen. Denna uppskattar vi med standardavvikelsen i vårt sampel. För att ange hur precis en uppskattning av populationens medelvärde är brukar man ange ett konfidensintervall med specificerad sannolikhetstolkning. Ofta används 95%, men vi kan välja vilken konfidensnivå vi vill, bara vi anger vad vi gjort. 95% konfidensnivå uppnår man som vanligt om man tillåter avvikelser om ±1.96 . Man brukar därför ange sin uppskattnig av en populations medelvärde som “X har ett värde som med 95% sannolikhet ligger i intervallet Y -Z. Har vi till exempl vägt ett stort antal slumpvis utvalda 12-åringar och funnit att deras vikt har ett medelvärde om 34 kg, och att fördelningen av vikt har en standardavvikelse om 1,2 kg så skulle vi kunna göra följande påstående: “Medelvikten hos 12-åringar ligger med 95% sannolikhet i intervallet kg”. Tolkning av sampling-fel och sannolikhetsintervall: Vi skall minnas att osäkerheten i uppskattningen av medelvärdet inte har att göra med att medelvärdet av vikten hos 12-åringar varierar - skulle vi väga alla 12-åringar skulle osäkerheten om detta medelvärde bli mycket mycket liten. Sampling-felet är i stället ett mått på hur osäker vår uppskattning av medelvärdets storlek är just på grund av att vi faktiskt inte har vägt alla barn, utan bara en liten grupp.

Föreläsning 83 Den formella tolkningen av en mening som “Medelvikten hos 12-åringar ligger med 95% sannolikhet i intervallet kg” avviker litet från vad vi är vana vid (och vad satsen faktiskt förefaller säga!). Detta beror på att medelvikten hos 12-åringar ju är ett existerande tal, det är om man funderar litet inte rimligt att säga att säga att detta tal har en viss sannolikhet att ligg i ett visst intervall, antingen ligger det där eller inte! Den vedertagna tolkningen är i stället: Om man gör ett stort antal urval (samples) och mäter medelvikten hos dessa samt anger detta medelvärde med ett 95%-igt sannolikhetsintervall, så kommer för 95% av de mätningar vi gör det sanna medelvärdet (populationens medelvärde) att finnas inom sannolikhetsintervallet. Exempel 2 på s i läroboken illustrerar detta. Andelar av en population Påståenden som som “4.5 miljoner svenskar såg VM-finalen i fotboll”, där antalet uttrycks i absoluta tal (4.5 miljoner) maskerar det fatum att det man egentligen mäter i sina sample är andelen (50%) som t ex såg ett visst TV-program. Undersökningar av den typen beskrivs inte av normalfördelningen, vi minns att för att en variabel skulle vara normalfördelad krävdes bl a att variabeln skulle vara kontinuerlig, vilket inte är fallet här. Som svar på t ex frågan “Såg du på VM-finalen i fotboll” finns bara två svar, “ja” eller “nej”. Plottar vi svaren i ett histogram skulle vi bara få två staplar! Vi kan alltså inte förvänta oss en normalfördelning. Den här typen av variabler följer i stället en sannolikhetsfördelning som kallas binomialfördelning (där “bi” just står för de två möjliga utfallen). Vi skall inte i den här kursen gå in på detaljer i denna, men konstaterar att man kan beräkna sannolikhetsintervall även för en binomialfördelad variabel, och därmed också för andelar (bråkdelar) hos en population. Uttrycker vi andelen p som ett tal mellan noll och ett så fås standardavvikelsen hos p ur: Om vi nu gör ett stort antal urval och beräknar andelen i vart och ett av dessa och därefter gör ett histogram av dessa kommer vi däremot att få en normalfördelad variabel. Precis som när vi försökte bestämma en populations medelvärde så kan man visa att när vi försöker bestämma andelen hos populationen så är andelen i vårt urval den bästa uppskattningen, och vi kan beräkna sannolikhetsintervall för denna uppskattning på precis samma sätt som för medelvärden, så länge som vi använder den korrekta formeln för andelens osäkerhet.

Föreläsning 84 Att bestämma urvalets storlek Ur formeln för konfidensintervallets storlek: (där jag använt 1.96 i st f 2.0 som i boken) kan man beräkna hur stort urval (sample) man behöver för att det 95-procentiga konfidensintervallet skall få en viss given storlek, vi får: Exempel: (exempel 6, s 344 i läroboken) Man vill beräkna det genomsnittliga priset vid husförsälningar i ett område vid en given tidpunkt. Från tidigare undersökningar tror man sig veta att populationen har en standardavvikelse om $. Hur många försäljningar måste man ha med i sitt urval om man vill att det 95-procentiga konfidensintervallet skall vara a) 500 $, b) 100$ ? För att kunna ange en uppskattning med ett 95%-igt konfidensintervall som är ± 500$ måste vi alltså ha med data från minst 797 försäljningar, för att intervallet skall krympa till ± 100$ måste vi ha med data från minst försäljningar. Det här handlar alltså om hur noggrannt vi kan bestämma genomsnittspriset. Varje enskild försäljning kommer sedan att fluktuera kring detta värde så att fördelningen av alla försäljningar beskrivs av en normalfördelning med standardavvikelse 7200$. Så även om vi kan bestämma medelvärdet med ett 95%-igt konfidensintervall om ±100$ så kommer en enskild försäljning i ett fall av tre att ha ett pris som avviker mer än 7200$ från detta värde. Hypotestestning Vi är nu mogna att ge oss i kast med hypotestestning, den typ av överväganden som ger oss möjlighet att testa olika utsagor med rötter i olika teorier för att om möjligt verifiera eller förkasta dessa teorier. En svårighet i denna procedur är att det är mycket svårt, eller kanske till och med omöjligt, att bevisa att en teori är riktig, men däremot ofta relativt enkelt att motbevisa en teori. Proceduren bygger istället på att man formulerar en “nollhypotes” som beskriver vad som händer om den teori vi vill testa inte är korrekt. Kan vi motbevisa denna nollhypotes är det då en indikation på att vår alternativa hypotes, som stöder den teori vi vill testa, är korrekt. Ett exempel: