Ladda ner presentationen
Presentation laddar. Vänta.
Publicerades avKlara Isaksson
2
Föreläsning 81 Sampling och urval Ofta möter vi påståenden av typen “4.5 miljoner svenskar såg VM-finalen i fotboll”, “en svensk tolvåring väger i genomsnitt 34 kig”. Självklart bygger inte dessa påståenden på en undersökning av det faktum man uttalar sig om, man har inte frågat alla svenskar om de såg VM-finalen eller inte, man har inte vägt alla barn under 12 år. Istället baserar sig den här typen av uttalanden på att man har valt ut en mindre mängd ur den grupp man uttalar sig om, mätt frekvensen i den gruppen och sedan antagit att detta är representativt för hela gruppen. Ett sådant förfarande kallas sampling. Att korrekt dra slutsatser som är giltiga för stora grupper genom att studera delsampel av dem kräver varsamhet och förtrogenhet med sampling teori. Om vi till att börja med gör som i läroboken avsnitt 8.1 och betraktar en mycket liten grupp, nämligen 5 basketspelare ser vi att det finns ett antal olika sätt att välja ur en liten delmängd (sample, urval) ur hela gruppen (populationen). En person kan väljas på 5 sätt, väljer vi däremot 2 personer så finns det tio kombinationer, man säger att det finns 10 möjliga samples om 2 personer för en population om 5. Samplestorlek12345 Antal möjliga samples510 51 (Vi får vara försikitga och inte låta oss luras av det här exemplet som har en väldigt liten population: Det är alltid sant att det bara finns ett sample där samplet är lika stort som populationen. Det är också sant att antalet samples av storleken ett är lika med storleken på populationen, så talar vi t ex om Sveriges befolkning så finns det 9 miljoner möjliga sample med 1 person (och även 9 miljoner sample med 8 999 999 personer), men så fort vi flyttar oss från extremerna så fullkomligt exploderar antalet samples när populationen är stor. Antalet samples med 2 personer är till exempel ungefär 80 000 miljarder!) Medelvärdet hos en population Antag att vi skulle göra som i avsnitt 8.1 i läroboken, det vill säga faktiskt betrakta varje möjligt sample av en given storlek, t.ex. 3 spelare för varje sådant sample beräkna medelvärdet av den storhet vi är intresserad av (här de tre spelarnas vikt). göra ett histogram för dessa medelvärden (det vill säga medelvärdet av vikten inom det sample vi valt) I tabellen ovan ser vi att det finns tio möjliga samples med storleken 3. I vårt histogram finns då tio datavärden, som var och en är medelvärdet av vikten hos just den kominationen av tre spelarel
3
Föreläsning 82 Vi lägger då märke till några intressanta saker: 1.I varje sådant histogram kommer medelvärdet av våra data att vara lika med medelvärdet hos populationen. Detta är inte så konstig: eftersom vi tar med alla möjliga samples så kommer alla spelare att förekomma lika många gånger när det totala medelvärdet beräknas och detta måste därför rent matematisk bli just lika med medelvärdet hos populationen. 2.När vi gör våra histogram så kommer de som innehåller data från större samples att ha en mindre spridning kring det gemensamma medelvärdet. Detta är en följd av centrala gränsvärdessatsen. 3.Om vi histogrammerar medelvårdet hos våra sample för ett stort antal samples så kommer fördelningen av dessa att gå mot en normalfördelning, igen en följd av centrala gränsvärdessatsen. (Detta förutsätter att vårt sample är slumpmässigt draget så att det är representativt för populationen - långt ifrån trivialt i praktiken) Vi drar då två slutsatser om hur man kommer från medelvärdet hos ett sample till medelvärdet hos en population: 1.Vi kan uppskatta medelvärdet hos populationen, , med medelvärdet hos vårt sampel. (Om vi dragit vårt sampel helt slumpmässigt kan man visa matematiskt att medelvärdet hos vårt sampel är den bästa uppskattningen av medelvärdet hos populationen) 2.Osäkerheten i denna uppskattning av populationens medelvärde (sampling felet) hänger samman med spridningen kring detta medelvärde i populationen. Denna uppskattar vi med standardavvikelsen i vårt sampel. För att ange hur precis en uppskattning av populationens medelvärde är brukar man ange ett konfidensintervall med specificerad sannolikhetstolkning. Ofta används 95%, men vi kan välja vilken konfidensnivå vi vill, bara vi anger vad vi gjort. 95% konfidensnivå uppnår man som vanligt om man tillåter avvikelser om ±1.96 . Man brukar därför ange sin uppskattnig av en populations medelvärde som “X har ett värde som med 95% sannolikhet ligger i intervallet Y -Z. Har vi till exempl vägt ett stort antal slumpvis utvalda 12-åringar och funnit att deras vikt har ett medelvärde om 34 kg, och att fördelningen av vikt har en standardavvikelse om 1,2 kg så skulle vi kunna göra följande påstående: “Medelvikten hos 12-åringar ligger med 95% sannolikhet i intervallet 31.6-36.4 kg”. Tolkning av sampling-fel och sannolikhetsintervall: Vi skall minnas att osäkerheten i uppskattningen av medelvärdet inte har att göra med att medelvärdet av vikten hos 12-åringar varierar - skulle vi väga alla 12-åringar skulle osäkerheten om detta medelvärde bli mycket mycket liten. Sampling-felet är i stället ett mått på hur osäker vår uppskattning av medelvärdets storlek är just på grund av att vi faktiskt inte har vägt alla barn, utan bara en liten grupp.
4
Föreläsning 83 Den formella tolkningen av en mening som “Medelvikten hos 12-åringar ligger med 95% sannolikhet i intervallet 31.6-36.4 kg” avviker litet från vad vi är vana vid (och vad satsen faktiskt förefaller säga!). Detta beror på att medelvikten hos 12-åringar ju är ett existerande tal, det är om man funderar litet inte rimligt att säga att säga att detta tal har en viss sannolikhet att ligg i ett visst intervall, antingen ligger det där eller inte! Den vedertagna tolkningen är i stället: Om man gör ett stort antal urval (samples) och mäter medelvikten hos dessa samt anger detta medelvärde med ett 95%-igt sannolikhetsintervall, så kommer för 95% av de mätningar vi gör det sanna medelvärdet (populationens medelvärde) att finnas inom sannolikhetsintervallet. Exempel 2 på s 340-1 i läroboken illustrerar detta. Andelar av en population Påståenden som som “4.5 miljoner svenskar såg VM-finalen i fotboll”, där antalet uttrycks i absoluta tal (4.5 miljoner) maskerar det fatum att det man egentligen mäter i sina sample är andelen (50%) som t ex såg ett visst TV-program. Undersökningar av den typen beskrivs inte av normalfördelningen, vi minns att för att en variabel skulle vara normalfördelad krävdes bl a att variabeln skulle vara kontinuerlig, vilket inte är fallet här. Som svar på t ex frågan “Såg du på VM-finalen i fotboll” finns bara två svar, “ja” eller “nej”. Plottar vi svaren i ett histogram skulle vi bara få två staplar! Vi kan alltså inte förvänta oss en normalfördelning. Den här typen av variabler följer i stället en sannolikhetsfördelning som kallas binomialfördelning (där “bi” just står för de två möjliga utfallen). Vi skall inte i den här kursen gå in på detaljer i denna, men konstaterar att man kan beräkna sannolikhetsintervall även för en binomialfördelad variabel, och därmed också för andelar (bråkdelar) hos en population. Uttrycker vi andelen p som ett tal mellan noll och ett så fås standardavvikelsen hos p ur: Om vi nu gör ett stort antal urval och beräknar andelen i vart och ett av dessa och därefter gör ett histogram av dessa kommer vi däremot att få en normalfördelad variabel. Precis som när vi försökte bestämma en populations medelvärde så kan man visa att när vi försöker bestämma andelen hos populationen så är andelen i vårt urval den bästa uppskattningen, och vi kan beräkna sannolikhetsintervall för denna uppskattning på precis samma sätt som för medelvärden, så länge som vi använder den korrekta formeln för andelens osäkerhet.
5
Föreläsning 84 Att bestämma urvalets storlek Ur formeln för konfidensintervallets storlek: (där jag använt 1.96 i st f 2.0 som i boken) kan man beräkna hur stort urval (sample) man behöver för att det 95-procentiga konfidensintervallet skall få en viss given storlek, vi får: Exempel: (exempel 6, s 344 i läroboken) Man vill beräkna det genomsnittliga priset vid husförsälningar i ett område vid en given tidpunkt. Från tidigare undersökningar tror man sig veta att populationen har en standardavvikelse om 7 200 $. Hur många försäljningar måste man ha med i sitt urval om man vill att det 95-procentiga konfidensintervallet skall vara a) 500 $, b) 100$ ? För att kunna ange en uppskattning med ett 95%-igt konfidensintervall som är ± 500$ måste vi alltså ha med data från minst 797 försäljningar, för att intervallet skall krympa till ± 100$ måste vi ha med data från minst 19915 försäljningar. Det här handlar alltså om hur noggrannt vi kan bestämma genomsnittspriset. Varje enskild försäljning kommer sedan att fluktuera kring detta värde så att fördelningen av alla försäljningar beskrivs av en normalfördelning med standardavvikelse 7200$. Så även om vi kan bestämma medelvärdet med ett 95%-igt konfidensintervall om ±100$ så kommer en enskild försäljning i ett fall av tre att ha ett pris som avviker mer än 7200$ från detta värde. Hypotestestning Vi är nu mogna att ge oss i kast med hypotestestning, den typ av överväganden som ger oss möjlighet att testa olika utsagor med rötter i olika teorier för att om möjligt verifiera eller förkasta dessa teorier. En svårighet i denna procedur är att det är mycket svårt, eller kanske till och med omöjligt, att bevisa att en teori är riktig, men däremot ofta relativt enkelt att motbevisa en teori. Proceduren bygger istället på att man formulerar en “nollhypotes” som beskriver vad som händer om den teori vi vill testa inte är korrekt. Kan vi motbevisa denna nollhypotes är det då en indikation på att vår alternativa hypotes, som stöder den teori vi vill testa, är korrekt. Ett exempel:
Liknande presentationer
© 2024 SlidePlayer.se Inc.
All rights reserved.