Ladda ner presentationen
Presentation laddar. Vänta.
Publicerades avAstrid Åström
1
Introduktion
2
Kenny Bränberg Steg 3 + specialkurser Tränare i Sävar IK och assisterande tränare i Mariehem SK. 16 års tränarerfarenhet. Alla åldersgrupper på både pojk- och flicksidan, från 7-åringar upp till herrar i div 2 och damer i div 3. Distriktsinstruktör (Grundkurs, U1, U2, Steg 1, Steg 2, Fotbollens träningslära) Fotbollsinstruktör på Dragonskolans idrottsprogram. Zonledare för flickor i Umeå Ledamot i VFF:s ungdomskommitté och ansvarig för zonverksamheten i Västerbotten.
3
Varför mäter man? För att beskriva För att jämföra För att utvärdera
4
Kost och fotboll (Balsom et al. 1997) Sex manliga fotbollsspelare. Medelålder 24 år. Smålagsspel 4 mot 4 inomhus i 90 minuter. Två tillfällen med minst en veckas mellanrum. I varje match två testpersoner, en från varje lag. (Totalt sex matcher).
5
Varje match filmades och analyserades av tränad observatör. Observatören kände inte till förutsättningarna inför varje match. 48 timmar före match genomförde testpersonerna en standardiserad intermittent löpning för att reducera glykogendepåerna. Under följande 48 timmar tilldelades varje tesperson ett kostprogram som vid ena tillfället var kolhydratrikt och vid det andra tillfället kolhydratfattigt.
6
Inför varje match togs en muskelbiopsi från yttre breda lårmuskeln. Glykogenkoncentrationen var signifikant högre då spelarna ätit den kolhydratrika kosten. Resultaten från rörelseanalysen visade att tiden för högintensivt arbete och press var signifikant (p<0.05) lägre under matchen som förbereddes med kolhydratfattig kost.
7
Pre-season concurrent strength and endurance development in elite soccer players Jan Helgerud, Ole J. Kemi, Jan Hoff
8
Syfte: –Förbättra snabbhet och styrka utan viktuppgång –Testa explosiv styrketräning i direkt anslutning till uthållighetsträning Molde FC, n=21. Professionella spelare som tränade dagligen.
9
Behandling: –Uthållighet 4x4 min, 90-95 % av maxpuls. 3 min aktiv vila 50-60 %. –15 min vila –4x4 90 graders knäböj. 3 min vila mellan varje serie. –2 ggr per vecka i 8 veckor.
10
Resultat: –Max syreupptagning +8,1 % (p<0.001) –Max styrka +42,9 % (p<0,001) –Vikt +1,0 kg (p<0,05) –Vertikalhopp +5,0 % (p<0,001) –Sprint 10 m +3,3 % (p<0,001) –Sprint 20 m + 1,6 % (p<0,001) I samtliga fall användes vanligt t-test. Observera att det i huvudsak rör sig om neurologisk anpassning och liten hypertrofi.
11
I. Statistiska undersökningar Ett gemensamt syfte för alla undersökningar är att få ökad kunskap om ett visst problemområde Det kanske viktigaste sättet att skaffa sig sådan kunskap är genom observationer Inom statistikteorin studeras –hur observationer samlas in –hur observationer analyseras –hur slutsatser kan dras från observationer
12
Deskriptiva och analytiska undersökningar Vid en deskriptiv eller beskrivande undersökning försöker man att, med hjälp av ett insamlat datamaterial, beskriva ett förhållande eller ett faktiskt händelseförlopp.
13
Vid en analytisk eller förklarande undersökning försöker man klarlägga orsakssamband och förklara varför verkligheten ser ut som den gör.
14
En statistisk undersöknings olika steg Problemformulering Planering Datainsamling Analys Rapportering
15
Planering av en undersökning Vid planering bestämmer man sig bl.a. för: –Vilka data som skall samlas in –Hur dessa data skall samlas in, dvs. val av datainsamlingsmetod Totalundersökning eller urvalsundersökning Typ av urval vid urvalsundersökning Val av mätmetod och mätinstrument. –Hur eventuellt bortfall skall hanteras –Hur data skall analyseras –Hur resultatet skall redovisas
16
II. Databildning
17
Introduktion Den process som har till uppgift att producera de data som kunskapsbildningen behöver kallar vi databildning
18
Datainsamlingen måste var anpassad till den teori man har om problemområdet Teorier om dataanalys påverkar mätinstrumentets utformning och konstruktion
19
Experimentella och icke- experimentella undersökningar Experimentella undersökningar: –Behandling. Försöksenheterna utsätts för vissa behandlingar i avsikt att studera effekten av dessa behandlingar –Upprepbarhet. Experimentet kan upprepas ett önskat antal gånger –Randomisering. Försöksenheterna fördelas slumpmässigt på olika behandlingar
20
–Kontroll. Försöksbetingelserna kan i allmänhet kontrolleras och konstanthållas, eller åtminstone löpande registreras. –Dubbelblinda försök. Då försöksenheterna är människor vet i regel varken försökspersonen eller den som ger behandlingen vilken behandling försökspersonen får.
21
Ickeexperimentella undersökningar, observationsundersökningar. –Undersökningsenheter eller händelseförlopp påverkas ej på något sätt. –Behandlingarna i den experimentella studien ersätts av passivt observerande.
22
Experimentella studier I regel att föredra om man vill undersöka effekten av någon förklaringsvariabel på någon responsvariabel, eftersom det med en icke-experimentell ansats kan vara svårt att särskilja effekten av förklaringsvariabeln från effekter av andra faktorer
23
Randomisering Randomisering innebär att slumpen avgör vilken behandling en undersökningsenhet tilldelas Genom randomisering undviks systematiska fel Randomisering medför att effekten av en eventuell behandling med hög grad av säkerhet och precision kan fastställas med hjälp av statistikteori
24
Generaliserbarhet Ett problem vid experimentella studier är att undersökningsenheterna inte alltid är slumpmässigt utvalda ur någon väldefinierad population och att därför de resultat som erhålls, i strikt mening, endast gäller för de som ingår i försöket I sådana fall måste generaliseringar utöver undersökningsenheterna bygga på icke-statistiska argument
25
Brist på realism Försöken utförs ibland i en miljö som ej är verklig. Detta innebär också ett generaliseringsproblem. Det är inte säkert att en individ reagerar likadant i ett laboratorium som i ”verkligheten”.
26
Urvalsundersökningar Varför urvalsundersökning i stället för totalundersökning? –Billigare –Snabbare –Bättre mätning –Praktiskt omöjligt med totalundersökning då populationen är mycket stor eller oändlig –Förstörande prov
27
Olika typer av urval Lättåtkomliga element Frivilliga svar Frivilliga försökspersoner Sannolikhetsurval
28
Urvalsenheterna väljs med hjälp av någon slumpmekanism För varje enhet är sannolikheten för att inkluderas i urvalet känd
29
Med sannolikhetsurval kan man... ge objektiva mått på undersökningsresultatens precision utforma en teori för effektiv undersökningsplanering på förhand göra objektiva jämförelser mellan olika urvalsplaner på förhand uppskatta erforderliga urvalsstorlekar för att uppnå önskad precision
30
Olika typer av sannolikhetsurval Obundet slumpmässigt urval (OSU) Stratifierat urval Klusterurval
31
Obundet slumpmässigt urval Vid varje dragning av en enhet har de i populationen kvarvarande enheterna samma sannolikhet att bli valda Vid OSU av n enheter har alla möjliga kombinationer av n enheter samma chans att bli valda
32
Stratifierat urval Populationen delas in i strata och ett OSU dras ur varje stratum Skäl: –Om resultatet skall redovisas för varje stratum kan urvalsstorlekarna för varje stratum avpassas så att vissa precisionskrav uppfylles utan att man erhåller överflödiga observationer från vissa strata
33
–Skattningar av populationsparametrar (t.ex. populationsmedelvärdet) kan göras med bättre precision än vid ett OSU, om bara stratifieringsvariabeln är ”bra” (homogent inom strata, heterogent mellan strata)
34
Gruppurval (klusterurval) Populationen delas in i grupper (kluster) av enheter. Ett antal sådan kluster väljs slumpmässigt. Samtliga enheter inom ett kluster undersöks. Skäl: –Ramproblem –Geografisk spridning –Kostnader
35
Mätning En tilldelning av tal till undersökningsenheterna på ett sådant sätt att vissa relationer mellan enheterna, med avseende på någon egenskap, avspeglas i relationer mellan talen
36
Mätnivåer (skalnivåer) Nominal –Endast klassificering Ordinal –Klassificering och rangordning Intervall –Klassificering, rangordning och ekvidistans Kvot –Klassificering, rangordning, ekvidistans och absolut nollpunkt
37
Observera att mätnivån bestäms av vilken typ av information mätningen ger oss. Mätnivån har bl.a. betydelse för vilken typ av beräkningar som är meningsfulla
38
Operationalisering Operationalisering av en variabel innebär en beskrivning av hur man skall gå tillväga, vilka operationer man måste utföra, för att kunna göra mätningen. Operationalisering innebär således att mätregler definieras.
39
Indikatorer och latenta variabler En latent variabel är en egenskap som ej är direkt observerbar En indikator är en observerbar (manifest) variabel som används vid mätning av en latent variabel
40
Reliabilitet Grad av överensstämmelse mellan upprepade mätningar med samma mätinstrument på samma undersökningsenhet.
41
Validitet ”Mätinstrumentet mäter vad det avser att mäta” ”Överensstämmelse mellan teoretisk och operationell definition” ”Frånvaro av systematiska mätfel”
42
Några felkällor vid statistiska undersökningar Täckningsfel –Övertäckning Urvalsramen innehåller individer som ej finns med i målpopulationen –Undertäckning Urvalsramen saknar individer som finns med i målpopulationen –Kan ge upphov till systematiska fel (bias)
43
Bortfallsfel –Individbortfall innebär att man från en eller flera individer ej får något svar på t.ex. en postenkät –Partiellt bortfall innebär svarsvägran på vissa frågor –Kan ge stora systematiska fel
44
Mätfel –Mätfel som beror på respondenten Respondenten kan vara okunnig om det sanna värdet Glömska. En del händelser kommer man inte ihåg. Andra kommer man ihåg men placerar fel i tiden. Känsliga frågor. Det kan vara svårt att få korrekta svar på frågor om sådant som konsumtion av droger, respondentens sexliv, etc. Prestigeladdade frågor. Exempel på denna typ av frågor är frågor om hur mycket man konsumerar av olika slag av ”finkultur”. Leder till s.k. prestigebias. Egenintresse. Ibland kan det ligga i respondentens intresse att svara på ett visst sätt eftersom man vet att resultatet av undersökningen kan leda till att t.ex. politiker eller andra beslutsfattare agerar på ett för respondenten önskvärt sätt.
45
–Mätfel som beror på intervjuaren Exempelvis så kan intervjuarens uppträdande påverka resultatet (intervjuareffekt). –Mätfel som beror på mätmetoden Olika mätmetoder (besöksintervju, telefonintervju, postenkät, etc) kan ge olika resultat. Exempelvis så ger ofta postenkäter sannare svar på känsliga frågor. –Mätfel som beror på frågeformuläret Oklara frågeformuleringar och definitioner, dåliga anvisningar, etc. kan ge upphov till stora systematiska fel. Även antalet frågor kan ha betydelse för kvaliteten på de data man får. Enkäter som tar lång tid att fylla i leder t.ex. i regel till större bortfall.
46
Bearbetningsfel Kodningsfel Inmatningsfel Datorbearbetningsfel
47
Urvalsfel Uppstår när man studerar ett urval i stället för hela populationen Slumpmässigt och möjligt att uppskatta om urvalet görs ”korrekt”
48
III. Deskription
49
Tabeller Tabell- och kolumnrubriker bör vara fullständiga men ändå kortfattade Lämplig uppställning: –Tabellnr., rubrik –Kort anmärkning som gäller hela tabellen –Tabell –Noter –Längre anmärkningar –Källhänvisning
50
Ange enheten för respektive kolumn ovanför varje kolumn. Om samma enhet gäller för hela tabellen ges den i rubriken.
51
Tabell, en variabel Envägsindelad frekvenstabell –Innehåller en variabel samt absoluta eller relativa frekvenser
52
Tabell x.?? Studenternas fördelning på variabeln nivå på utbildning vid påbörjade högskolestudier. År 2003. Procent.
53
Tvåvägsindelad frekvenstabell –Innehåller två variabler samt frekvenser eller relativa frekvenser Envägsindelad kvottabell –Innehåller två variabler, men en av variablerna finns i tabellcellerna i form av t.ex. medelvärden. Tabell, två variabler
54
Tabell x.?? Studenternas fördelning på variabeln nivå på utbildning vid påbörjade högskolestudier. År 2003. Uppdelat på kön. Procent.
55
Envägsindelad kvottabell: Genomsnittspoäng för män och kvinnor
56
Tre variabler –Trevägsindelad frekvenstabell –Tvåvägsindelad kvottabell Fyra variabler –Fyrvägsindelad frekvenstabell –Trevägsindelad kvottabell Tabell, tre eller fyra variabler
57
Diagram Diagramrubriken bör vara fullständig men ändå kortfattad Lämplig uppställning: –Diagramnr., rubrik –Kort anmärkning som gäller hela diagrammet –Diagram –Noter –Längre anmärkningar –Källhänvisning
58
Välj diagramtyp som passar det aktuella problemet Välj lämpliga skalor för axlarna Stympa ej y-axeln i onödan. Om y-axeln stympas bör detta klart anges
59
För axlarna skall man tydligt ange variabler, enheter, skalsteg och skalvärden Diagrammet kan med fördel omges av en ram och innehålla stödlinjer
60
Kvalitativa variabler För att visa en fördelning, i en population eller ett urval, när man har en kvalitativ variabel, kan man t.ex. använda ett stapeldiagram eller ett cirkeldiagram.
61
Stapeldiagram, en variabel. Absoluta frekvenser.
62
Stapeldiagram, en variabel. Relativa frekvenser.
63
Liggande stapeldiagram
64
Cirkeldiagram
65
Fotbollsspelarens rörelsemönster
66
Kvantitativa variabler När man har en kvantitativ variabel kan man t.ex. använda histogram eller ett stam- bladdiagram. Man kan även klassindela materialet och presentera det med hjälp av ett stapeldiagram.
67
Histogram. Nyfödda barns fördelning på variabeln längd
68
Histogram. Åldersfördelning för ett urval av högskoleprovtagare.
69
Stapeldiagram. Åldersfördelning för samtliga högskoleprovtagare våren 1987.
70
Stapeldiagram, två variabler
71
Stam-bladdiagram. Chefernas fördelning på anställningstid. Anställningstid Stem-and-Leaf Plot Frequency Stem & Leaf 4,00 0. 2344 6,00 0. 567889 7,00 1. 0222233 8,00 1. 56788899 9,00 2. 111123344 5,00 2. 56679 2,00 3. 34 Stem width: 10,00 Each leaf: 1 case(s)
72
Tidsseriedata Tidsserier presenteras ofta med hjälp av s.k. linjediagram I linjediagram kan man ofta upptäcka sådant som trender, cykler eller säsongsvariationer.
73
Privat konsumtion i USA
74
Försäljning, kvartalsdata
75
Pulsmätning
76
3. Beskrivande mått Om man vill beskriva en egenskaps fördelning i en population eller ett sampel kan man naturligtvis göra detta genom att räkna upp samtliga observationer.
77
I en frekvenstabell sammanfattas en fördelning i ett fåtal värden - frekvenserna. Med hjälp av beskrivande mått sammanfattas fördelningen av ett eller ett fåtal tal.
78
Centralmått och kvartiler Genom att beräkna kvartiler sammanfattas en fördelning i tre tal: –första kvartilen –andra kvartilen (medianen) –tredje kvartilen
79
Lägger vi till det minsta och det största värdet kan vi beskriva fördelningen med hjälp av fem tal. (Five number summary) En boxplot (ett lådagram) är ett diagram som bygger på denna five number summary.
80
Boxplot (lådagram), ORD- provet.
81
Box-plot (lådagram), NOG- provet
82
Genom att beräkna ett centralmått sammanfattas fördelningen i ett tal. Tre vanliga centralmått: –Typvärdet –Medianen –Medelvärdet
83
Typvärdet... –är det mest frekventa värdet Medianen… –är, om antalet mätvärden är udda, det mittersta av de rangordnade mätvärdena. Om antalet mätvärden är jämnt är medianen medelvärdet av de två mittersta mätvärdena. Medelvärdet… –är summan av alla mätvärden dividerat med antalet mätvärden.
84
Vilket av dessa tre mått skall vi använda? Detta beror framför allt på två saker: –Syfte. Vad skall vi ha måttet till? –Möjlighet att tolka resultatet. Antag att vi sätter gul=1, blå=2 och röd=3. Eftersom vi har siffror kan vi beräkna typvärde, median och medelvärde. Men hur tolkar vi t.ex. medelvärdet 2,3 eller medianen 2? Medianen ”kräver” rangordning, att 2 innebär mer av egenskapen än 1. Medelvärdet ”kräver” dessutom ”ekvidistan”, dvs. lika avstånd mellan skalstreck.
85
Spridningsmått Ett centralmått sammanfattar en fördelning i ett enda tal och ger information om var fördelningens ”centrum” är beläget. Ett spridningsmått ger information om fördelningens spridning.
86
Tre olika spridningsmått Variationsvidden är skillnaden mellan det största och det minsta värdet Kvartilavståndet är avståndet mellan första och tredje kvartilen. Måttet anger alltså inom vilket avstånd de 50% mittersta observationerna ligger. Standardavvikelsen är ett spridningsmått som beskriver hur mycket mätvärdena avviker från medelvärdet.
87
Korrelationskoefficienten Korrelationskoefficienten r är ett mått på linjärt samband mellan x och y. Korrelationskoefficienten kan anta värden mellan –1 och +1. Observera att r är ett mått på linjärt samband. Även om r = 0 kan det finnas ett samband mellan x och y som ej är linjärt.
88
4. Modeller Vi har alla stött på modeller i olika sammanhang. Ex: –Leksaksbilar –Modelljärnvägar –Dockskåp
89
En leksaksbil är i vissa avseenden en kopia av en ”riktig” bil. Men den skiljer sig också ifrån en riktig bil på vissa punkter: –i regel inte lika stor –dörrarna kanske inte kan öppnas –motor kanske saknas –osv
90
Leksaksbilen kan sägas vara en förenkling av en riktig bil, men måste ändå vara tillräckligt ”naturtrogen” på just de punkter som krävs för att vi skall kunna använda den på önskat sätt
91
En modell är en förenklad beskrivning av någon del av verkligheten. Beskrivningen måste vara relevant för det vi skall använda modellen till.
92
Ytterligare exempel Kartor är modeller av den geografiska verkligheten. Vad som finns med på en karta beror på användningsområde. Vi har t.ex. –vägkartor –ekonomiska kartor –topografiska kartor –sjökort
93
Flygplansmodell i vindtunnel En cirkel som en modell för ett runt bord för att t.ex. beräkna bordets yta Tiden = sträckan / hastigheten Efterfrågefunktion:
94
Vetenskapliga modeller Modellen utformas så att den baserar sig på och sammanfattar vår teoretiska kunskap om verklighetsområdet Modellen består av ett antal teoretiska begrepp och en beskrivning av hur dessa begrepp är relaterade till varandra
95
Modellbyggnadsprocessen Det första steget i en vetenskaplig modellbyggnadsprocess är att utifrån vår teori formulera en modell. Steg 2 är att utifrån modellen göra en s.k. prediktiv inferens. Den prediktiva inferensen innebär att vi med modellen som utgångspunkt härleder utsagor, eller förutsägelser, om verkligheten.
96
Steg 3 innebär att vi observerar verkligheten. I det fjärde steget jämför vi våra förutsägelser med våra observationer och gör en, ofta statistisk, inferens. Om våra förutsägelser och våra observationer inte stämmer överens leder denna inferens i regel till att modellen revideras eller ibland t.o.m. att den teori som ligger till grund för vår modell förkastas.
97
5. Parametriska fördelningar Ibland kan man beskriva variationen i en population genom att använda en matematisk modell. Ett exempel på en sådan modell är normalfördelningen. Fördelningarna bestäms ofta av ett fåtal tal, s.k. parametrar.
98
Vet vi t.ex. att en variabels variation i en population på ett tillfredsställande sätt kan beskrivas av en normalfördelning, räcker det med att veta medelvärdet och standardavvikelsen i populationen för att vi skall få en komplett bild av hur stor andel av populationen som finns inom vissa intervall.
99
Normalfördelningsmodellen Den kurva som beskriver hur stor proportion av en population som ligger inom vissa intervall kallas för en täthetsfunktion. Proportioner räknas som areor under denna täthetsfunktion.
100
En normalfördelad variabel har följande täthetsfunktion:
101
För en normalfördelning gäller följande: –Ungefär 68% av fördelningen ligger inom en standardavvikelse från medelvärdet. –Ungefär 95% av fördelningen ligger inom två standardavvikelser från medelvärdet. –Ungefär 99,7% av fördelningen ligger inom tre standardavvikelser från medelvärdet.
102
Exempel: –Antag att intelligensen i en population, mätt med ett visst intelligenstest, kan beskrivas av en normalfördelning med medelvärdet 100 och standardavvikelsen 15. –Då vet vi att ungefär 68% av populationen ligger mellan 85 och 115, ungefär 95 % av populationen mellan 70 och 130 och ungefär 99,7 % av populationen mellan 55 och 145
103
Standardnormalfördelningen Som vi ser finns det ett oändligt antal normalfördelningar. För varje val av (medelvärde) och (standardavvikelse) ges en ny normalfördelning. Om variabeln X är normalfördelad så gäller att variabeln Z=(X- )/ är standardnormalfördelad. Detta innebär att Z är normalfördelad med medelvärdet 0 och standardavvikelsen 1. För standardnormalfördelningen finns tabeller med beräknade areor.
104
Exempel Antag att fördelningen av variabeln X i en population kan beskrivas av en normalfördelning med medelvärdet 4 och standardavvikelsen 2. Detta innebär att ungefär 68% ligger mellan 2 och 6, ungefär 95% mellan 0 och 8 och ungefär 99,7% mellan –2 och 10.
105
Lägg märke till att värdena 6, 8 och 10 på variabeln X motsvaras av värdena 1, 2 och 3 på variabeln Z. Z-värdena anger alltså antalet standardavvikelser från medelvärdet. X-värdet 6 är ju en standardavvikelse över medelvärdet, 8 är två standardavvikelser över medelvärdet, osv.
106
IV Statistisk inferensteori
107
1. Inledning Den statistiska inferensteorin handlar i huvudsak om att dra slutsatser från ett slumpmässigt urval till en population. De två huvudproblemen är estimation och hypotesprövning.
108
Vid såväl estimation som hypotesprövning använder vi observationerna i stickprovet för att räkna fram numeriska värden av olika slag. Exempel: –Vi använder kanske stickprovsproportionen för att uppskatta populationsproportionen.
109
Numeriska värden som på detta sätt beräknas med hjälp av observationerna i ett stickprov kallas för statistikor. Observera att en statistika är en slumpvariabel eftersom dess värde bestäms av ett slumpmässigt försök och varierar från stickprov till stickprov. Exempel på statistikor: Stickprovsmedelvärdet, stickprovsstandardavvikelsen, stickprovsproportionen
110
Statistikor som används för estimation kallas för estimatorer. Observationer på estimatorer kallas för estimat. Statistikor som används vid hypotesprövning brukar kallas för teststatistikor.
111
Samplingfördelningar och centrala gränsvärdessatsen En samplingfördelning är en sannolikhetsfördelning för en statistika.
112
Centrala gränsvärdessatsen Oavsett formen på den populationsfördelning ett slumpmässigt stickprov hämtas från, förutsatt att fördelningen har finit väntevärde och varians, så går fördelningen för stickprovsmedelvärdet mot normalfördelningen då stickprovsstorleken ökar.
113
Hur stort stickprov som behövs för att normalfördelningen skall kunna användas som en approximativ modell beror på hur populationsfördelningen ser ut. Tumregel: I de flesta fall är normalfördelningen en tillräckligt god approximation redan vid stickprovsstorleken 30.
114
Fördelningen för stickprovsmedelvärdet Om vi samplar från en normalfördelning är stickprovsmedelvärdet alltid normalfördelat oavsett stickprovsstorlek. Om vi samplar från någon annan fördelning är stickprovsmedelvärdet approximativt normalfördelat om stickprovet är ”stort”.
115
Stickprovsmedelvärdets väntevärde och standardavvikelse Låt n vara stickprovsstorleken och låt och vara medelvärdet och standardavvikelsen i den population vi samplar ur. Väntevärde (”medelvärdet av alla möjliga stickprovsmedelvärden”): Standardavvikelsen för stickprovsmedelvärdena:
116
Fördelningen för stickprovsproportionen Exempel: –Tag ett stickprov av n st individer och sätt man=1 och kvinna=0.
117
–Bilda andelen män i stickprovet, dvs. stickprovsproportionen:
118
Som vi ser i exemplet är stickprovsproportionen inget annat än ett stickprovsmedelvärde där variablerna i summan i täljaren antar värdet 0 eller 1. Om stickprovet är stort kan vi, med stöd av centrala gränsvärdessatsen, hävda att stickprovsproportionen är approximativt normalfördelad. Tumregel: och
119
Vi såg tidigare att väntevärdet och standardavvikelsen för stickprovsmedelvärdet var lika med populationens medelvärde och populationens standardavvikelse dividerad med kvadratroten av stickprovsstorleken. När populationen består av ettor och nollor är populationens medelvärde p och populationens standardavvikelse kvadratroten av p(1-p). Väntevärde och standardavvikelse för stickprovsproportionen
120
Väntevärdet: Standardavvikelsen:
121
2. Estimation Exempel 1 –Antag att vi med hjälp av ett stickprov bestående av 100 individer vill skatta genomsnittsintelligensen (mätt med ett IQ-test) i en population. Antag vidare att vi vet att standardavvikelsen i populationen är =15.
122
–Vi vet då följande: 1. Om vi tar upprepade stickprov bestående av n=100 individer kan stickprovsmedelvärdets variation mellan olika stickprov beskrivas av en normalfördelning med standardavvikelsen 2. I 95% av alla stickprov kommer stickprovsmedelvärdet att vara högst enheter ifrån populationmedelvärdet.
123
Antag att vi bestämmer oss för att alltid bilda intervallet dvs. i vårt fall Hur ofta kommer vi då att, i det långa loppet vid upprepade försök, få populationsmedelvärdet inom intervallet?
124
Intervallet kallas för ett 95%-igt konfidensintervall och kallas för den statistiska felmarginalen.
125
Om vi t.ex. får stickprovsmedelvärdet 97 så sträcker sig det 95%-iga konfidensintervallet från 94 till 100. Vi kan alltså med 95%-ig konfidens påstå att populationsmedelvärdet ligger mellan 94 och 100. Vi baserar denna konfidens på att vi använt en metod som ger oss rätt i 95% av fallen i det långa loppet. Observera att om vi gör många undersökningar och alltid beräknar 95%-iga konfidensintervall så kommer vi också att ”missa” populations- medelvärdet i ca 5% av fallen i det långa loppet.
126
Exempel 2 –Antag att vi, med hjälp av ett stickprov bestående av n=3000 individer, vill skatta andelen i populationen som skulle rösta på socialdemokraterna om det vore val idag.
127
–Vi vet följande: 1. Om vi tar upprepade stickprov bestående av n=3000 individer kan stickprovsproportionens variation mellan olika stickprov beskrivas av en normalfördelning med standardavvikelsen där p är populationsproportionen.
128
2. I 95% av fallen kommer stickprovsproportionen att vara högst ifrån populationsproportionen. 3. Ovanstående stämmer approximativt även om vi ersätter populationsproportionen med stickprovsproportionen, dvs. om vi använder
129
–Antag att 1200 av 3000 svarar att de skulle rösta på socialdemokraterna om det vore val idag. Vi får då –Det 95%-iga konfidensintervallet blir
130
–Felmarginalen är då 1.8 procentenheter. –Vi kan vara ganska säkra på att andelen i populationen ligger mellan 38.2 % och 41.8 %, eftersom vi använt en metod som, i det långa loppet, ger oss rätt i 95 % av fallen.
131
3. Statistisk hypotesprövning Hypotetisk-deduktiv metod: –Hypotes: Alla svanar är vita. –Empirisk konsekvens: Om a är en svan så är a vit. Om jag väljer en svan slumpmässigt så är sannolikheten ett att den är vit, givet att hypotesen är sann. –Observation: a är en svan och a är svart. –Slutsats: Hypotesen är falsk. Förkasta hypotesen.
132
Om hypotesen är sann kan jag omöjligt se en svan som är svart. P(svart svan, givet hypotesen sann) = 0. Antingen har jag sett något som är omöjligt eller också är hypotesen falsk. Statistisk hypotesprövning: –Hypotes: = 0 (Eventuell hjälphypotes: Populationen är normalfördelad)
133
–Empirisk konsekvens: Sannolikheten att få ett stickprovsmedelvärde som ligger max ifrån 0 är 0,95. Om jag drar ett urval slumpmässigt och beräknar stickprovsmedelvärdet förväntar jag mig att få ett värde som ligger max 2 standardavvikelser från nollhypotesens värde (ett z-värde mellan –2 och 2), eftersom sannolikheten är så hög (0,95) att hamna där, givet att hypotesen är sann.
134
–Exempel på observation: Stickprovsmedelvärdet ligger mer än två standardavvikelser från den hypotes vi har om populationsmedelvärdet (ekvivalent får vi ett z- värde som är mindre än –2 eller större än 2) –Slutsats: Förkasta hypotesen. –Om hypotesen är sann är sannolikheten mycket liten, endast 0,05, att jag skall få en observation på stickprovsmedelvärdet som ligger så långt ifrån populationsmedelvärdet. Antingen har jag sett något som är osannolikt eller också är hypotesen falsk.
135
Exempel Normalfördelad population. Populationens standardavvikelse är 3: –H 0 : = 10, H A : 10 –Signifikansnivå: . –Teststatistika: Stickprovsmedelvärdet, som är normalfördelat med standardavvikelsen och, om nollhypotesen är sann, medelvärdet 10.
136
–Dvs. om nollhypotesen är sann är sannolikheten 0,05 att få ett värde på stickprovsmedelvärdet som är mindre än eller större än –Ekvivalent kan vi säga att sannolikheten är 0,05 att få ett z-värde som är mindre än –2 eller större än 2.
137
–Kritiska gränser: Antag att vi tar ett sampel omfattande 16 observationer. Med signifikansnivån 5% skall vi förkasta nollhypotesen om stickprovsmedelvärdet är mindre än eller större än Ekvivalent kan vi förkasta nollhypotesen om z-värdet är mindre än -2 eller större än 2.
138
–Observation: Antag att vi får stickprovsmedelvärdet 12 (vilket ger z = 2,67). –Slutsats: Förkasta nollhypotesen. Vi anser oss ha tillräckligt empiriskt stöd för alternativhypotesen, dvs. att populationsmedelvärdet ej är 10. Bevisen räcker för att ”fälla” nollhypotesen.
139
139 Typ I fel och typ II fel. Typ I fel: Att förkasta nollhypotesen då den är sann. (Sannolikheten för detta är signifikansnivån). Typ II fel: Att ej förkasta nollhypotesen då den är falsk.
140
140 P-värden Ett p-värde är sannolikheten att, om nollhypotesen är sann, vid en upprepning av försöket, få ett minst lika ”extremt” värde på teststatistikan som det vi faktiskt fått. Med ”extremt” avses i förhållande till nollhypotesen och vad som räknas som ”extremt” beror därför på hypoteserna.
141
141 Exempel 1: –H 0 : = 10, H A : 0. –Antag att vi få observationen z = 2.67. –P-värdet = Sannolikheten att få ett stickprovsmedelvärde som ligger minst 2.67 standardavvikelser från 10. Sannolikheten att få ett värde på z som är större än 2.67 eller mindre än –2.67 = 0.0076 Exempel 2: –H 0 : 10, H A : 0 –z = 2.67 –P-värdet = Sannolikheten att få ett stickprovsmedelvärde som ligger minst 2.67 standardavvikelser över 10 = 0.0038
Liknande presentationer
© 2024 SlidePlayer.se Inc.
All rights reserved.