Presentation laddar. Vänta.

Presentation laddar. Vänta.

Introduktion. Kenny Bränberg Steg 3 + specialkurser Tränare i Sävar IK och assisterande tränare i Mariehem SK. 16 års tränarerfarenhet. Alla åldersgrupper.

Liknande presentationer


En presentation över ämnet: "Introduktion. Kenny Bränberg Steg 3 + specialkurser Tränare i Sävar IK och assisterande tränare i Mariehem SK. 16 års tränarerfarenhet. Alla åldersgrupper."— Presentationens avskrift:

1 Introduktion

2 Kenny Bränberg Steg 3 + specialkurser Tränare i Sävar IK och assisterande tränare i Mariehem SK. 16 års tränarerfarenhet. Alla åldersgrupper på både pojk- och flicksidan, från 7-åringar upp till herrar i div 2 och damer i div 3. Distriktsinstruktör (Grundkurs, U1, U2, Steg 1, Steg 2, Fotbollens träningslära) Fotbollsinstruktör på Dragonskolans idrottsprogram. Zonledare för flickor i Umeå Ledamot i VFF:s ungdomskommitté och ansvarig för zonverksamheten i Västerbotten.

3 Varför mäter man? För att beskriva För att jämföra För att utvärdera

4 Kost och fotboll (Balsom et al. 1997) Sex manliga fotbollsspelare. Medelålder 24 år. Smålagsspel 4 mot 4 inomhus i 90 minuter. Två tillfällen med minst en veckas mellanrum. I varje match två testpersoner, en från varje lag. (Totalt sex matcher).

5 Varje match filmades och analyserades av tränad observatör. Observatören kände inte till förutsättningarna inför varje match. 48 timmar före match genomförde testpersonerna en standardiserad intermittent löpning för att reducera glykogendepåerna. Under följande 48 timmar tilldelades varje tesperson ett kostprogram som vid ena tillfället var kolhydratrikt och vid det andra tillfället kolhydratfattigt.

6 Inför varje match togs en muskelbiopsi från yttre breda lårmuskeln. Glykogenkoncentrationen var signifikant högre då spelarna ätit den kolhydratrika kosten. Resultaten från rörelseanalysen visade att tiden för högintensivt arbete och press var signifikant (p<0.05) lägre under matchen som förbereddes med kolhydratfattig kost.

7 Pre-season concurrent strength and endurance development in elite soccer players Jan Helgerud, Ole J. Kemi, Jan Hoff

8 Syfte: –Förbättra snabbhet och styrka utan viktuppgång –Testa explosiv styrketräning i direkt anslutning till uthållighetsträning Molde FC, n=21. Professionella spelare som tränade dagligen.

9 Behandling: –Uthållighet 4x4 min, % av maxpuls. 3 min aktiv vila %. –15 min vila –4x4 90 graders knäböj. 3 min vila mellan varje serie. –2 ggr per vecka i 8 veckor.

10 Resultat: –Max syreupptagning +8,1 % (p<0.001) –Max styrka +42,9 % (p<0,001) –Vikt +1,0 kg (p<0,05) –Vertikalhopp +5,0 % (p<0,001) –Sprint 10 m +3,3 % (p<0,001) –Sprint 20 m + 1,6 % (p<0,001) I samtliga fall användes vanligt t-test. Observera att det i huvudsak rör sig om neurologisk anpassning och liten hypertrofi.

11 I. Statistiska undersökningar Ett gemensamt syfte för alla undersökningar är att få ökad kunskap om ett visst problemområde Det kanske viktigaste sättet att skaffa sig sådan kunskap är genom observationer Inom statistikteorin studeras –hur observationer samlas in –hur observationer analyseras –hur slutsatser kan dras från observationer

12 Deskriptiva och analytiska undersökningar Vid en deskriptiv eller beskrivande undersökning försöker man att, med hjälp av ett insamlat datamaterial, beskriva ett förhållande eller ett faktiskt händelseförlopp.

13 Vid en analytisk eller förklarande undersökning försöker man klarlägga orsakssamband och förklara varför verkligheten ser ut som den gör.

14 En statistisk undersöknings olika steg Problemformulering Planering Datainsamling Analys Rapportering

15 Planering av en undersökning Vid planering bestämmer man sig bl.a. för: –Vilka data som skall samlas in –Hur dessa data skall samlas in, dvs. val av datainsamlingsmetod Totalundersökning eller urvalsundersökning Typ av urval vid urvalsundersökning Val av mätmetod och mätinstrument. –Hur eventuellt bortfall skall hanteras –Hur data skall analyseras –Hur resultatet skall redovisas

16 II. Databildning

17 Introduktion Den process som har till uppgift att producera de data som kunskapsbildningen behöver kallar vi databildning

18 Datainsamlingen måste var anpassad till den teori man har om problemområdet Teorier om dataanalys påverkar mätinstrumentets utformning och konstruktion

19 Experimentella och icke- experimentella undersökningar Experimentella undersökningar: –Behandling. Försöksenheterna utsätts för vissa behandlingar i avsikt att studera effekten av dessa behandlingar –Upprepbarhet. Experimentet kan upprepas ett önskat antal gånger –Randomisering. Försöksenheterna fördelas slumpmässigt på olika behandlingar

20 –Kontroll. Försöksbetingelserna kan i allmänhet kontrolleras och konstanthållas, eller åtminstone löpande registreras. –Dubbelblinda försök. Då försöksenheterna är människor vet i regel varken försökspersonen eller den som ger behandlingen vilken behandling försökspersonen får.

21 Ickeexperimentella undersökningar, observationsundersökningar. –Undersökningsenheter eller händelseförlopp påverkas ej på något sätt. –Behandlingarna i den experimentella studien ersätts av passivt observerande.

22 Experimentella studier I regel att föredra om man vill undersöka effekten av någon förklaringsvariabel på någon responsvariabel, eftersom det med en icke-experimentell ansats kan vara svårt att särskilja effekten av förklaringsvariabeln från effekter av andra faktorer

23 Randomisering Randomisering innebär att slumpen avgör vilken behandling en undersökningsenhet tilldelas Genom randomisering undviks systematiska fel Randomisering medför att effekten av en eventuell behandling med hög grad av säkerhet och precision kan fastställas med hjälp av statistikteori

24 Generaliserbarhet Ett problem vid experimentella studier är att undersökningsenheterna inte alltid är slumpmässigt utvalda ur någon väldefinierad population och att därför de resultat som erhålls, i strikt mening, endast gäller för de som ingår i försöket I sådana fall måste generaliseringar utöver undersökningsenheterna bygga på icke-statistiska argument

25 Brist på realism Försöken utförs ibland i en miljö som ej är verklig. Detta innebär också ett generaliseringsproblem. Det är inte säkert att en individ reagerar likadant i ett laboratorium som i ”verkligheten”.

26 Urvalsundersökningar Varför urvalsundersökning i stället för totalundersökning? –Billigare –Snabbare –Bättre mätning –Praktiskt omöjligt med totalundersökning då populationen är mycket stor eller oändlig –Förstörande prov

27 Olika typer av urval Lättåtkomliga element Frivilliga svar Frivilliga försökspersoner Sannolikhetsurval

28 Urvalsenheterna väljs med hjälp av någon slumpmekanism För varje enhet är sannolikheten för att inkluderas i urvalet känd

29 Med sannolikhetsurval kan man... ge objektiva mått på undersökningsresultatens precision utforma en teori för effektiv undersökningsplanering på förhand göra objektiva jämförelser mellan olika urvalsplaner på förhand uppskatta erforderliga urvalsstorlekar för att uppnå önskad precision

30 Olika typer av sannolikhetsurval Obundet slumpmässigt urval (OSU) Stratifierat urval Klusterurval

31 Obundet slumpmässigt urval Vid varje dragning av en enhet har de i populationen kvarvarande enheterna samma sannolikhet att bli valda Vid OSU av n enheter har alla möjliga kombinationer av n enheter samma chans att bli valda

32 Stratifierat urval Populationen delas in i strata och ett OSU dras ur varje stratum Skäl: –Om resultatet skall redovisas för varje stratum kan urvalsstorlekarna för varje stratum avpassas så att vissa precisionskrav uppfylles utan att man erhåller överflödiga observationer från vissa strata

33 –Skattningar av populationsparametrar (t.ex. populationsmedelvärdet) kan göras med bättre precision än vid ett OSU, om bara stratifieringsvariabeln är ”bra” (homogent inom strata, heterogent mellan strata)

34 Gruppurval (klusterurval) Populationen delas in i grupper (kluster) av enheter. Ett antal sådan kluster väljs slumpmässigt. Samtliga enheter inom ett kluster undersöks. Skäl: –Ramproblem –Geografisk spridning –Kostnader

35 Mätning En tilldelning av tal till undersökningsenheterna på ett sådant sätt att vissa relationer mellan enheterna, med avseende på någon egenskap, avspeglas i relationer mellan talen

36 Mätnivåer (skalnivåer) Nominal –Endast klassificering Ordinal –Klassificering och rangordning Intervall –Klassificering, rangordning och ekvidistans Kvot –Klassificering, rangordning, ekvidistans och absolut nollpunkt

37 Observera att mätnivån bestäms av vilken typ av information mätningen ger oss. Mätnivån har bl.a. betydelse för vilken typ av beräkningar som är meningsfulla

38 Operationalisering Operationalisering av en variabel innebär en beskrivning av hur man skall gå tillväga, vilka operationer man måste utföra, för att kunna göra mätningen. Operationalisering innebär således att mätregler definieras.

39 Indikatorer och latenta variabler En latent variabel är en egenskap som ej är direkt observerbar En indikator är en observerbar (manifest) variabel som används vid mätning av en latent variabel

40 Reliabilitet Grad av överensstämmelse mellan upprepade mätningar med samma mätinstrument på samma undersökningsenhet.

41 Validitet ”Mätinstrumentet mäter vad det avser att mäta” ”Överensstämmelse mellan teoretisk och operationell definition” ”Frånvaro av systematiska mätfel”

42 Några felkällor vid statistiska undersökningar Täckningsfel –Övertäckning Urvalsramen innehåller individer som ej finns med i målpopulationen –Undertäckning Urvalsramen saknar individer som finns med i målpopulationen –Kan ge upphov till systematiska fel (bias)

43 Bortfallsfel –Individbortfall innebär att man från en eller flera individer ej får något svar på t.ex. en postenkät –Partiellt bortfall innebär svarsvägran på vissa frågor –Kan ge stora systematiska fel

44 Mätfel –Mätfel som beror på respondenten Respondenten kan vara okunnig om det sanna värdet Glömska. En del händelser kommer man inte ihåg. Andra kommer man ihåg men placerar fel i tiden. Känsliga frågor. Det kan vara svårt att få korrekta svar på frågor om sådant som konsumtion av droger, respondentens sexliv, etc. Prestigeladdade frågor. Exempel på denna typ av frågor är frågor om hur mycket man konsumerar av olika slag av ”finkultur”. Leder till s.k. prestigebias. Egenintresse. Ibland kan det ligga i respondentens intresse att svara på ett visst sätt eftersom man vet att resultatet av undersökningen kan leda till att t.ex. politiker eller andra beslutsfattare agerar på ett för respondenten önskvärt sätt.

45 –Mätfel som beror på intervjuaren Exempelvis så kan intervjuarens uppträdande påverka resultatet (intervjuareffekt). –Mätfel som beror på mätmetoden Olika mätmetoder (besöksintervju, telefonintervju, postenkät, etc) kan ge olika resultat. Exempelvis så ger ofta postenkäter sannare svar på känsliga frågor. –Mätfel som beror på frågeformuläret Oklara frågeformuleringar och definitioner, dåliga anvisningar, etc. kan ge upphov till stora systematiska fel. Även antalet frågor kan ha betydelse för kvaliteten på de data man får. Enkäter som tar lång tid att fylla i leder t.ex. i regel till större bortfall.

46 Bearbetningsfel Kodningsfel Inmatningsfel Datorbearbetningsfel

47 Urvalsfel Uppstår när man studerar ett urval i stället för hela populationen Slumpmässigt och möjligt att uppskatta om urvalet görs ”korrekt”

48 III. Deskription

49 Tabeller Tabell- och kolumnrubriker bör vara fullständiga men ändå kortfattade Lämplig uppställning: –Tabellnr., rubrik –Kort anmärkning som gäller hela tabellen –Tabell –Noter –Längre anmärkningar –Källhänvisning

50 Ange enheten för respektive kolumn ovanför varje kolumn. Om samma enhet gäller för hela tabellen ges den i rubriken.

51 Tabell, en variabel Envägsindelad frekvenstabell –Innehåller en variabel samt absoluta eller relativa frekvenser

52 Tabell x.?? Studenternas fördelning på variabeln nivå på utbildning vid påbörjade högskolestudier. År Procent.

53 Tvåvägsindelad frekvenstabell –Innehåller två variabler samt frekvenser eller relativa frekvenser Envägsindelad kvottabell –Innehåller två variabler, men en av variablerna finns i tabellcellerna i form av t.ex. medelvärden. Tabell, två variabler

54 Tabell x.?? Studenternas fördelning på variabeln nivå på utbildning vid påbörjade högskolestudier. År Uppdelat på kön. Procent.

55 Envägsindelad kvottabell: Genomsnittspoäng för män och kvinnor

56 Tre variabler –Trevägsindelad frekvenstabell –Tvåvägsindelad kvottabell Fyra variabler –Fyrvägsindelad frekvenstabell –Trevägsindelad kvottabell Tabell, tre eller fyra variabler

57 Diagram Diagramrubriken bör vara fullständig men ändå kortfattad Lämplig uppställning: –Diagramnr., rubrik –Kort anmärkning som gäller hela diagrammet –Diagram –Noter –Längre anmärkningar –Källhänvisning

58 Välj diagramtyp som passar det aktuella problemet Välj lämpliga skalor för axlarna Stympa ej y-axeln i onödan. Om y-axeln stympas bör detta klart anges

59 För axlarna skall man tydligt ange variabler, enheter, skalsteg och skalvärden Diagrammet kan med fördel omges av en ram och innehålla stödlinjer

60 Kvalitativa variabler För att visa en fördelning, i en population eller ett urval, när man har en kvalitativ variabel, kan man t.ex. använda ett stapeldiagram eller ett cirkeldiagram.

61 Stapeldiagram, en variabel. Absoluta frekvenser.

62 Stapeldiagram, en variabel. Relativa frekvenser.

63 Liggande stapeldiagram

64 Cirkeldiagram

65 Fotbollsspelarens rörelsemönster

66 Kvantitativa variabler När man har en kvantitativ variabel kan man t.ex. använda histogram eller ett stam- bladdiagram. Man kan även klassindela materialet och presentera det med hjälp av ett stapeldiagram.

67 Histogram. Nyfödda barns fördelning på variabeln längd

68 Histogram. Åldersfördelning för ett urval av högskoleprovtagare.

69 Stapeldiagram. Åldersfördelning för samtliga högskoleprovtagare våren 1987.

70 Stapeldiagram, två variabler

71 Stam-bladdiagram. Chefernas fördelning på anställningstid. Anställningstid Stem-and-Leaf Plot Frequency Stem & Leaf 4, , , , , , , Stem width: 10,00 Each leaf: 1 case(s)

72 Tidsseriedata Tidsserier presenteras ofta med hjälp av s.k. linjediagram I linjediagram kan man ofta upptäcka sådant som trender, cykler eller säsongsvariationer.

73 Privat konsumtion i USA

74 Försäljning, kvartalsdata

75 Pulsmätning

76 3. Beskrivande mått Om man vill beskriva en egenskaps fördelning i en population eller ett sampel kan man naturligtvis göra detta genom att räkna upp samtliga observationer.

77 I en frekvenstabell sammanfattas en fördelning i ett fåtal värden - frekvenserna. Med hjälp av beskrivande mått sammanfattas fördelningen av ett eller ett fåtal tal.

78 Centralmått och kvartiler Genom att beräkna kvartiler sammanfattas en fördelning i tre tal: –första kvartilen –andra kvartilen (medianen) –tredje kvartilen

79 Lägger vi till det minsta och det största värdet kan vi beskriva fördelningen med hjälp av fem tal. (Five number summary) En boxplot (ett lådagram) är ett diagram som bygger på denna five number summary.

80 Boxplot (lådagram), ORD- provet.

81 Box-plot (lådagram), NOG- provet

82 Genom att beräkna ett centralmått sammanfattas fördelningen i ett tal. Tre vanliga centralmått: –Typvärdet –Medianen –Medelvärdet

83 Typvärdet... –är det mest frekventa värdet Medianen… –är, om antalet mätvärden är udda, det mittersta av de rangordnade mätvärdena. Om antalet mätvärden är jämnt är medianen medelvärdet av de två mittersta mätvärdena. Medelvärdet… –är summan av alla mätvärden dividerat med antalet mätvärden.

84 Vilket av dessa tre mått skall vi använda? Detta beror framför allt på två saker: –Syfte. Vad skall vi ha måttet till? –Möjlighet att tolka resultatet. Antag att vi sätter gul=1, blå=2 och röd=3. Eftersom vi har siffror kan vi beräkna typvärde, median och medelvärde. Men hur tolkar vi t.ex. medelvärdet 2,3 eller medianen 2? Medianen ”kräver” rangordning, att 2 innebär mer av egenskapen än 1. Medelvärdet ”kräver” dessutom ”ekvidistan”, dvs. lika avstånd mellan skalstreck.

85 Spridningsmått Ett centralmått sammanfattar en fördelning i ett enda tal och ger information om var fördelningens ”centrum” är beläget. Ett spridningsmått ger information om fördelningens spridning.

86 Tre olika spridningsmått Variationsvidden är skillnaden mellan det största och det minsta värdet Kvartilavståndet är avståndet mellan första och tredje kvartilen. Måttet anger alltså inom vilket avstånd de 50% mittersta observationerna ligger. Standardavvikelsen är ett spridningsmått som beskriver hur mycket mätvärdena avviker från medelvärdet.

87 Korrelationskoefficienten Korrelationskoefficienten r är ett mått på linjärt samband mellan x och y. Korrelationskoefficienten kan anta värden mellan –1 och +1. Observera att r är ett mått på linjärt samband. Även om r = 0 kan det finnas ett samband mellan x och y som ej är linjärt.

88 4. Modeller Vi har alla stött på modeller i olika sammanhang. Ex: –Leksaksbilar –Modelljärnvägar –Dockskåp

89 En leksaksbil är i vissa avseenden en kopia av en ”riktig” bil. Men den skiljer sig också ifrån en riktig bil på vissa punkter: –i regel inte lika stor –dörrarna kanske inte kan öppnas –motor kanske saknas –osv

90 Leksaksbilen kan sägas vara en förenkling av en riktig bil, men måste ändå vara tillräckligt ”naturtrogen” på just de punkter som krävs för att vi skall kunna använda den på önskat sätt

91 En modell är en förenklad beskrivning av någon del av verkligheten. Beskrivningen måste vara relevant för det vi skall använda modellen till.

92 Ytterligare exempel Kartor är modeller av den geografiska verkligheten. Vad som finns med på en karta beror på användningsområde. Vi har t.ex. –vägkartor –ekonomiska kartor –topografiska kartor –sjökort

93 Flygplansmodell i vindtunnel En cirkel som en modell för ett runt bord för att t.ex. beräkna bordets yta Tiden = sträckan / hastigheten Efterfrågefunktion:

94 Vetenskapliga modeller Modellen utformas så att den baserar sig på och sammanfattar vår teoretiska kunskap om verklighetsområdet Modellen består av ett antal teoretiska begrepp och en beskrivning av hur dessa begrepp är relaterade till varandra

95 Modellbyggnadsprocessen Det första steget i en vetenskaplig modellbyggnadsprocess är att utifrån vår teori formulera en modell. Steg 2 är att utifrån modellen göra en s.k. prediktiv inferens. Den prediktiva inferensen innebär att vi med modellen som utgångspunkt härleder utsagor, eller förutsägelser, om verkligheten.

96 Steg 3 innebär att vi observerar verkligheten. I det fjärde steget jämför vi våra förutsägelser med våra observationer och gör en, ofta statistisk, inferens. Om våra förutsägelser och våra observationer inte stämmer överens leder denna inferens i regel till att modellen revideras eller ibland t.o.m. att den teori som ligger till grund för vår modell förkastas.

97 5. Parametriska fördelningar Ibland kan man beskriva variationen i en population genom att använda en matematisk modell. Ett exempel på en sådan modell är normalfördelningen. Fördelningarna bestäms ofta av ett fåtal tal, s.k. parametrar.

98 Vet vi t.ex. att en variabels variation i en population på ett tillfredsställande sätt kan beskrivas av en normalfördelning, räcker det med att veta medelvärdet och standardavvikelsen i populationen för att vi skall få en komplett bild av hur stor andel av populationen som finns inom vissa intervall.

99 Normalfördelningsmodellen Den kurva som beskriver hur stor proportion av en population som ligger inom vissa intervall kallas för en täthetsfunktion. Proportioner räknas som areor under denna täthetsfunktion.

100 En normalfördelad variabel har följande täthetsfunktion:

101 För en normalfördelning gäller följande: –Ungefär 68% av fördelningen ligger inom en standardavvikelse från medelvärdet. –Ungefär 95% av fördelningen ligger inom två standardavvikelser från medelvärdet. –Ungefär 99,7% av fördelningen ligger inom tre standardavvikelser från medelvärdet.

102 Exempel: –Antag att intelligensen i en population, mätt med ett visst intelligenstest, kan beskrivas av en normalfördelning med medelvärdet 100 och standardavvikelsen 15. –Då vet vi att ungefär 68% av populationen ligger mellan 85 och 115, ungefär 95 % av populationen mellan 70 och 130 och ungefär 99,7 % av populationen mellan 55 och 145

103 Standardnormalfördelningen Som vi ser finns det ett oändligt antal normalfördelningar. För varje val av  (medelvärde) och  (standardavvikelse) ges en ny normalfördelning. Om variabeln X är normalfördelad så gäller att variabeln Z=(X-  )/  är standardnormalfördelad. Detta innebär att Z är normalfördelad med medelvärdet 0 och standardavvikelsen 1. För standardnormalfördelningen finns tabeller med beräknade areor.

104 Exempel Antag att fördelningen av variabeln X i en population kan beskrivas av en normalfördelning med medelvärdet 4 och standardavvikelsen 2. Detta innebär att ungefär 68% ligger mellan 2 och 6, ungefär 95% mellan 0 och 8 och ungefär 99,7% mellan –2 och 10.

105 Lägg märke till att värdena 6, 8 och 10 på variabeln X motsvaras av värdena 1, 2 och 3 på variabeln Z. Z-värdena anger alltså antalet standardavvikelser från medelvärdet. X-värdet 6 är ju en standardavvikelse över medelvärdet, 8 är två standardavvikelser över medelvärdet, osv.

106 IV Statistisk inferensteori

107 1. Inledning Den statistiska inferensteorin handlar i huvudsak om att dra slutsatser från ett slumpmässigt urval till en population. De två huvudproblemen är estimation och hypotesprövning.

108 Vid såväl estimation som hypotesprövning använder vi observationerna i stickprovet för att räkna fram numeriska värden av olika slag. Exempel: –Vi använder kanske stickprovsproportionen för att uppskatta populationsproportionen.

109 Numeriska värden som på detta sätt beräknas med hjälp av observationerna i ett stickprov kallas för statistikor. Observera att en statistika är en slumpvariabel eftersom dess värde bestäms av ett slumpmässigt försök och varierar från stickprov till stickprov. Exempel på statistikor: Stickprovsmedelvärdet, stickprovsstandardavvikelsen, stickprovsproportionen

110 Statistikor som används för estimation kallas för estimatorer. Observationer på estimatorer kallas för estimat. Statistikor som används vid hypotesprövning brukar kallas för teststatistikor.

111 Samplingfördelningar och centrala gränsvärdessatsen En samplingfördelning är en sannolikhetsfördelning för en statistika.

112 Centrala gränsvärdessatsen Oavsett formen på den populationsfördelning ett slumpmässigt stickprov hämtas från, förutsatt att fördelningen har finit väntevärde och varians, så går fördelningen för stickprovsmedelvärdet mot normalfördelningen då stickprovsstorleken ökar.

113 Hur stort stickprov som behövs för att normalfördelningen skall kunna användas som en approximativ modell beror på hur populationsfördelningen ser ut. Tumregel: I de flesta fall är normalfördelningen en tillräckligt god approximation redan vid stickprovsstorleken 30.

114 Fördelningen för stickprovsmedelvärdet Om vi samplar från en normalfördelning är stickprovsmedelvärdet alltid normalfördelat oavsett stickprovsstorlek. Om vi samplar från någon annan fördelning är stickprovsmedelvärdet approximativt normalfördelat om stickprovet är ”stort”.

115 Stickprovsmedelvärdets väntevärde och standardavvikelse Låt n vara stickprovsstorleken och låt  och  vara medelvärdet och standardavvikelsen i den population vi samplar ur. Väntevärde (”medelvärdet av alla möjliga stickprovsmedelvärden”): Standardavvikelsen för stickprovsmedelvärdena:

116 Fördelningen för stickprovsproportionen Exempel: –Tag ett stickprov av n st individer och sätt man=1 och kvinna=0.

117 –Bilda andelen män i stickprovet, dvs. stickprovsproportionen:

118 Som vi ser i exemplet är stickprovsproportionen inget annat än ett stickprovsmedelvärde där variablerna i summan i täljaren antar värdet 0 eller 1. Om stickprovet är stort kan vi, med stöd av centrala gränsvärdessatsen, hävda att stickprovsproportionen är approximativt normalfördelad. Tumregel: och

119 Vi såg tidigare att väntevärdet och standardavvikelsen för stickprovsmedelvärdet var lika med populationens medelvärde och populationens standardavvikelse dividerad med kvadratroten av stickprovsstorleken. När populationen består av ettor och nollor är populationens medelvärde p och populationens standardavvikelse kvadratroten av p(1-p). Väntevärde och standardavvikelse för stickprovsproportionen

120 Väntevärdet: Standardavvikelsen:

121 2. Estimation Exempel 1 –Antag att vi med hjälp av ett stickprov bestående av 100 individer vill skatta genomsnittsintelligensen (mätt med ett IQ-test) i en population. Antag vidare att vi vet att standardavvikelsen i populationen är  =15.

122 –Vi vet då följande: 1. Om vi tar upprepade stickprov bestående av n=100 individer kan stickprovsmedelvärdets variation mellan olika stickprov beskrivas av en normalfördelning med standardavvikelsen 2. I 95% av alla stickprov kommer stickprovsmedelvärdet att vara högst enheter ifrån populationmedelvärdet.

123 Antag att vi bestämmer oss för att alltid bilda intervallet dvs. i vårt fall Hur ofta kommer vi då att, i det långa loppet vid upprepade försök, få populationsmedelvärdet inom intervallet?

124 Intervallet kallas för ett 95%-igt konfidensintervall och kallas för den statistiska felmarginalen.

125 Om vi t.ex. får stickprovsmedelvärdet 97 så sträcker sig det 95%-iga konfidensintervallet från 94 till 100. Vi kan alltså med 95%-ig konfidens påstå att populationsmedelvärdet ligger mellan 94 och 100. Vi baserar denna konfidens på att vi använt en metod som ger oss rätt i 95% av fallen i det långa loppet. Observera att om vi gör många undersökningar och alltid beräknar 95%-iga konfidensintervall så kommer vi också att ”missa” populations- medelvärdet i ca 5% av fallen i det långa loppet.

126 Exempel 2 –Antag att vi, med hjälp av ett stickprov bestående av n=3000 individer, vill skatta andelen i populationen som skulle rösta på socialdemokraterna om det vore val idag.

127 –Vi vet följande: 1. Om vi tar upprepade stickprov bestående av n=3000 individer kan stickprovsproportionens variation mellan olika stickprov beskrivas av en normalfördelning med standardavvikelsen där p är populationsproportionen.

128 2. I 95% av fallen kommer stickprovsproportionen att vara högst ifrån populationsproportionen. 3. Ovanstående stämmer approximativt även om vi ersätter populationsproportionen med stickprovsproportionen, dvs. om vi använder

129 –Antag att 1200 av 3000 svarar att de skulle rösta på socialdemokraterna om det vore val idag. Vi får då –Det 95%-iga konfidensintervallet blir

130 –Felmarginalen är då 1.8 procentenheter. –Vi kan vara ganska säkra på att andelen i populationen ligger mellan 38.2 % och 41.8 %, eftersom vi använt en metod som, i det långa loppet, ger oss rätt i 95 % av fallen.

131 3. Statistisk hypotesprövning Hypotetisk-deduktiv metod: –Hypotes: Alla svanar är vita. –Empirisk konsekvens: Om a är en svan så är a vit. Om jag väljer en svan slumpmässigt så är sannolikheten ett att den är vit, givet att hypotesen är sann. –Observation: a är en svan och a är svart. –Slutsats: Hypotesen är falsk. Förkasta hypotesen.

132 Om hypotesen är sann kan jag omöjligt se en svan som är svart. P(svart svan, givet hypotesen sann) = 0. Antingen har jag sett något som är omöjligt eller också är hypotesen falsk. Statistisk hypotesprövning: –Hypotes:  =  0 (Eventuell hjälphypotes: Populationen är normalfördelad)

133 –Empirisk konsekvens: Sannolikheten att få ett stickprovsmedelvärde som ligger max ifrån  0 är 0,95. Om jag drar ett urval slumpmässigt och beräknar stickprovsmedelvärdet förväntar jag mig att få ett värde som ligger max 2 standardavvikelser från nollhypotesens värde (ett z-värde mellan –2 och 2), eftersom sannolikheten är så hög (0,95) att hamna där, givet att hypotesen är sann.

134 –Exempel på observation: Stickprovsmedelvärdet ligger mer än två standardavvikelser från den hypotes vi har om populationsmedelvärdet (ekvivalent får vi ett z- värde som är mindre än –2 eller större än 2) –Slutsats: Förkasta hypotesen. –Om hypotesen är sann är sannolikheten mycket liten, endast 0,05, att jag skall få en observation på stickprovsmedelvärdet som ligger så långt ifrån populationsmedelvärdet. Antingen har jag sett något som är osannolikt eller också är hypotesen falsk.

135 Exempel Normalfördelad population. Populationens standardavvikelse  är 3: –H 0 :  = 10, H A :  10 –Signifikansnivå: . –Teststatistika: Stickprovsmedelvärdet, som är normalfördelat med standardavvikelsen och, om nollhypotesen är sann, medelvärdet 10.

136 –Dvs. om nollhypotesen är sann är sannolikheten 0,05 att få ett värde på stickprovsmedelvärdet som är mindre än eller större än –Ekvivalent kan vi säga att sannolikheten är 0,05 att få ett z-värde som är mindre än –2 eller större än 2.

137 –Kritiska gränser: Antag att vi tar ett sampel omfattande 16 observationer. Med signifikansnivån 5% skall vi förkasta nollhypotesen om stickprovsmedelvärdet är mindre än eller större än Ekvivalent kan vi förkasta nollhypotesen om z-värdet är mindre än -2 eller större än 2.

138 –Observation: Antag att vi får stickprovsmedelvärdet 12 (vilket ger z = 2,67). –Slutsats: Förkasta nollhypotesen. Vi anser oss ha tillräckligt empiriskt stöd för alternativhypotesen, dvs. att populationsmedelvärdet ej är 10. Bevisen räcker för att ”fälla” nollhypotesen.

139 139 Typ I fel och typ II fel. Typ I fel: Att förkasta nollhypotesen då den är sann. (Sannolikheten för detta är signifikansnivån). Typ II fel: Att ej förkasta nollhypotesen då den är falsk.

140 140 P-värden Ett p-värde är sannolikheten att, om nollhypotesen är sann, vid en upprepning av försöket, få ett minst lika ”extremt” värde på teststatistikan som det vi faktiskt fått. Med ”extremt” avses i förhållande till nollhypotesen och vad som räknas som ”extremt” beror därför på hypoteserna.

141 141 Exempel 1: –H 0 :  = 10, H A :   0. –Antag att vi få observationen z = –P-värdet = Sannolikheten att få ett stickprovsmedelvärde som ligger minst 2.67 standardavvikelser från 10. Sannolikheten att få ett värde på z som är större än 2.67 eller mindre än –2.67 = Exempel 2: –H 0 :   10, H A :   0 –z = 2.67 –P-värdet = Sannolikheten att få ett stickprovsmedelvärde som ligger minst 2.67 standardavvikelser över 10 =


Ladda ner ppt "Introduktion. Kenny Bränberg Steg 3 + specialkurser Tränare i Sävar IK och assisterande tränare i Mariehem SK. 16 års tränarerfarenhet. Alla åldersgrupper."

Liknande presentationer


Google-annonser