Introduktion. Kenny Bränberg Steg 3 + specialkurser Tränare i Sävar IK och assisterande tränare i Mariehem SK. 16 års tränarerfarenhet. Alla åldersgrupper.

Slides:



Advertisements
Liknande presentationer
Tillämpad statistik Naprapathögskolan
Advertisements

Genomgång - biostatistik Fråga 1 I en liten undersökning efterfrågades uppgifter om ålder hos 20 personer med högt blodtryck se tabell a)Beräkna.
Föreläsning 8 732G81. Kapitel 8 Inferens om en ändlig population Sid
Föreläsning 1, Introduktion Varför statistik? Population – Urval - Mätnivå Deskription Cirkeldiagram, stapeldiagram, histogram, spridningsdiagram, boxplot…
Kvantitativ metod. 2 Vad är statistik? En massa siffror Beskrivning av staten Metodlära.
Föreläsning 6 732G81. Kapitel 6 Inferens om en population Sid
Deskription. Individer och variabler Individer, undersökningsobjekt – De vi undersöker. De vi gör mätningar på. Kan vara människor, men kan också vara.
Introduktion. Exempel: Till ett försök med bantningsmedlet Bantomid anmälde sig 14 personer frivilligt, alla med övervikt. De delades slumpmässigt in.
Kvantitativ metod. 2 Några ”definitioner” Metodlära ägnad åt insamling, bearbetning, beskrivning och analys av data En vetenskap som har kunskapsbildning.
Statistisk hypotesprövning. Test av hypoteser Ofta när man gör undersökningar så vill man ha svar på olika frågor (s.k. hypoteser). T.ex. Stämmer en spelares.
Vad är Statistik? Inom statistik teorin studeras -Hur vi samlar in data. -Hur data analyseras och vilka slutsatser som kan dras från data. -Hur insamlad.
Kvantitativ metod (Intro) Vad är statistik? När kan man använda statistiska metoder? De olika stegen i en statistisk undersökning –Problemformulering (syfte.
Samband mellan kvalitativa variabler Korstabeller Moore kapitel 2.5 och kapitel 9.
Statistisk inferensteori. Inledning Den statistiska inferensteorin handlar i huvudsak om att dra slutsatser från ett slumpmässigt urval (sannolikhetsurval)
Kvantitativ metod. 2 Vad är statistik? ”En massa siffror” Beskrivning av staten Metodlära.
Toppning vs. Nivåindelning IK Zenith F02 Per-Olof Johansson.
Deskription + enkät Mätnivån styr hur man kan analysera data Tabeller – frekvenstabeller Diagram – cirkeldiagram, stapeldiagram, histogram, boxplot Beskrivande.
Från knattelag till årskullsverksamhet SvFF BSK P-00 Spelaren.
© Landja Marknadsanalys AB Säkerhet och olycksrisker Sveriges Lantbruk våren Sveriges Lantbruk våren 2009 En undersökning bland lantbrukare Jörgen.
Hypotesprövning. Statistisk hypotesprövning och hypotetisk-deduktiv metod Hypotetisk-deduktiv metod: –Hypotes: Alla svanar är vita. –Empirisk konsekvens:
Introduktion. Kost och fotboll (Balsom et al. 1997) Sex manliga fotbollsspelare. Medelålder 24 år. Smålagsspel 4 mot 4 inomhus i 90 minuter. Två tillfällen.
Så kan det låta! … Mätinstrumentets reliabilitet och validitet ökades avsevärt genom en pilotstudie och för att nå bästa generaliserbarhet valdes ett representativt.
Sveriges geografi Det svenska kulturarvet. Geografi Göra geografiska analyser av omvärlden och värdera resultaten med hjälp av kartor och andra geografiska.
1 UNDERSÖKNINGSMETODIK Ett gemensamt syfte för alla undersökningar är att få ökad kunskap om ett visst problemområde Statistiska undersökningar kan vara.
Bearbetning och presentation Repetition… Kodning av svaren Rapportskrivning Olika feltyper.
Repetition av Chi2-test Kap 6, Kodning av svaren Kap 10, Olika feltyper Kap 12, Rapportskrivning.
Introduktion. 2 Vad är statistik? ”En massa siffror” Beskrivning av staten Metodlära.
1 Utvärdering och tolkning: MBA Program Admission Policy Rektorn vid ett stort universitet vill höja standarden på de som antas till deras populära MBA-program.
STATISTISK METODIK 1. INLEDNING / VAD ÄR STATISTIK? 2. UNDERSÖKNINGSMETODIK 3. DESKRIPTION 4. SAMBAND.
D A B C Vems påstående stämmer? I bilden står talen 9, – 11 och 2 3
SVMF Höstmöte 2016 Vad händer i Sverige
INFÖR NATIONELLA PROVET
PRV – upphovsrättsundersökning 2017
INFÖR NATIONELLA PROVET
Kap 4 - Statistik.
Regiongemensam enkät i förskola och familjedaghem 2016
Regiongemensam enkät i förskola och familjedaghem 2016
Regiongemensam enkät i förskola och familjedaghem 2016
Regiongemensam enkät i förskola och familjedaghem 2016
Regiongemensam enkät i förskola och familjedaghem 2016
Regiongemensam enkät i förskola och familjedaghem 2016
Regiongemensam enkät i förskola och familjedaghem 2016
Regiongemensam enkät i förskola och familjedaghem 2016
Regiongemensam enkät i förskola och familjedaghem 2016
Regiongemensam enkät i förskola och familjedaghem 2016
Vad är sociologi? – en repetition Momentöversikt Vad är en analys?
Kvalitetsmätningen hösten 2017
Regiongemensam enkät i förskola och familjedaghem 2016
Regiongemensam elevenkät 2016
Disposition – konsten att läsa skolstatistik
Regiongemensam enkät i förskola och familjedaghem 2016
Regiongemensam enkät i förskola och familjedaghem 2016
Regiongemensam enkät i förskola och familjedaghem 2016
Elev- och Föräldraenkät
Regiongemensam enkät i förskola och familjedaghem 2016
Kartkontroll och godkänd karta
Relation mellan variabler – samvariation, korrelation, regression
Kommunikationsplan Bilaga 11 till överenskommelsen mellan Hudiksvalls kommun och Arbetsförmedlingen gällande samverkan för att minska arbetslösheten.
Vad ingår kursen? i korta drag
SFI/SFX 2018 i Stockholms län
JÄMIX® 2011 för Göteborgs stad Bolag och förvaltningar nr 1
- ett verktyg för ANDT-uppföljning Introduktion
Regiongemensam elevenkät 2018
Regiongemensam elevenkät 2016
Statistikuppgift åk8 Upptäck datorns förträfflighet i att rita diagram och beräkna statistik.
Fördjupning till systematiskt kvalitetsarbete
Bostadstillägg Pensionsmyndigheten har av regeringen fått uppdraget att öka kunskapen om bostadstillägg och verka för att mörkertalet inom bostadstillägg.
Nämndernas/styrelsernas utvärdering av arbetet med budget 2005
Regiongemensam enkät i förskola och familjedaghem 2016
Regiongemensam enkät i förskola och familjedaghem 2016
Presentationens avskrift:

Introduktion

Kenny Bränberg Steg 3 + specialkurser Tränare i Sävar IK och assisterande tränare i Mariehem SK. 16 års tränarerfarenhet. Alla åldersgrupper på både pojk- och flicksidan, från 7-åringar upp till herrar i div 2 och damer i div 3. Distriktsinstruktör (Grundkurs, U1, U2, Steg 1, Steg 2, Fotbollens träningslära) Fotbollsinstruktör på Dragonskolans idrottsprogram. Zonledare för flickor i Umeå Ledamot i VFF:s ungdomskommitté och ansvarig för zonverksamheten i Västerbotten.

Varför mäter man? För att beskriva För att jämföra För att utvärdera

Kost och fotboll (Balsom et al. 1997) Sex manliga fotbollsspelare. Medelålder 24 år. Smålagsspel 4 mot 4 inomhus i 90 minuter. Två tillfällen med minst en veckas mellanrum. I varje match två testpersoner, en från varje lag. (Totalt sex matcher).

Varje match filmades och analyserades av tränad observatör. Observatören kände inte till förutsättningarna inför varje match. 48 timmar före match genomförde testpersonerna en standardiserad intermittent löpning för att reducera glykogendepåerna. Under följande 48 timmar tilldelades varje tesperson ett kostprogram som vid ena tillfället var kolhydratrikt och vid det andra tillfället kolhydratfattigt.

Inför varje match togs en muskelbiopsi från yttre breda lårmuskeln. Glykogenkoncentrationen var signifikant högre då spelarna ätit den kolhydratrika kosten. Resultaten från rörelseanalysen visade att tiden för högintensivt arbete och press var signifikant (p<0.05) lägre under matchen som förbereddes med kolhydratfattig kost.

Pre-season concurrent strength and endurance development in elite soccer players Jan Helgerud, Ole J. Kemi, Jan Hoff

Syfte: –Förbättra snabbhet och styrka utan viktuppgång –Testa explosiv styrketräning i direkt anslutning till uthållighetsträning Molde FC, n=21. Professionella spelare som tränade dagligen.

Behandling: –Uthållighet 4x4 min, % av maxpuls. 3 min aktiv vila %. –15 min vila –4x4 90 graders knäböj. 3 min vila mellan varje serie. –2 ggr per vecka i 8 veckor.

Resultat: –Max syreupptagning +8,1 % (p<0.001) –Max styrka +42,9 % (p<0,001) –Vikt +1,0 kg (p<0,05) –Vertikalhopp +5,0 % (p<0,001) –Sprint 10 m +3,3 % (p<0,001) –Sprint 20 m + 1,6 % (p<0,001) I samtliga fall användes vanligt t-test. Observera att det i huvudsak rör sig om neurologisk anpassning och liten hypertrofi.

I. Statistiska undersökningar Ett gemensamt syfte för alla undersökningar är att få ökad kunskap om ett visst problemområde Det kanske viktigaste sättet att skaffa sig sådan kunskap är genom observationer Inom statistikteorin studeras –hur observationer samlas in –hur observationer analyseras –hur slutsatser kan dras från observationer

Deskriptiva och analytiska undersökningar Vid en deskriptiv eller beskrivande undersökning försöker man att, med hjälp av ett insamlat datamaterial, beskriva ett förhållande eller ett faktiskt händelseförlopp.

Vid en analytisk eller förklarande undersökning försöker man klarlägga orsakssamband och förklara varför verkligheten ser ut som den gör.

En statistisk undersöknings olika steg Problemformulering Planering Datainsamling Analys Rapportering

Planering av en undersökning Vid planering bestämmer man sig bl.a. för: –Vilka data som skall samlas in –Hur dessa data skall samlas in, dvs. val av datainsamlingsmetod Totalundersökning eller urvalsundersökning Typ av urval vid urvalsundersökning Val av mätmetod och mätinstrument. –Hur eventuellt bortfall skall hanteras –Hur data skall analyseras –Hur resultatet skall redovisas

II. Databildning

Introduktion Den process som har till uppgift att producera de data som kunskapsbildningen behöver kallar vi databildning

Datainsamlingen måste var anpassad till den teori man har om problemområdet Teorier om dataanalys påverkar mätinstrumentets utformning och konstruktion

Experimentella och icke- experimentella undersökningar Experimentella undersökningar: –Behandling. Försöksenheterna utsätts för vissa behandlingar i avsikt att studera effekten av dessa behandlingar –Upprepbarhet. Experimentet kan upprepas ett önskat antal gånger –Randomisering. Försöksenheterna fördelas slumpmässigt på olika behandlingar

–Kontroll. Försöksbetingelserna kan i allmänhet kontrolleras och konstanthållas, eller åtminstone löpande registreras. –Dubbelblinda försök. Då försöksenheterna är människor vet i regel varken försökspersonen eller den som ger behandlingen vilken behandling försökspersonen får.

Ickeexperimentella undersökningar, observationsundersökningar. –Undersökningsenheter eller händelseförlopp påverkas ej på något sätt. –Behandlingarna i den experimentella studien ersätts av passivt observerande.

Experimentella studier I regel att föredra om man vill undersöka effekten av någon förklaringsvariabel på någon responsvariabel, eftersom det med en icke-experimentell ansats kan vara svårt att särskilja effekten av förklaringsvariabeln från effekter av andra faktorer

Randomisering Randomisering innebär att slumpen avgör vilken behandling en undersökningsenhet tilldelas Genom randomisering undviks systematiska fel Randomisering medför att effekten av en eventuell behandling med hög grad av säkerhet och precision kan fastställas med hjälp av statistikteori

Generaliserbarhet Ett problem vid experimentella studier är att undersökningsenheterna inte alltid är slumpmässigt utvalda ur någon väldefinierad population och att därför de resultat som erhålls, i strikt mening, endast gäller för de som ingår i försöket I sådana fall måste generaliseringar utöver undersökningsenheterna bygga på icke-statistiska argument

Brist på realism Försöken utförs ibland i en miljö som ej är verklig. Detta innebär också ett generaliseringsproblem. Det är inte säkert att en individ reagerar likadant i ett laboratorium som i ”verkligheten”.

Urvalsundersökningar Varför urvalsundersökning i stället för totalundersökning? –Billigare –Snabbare –Bättre mätning –Praktiskt omöjligt med totalundersökning då populationen är mycket stor eller oändlig –Förstörande prov

Olika typer av urval Lättåtkomliga element Frivilliga svar Frivilliga försökspersoner Sannolikhetsurval

Urvalsenheterna väljs med hjälp av någon slumpmekanism För varje enhet är sannolikheten för att inkluderas i urvalet känd

Med sannolikhetsurval kan man... ge objektiva mått på undersökningsresultatens precision utforma en teori för effektiv undersökningsplanering på förhand göra objektiva jämförelser mellan olika urvalsplaner på förhand uppskatta erforderliga urvalsstorlekar för att uppnå önskad precision

Olika typer av sannolikhetsurval Obundet slumpmässigt urval (OSU) Stratifierat urval Klusterurval

Obundet slumpmässigt urval Vid varje dragning av en enhet har de i populationen kvarvarande enheterna samma sannolikhet att bli valda Vid OSU av n enheter har alla möjliga kombinationer av n enheter samma chans att bli valda

Stratifierat urval Populationen delas in i strata och ett OSU dras ur varje stratum Skäl: –Om resultatet skall redovisas för varje stratum kan urvalsstorlekarna för varje stratum avpassas så att vissa precisionskrav uppfylles utan att man erhåller överflödiga observationer från vissa strata

–Skattningar av populationsparametrar (t.ex. populationsmedelvärdet) kan göras med bättre precision än vid ett OSU, om bara stratifieringsvariabeln är ”bra” (homogent inom strata, heterogent mellan strata)

Gruppurval (klusterurval) Populationen delas in i grupper (kluster) av enheter. Ett antal sådan kluster väljs slumpmässigt. Samtliga enheter inom ett kluster undersöks. Skäl: –Ramproblem –Geografisk spridning –Kostnader

Mätning En tilldelning av tal till undersökningsenheterna på ett sådant sätt att vissa relationer mellan enheterna, med avseende på någon egenskap, avspeglas i relationer mellan talen

Mätnivåer (skalnivåer) Nominal –Endast klassificering Ordinal –Klassificering och rangordning Intervall –Klassificering, rangordning och ekvidistans Kvot –Klassificering, rangordning, ekvidistans och absolut nollpunkt

Observera att mätnivån bestäms av vilken typ av information mätningen ger oss. Mätnivån har bl.a. betydelse för vilken typ av beräkningar som är meningsfulla

Operationalisering Operationalisering av en variabel innebär en beskrivning av hur man skall gå tillväga, vilka operationer man måste utföra, för att kunna göra mätningen. Operationalisering innebär således att mätregler definieras.

Indikatorer och latenta variabler En latent variabel är en egenskap som ej är direkt observerbar En indikator är en observerbar (manifest) variabel som används vid mätning av en latent variabel

Reliabilitet Grad av överensstämmelse mellan upprepade mätningar med samma mätinstrument på samma undersökningsenhet.

Validitet ”Mätinstrumentet mäter vad det avser att mäta” ”Överensstämmelse mellan teoretisk och operationell definition” ”Frånvaro av systematiska mätfel”

Några felkällor vid statistiska undersökningar Täckningsfel –Övertäckning Urvalsramen innehåller individer som ej finns med i målpopulationen –Undertäckning Urvalsramen saknar individer som finns med i målpopulationen –Kan ge upphov till systematiska fel (bias)

Bortfallsfel –Individbortfall innebär att man från en eller flera individer ej får något svar på t.ex. en postenkät –Partiellt bortfall innebär svarsvägran på vissa frågor –Kan ge stora systematiska fel

Mätfel –Mätfel som beror på respondenten Respondenten kan vara okunnig om det sanna värdet Glömska. En del händelser kommer man inte ihåg. Andra kommer man ihåg men placerar fel i tiden. Känsliga frågor. Det kan vara svårt att få korrekta svar på frågor om sådant som konsumtion av droger, respondentens sexliv, etc. Prestigeladdade frågor. Exempel på denna typ av frågor är frågor om hur mycket man konsumerar av olika slag av ”finkultur”. Leder till s.k. prestigebias. Egenintresse. Ibland kan det ligga i respondentens intresse att svara på ett visst sätt eftersom man vet att resultatet av undersökningen kan leda till att t.ex. politiker eller andra beslutsfattare agerar på ett för respondenten önskvärt sätt.

–Mätfel som beror på intervjuaren Exempelvis så kan intervjuarens uppträdande påverka resultatet (intervjuareffekt). –Mätfel som beror på mätmetoden Olika mätmetoder (besöksintervju, telefonintervju, postenkät, etc) kan ge olika resultat. Exempelvis så ger ofta postenkäter sannare svar på känsliga frågor. –Mätfel som beror på frågeformuläret Oklara frågeformuleringar och definitioner, dåliga anvisningar, etc. kan ge upphov till stora systematiska fel. Även antalet frågor kan ha betydelse för kvaliteten på de data man får. Enkäter som tar lång tid att fylla i leder t.ex. i regel till större bortfall.

Bearbetningsfel Kodningsfel Inmatningsfel Datorbearbetningsfel

Urvalsfel Uppstår när man studerar ett urval i stället för hela populationen Slumpmässigt och möjligt att uppskatta om urvalet görs ”korrekt”

III. Deskription

Tabeller Tabell- och kolumnrubriker bör vara fullständiga men ändå kortfattade Lämplig uppställning: –Tabellnr., rubrik –Kort anmärkning som gäller hela tabellen –Tabell –Noter –Längre anmärkningar –Källhänvisning

Ange enheten för respektive kolumn ovanför varje kolumn. Om samma enhet gäller för hela tabellen ges den i rubriken.

Tabell, en variabel Envägsindelad frekvenstabell –Innehåller en variabel samt absoluta eller relativa frekvenser

Tabell x.?? Studenternas fördelning på variabeln nivå på utbildning vid påbörjade högskolestudier. År Procent.

Tvåvägsindelad frekvenstabell –Innehåller två variabler samt frekvenser eller relativa frekvenser Envägsindelad kvottabell –Innehåller två variabler, men en av variablerna finns i tabellcellerna i form av t.ex. medelvärden. Tabell, två variabler

Tabell x.?? Studenternas fördelning på variabeln nivå på utbildning vid påbörjade högskolestudier. År Uppdelat på kön. Procent.

Envägsindelad kvottabell: Genomsnittspoäng för män och kvinnor

Tre variabler –Trevägsindelad frekvenstabell –Tvåvägsindelad kvottabell Fyra variabler –Fyrvägsindelad frekvenstabell –Trevägsindelad kvottabell Tabell, tre eller fyra variabler

Diagram Diagramrubriken bör vara fullständig men ändå kortfattad Lämplig uppställning: –Diagramnr., rubrik –Kort anmärkning som gäller hela diagrammet –Diagram –Noter –Längre anmärkningar –Källhänvisning

Välj diagramtyp som passar det aktuella problemet Välj lämpliga skalor för axlarna Stympa ej y-axeln i onödan. Om y-axeln stympas bör detta klart anges

För axlarna skall man tydligt ange variabler, enheter, skalsteg och skalvärden Diagrammet kan med fördel omges av en ram och innehålla stödlinjer

Kvalitativa variabler För att visa en fördelning, i en population eller ett urval, när man har en kvalitativ variabel, kan man t.ex. använda ett stapeldiagram eller ett cirkeldiagram.

Stapeldiagram, en variabel. Absoluta frekvenser.

Stapeldiagram, en variabel. Relativa frekvenser.

Liggande stapeldiagram

Cirkeldiagram

Fotbollsspelarens rörelsemönster

Kvantitativa variabler När man har en kvantitativ variabel kan man t.ex. använda histogram eller ett stam- bladdiagram. Man kan även klassindela materialet och presentera det med hjälp av ett stapeldiagram.

Histogram. Nyfödda barns fördelning på variabeln längd

Histogram. Åldersfördelning för ett urval av högskoleprovtagare.

Stapeldiagram. Åldersfördelning för samtliga högskoleprovtagare våren 1987.

Stapeldiagram, två variabler

Stam-bladdiagram. Chefernas fördelning på anställningstid. Anställningstid Stem-and-Leaf Plot Frequency Stem & Leaf 4, , , , , , , Stem width: 10,00 Each leaf: 1 case(s)

Tidsseriedata Tidsserier presenteras ofta med hjälp av s.k. linjediagram I linjediagram kan man ofta upptäcka sådant som trender, cykler eller säsongsvariationer.

Privat konsumtion i USA

Försäljning, kvartalsdata

Pulsmätning

3. Beskrivande mått Om man vill beskriva en egenskaps fördelning i en population eller ett sampel kan man naturligtvis göra detta genom att räkna upp samtliga observationer.

I en frekvenstabell sammanfattas en fördelning i ett fåtal värden - frekvenserna. Med hjälp av beskrivande mått sammanfattas fördelningen av ett eller ett fåtal tal.

Centralmått och kvartiler Genom att beräkna kvartiler sammanfattas en fördelning i tre tal: –första kvartilen –andra kvartilen (medianen) –tredje kvartilen

Lägger vi till det minsta och det största värdet kan vi beskriva fördelningen med hjälp av fem tal. (Five number summary) En boxplot (ett lådagram) är ett diagram som bygger på denna five number summary.

Boxplot (lådagram), ORD- provet.

Box-plot (lådagram), NOG- provet

Genom att beräkna ett centralmått sammanfattas fördelningen i ett tal. Tre vanliga centralmått: –Typvärdet –Medianen –Medelvärdet

Typvärdet... –är det mest frekventa värdet Medianen… –är, om antalet mätvärden är udda, det mittersta av de rangordnade mätvärdena. Om antalet mätvärden är jämnt är medianen medelvärdet av de två mittersta mätvärdena. Medelvärdet… –är summan av alla mätvärden dividerat med antalet mätvärden.

Vilket av dessa tre mått skall vi använda? Detta beror framför allt på två saker: –Syfte. Vad skall vi ha måttet till? –Möjlighet att tolka resultatet. Antag att vi sätter gul=1, blå=2 och röd=3. Eftersom vi har siffror kan vi beräkna typvärde, median och medelvärde. Men hur tolkar vi t.ex. medelvärdet 2,3 eller medianen 2? Medianen ”kräver” rangordning, att 2 innebär mer av egenskapen än 1. Medelvärdet ”kräver” dessutom ”ekvidistan”, dvs. lika avstånd mellan skalstreck.

Spridningsmått Ett centralmått sammanfattar en fördelning i ett enda tal och ger information om var fördelningens ”centrum” är beläget. Ett spridningsmått ger information om fördelningens spridning.

Tre olika spridningsmått Variationsvidden är skillnaden mellan det största och det minsta värdet Kvartilavståndet är avståndet mellan första och tredje kvartilen. Måttet anger alltså inom vilket avstånd de 50% mittersta observationerna ligger. Standardavvikelsen är ett spridningsmått som beskriver hur mycket mätvärdena avviker från medelvärdet.

Korrelationskoefficienten Korrelationskoefficienten r är ett mått på linjärt samband mellan x och y. Korrelationskoefficienten kan anta värden mellan –1 och +1. Observera att r är ett mått på linjärt samband. Även om r = 0 kan det finnas ett samband mellan x och y som ej är linjärt.

4. Modeller Vi har alla stött på modeller i olika sammanhang. Ex: –Leksaksbilar –Modelljärnvägar –Dockskåp

En leksaksbil är i vissa avseenden en kopia av en ”riktig” bil. Men den skiljer sig också ifrån en riktig bil på vissa punkter: –i regel inte lika stor –dörrarna kanske inte kan öppnas –motor kanske saknas –osv

Leksaksbilen kan sägas vara en förenkling av en riktig bil, men måste ändå vara tillräckligt ”naturtrogen” på just de punkter som krävs för att vi skall kunna använda den på önskat sätt

En modell är en förenklad beskrivning av någon del av verkligheten. Beskrivningen måste vara relevant för det vi skall använda modellen till.

Ytterligare exempel Kartor är modeller av den geografiska verkligheten. Vad som finns med på en karta beror på användningsområde. Vi har t.ex. –vägkartor –ekonomiska kartor –topografiska kartor –sjökort

Flygplansmodell i vindtunnel En cirkel som en modell för ett runt bord för att t.ex. beräkna bordets yta Tiden = sträckan / hastigheten Efterfrågefunktion:

Vetenskapliga modeller Modellen utformas så att den baserar sig på och sammanfattar vår teoretiska kunskap om verklighetsområdet Modellen består av ett antal teoretiska begrepp och en beskrivning av hur dessa begrepp är relaterade till varandra

Modellbyggnadsprocessen Det första steget i en vetenskaplig modellbyggnadsprocess är att utifrån vår teori formulera en modell. Steg 2 är att utifrån modellen göra en s.k. prediktiv inferens. Den prediktiva inferensen innebär att vi med modellen som utgångspunkt härleder utsagor, eller förutsägelser, om verkligheten.

Steg 3 innebär att vi observerar verkligheten. I det fjärde steget jämför vi våra förutsägelser med våra observationer och gör en, ofta statistisk, inferens. Om våra förutsägelser och våra observationer inte stämmer överens leder denna inferens i regel till att modellen revideras eller ibland t.o.m. att den teori som ligger till grund för vår modell förkastas.

5. Parametriska fördelningar Ibland kan man beskriva variationen i en population genom att använda en matematisk modell. Ett exempel på en sådan modell är normalfördelningen. Fördelningarna bestäms ofta av ett fåtal tal, s.k. parametrar.

Vet vi t.ex. att en variabels variation i en population på ett tillfredsställande sätt kan beskrivas av en normalfördelning, räcker det med att veta medelvärdet och standardavvikelsen i populationen för att vi skall få en komplett bild av hur stor andel av populationen som finns inom vissa intervall.

Normalfördelningsmodellen Den kurva som beskriver hur stor proportion av en population som ligger inom vissa intervall kallas för en täthetsfunktion. Proportioner räknas som areor under denna täthetsfunktion.

En normalfördelad variabel har följande täthetsfunktion:

För en normalfördelning gäller följande: –Ungefär 68% av fördelningen ligger inom en standardavvikelse från medelvärdet. –Ungefär 95% av fördelningen ligger inom två standardavvikelser från medelvärdet. –Ungefär 99,7% av fördelningen ligger inom tre standardavvikelser från medelvärdet.

Exempel: –Antag att intelligensen i en population, mätt med ett visst intelligenstest, kan beskrivas av en normalfördelning med medelvärdet 100 och standardavvikelsen 15. –Då vet vi att ungefär 68% av populationen ligger mellan 85 och 115, ungefär 95 % av populationen mellan 70 och 130 och ungefär 99,7 % av populationen mellan 55 och 145

Standardnormalfördelningen Som vi ser finns det ett oändligt antal normalfördelningar. För varje val av  (medelvärde) och  (standardavvikelse) ges en ny normalfördelning. Om variabeln X är normalfördelad så gäller att variabeln Z=(X-  )/  är standardnormalfördelad. Detta innebär att Z är normalfördelad med medelvärdet 0 och standardavvikelsen 1. För standardnormalfördelningen finns tabeller med beräknade areor.

Exempel Antag att fördelningen av variabeln X i en population kan beskrivas av en normalfördelning med medelvärdet 4 och standardavvikelsen 2. Detta innebär att ungefär 68% ligger mellan 2 och 6, ungefär 95% mellan 0 och 8 och ungefär 99,7% mellan –2 och 10.

Lägg märke till att värdena 6, 8 och 10 på variabeln X motsvaras av värdena 1, 2 och 3 på variabeln Z. Z-värdena anger alltså antalet standardavvikelser från medelvärdet. X-värdet 6 är ju en standardavvikelse över medelvärdet, 8 är två standardavvikelser över medelvärdet, osv.

IV Statistisk inferensteori

1. Inledning Den statistiska inferensteorin handlar i huvudsak om att dra slutsatser från ett slumpmässigt urval till en population. De två huvudproblemen är estimation och hypotesprövning.

Vid såväl estimation som hypotesprövning använder vi observationerna i stickprovet för att räkna fram numeriska värden av olika slag. Exempel: –Vi använder kanske stickprovsproportionen för att uppskatta populationsproportionen.

Numeriska värden som på detta sätt beräknas med hjälp av observationerna i ett stickprov kallas för statistikor. Observera att en statistika är en slumpvariabel eftersom dess värde bestäms av ett slumpmässigt försök och varierar från stickprov till stickprov. Exempel på statistikor: Stickprovsmedelvärdet, stickprovsstandardavvikelsen, stickprovsproportionen

Statistikor som används för estimation kallas för estimatorer. Observationer på estimatorer kallas för estimat. Statistikor som används vid hypotesprövning brukar kallas för teststatistikor.

Samplingfördelningar och centrala gränsvärdessatsen En samplingfördelning är en sannolikhetsfördelning för en statistika.

Centrala gränsvärdessatsen Oavsett formen på den populationsfördelning ett slumpmässigt stickprov hämtas från, förutsatt att fördelningen har finit väntevärde och varians, så går fördelningen för stickprovsmedelvärdet mot normalfördelningen då stickprovsstorleken ökar.

Hur stort stickprov som behövs för att normalfördelningen skall kunna användas som en approximativ modell beror på hur populationsfördelningen ser ut. Tumregel: I de flesta fall är normalfördelningen en tillräckligt god approximation redan vid stickprovsstorleken 30.

Fördelningen för stickprovsmedelvärdet Om vi samplar från en normalfördelning är stickprovsmedelvärdet alltid normalfördelat oavsett stickprovsstorlek. Om vi samplar från någon annan fördelning är stickprovsmedelvärdet approximativt normalfördelat om stickprovet är ”stort”.

Stickprovsmedelvärdets väntevärde och standardavvikelse Låt n vara stickprovsstorleken och låt  och  vara medelvärdet och standardavvikelsen i den population vi samplar ur. Väntevärde (”medelvärdet av alla möjliga stickprovsmedelvärden”): Standardavvikelsen för stickprovsmedelvärdena:

Fördelningen för stickprovsproportionen Exempel: –Tag ett stickprov av n st individer och sätt man=1 och kvinna=0.

–Bilda andelen män i stickprovet, dvs. stickprovsproportionen:

Som vi ser i exemplet är stickprovsproportionen inget annat än ett stickprovsmedelvärde där variablerna i summan i täljaren antar värdet 0 eller 1. Om stickprovet är stort kan vi, med stöd av centrala gränsvärdessatsen, hävda att stickprovsproportionen är approximativt normalfördelad. Tumregel: och

Vi såg tidigare att väntevärdet och standardavvikelsen för stickprovsmedelvärdet var lika med populationens medelvärde och populationens standardavvikelse dividerad med kvadratroten av stickprovsstorleken. När populationen består av ettor och nollor är populationens medelvärde p och populationens standardavvikelse kvadratroten av p(1-p). Väntevärde och standardavvikelse för stickprovsproportionen

Väntevärdet: Standardavvikelsen:

2. Estimation Exempel 1 –Antag att vi med hjälp av ett stickprov bestående av 100 individer vill skatta genomsnittsintelligensen (mätt med ett IQ-test) i en population. Antag vidare att vi vet att standardavvikelsen i populationen är  =15.

–Vi vet då följande: 1. Om vi tar upprepade stickprov bestående av n=100 individer kan stickprovsmedelvärdets variation mellan olika stickprov beskrivas av en normalfördelning med standardavvikelsen 2. I 95% av alla stickprov kommer stickprovsmedelvärdet att vara högst enheter ifrån populationmedelvärdet.

Antag att vi bestämmer oss för att alltid bilda intervallet dvs. i vårt fall Hur ofta kommer vi då att, i det långa loppet vid upprepade försök, få populationsmedelvärdet inom intervallet?

Intervallet kallas för ett 95%-igt konfidensintervall och kallas för den statistiska felmarginalen.

Om vi t.ex. får stickprovsmedelvärdet 97 så sträcker sig det 95%-iga konfidensintervallet från 94 till 100. Vi kan alltså med 95%-ig konfidens påstå att populationsmedelvärdet ligger mellan 94 och 100. Vi baserar denna konfidens på att vi använt en metod som ger oss rätt i 95% av fallen i det långa loppet. Observera att om vi gör många undersökningar och alltid beräknar 95%-iga konfidensintervall så kommer vi också att ”missa” populations- medelvärdet i ca 5% av fallen i det långa loppet.

Exempel 2 –Antag att vi, med hjälp av ett stickprov bestående av n=3000 individer, vill skatta andelen i populationen som skulle rösta på socialdemokraterna om det vore val idag.

–Vi vet följande: 1. Om vi tar upprepade stickprov bestående av n=3000 individer kan stickprovsproportionens variation mellan olika stickprov beskrivas av en normalfördelning med standardavvikelsen där p är populationsproportionen.

2. I 95% av fallen kommer stickprovsproportionen att vara högst ifrån populationsproportionen. 3. Ovanstående stämmer approximativt även om vi ersätter populationsproportionen med stickprovsproportionen, dvs. om vi använder

–Antag att 1200 av 3000 svarar att de skulle rösta på socialdemokraterna om det vore val idag. Vi får då –Det 95%-iga konfidensintervallet blir

–Felmarginalen är då 1.8 procentenheter. –Vi kan vara ganska säkra på att andelen i populationen ligger mellan 38.2 % och 41.8 %, eftersom vi använt en metod som, i det långa loppet, ger oss rätt i 95 % av fallen.

3. Statistisk hypotesprövning Hypotetisk-deduktiv metod: –Hypotes: Alla svanar är vita. –Empirisk konsekvens: Om a är en svan så är a vit. Om jag väljer en svan slumpmässigt så är sannolikheten ett att den är vit, givet att hypotesen är sann. –Observation: a är en svan och a är svart. –Slutsats: Hypotesen är falsk. Förkasta hypotesen.

Om hypotesen är sann kan jag omöjligt se en svan som är svart. P(svart svan, givet hypotesen sann) = 0. Antingen har jag sett något som är omöjligt eller också är hypotesen falsk. Statistisk hypotesprövning: –Hypotes:  =  0 (Eventuell hjälphypotes: Populationen är normalfördelad)

–Empirisk konsekvens: Sannolikheten att få ett stickprovsmedelvärde som ligger max ifrån  0 är 0,95. Om jag drar ett urval slumpmässigt och beräknar stickprovsmedelvärdet förväntar jag mig att få ett värde som ligger max 2 standardavvikelser från nollhypotesens värde (ett z-värde mellan –2 och 2), eftersom sannolikheten är så hög (0,95) att hamna där, givet att hypotesen är sann.

–Exempel på observation: Stickprovsmedelvärdet ligger mer än två standardavvikelser från den hypotes vi har om populationsmedelvärdet (ekvivalent får vi ett z- värde som är mindre än –2 eller större än 2) –Slutsats: Förkasta hypotesen. –Om hypotesen är sann är sannolikheten mycket liten, endast 0,05, att jag skall få en observation på stickprovsmedelvärdet som ligger så långt ifrån populationsmedelvärdet. Antingen har jag sett något som är osannolikt eller också är hypotesen falsk.

Exempel Normalfördelad population. Populationens standardavvikelse  är 3: –H 0 :  = 10, H A :  10 –Signifikansnivå: . –Teststatistika: Stickprovsmedelvärdet, som är normalfördelat med standardavvikelsen och, om nollhypotesen är sann, medelvärdet 10.

–Dvs. om nollhypotesen är sann är sannolikheten 0,05 att få ett värde på stickprovsmedelvärdet som är mindre än eller större än –Ekvivalent kan vi säga att sannolikheten är 0,05 att få ett z-värde som är mindre än –2 eller större än 2.

–Kritiska gränser: Antag att vi tar ett sampel omfattande 16 observationer. Med signifikansnivån 5% skall vi förkasta nollhypotesen om stickprovsmedelvärdet är mindre än eller större än Ekvivalent kan vi förkasta nollhypotesen om z-värdet är mindre än -2 eller större än 2.

–Observation: Antag att vi får stickprovsmedelvärdet 12 (vilket ger z = 2,67). –Slutsats: Förkasta nollhypotesen. Vi anser oss ha tillräckligt empiriskt stöd för alternativhypotesen, dvs. att populationsmedelvärdet ej är 10. Bevisen räcker för att ”fälla” nollhypotesen.

139 Typ I fel och typ II fel. Typ I fel: Att förkasta nollhypotesen då den är sann. (Sannolikheten för detta är signifikansnivån). Typ II fel: Att ej förkasta nollhypotesen då den är falsk.

140 P-värden Ett p-värde är sannolikheten att, om nollhypotesen är sann, vid en upprepning av försöket, få ett minst lika ”extremt” värde på teststatistikan som det vi faktiskt fått. Med ”extremt” avses i förhållande till nollhypotesen och vad som räknas som ”extremt” beror därför på hypoteserna.

141 Exempel 1: –H 0 :  = 10, H A :   0. –Antag att vi få observationen z = –P-värdet = Sannolikheten att få ett stickprovsmedelvärde som ligger minst 2.67 standardavvikelser från 10. Sannolikheten att få ett värde på z som är större än 2.67 eller mindre än –2.67 = Exempel 2: –H 0 :   10, H A :   0 –z = 2.67 –P-värdet = Sannolikheten att få ett stickprovsmedelvärde som ligger minst 2.67 standardavvikelser över 10 =