Föreläsning 1, Introduktion Varför statistik? Population – Urval - Mätnivå Deskription Cirkeldiagram, stapeldiagram, histogram, spridningsdiagram, boxplot… Lägesmått (typvärde, median, medelvärde) Spridningsmått (variationsvidd, kvartilavstånd, standardavvikelse) 1
Statistiska metoder används för att sammanfatta samlade erfarenheter göra förutsägelser dra slutsatser fatta beslut då informationen är osäker. Statistikerns roll är att INSAMLA, BEARBETA och TOLKA data. 2
Statistik består av Ett antal tekniker Regler för när, var och hur dessa tekniker skall användas (metodologi) Statistikämnets uppkomst och utveckling är nära förknippat med behov inom andra discipliner. 3
En statistisk undersöknings olika steg Problemformulering Planering Datainsamling Analys Rapportering 4
Hur går en statistisk undersökning till? Obundet slumpmässigt urval (OSU) Stratifierat urval Klusterurval Flerstegsurval 5
6 Obundet slumpmässigt urval Vid varje dragning av en enhet har de i populationen kvarvarande enheterna samma sannolikhet att bli valda Vid OSU av n enheter har alla möjliga kombinationer av n enheter samma chans att bli valda
7 Stratifierat urval Populationen delas in i strata och ett OSU dras ur varje stratum Skäl: – Om resultatet skall redovisas för varje stratum kan urvalsstorlekarna för varje stratum avpassas så att vissa precisionskrav uppfylles utan att man erhåller överflödiga observationer från vissa strata
8 – Skattningar av populationsparametrar (t.ex. populationsmedelvärdet) kan göras med bättre precision än vid ett OSU, om bara stratifieringsvariabeln är ”bra” (homogent inom strata, heterogent mellan strata)
9 Gruppurval (klusterurval) Populationen delas in i grupper (kluster) av enheter. Ett antal sådan kluster väljs slumpmässigt. Samtliga enheter inom ett kluster undersöks. Skäl: – Ramproblem – Geografisk spridning – Kostnader
10 Urvalsundersökningar Varför urvalsundersökning i stället för totalundersökning? – Billigare – Snabbare – Bättre mätning – Praktiskt omöjligt med totalundersökning då populationen är mycket stor eller oändlig – Förstörande prov
11 Olika typer av urval Lättåtkomliga element Frivilliga svar Frivilliga försökspersoner Sannolikhetsurval
12 Sannolikhetsurval Urvalsenheterna väljs med hjälp av någon slumpmekanism För varje enhet är sannolikheten för att inkluderas i urvalet känd
13 Randomisering Randomisering innebär att slumpen avgör vilken behandling en undersökningsenhet tilldelas Genom randomisering undviks systematiska fel Randomisering medför att effekten av en eventuell behandling med hög grad av säkerhet och precision kan fastställas med hjälp av statistikteori
14 Med sannolikhetsurval kan man... ge objektiva mått på undersökningsresultatens precision utforma en teori för effektiv undersökningsplanering på förhand göra objektiva jämförelser mellan olika urvalsplaner på förhand uppskatta erforderliga urvalsstorlekar för att uppnå önskad precision
population Population Stickprov, urval INFERENS = Dra slutsatser från data om hela populationen utifrån ett stickprov Data, observationer 15
Individer och variabler Individer, undersökningsobjekt – De vi undersöker. De vi gör mätningar på. Kan vara människor, men kan också vara djur, bostadshus, kommuner, mm. Variabel – En egenskap som kan variera mellan olika individer 16
Variabler kan vara kvalitativa eller kvantitativa. Kvalitativ variabel: Indelning av undersökningsenheterna i olika kategorier. – Ex: kön, civilstånd, gymnasieprogram, partitillhörighet Kvantitativ variabel: En variabel som är numerisk och där vi med hjälp av siffrorna kan uttala oss om hur mycket en undersökningsenhet har av en egenskap. – Ex: ålder, längd, poäng på prov, inkomst Olika typer av variabler 17
Diskreta och kontinuerliga variabler En kvantitativ variabel är antingen diskret eller kontinuerlig. – Diskret: Kan endast anta ett ändligt antal värden eller kan anta ett oändlig antal värden som dock är uppräkneliga. – Kontinuerlig: Kan anta alla värden i ett intervall. 18
19 Mätnivåer (skalnivåer) Nominal – Endast klassificering Ordinal – Klassificering och rangordning Intervall – Klassificering, rangordning och ekvidistans Kvot – Klassificering, rangordning, ekvidistans och absolut nollpunkt
20
DESKRIPTION Bearbeta, tolka och redovisa resultat. Vad ingår? Tabeller - Sammanfatta material Diagram - Åskådliggöra material Lägesmått - ”Genomsnitt” av material Spridningsmått - ”Variation” i material 21
Kvalitativa variabler För att visa en fördelning, i en population eller ett urval, när man har en kvalitativ variabel, kan man t.ex. använda ett stapeldiagram eller ett cirkeldiagram. 22
Stapeldiagram, en variabel. Absoluta frekvenser. 23
Stapeldiagram, en variabel. Relativa frekvenser. 24
Liggande stapeldiagram 25
Cirkeldiagram 26
Fotbollsspelarens rörelsemönster 27
Kvantitativa variabler När man har en kvantitativ variabel kan man t.ex. använda histogram eller ett stam- bladdiagram. Man kan även klassindela materialet och presentera det med hjälp av ett stapeldiagram. 28
Histogram. Nyfödda barns fördelning på variabeln längd 29
Histogram. Åldersfördelning för ett urval av högskoleprovtagare. 30
Stapeldiagram. Åldersfördelning för samtliga högskoleprovtagare våren
Stapeldiagram, två variabler 32
Stam-bladdiagram. Chefernas fördelning på anställningstid. Anställningstid Stem-and-Leaf Plot Frequency Stem & Leaf 4, , , , , , , Stem width: 10,00 Each leaf: 1 case(s) 33
Tidsseriedata Tidsserier presenteras ofta med hjälp av s.k. linjediagram I linjediagram kan man ofta upptäcka sådant som trender, cykler eller säsongsvariationer. 34
Privat konsumtion i USA 35
Försäljning, kvartalsdata 36
Pulsmätning 37
Spridningsdiagram 38
Beskrivande mått Med hjälp av beskrivande mått sammanfattas fördelningen av ett eller ett fåtal tal. Lägesmått används för att beskriva centrum: typvärde, median och medelvärde Spridningsmått används för att beskriva spridningen: variationsvidd, kvartilavstånd, standardavvikelse 39
Lägesmått Typvärde: Det mest frekventa värdet Medianen, M: Värdet i mitten (rangordna) – Udda antal värden : mittersta värdet – Jämt antal värden: medelvärdet av de två mittersta Medelvärdet, x̄: Summan av alla värden delat med antalet värden. 40
Exempel 1 Hemläxa: beräkna typvärde, median och medelvärde för följande tre dataset. a)3, 5, 9, 7, 6, 9, 10 (Svar: 9; 7; 7) b)3, 5, 9, 7, 6, 9, 100 (Svar: 9; 7; 19.86) c) 3, 5, 9, 7, 6, 9, 10, 4 (Svar: 9; 6.5; 6.63) 41
Här är medelvärde och median lika. Hur ska man skilja på dessa? 42
Spridningsmått Variationsvidden är skillnaden mellan det största och det minsta värdet. Kvartilavståndet, IQR, anger inom vilket avstånd de 50% mittersta observationerna ligger (Q3-Q1). Standardavvikelsen, s, beskriver hur mycket mätvärdena avviker från medelvärdet. 43
Kvartiler Kvartilerna delar upp datat i fyra lika stora delar. – Första kvartilen (Q1): 25% av alla värden är mindre än Q1 – Andra kvartilen (Q2): medianen – Tredje kvartilen (Q3): 25% av alla värden är större än Q3. 44
3, 5, 9, 7, 6, 9, 10 Descriptive Statistics: N Mean Minimum Q1 Median Q3 Maximum
XX *o Median Q1Q1 Q3Q3 Inre staket Inre staket Yttre staket Kvartilavstånd IQR Minsta punkten inom inre staketet Största punkten inom inre staketet Misstänkt outlier Outlier Q 1 -3(IQR) Q (IQR)Q (IQR) Q 3 +3(IQR) Låddiagram (Boxplot) 46
3, 5, 9, 7, 6, 9, 100 Descriptive Statistics: N Mean Minimum Q1 Median Q3 Maximum 7 19,
Exempel: BMI för fotbollsspelare (samtliga spelare i de två bästa lagen år 2003) i fyra olika ligor. 48
Standardavvikelse Beskriver hur mycket mätvärdena varierar kring medelvärdet. Stickprovsvarians, s 2 : Stickprovsstandardavvikelse, s: 49
Exempel: 3, 5, 9, 7, 6, 9, 10 xixi x̄x i -x̄(x i -x̄) 2 Medel=7Summa=38 50 Svar: medelvärde = ( )/7 = 7 statndardavvikelse = rot(((3-7)^2+…+(10-7)^2)/6)=rot(38/6)=2.52 Hemläxa: Beräkna medelvärde och standardavvikelse ? (använd formler på föregående sidor) Hjälptabell
Exempel: Ålder Descriptive Statistics: Ålder Variable N Mean StDev Minimum Q1 Median Q3 Maximum Ålder 50 42,58 11,21 23,00 32,75 42,00 50,25 64,00 51
nominalordinalkvot typvärde median (vissa fall medelvärde) medelvärde variationsvidd kvartilavstånd standardavv. 52
53 Några felkällor vid statistiska undersökningar Täckningsfel – Övertäckning Urvalsramen innehåller individer som ej finns med i målpopulationen – Undertäckning Urvalsramen saknar individer som finns med i målpopulationen – Kan ge upphov till systematiska fel (bias)
54 Bortfallsfel – Individbortfall innebär att man från en eller flera individer ej får något svar på t.ex. en postenkät – Partiellt bortfall innebär svarsvägran på vissa frågor – Kan ge stora systematiska fel
55 Mätfel – Mätfel som beror på respondenten – Mätfel som beror på intervjuaren – Mätfel som beror på mätmetoden – Mätfel som beror på frågeformuläret
56 Bearbetningsfel Kodningsfel Inmatningsfel Datorbearbetningsfel
57 Urvalsfel Uppstår när man studerar ett urval i stället för hela populationen Slumpmässigt och möjligt att uppskatta om urvalet görs ”korrekt”
Lärares roll 58
What lies ahead ” You learn statistics by doing statistical problems. ”Practice, practice, practice”. Be prepared to work problems. The basic principle in learning is persistence. Being organized and persistent is more helpful in reading this book than knowing lots of math. The main ideas of statistics, like many ideas of any important subject, took a long time to discover and take some time to master. The gain will be worth the pain”. 59