Vad är Statistik? Inom statistik teorin studeras -Hur vi samlar in data. -Hur data analyseras och vilka slutsatser som kan dras från data. -Hur insamlad data illustreras grafiskt.
population Population Stickprov, urval INFERENS = Dra slutsatser från data om hela populationen utifrån ett stickprov Data, observationer Deskriptiv statistik = Illustrera hur insamlad data beter sig.
Stapeldiagram Betyg (Antal) (Kategorisk)
Stapeldiagram Betyg (Procent) (Kategorisk)
Tårtdiagram för Betyg (Kategorisk)
Histogram över Tentamenspoäng (kvantitativ)
Genom att beräkna ett centralmått sammanfattas fördelningen i ett tal. Tre vanliga centralmått: – Typvärdet – Medianen – Medelvärdet Centralmått
Typvärdet... – är det mest frekventa värdet Medianen… – är, om antalet mätvärden är udda, det mittersta av de rangordnade mätvärdena. Om antalet mätvärden är jämnt är medianen medelvärdet av de två mittersta mätvärdena. Medelvärdet… – är summan av alla mätvärden dividerat med antalet mätvärden.
Vilket av dessa tre mått skall vi använda? Detta beror framför allt på två saker: – Syfte. Vad skall vi ha måttet till? – Möjlighet att tolka resultatet. Antag att vi sätter gul=1, blå=2 och röd=3. Eftersom vi har siffror kan vi beräkna typvärde, median och medelvärde. Men hur tolkar vi t.ex. medelvärdet 2,3 eller medianen 2? Medianen ”kräver” rangordning, att 2 innebär mer av egenskapen än 1. Medelvärdet ”kräver” dessutom ”ekvidistan”, dvs. lika avstånd mellan skalstreck.
Spridningsmått Ett centralmått sammanfattar en fördelning i ett enda tal och ger information om var fördelningens ”centrum” är beläget. Ett spridningsmått ger information om fördelningens spridning.
Tre olika spridningsmått Variationsvidden är skillnaden mellan det största och det minsta värdet Kvartilavståndet är avståndet mellan första och tredje kvartilen. Måttet anger alltså inom vilket avstånd de 50% mittersta observationerna ligger. Standardavvikelsen är ett spridningsmått som beskriver hur mycket mätvärdena avviker från medelvärdet.
XX *o Median Q1Q1 Q3Q3 Inre staket Inre staket Yttre staket Kvartilavstånd IQR Minsta punkten inom inre staketet Största punkten inom inre staketet Misstänkt outlier Outlier Q 1 -3(IQR) Q (IQR)Q (IQR) Q 3 +3(IQR) Låddiagram (Boxplot)
Boxplot över Arbetsbörda (Kvantitativ)
Boxplot över Tentamenspoäng (Kvantitativ)
Boxplot över Tentamenspoäng (Uppdelat på kön)
Boxplot över Arbetsbörda (Uppdelat på kön)
Korstabell (Betyg vs Kön) Tabulated statistics: Grade; Gender Rows: Grade Columns: Gender female male All U G VG All Cell Contents: Count
Stapeldiagram över Betyg (Uppdelad på kön)
Spridningsdiagram Arbetsbörda mot Tentamenspoäng Finns det ett samband? (moment2)
Mätnivåer (SCB-länkar eller Dahmstöm) Ett mått på hur mycket information som finns i observationerna. Olika informationsmängd leder till olika analyser. Nominalskala Ordinalskala Intervallskala Kvotskala
Nominalskala Typexempel: Kön, civilstånd, yrke,... Klassificering av enheterna efter ”variabelvärdena”. Variabelvärdena är endast namn (nomina). Av praktiska skäl ges variabelvärdena ofta siffervärden (kodas). Siffervärdena har dock ingen kvantitativ betydelse, d v s uttrycker inte ”hur mycket” av en egenskap enheten har.
Nominalskala Notera! Inte lämplig för matematiska operationer som addition och subtraktion. (Alltså olämpligt att beräkna t ex medelvärde, standardavvikelse...) Lämpliga tabeller, diagram etc: Frekvenstabeller, stapeldiagram (och cirkeldiagram) Lämpliga lägesmått: Typvärde Lämpliga spridningsmått: -
Ordinalskala Typexempel: Attitydskalor (Bra, Sådär, Dåligt), betyg (U, G, VG), klädstorlek (S, M, L, XL, XXL),... Klassificering och rangordning, i någon storleksordning, av enheterna efter ”variabelvärdena”. Skillnaden mellan variabelvärdena är dock inte lika stora. Siffervärdena har ingen kvantitativ betydelse. Vi kan uttala oss om vilka som har mer av en egenskap än andra men inte hur mycket de har.
Ordinalskala Notera! Inte lämplig för matematiska operationer som addition och subtraktion. Lämpliga tabeller, diagram etc: Frekvenstabeller, stapeldiagram (och cirkeldiagram) Lämpliga lägesmått: Median (och typvärde) Lämpliga spridningsmått: -
Intervallskala Typexempel: Temperatur (i Celsius), Kalendertid Skillnaden mellan variabelvärdena är lika stora (ekvidistans), men saknar absolut nollpunkt. Notera! Notera! Addition och subtraktion är meningsfulla, men inte multiplikation och division. Det är alltså meningsfullt att tala om skillnader mellan variabelvärden men inte förhållanden av typen ”dubbelt så mycket”.
Kvotskala Typexempel: Inkomst, Vikt, Längd Absolut nollpunkt. Notera! Alla räkneoperationer tillåtna. Förhållanden mellan värden av typen ”dubbelt så mycket” är meningsfulla begrepp.
Intervallskala & kvotskala Lämpliga tabeller, diagram etc: Histogram Frekvenstabeller, stapeldiagram (och cirkeldiagram) för klassindelat material Lämpliga lägesmått: Medelvärde och median Lämpliga spridningsmått: Standardavvikelse, Kvartilavvikelse, variationsbredd
Vilken mätnivå? (Hjälp mig!) Ålder Ålder grupp 25-34, 35-44, 45-54,... Kön (man/kvinna) Rökare (ja/nej) BMI (23.45, 28.12,…) Bil modell (Volvo, Saab, Fiat) Antal kr på bankkontot