Vad ingår kursen? i korta drag Beskrivande statistik Sannolikheter Slumpvariabler Sannolikhetsfördelning Väntevärde, Varians Korrelation Normalfördelning Stickprovsteori Felmarginal Konfidensintervall Hypotesprövning -test
Inledning Undersökningar Kvalitativa Kvantitativa Statistiska undersökningar är kvantitativa. Insamling av data: Experiment Totalundersökning Urvalsundersökning Datatyper Sekundärdata primärdata
Vi skiljer mellan observation och variabel För en viss enhet eller individ kan en observation göras på ett flertal variabler Ex 1: Vi observerar ett antal variabler på en bil. Variabler: Bilmärke, Ålder på bil, Antal mil bilen gått, Drivmedelstyp, Bromsträcka, Däcktyp, Vägunderlag. Detta kan ge 7 värden vilka utgör en observation på 7 variabler.
Ex 2: Vi observerar ett antal variabler på en person. Variabler: Kön, Ålder, Utbildning, Attityd. Detta kan ge 4 värden vilka utgör en observation på 4 variabler. Ex 3: Vi observerar ett antal variabler för ett företag som har en viss produktion. Variabler: Typ av bolag, Omsättning, Antal anställda, Könsfördelning bland anställda, Kvalitet på produktion Detta kan ge 5 värden vilka utgör en observation på 5 variabler.
Variabler: Kvalitativa: ex: kön, region, politiskt parti variabler som ej antar siffror Kvantitativa: ex: längd hos en människa bromssträcka hos en bil antal rum i en lägenhet utomhustemeperatur
Vi kan göra många observationer på en enhet (bil, person, företag) Vi kan göra många observationer på en enhet (bil, person, företag). Antalet observationer betecknas ofta med n. Variabler mäts med olika skalor: t ex Nominalskala --- kön Ordinalskala --- åldersgrupper Intervallskala --- temperatur Kvotskala --- vikt
Tabeller o Diagram Kvalitativa variabler som t ex partisympati presenteras helst med cirkeldiagram eller… pie chart
med stapeldiagram. Bar chart
Två variabler kan presenteras i en korstabell I tabellen ser vi frekvenser Totalt har 60 personer svarat (attityd till införandet av en avgift för att använda boule-banan) Pos Neg Man 8 12 20 Kvinna 14 26 40 22 38 60
Även dessa data kan presenteras i ett stapeldiagram.
Pos Neg Man 40% 60% 100% Kvinna 35% 65%
Attityd summar sig till 100% inom kön
Kvantitativa variabler Dessa variabler mäts med siffror Presenteras t ex med Stolpdiagram Histogram Punktdiagram (Dotplot) Lådagram (Boxplot)
Ex: 20 lägenheter har dragits slumpmässigt eller på måfå och antal rum har räknats Data: 4 3 2 3 5 4 4 1 1 2 4 4 3 5 3 3 6 4 2 2 Ordnad datamängd: 1 1 2 2 2 2 3 3 3 3 3 4 4 4 4 4 4 5 5 6 Frekvenstabell: x f x=antal rum f=frekvens 1 2 2 4 3 5 4 6 5 2 6 1
Stolpdiagram
Histogram
Punktdiagram
Lådagram
Lägesmått Typvärde Median Medelvärde Ex: Variabel x=antal rum i en på måfå vald lägenhet Sorterat datamaterial: 1 1 2 2 2 2 3 3 3 3 3 4 4 4 4 4 4 5 5 6 Typvärde är det vanligaste värdet = 4 Median är det mittersta värdet = ? Antalet obs är här 20 (jämt) så ta medelvärde på de två mittersta värdena Medianen =3
Medelvärde= Medelvärde betecknas
Vägt medelvärde Ett medelvärde kan skrivas på flera olika sätt.
Standardvägning Ex: Dödlighet bland präster och järnvägsmän Ålder år Antal personer Antal döda Dödlighet promille 25-34 35-44 45-54 55-64 65- 21 000 29 000 22 000 46 90 218 490 1690 2,2 3,1 7,5 22,3 76,8 69 000 52 000 39 000 10 000 284 256 423 559 936 4,1 4,9 10,8 25,4 93,6 Totalt 123 000 2534 20,6 192 000 2458 12,8
Vi ser att allmänna dödstalet för präster är 20,6 och för järnvägsmän 12,8 Ej jämförbara siffror. För att få jämförbara siffror så ska vi standardväga. Bilda nya vikter så att antalet personer i åldersgrupperna blir jämt fördelat. 25-34 år: 35-44 år: 45-54 år: Obs!!! Summan av alla vikter är alltid 1 55-64 år: 65- år:
Nu beräknar vi nya allmänna dödstal Nu beräknar vi nya allmänna dödstal. Använd de nya vikterna för båda grupperna. Summa(vikt*dödsrisk). Präster: Järnvägsmän: Nu ser vi att det faktiskt är farligare att vara järnvägsman
Spridningsmått Variationvidd Kvartiler Kvartilavstånd Standardavvikelse Ex: Variabel x=antal rum i en på måfå vald lägenhet Sorterat datamaterial: 1 1 2 2 2 2 3 3 3 3 3 4 4 4 4 4 4 5 5 6 Variationsvidd(bredd) = största- minsta värdet = 6-1= 5 rum Varaitionsområde = 1 till 6 rum Kvartiler:
1 1 2 2 2 2 3 3 3 3 3 4 4 4 4 4 4 5 5 6 De tre kvartilerna delar upp datamaterialet i fyra lika stora delar. I vissa fall får man ta medelvärdet mellan ett par obs. Kvartilavstånd = Standardavvikelse är en genomsnittlig variation mellan observationer och medelvärdet i datamaterialet. Betecknas s