Introduktion
2 Vad är statistik? ”En massa siffror” Beskrivning av staten Metodlära
3 Några ”definitioner” Metodlära ägnad åt insamling, bearbetning, beskrivning och analys av data Statistics is concerned with data and with scientific analysis in the face of uncertainty
4 Statistics is concerned with the production, organization and analysis of data, and with inference from data to the underlying reality Statistics is a key part of inductive inference and the philosophy of science Statistics is the science of data –Data are numbers with a context
Statistiska undersökningar Ett gemensamt syfte för alla undersökningar är att få ökad kunskap om ett visst problemområde Det kanske viktigaste sättet att skaffa sig sådan kunskap är genom observationer Inom statistikteorin studeras –hur observationer samlas in –hur observationer analyseras –hur slutsatser kan dras från observationer
Deskriptiva, förklarande och framåtblickande undersökningar Vid en deskriptiv eller beskrivande undersökning försöker man att, med hjälp av ett insamlat datamaterial, beskriva ett förhållande eller ett faktiskt händelseförlopp.
Vid en förklarande (analytisk) undersökning försöker man klarlägga orsakssamband och förklara varför verkligheten ser ut som den gör. Vid en framåtblickande undersökning försöker man göra s.k. prognoser om vad som kommer att hända i framtiden.
En statistisk undersöknings olika steg Syfte och frågeställningar Planering Datainsamling Analys Rapportering
Planering av en undersökning Vid planering bestämmer man sig bl.a. för: –Vilka data som skall samlas in –Hur dessa data skall samlas in, dvs. val av datainsamlingsmetod Totalundersökning eller urvalsundersökning Typ av urval vid urvalsundersökning Val av mätmetod och mätinstrument. –Hur eventuellt bortfall skall hanteras –Hur data skall analyseras –Hur resultatet skall redovisas
Deskription Diagram
Individer och variabler Individer, undersökningsobjekt –De vi undersöker. De vi gör mätningar på. Kan vara människor, men kan också vara djur, bostadshus, kommuner, mm. Variabel –En egenskap som kan variera mellan olika individer
Variabler kan vara kvalitativa eller kvantitativa. En kvalitativ variabel är icke-numerisk. –Ex: kön, civilstånd, gymnasieprogram, partitillhörighet En kvantitativ variabel är en variabel som är numerisk –Ex: ålder, längd, poäng på prov, inkomst Olika typer av variabler
Diskreta och kontinuerliga variabler En kvantitativ variabel är antingen diskret eller kontinuerlig. –Diskret: Kan endast anta ett ändligt antal värden eller kan anta ett oändlig antal värden som dock är uppräkneliga. –Kontinuerlig: Kan anta alla värden i ett intervall.
Diagram Diagramrubriken bör vara fullständig men ändå kortfattad Lämplig uppställning: –Diagramnr., rubrik –Kort anmärkning som gäller hela diagrammet –Diagram –Noter –Längre anmärkningar –Källhänvisning
Välj diagramtyp som passar det aktuella problemet Välj lämpliga skalor för axlarna Stympa ej y-axeln i onödan. Om y-axeln stympas bör detta klart anges
Exempel på stympad y-axel: Löpdistanser i första och andra halvlek för ett antal elitspelare. Halvlekarna är indelade i femtonminutersperioder.
Samma data utan stympad y-axel.
För axlarna skall man tydligt ange variabler, enheter, skalsteg och skalvärden Diagrammet kan med fördel omges av en ram och innehålla stödlinjer
Kvalitativa variabler För att visa en fördelning, i en population eller ett urval, när man har en kvalitativ variabel, kan man t.ex. använda ett stapeldiagram eller ett cirkeldiagram.
Stapeldiagram, en variabel. Absoluta frekvenser.
Stapeldiagram, en variabel. Relativa frekvenser.
Liggande stapeldiagram
Cirkeldiagram
Fotbollsspelarens rörelsemönster
Kvantitativa variabler När man har en kvantitativ variabel kan man t.ex. använda histogram eller ett stam-bladdiagram. Man kan även klassindela materialet och presentera det med hjälp av ett stapeldiagram.
Histogram. Nyfödda barns fördelning på variabeln längd
Histogram. Åldersfördelning för ett urval av högskoleprovtagare.
Stapeldiagram. Åldersfördelning för samtliga högskoleprovtagare våren 1987.
Stapeldiagram, två variabler
Stam-bladdiagram. Chefernas fördelning på anställningstid. Anställningstid Stem-and-Leaf Plot Frequency Stem & Leaf 4, , , , , , , Stem width: 10,00 Each leaf: 1 case(s)
Tidsseriedata Tidsserier presenteras ofta med hjälp av s.k. linjediagram I linjediagram kan man ofta upptäcka sådant som trender, cykler eller säsongsvariationer.
Privat konsumtion i USA
Försäljning, kvartalsdata
Pulsmätning
Numeriska Deskriptiva Tekniker
Centralmått Vanligtvis fokuserar vi vår uppmärksamhet på två typer av mått när vi beskriver en population: –Centralläge –Variation eller spridning
En datapunkt Centralmått Ett centralmått skall ge centraltendens för det aktuella datat. Hur? En tredje datapunkt Med två
Summan av alla värden Antalet observationer Medel= Aritmetiska medelvärdet är det mest populära centralmåttet Det aritmetiska medelvärdet
Stickprovs-_ medelvärdet Populations- medelvärdet StickprovsstorlekPopulationsstorlek Aritmetiskt medelvärde
Exempel (stickprovsmedelvärde) Den rapporterade tiden som ett urval av 10 vuxna personer använt internet under en vecka är 0, 7, 12, 5, 33, 14, 8, 0, 9 respektive 22 timmar
Udda antal observationer 0, 0, 5, 7, 8 9, 12, 14, 22 0, 0, 5, 7, 8, 9, 12, 14, 22, 33 Jämnt antal observationer Exempel Beräkna medianen i exemplet med internetanvändande Medianen är det värde som delar materialet mitt itu, dvs 50% av observationerna finns till vänster om medianen och 50% finns till höger om medianen. Medianen Antag att enbart 9 skulle ha valts (vi tar bort den längsta tiden (33)) Kommentar 8.5, 8
Typvärdet är det värde som förekommer oftast. Typvärdes-klassen Typvärdet är klassmitten i typvärdesklassen Typvärde
Exampel Beräkna typvärdet för följande data: 0, 7, 12, 5, 33, 14, 8, 0, 9, 22 Lösning Alla observationer utom “0” finns en gång. Det finns två “0”. Alltså är typvärdet “0”. Är detta ett bra mått ? Jämför med medelvärdet = 11.0 och medianen = 8.5. Typvärdet
Förhållandet mellan medelvärde, median och typvärde Om fördelningen är symmetrisk så sammanfaller de tre måtten Om fördelningen är skev och sned mot vänster eller höger så skiljer sig de tre måtten. En positivt snedfördelning Medel Median Typvärde
Positivt sned Medel Median Typ Medel Median Typ En negativt sned fördelning Förhållandet mellan medelvärde, median och typvärde Om fördelningen är symmetrisk så sammanfaller de tre måtten Om fördelningen är skev och sned mot vänster eller höger så skiljer sig de tre måtten.
Spridningsmått Centralmått beskriver inte hela sanningen om fördelningen. En fråga återstår att besvara: Hur stor är variationen (spridningen) i våra data?
Spridningsmått Studera dessa två hypotetiska dataset: Medelvärdet Liten variation Dessa data ändras till
Spridningsmått Studera dessa två hypotesiska dataset: Medelvärdet Liten variation Stor variation Samma medvärde.
–Variationsvidd är avståndet mellan största och minsta värdet. –Variationsvidden är enkel att beräkna. ? ? ? Minsta värde Största värde Vidd § Variationsvidd
Varians och standardavvikelse Studera två små stickprov och beräkna summan av alla avvikelser från medelvärdet: = = = = = = = = +6 Summa = 0 Medelvärdet är …men avvikelserna är större i stickprov B än i stickprov A A B Summa av avvikelserna är noll för de två stickproven
Varians
Exempel –Föjande är data för antalet jobb som sex studenter sökt under sista halvåret: 17, 15, 23, 7, 9, 13. Beräkna medelvärde och varians för datamaterialet Lösning: Beräkning av variansen
Standardavvikelse
–Första kvartilen: Q 1 = det mätvärde där 25 % av observationerna är mindre (ligger “till vänster” efter rangordning). –Andra kvartilen: Q 2 = medianen = det mätvärde där 50 % av observationerna är mindre. –Tredje kvartilen: Q 3 = det mätvärde där 75 % av observationerna är mindre. Kvartiler
Exempel Beräkna de olika kvartilerna för följande datamaterial :7, 8, 12, 17, 18, 4, 2, 4, 10, 21, 5, 8
Lösning Rangordna datat 2, 4, 4, 5, 7, 8, 10, 12, 17, 18, 18, 21, (.25)(12) = 3 observationer Q 1 =(4+5)/2=4.5. (.25)(12) = 3 observationer Q 1 =(4+5)/2=4.5. (.75)(12)=9 observationer Q 3 = (17+18)/2=17.5. (.75)(12)=9 observationer Q 3 = (17+18)/2=17.5. Första kvartilen Kvartiler
Det avstånd inom vilket de 50% mittersta observationerna finns. Ett stort kvartilavstånd indikerar en stor spridning i våra data. Kvartilavstånd = Q 3 – Q 1 Kvartilavstånd
L - Det största värdet (max) Q 3 - Den övre (tredje) kvartilen Q 2 – Medianen Q 1 – Den nedre (första) kvartilen S - Det minsta värdet (min) SQ1Q1 Q2Q2 Q3Q3 L Box- Plott
Exempel: Två grupper, en får vitaminstillskott den andra placebo. Notera antalet sjukdagar.
Exempel: BMI för fotbollsspelare (samtliga spelare i de två bästa lagen år 2003) i fyra olika ligor.