Föreläsning 1-3 Introduktion till kursen Beskrivande statistik
Agenda Introduktion till kursen Introduktion till statistik Introduktion till beskrivande statistik
Introduktion till kursen
Kursens upplägg Tre moduler – Modul 1 – Statistikens grunder och sannolikhetslära – Modul 2 – Statistisk inferens – Modul 3 – Statistiska verktyg 20 föreläsningar 12 lektioner 6 datorövningar 6 matematiklektioner
Kursens upplägg Två projektarbeten – Analys av sekundärdata – Insamling och analys av primärdata – Muntlig och skriftlig presentation Två duggor – Möjlighet för bonuspoäng till tentamen Skriftlig salstentamen
Examinerande moment Skriftlig salstentamen (9.5 hp) Projektarbeten (7.5 hp) Skriftlig matematiktentamen (3 hp)
Betyg Kursen totalt är värd 20 hp med betygen VG/G/U. För betyget Godkänd krävs: – G på tentamen – G på båda projektarbeten – G på matematiktentamen För betyget Väl godkänd krävs: – G-kraven men VG på tentamen
Kurslitteratur Statistics for Business and Economics, Newbold, Carlson & Thorne, 8th edition, ISBN: – Var noga med att ni får med en nyckel till MyMathLab Matematik inför högskolan, Wallin, Lithner, Jacobsson & Wiklund, ISBN: Föreläsningsunderlag via LISAM
LISAM Portal för väldigt mycket, t.ex. er mail och kurser Kursrummet för 732G30 innehåller: – Föreläsningsunderlag – Information om projektarbeten – Datorövningar – Kontinuerlig information Det är väldigt viktigt att hålla kontinuerlig koll på kursrummet!
Studiedisciplin Följ med i undervisningsplanen på LISAM ”Learning by doing” – J. Dewey Ställ frågor!!! Tänk på att universitetsstudier är ett heltidsarbete, 40 timmar i veckan! Egen studietid påverkar starkt resultatet på en universitetskurs!
Introduktion till statistik
Vad är statistik? ”Statistik är en gren inom tillämpad matematik som sysslar med insamling, utvärdering, analys och presentation av data eller information” – Wikipedia ”[Statistik är] vetenskapen om hur data med inslag av slumpmässig variation eller osäkerhet skall insamlas, utvärderas och presenteras” – Nationalencyklopedin ”Statistik – vetenskapen om metoder för insamling, bearbetning, redovisning och analys av data” – SAO
Arbetsmarknad Befolkning Boende Byggande Demokrati Energiproduktion Finansmarknad Livsmedelsförsäljning Hälso- och sjukvård e-handel Jord- och skogsbruk Fiske Samhällets kulturutgifter Levnadsförhållanden Miljöräkenskaper Materialflöden BNP Konsumtion Omsättning Investeringar Skatter Statsskuld Prisindex Rättsväsende Utbildning Kriminalvård Priser Inköpsvanor Börskurser
Statistikens delar Insamling av data – Primärdata Visualisering av data – Tabeller och diagram Presentation av data – Beskrivande mått Analys av data – Anpassning av modeller för beskrivande eller predikterande ändamål
Beskrivande statistik Kapitel 1
Population
Stickprov
Ändliga och oändliga populationer
Dragning av stickprov Målet är att få ett representativt stickprov – Slumpen! Obundet Slumpmässigt Urval (OSU) – Simple Random Sampling Systematiskt urval – Systematic Sampling
Parameter och statistika Mätvärde i en population kallas parameter – Sanningen! Mätvärde i ett stickprov kallas statistika – Skattning av sanningen – Osäkerhet finns på grund av slumpen Statistisk inferens är metoder för att dra slutsatser om sanningen från en skattning
Variabler Resultatet av upprepade observationer av ett specifikt mätvärde – Ex. ålder av individer i klassen Kvalitativa variabler – Kategorier eller grupper – Mäts ej numeriskt – Ex. nationalitet, grupptillhörighet
Variabler Kvantitativa variabler – Mäts numeriskt – Diskreta variabler Antar heltalsvärden Ex. antal syskon – Kontinuerliga variabler Kan mätas med decimalers noggrannhet Ex. löptid på 100 meter
Variabler
Variabelskalor Fyra olika skalor – Nominal Kategorier som inte går att rangordna Ex. nationalitet – Ordinal Kategorier som går att rangordna Ex. medaljvalör vid OS
Variabelskalor – Intervall Numeriska variabler där differens kan beräknas Arbiträr nollpunkt Ex. temperatur – Kvot Numeriska variabler där differens och kvoter kan beräknas Naturlig nollpunkt Ex. ålder
Variabelskalor Viktigt att man tar sig tid att undersöka variabeln det första man gör Resterande analys påverkas av både variabelskala och typ.
Kort om visualisering Olika sätt att visualisera fördelningar av variabler beroende på typ och skala Kvalitativa variabler – Stapeldiagram baserat på en frekvenstabell – Bokens Pareto-diagram är sorterade stapeldiagram
Kort om visualisering Kvantitativa variabler – Histogram – Prickdiagram – Spridningsdiagram (två kvantitativa) Mer om denna del av statistiken kommer i kursen Visuell Dataanalys senare i höst
Beskrivande mått Kapitel 2
Beskrivande mått i en ändlig population Lägesmått – Beskriver positionen (läget) av variabelns fördelning – Medelvärde – Median och percentiler Spridningsmått – Beskriver hur stor spridning observationerna har i genomsnitt – Varians och standardavvikelse – Kvartilavstånd
Medelvärde
Median
Skevhet (skewness)
Percentiler och kvartiler Relativ position i ett ordnat datamaterial Exempel på tolkning: Den 10:e percentilen är större än ca 10 procent av data och mindre än ca 90 procent av data. 25 percentilen är den första kvartilen (Q1) 50 percentilen är den andra kvartilen även kallad medianen 75 percentilen är den tredje kvartilen (Q3)
Percentiler och kvartiler
Varians
Standardavvikelse
Ett mått på det genomsnittliga avståndet från medelvärdet
Kvartilavstånd
Lådagram Visualisering som visar spridningen av ett datamaterial
Lådagram Max Q3 Median Q1 Min
Viktade medelvärden
Viktade standardavvikelser
Viktade medelvärden Bolag ABolag B BefattningAntal personerMedellön (tkr)Antal personerMedellön (tkr) Mellanchef/chef Tjänstemän Administrativ personal
Standardvägning (finns ej i boken) Bolag ABolag B BefattningAntal personerMedellön (tkr)Antal personerMedellön (tkr) Mellanchef/chef Tjänstemän Administrativ personal
Standardvägning Hur skulle medellönen se ut om andelen som jobbar i de olika befattningarna är densamma i de två företagen? Beräkna viktade medelvärden men frekvenserna för båda grupperna ska vara en standardpopulation Standardpopulationen betecknas ofta som totala antalet inom varje undergrupp
Standardvägning
Kovarians och korrelation Spridningsdiagram visualiserar sambandet mellan två kontinuerliga variabler Numeriska mått: – Kovarians: Mäter riktningen på ett linjärt samband – Korrelation: Mäter styrkan (och riktning) på ett linjärt samband
Kovarians
Mer generell formel kommer senare i kursen
Korrelation
Exempel SäljareMånadslönÅlder
Exempel
Projektarbete 1
Sekundärdata Sekundärdata innebär analys av ett datamaterial som insamlats för ett annat ändamål Målen med projektet är: – Bestäm en frågeställning som ska besvaras – Hitta relevant data kopplad till denna frågeställning – Analysera data med beskrivande statistik – Skriftligt presentation – Muntlig presentation och diskussion av en annan grupps arbete
Tidsplan V36 – Lämplig frågeställning V36-41 – Självständigt arbete V41 – Inlämning av rapport – Förberedelser av presentationer V42 – Seminarium
Opponering Opponenterna presenterar sin respondentgrupps arbete baserat på den rapport som lämnas in Ställer krav på rapportskrivandet – Tydlighet – Förklarande – Ha klassen som målgrupp