Föreläsningsanteckningar till:

Föreläsningsanteckningar till:
F1 introduktion, deskriptiv statistik F2 deskriptiv statistik F3 index

Statistik och kvantitativa undersökningar
Välkomna till Statistik och kvantitativa undersökningar Lars Bohlin Syfte: Att ge studenten insikter i grunderna för planering, genomförande och tolkning av statistiska undersökningar inom det företags- och samhällsekonomiska tillämpningsområdet.

Lärandemål Efter genomgången kurs ska studenten kunna:
- redogöra för grundläggande begrepp och betraktelsesätt i statistiken - redogöra för de teoretiska villkor varpå statistiska undersökningar vilar, och då särskilt sådana med anknytning till ekonomens verksamhetsfält - visa förmåga att tillämpa några statistiska metoder för insamling, bearbetning och beskrivning av kvantitativa och kvalitativa data, och då särskilt sådana med anknytning till ekonomens verksamhetsfält - visa förmåga att tillämpa något standardprogram för datorbearbetning av statistiska data

Lärandemål forts. Efter genomgången kurs ska studenten kunna:
- beskriva hur undersökningsrapporter och statistiskt baserade slutsatser granskas kritiskt - visa förmåga att med hjälp av ett urval grundläggande statistiska metoder dra korrekta slutsatser från observerade kvantitativa och kvalitativa data - visa förmåga att med hjälp av dator kartlägga och beskriva samband mellan variabler - visa på ökad färdighet i att tolka och redovisa resultat av statistiska undersökningar.

Litteraturen på kursen består av:
Lind, Douglas A.; Marchal, William G.; Wathen, Samuel Adam; Statistical techniques in business & economics 16. ed. : New York : McGraw-Hill Education Kapitel samt Femtonde upplagan; Kapitel 1 – 12, 15, 17, 18 Andersson G, Jorner U, Ågren A, ”Regressions- och tidsserieanalys”. - Studentlitteratur, Tredje upplagan; kapitel 1 – 4 Bryman och Bell ”Företagsekonomiska forskningsmetoder”, kapitel 6, 7, 9, 10, (14, 15) Dessutom några texter som ni kan ladda ner från blackboard

Examination Undervisning:
Tre inlämningsuppgifter samt en skriftlig tentamen vid kursens slut. Undervisning: Föreläsningar Räknestugor Laborationer Tre laborationer ingår i kursen. Varje laboration består av en övningsuppgift och en inlämningsuppgift. För varje laboration finns två schemalagda tillfällen i datasal för arbete under handledning.

Något om studieteknik Fråga mycket i början av kursen.
Läs igenom litteraturen före föreläsningarna. Räkna igenom räkneövningar före räknestugorna. Använd formelsamlingen hela tiden. Lär för livet inte bara för tentan.

Disposition På schemat anges de olika momenten.
Jag har planerat 15 föreläsningar. I studiehandledningen framgår vilken litteratur som ska läsas inför varje föreläsning. Dessutom finns en repetitionsföreläsning och en frågestund. Det finns några räknestugor på schemat. Då kommer vi att arbeta med uppgifter ur övningskompendiet. Därutöver finns 3 * 2 laborationstillfällen i datasal. För varje laboration finns 2 tillfällen, ett för övningslabben och ett för inlämningsuppgiften.

Laborationerna Före första övningstillfället på laboration 1 bör ni ha läst igenom kapitel 1 – 4 och 17 i Lind. Det är naturligtvis också bra om ni har börjat titta lite på laborationsuppgifterna. Före övningstillfället till Lab 2 bör ni ha läst igenom de kapitel som ingår i regressionsboken. Före övningstillfället till Lab 3 bör ni ha läst all kurslitteratur. För att utnyttja tiden på bästa sätt vid handledningstillfället till inlämningsuppgifterna är det bra om ni försökt göra inlämningsuppgiften på egen hand mellan övningstillfället och inlämningstillfället så att ni vet var svårigheterna är och vad ni behöver fråga om.

Kursvärderingen Kursvärderingen finns tillgänglig i Blackboard.
Inga direkta förändringar är gjorda utifrån kursvärderingen då de flesta verkade skapligt nöjda med upplägget.

Vad är statistik? Ordet statistik kan ha två innebörder:
1. Statistiska uppgifter 2. Statistiska metoder - metoder för att producera statistiska uppgifter - metoder för att analysera statistiska uppgifter Är statistik ett ”mikroskåp” som hjälper oss att se verkligheten? Eller är statistik ett filter som bara ger oss en begränsad bild?

Deskriptiv statistisk undersökning Analytisk statistisk undersökning
Hur mycket väger en svensk i genomsnitt? Hur mycket läsk dricker en svensk i genomsnitt? Hur stor andel av svenska elitskidåkare äter antioxidanter? Hur fort åker svenska elitskidåkare? Analytisk statistisk undersökning Är läskdrickande en viktig orsak till övervikt? Kan elitskidåkare höja sin prestationsförmåga genom att äta antioxidanter?

Population versus Urval
Populationen är alla objekt eller individer som vi vill uttala oss om. Urvalet är några som vi väljer ut för att studera

Population De personer, händelser, föremål som vi vill uttala oss om.
Hur mycket väger en svensk i genomsnitt? Hur mycket läsk dricker en svensk i genomsnitt? Hur stor andel av svenska elitskidåkare äter antioxidanter? Hur fort åker svenska elitskidåkare? I de två första frågeställningarna är populationen alla svenskar. I de två senare alla svenska elitskidåkare.

Population / Urval / Inferens
Ett företag som tillverkar byxor gör ett experiment för att kontrollera kvalitén. Man väljer slumpmässigt ut 100 par som man utsätter för hård nötning och mäter den tid det tar innan byxorna går sönder. Populationen är alla byxor som företaget tillverkar och kommer att tillverka av denna modell. Urvalet är de 100 par man väljer att testa Inferens handlar om hur man med hjälp av information från ett urval kan dra slutsatser om populationen.

Varför göra ett urval istället för att undersöka hela populationen?
Kostnaderna är lägre Objekten kanske förstörs av undersökningen Det kanske är omöjligt att undersöka alla individerna.

Variabler En variabel är en egenskap hos individerna eller objekten i populationen/urvalet. När vi gjort ett urval kan vi samla in data över olika variabler. På nästa slide visas en del av ett datamaterial som vi ska använda i laboration 1 och 2. Varje rad motsvarar ett objekt i urvalet i det här fallet en restaurang, varje kolumn motsvarar en variabel.

Kedja Pris läsk Pommes frittes Pris huvudrätt Öppettid timmar Antal anställda Roy Roger 1,12 1,06 1,02 16 27,5 Burger King 0,91 0,95 16,5 21,5 0,98 18 30 1,01 15 17,5 1,17 22,5 17 18,5 1,18 27 King Fried Chicken 2,34 12 11 Wendys 1,05 15,5 20 2,74 13,5 7,5

Olika typer av variabler och skalor
Kvalitativ variabel variabeln antar inte numeriska värden utan bara olika kategorier. Exempelvis olika bilmärken, eller man, kvinna. Kvantitativ variabel Antar numeriska värden som är resultat av beräkning eller mätning. Kontinuerlig variabel Kan anta alla värden. Ex, kroppslängd Diskret variabel Kan enbart anta vissa värden, (oftast heltal). Ex, antal barn.

Nominalskala Ordinalskala Intervallskala Kvotskala
En variabel kan mätas på 4 olika typer av skalor: Nominalskala Ordinalskala Intervallskala Kvotskala Varför behöver vi veta vilken skala en variabel är mätt på? Skaltypen avgör vilka beräkningar, diagram och statistiska test som vi kan använda.

Nominalskala Ordinalskala
En kvalitativ variabel där de olika utfallen inte har en specifik ordningsföljd mäts på nominalskala. Exemel: Bilmärke: Volvo, BMW, VW, Peugot Kön: man, kvinna Ordinalskala Vi kan rangordna olika observationer men inte avgöra avståndet mellan dem. Exempel: I en kursutvärdering frågas studenterna vad de anser om litteraturen och har följande alternativ att välja på. Mycket bra, bra, medel, dålig

Intervallskala Vi kan mäta avståndet mellan två variabelvärden men kvoter har ingen meningsfull tolkning och nollan kan ej tolkas som avsaknad av egenskapen. Temperatur mätt i grader Celsius är ett exempel. På söndag är det 0 grader. På måndag är det 1 grad varmt. På tisdag är det 2 grader varmt. På onsdag är det 21 grader varmt. På torsdag är det 22 grader varmt. På söndag är det 273 K. På måndag är det 274 K. På tisdag är det 275 K. På onsdag är det 294 K. På torsdag är det 295 K.

Kvotskala Det är meningsfullt att beräkna kvoter och noll betyder att egenskapen saknas. Exempel kroppslängd. Om Lisa är 80 cm lång och hennes mamma 160 så är mamma dubbelt så lång. Det är meningsfullt att dividera mammas längd med Lisas och beräkna en kvot. Om Kalle är 0 cm lång så finns han inte. Nollan betyder avsaknad av egenskapen.

Respondenters värdering på en numerisk skala ger ordinalskala
Kurslitteraturen var lämplig för att uppnå kursens syfte: 5 står för håller helt med och 1 för håller inte alls med. Frågan genererar ordinaldata, man brukar anse att respondenter inte på ett likvärdigt sätt bedömer avståndet mellan 1 och 2 respektive 2 och 3 så vi har inte intervallskala. Frågan kunde ju också ha formulerats: Håller helt med Håller delvis med Vet inte har ingen åsikt Håller inte med Håller inte alls med

Exempel på populationer, variabler och skalor.
variabel Typ av variabel skala Alla svenska bilar Antalet dörrar Diskret kvantitativ Kvotskala färg Kvalitativ Nominalskala märke Alla svenska kvinnor mellan 25 och 35 år Ålder kroppsvikt Kontinuerlig kvantitativ kvotskala Yrke Nominalskala (ordinal?) Utbildnings-nivå (typ av utbildning) (antal år) Nominal, Ordinal

Exempel på populationer, variabler och skalor.
Variabel Typ av variabel skala Sånger i Eurovision song contest 2010 Längd Kontinuerlig kvantitativ Kvotskala Kvalité (poäng i omröstningen) Diskret kvantitativ Ordinalskala Musikstil Kvalitativ Nominalskala Sjöar i Sverige Storlek (km2) Vatten temperatur Intervallskala djup

Kapitel 2 Tabeller och diagram
Kvalitativa variabler Frekvens : Antalet observationer för en viss kategori Kvantitativa variabler Frekvens: Antalet observationer som har ett specifikt värde eller hamnar i ett intervall.

Frekvenstabeller, kvalitativ variabel
Exempel Vi vill beskriva könsfördelningen hos eleverna i en skola Kön Antal Flickor 75 Pojkar 65 Totalt 140

Frekvenstabeller, kvalitativ variabel, relativ frekvens
Exempel Vi vill beskriva könsfördelningen hos eleverna i en skola Kön Andel Flickor 0,54 Pojkar 0,46 Totalt 1,00

Frekvenstabeller, kvalitativ variabel, relativ frekvens
Exempel Vi vill beskriva könsfördelningen hos eleverna i en skola Kön Procent Flickor 54 Pojkar 46 Totalt 100

Kvalitativa variabler kan illustreras i cirkeldiagram

Kvalitativa variabler kan också illustreras i stapeldiagram

Kvalitativa variabler kan också illustreras i stapeldiagram
Man bör undvika brutna staplar då skillnaderna mellan kategorierna överdrivs

Bar Chart and Pie Chart Example
SkiLodges.com is test marketing its new website and is interested in how easy its Web page design is to navigate. It randomly selected 200 regular Internet users and asked them to perform a search task on the Web page. Each person was asked to rate the relative ease of navigation as poor, good, excellent, or awesome. The results are shown in the table below. Vilken skala mäts variabeln på?

Frekvenstabeller, diskret kvantitativ variabel
Exempel Vi vill beskriva åldersstrukturen hos eleverna i en skola Ålder Antal elever, frekvens Andel elever, relativ frekvens 7 20 14 8 23 16 9 22 10 27 19 11 12 25 18 n = 140 100

Diskreta kvantitativa variabler med ett fåtal olika utfall kan också illustreras i stapeldiagram

Frekvenstabell kontinuerlig variabel
Kontinuerliga variabler måste klassindelas Klassintervall: Avståndet mellan klassgränserna Frekvens: Antal observationer i varje klass. Klassens mittpunkt: Medelvärdet av övre och undre klassgräns.

EXAMPLE – Creating a Frequency Distribution Table

Att konstruera en frekvenstabell
Markera in alla observationer i de olika klasserna Räkna antalet streck i varje klass

Relativ frekvens

Grafisk illustration av en kontinuerlig kvantitativ variabels frekvensfördelning
(samt diskreta variabler men många utfall) Histogram Frekvens polygon Kumulativ frekvens polygon Boxplot

Histogram HISTOGRAM Ett diagram där klassgränserna anges på den vertikala axeln och frekvensen på den lodräta. Arean på en stapel anger frekvensen. Staplarna ritas intill varandra, utan mellanrum.

LO2-4 Histogram HISTOGRAM A graph in which the classes are marked on the horizontal axis and the class frequencies on the vertical axis. The class frequencies are represented by the heights of the bars and the bars are drawn adjacent to each other.

Frekvens Polygon Frekvensen anges genom en punkt mitt över klasmitten och dessa punkter sammanbinds med en linje

Histogram Versus Frequency Polygon
Both provide a quick picture of the main characteristics of the data (highs, lows, points of concentration, etc.) Advantage of the histogram – it depicts each class as a rectangle, with the height of the rectangular bar representing the number in each class. Advantage of the frequency polygon it allows us to compare directly two or more frequency distributions. .

Kumulativ frekvens .

Cumulative Frequency Distribution

Frekvenstabeller, kontinuerlig kvantitativ variabel
Vi vill beskriva åldersstrukturen hos medlemmarna i en idrottsklubb Ålder Antal medl, frekvens Andel medl, relativ frekvens 0 - 9 19 0,16 59 0,48 23 0,19 10 0,08 6 0,05 4 0,03 n = 121 1,00

Numeriska mått Centralmått: Spridningsmått: Typvärde (Mode) Medianen
Medelvärdet Geometriskt medelvärde Spridningsmått: Variationsvidd (range) Genomsnittlig avvikelse Varians och standardavvikelse

Medelvärde Populationens medelvärde: Urvalets medelvärde: 𝜇 𝑋 = 𝑋 𝑁
𝜇 𝑋 = 𝑋 𝑁 Urvalets medelvärde: 𝑋 = 𝑋 𝑛 𝜇: populationens medelvärde 𝑋 : urvalets medelvärde 𝑁: antal individer i populationen 𝑛: antal individer i urvalet X: de enskilda individernas värden på variabeln X : summationstecknet

Antag att vi gör ett urval av följande 4 individer: 22, 24, 26, 45
Exempel: En population om 14 individer har följande värden på variabeln ålder. Ålder: 19 20 22 23 24 26 28 38 42 45 53 Antag att vi gör ett urval av följande 4 individer: 22, 24, 26, 45

Median MEDIAN Det mittersta värdet om vi ordnar dem i storleksordning.
Ett urval av fem studenter har följande åldrar: 21, 25, 19, 20, 22 Vi ordnar dem i storleksordning: 19, 20, 21, 22, 25. medianen är 21. (det mittersta värdet) Fyra bagares kroppslängd är: 176, 173, 180, 175 Vi ordnar dem i storleksordning: 173, 175, 176, 180. Medianen är 175.5

Median Det mittersta värdet efter att vi ordnat observationerna i storleksordning Ålder: 19 20 22 23 24 26 28 38 42 45 53 Här har vi 14 observationer och därför ingen som är i mitten. Vi tar medelvärdet av de två mittersta. Median = 25

Typvärde (The mode). Det vanligaste värdet.
Ålder: 19 20 22 23 24 26 28 38 42 45 53 I vårt exempel finns tre typvärden; 19, 24 och 26.

Geometriskt medelvärde
Ålder: 19 20 22 23 24 26 28 38 42 45 53 Antag att vi gör ett urval av följande 4 individer: 22, 24, 26, 45

Vilket centralmått ska vi använda?
Medelvärde kräver intervall- eller kvotskala. Median kräver ordinal-, intervall- eller kvotskala. Vid nominalskala är typvärde enda möjligheten. -Typvärde kan vara bra om en viss datavärde är kraftig överrepresenterat, är de olika datavärdena mer jämn fördelade blir det ganska slumpmässigt. -Geometriskt medelvärde används för procentsatser.

Spridningsmått

I genomsnitt är spelarna i båda lagen lika långa.
Men ändå ser vi ju att hockeyspelarnas kroppslängd i de båda lagen skiljer sig åt, ett centralmått är inte tillräckligt för att beskriva kroppslängden på hockeyspelarna i de båda lagen, vi behöver också ett sätt att tala om hur kroppslängden varierar för spelarna i ett lag, vi behöver ett variationsmått.

Variationsvidd (Range)
Ålder: 19 20 22 23 24 26 28 38 42 45 53 Skillnaden mellan största och minsta värde. 53 – 19 = 34 Variationsvidden säger ingenting om fördelningen för övriga 12 deltagare.

Genomsnittlig avvikelse.
Genomsnittliga avvikelsen från medelvärdet. 𝑀𝐷= ǀ𝑋− 𝜇 𝑋 ǀ 𝑛 Ålder avvikelse från medelvärde Absolutvärdet av avvikelsen 19 = -10,21 10,21 -10.21 10.21 20 -9.21 9.21 22 -7.21 7.21 23 -6.21 6.21 24 -5.21 5.21 26 -3.21 3.21 28 -1.21 1.21 38 8.79 42 12.79 45 15.79 53 23.79 medel 0.00 8.49

avvikelse från medelvärde
𝜎 2 = 𝑋−𝜇 2 𝑁 Varians Genomsnittliga kvadrerade avvikelsen från medelvärdet. Ålder avvikelse från medelvärde 19 = -10,21 104,24 -10.21 20 -9.21 84,82 22 -7.21 51,98 23 -6.21 38,56 24 -5.21 27,14 26 -3.21 10,30 28 -1.21 1,46 38 8.79 77,26 42 12.79 163,58 45 15.79 249,32 53 23.79 565,96 medel 0.00 108,99 𝑋−𝜇 2

Standardavvikelse och varians i ett urval
Roten ur variansen 𝜎= 𝑋−𝜇 2 𝑁 = = 10.44 𝑀𝐷= ǀ𝑋− 𝜇 𝑋 ǀ 𝑛 =8.49 Standardavvikelse och varians i ett urval 𝑠= 𝑋− 𝑋 𝑛−1 𝑠 2 = 𝑋− 𝑋 𝑛−1

Avvikelse från medelvärde
𝑠 2 = 𝑋− 𝑋 𝑛−1 Varians i ett urval Formeln avviker något Vi gör ett urval av följande 4 värden: 22, 24, 26, 45 𝑋 = = 29.25 Ålder Avvikelse från medelvärde 𝑋− 𝑋 2 22 -7.25 24 -5.25 26 -3.25 45 15.75

Avvikelse från medelvärde
𝑠 2 = 𝑋− 𝑋 𝑛−1 Varians i ett urval Formeln avviker något Vi gör ett urval av följande 4 värden: 22, 24, 26, 45 𝑋 = = 29.25 Ålder Avvikelse från medelvärde 𝑋− 𝑋 2 22 -7.25 52.56 24 -5.25 27.56 26 -3.25 10.56 45 15.75 248.06 SUMMA = 𝑠 2 = 𝑋− 𝑋 𝑛−1 = =112.92 𝑠= 𝑋− 𝑋 𝑛−1 = =10.62

Varians i ett urval 𝑠 2 = 𝑋− 𝑋 2 𝑛−1
𝑠 2 = 𝑋− 𝑋 𝑛−1 Varians i ett urval Vi gör ett urval av följande 4 värden: 22, 24, 26, 45 𝑋 = = 29,25 Om man inte vill använda en tabell kan man skriva ut den som en formel: 𝑠 2 = 22−29, −29, −29, −29, −1 = 338,75 3 =112.92 𝑠= 𝑋− 𝑋 𝑛−1 = =10.62

Spridningsmåtten mäter avvikelsen från medelvärdet

EXAMPLE – Variance and Standard Deviation

The hourly wages for a sample of part-time employees at Home Depot are: $12, $20, $16, $18, and $19.
𝑋 = 85 5 =17 𝑠= 10 =3.16

Resultat 100 m män X X-μ 𝑥−𝜇 2 1 Yohan Blake JAM 9.92 -0.331 0.1096 2
𝑥−𝜇 2 1 Yohan Blake JAM 9.92 -0.331 0.1096 2 Walter Dix USA 10.08 -0.171 0.0292 3 Kim Collins SKN 10.09 -0.161 0.0259 4 Christophe Lemaître FRA 10.19 -0.061 0.0037 5 Daniel Bailey ANT 10.26 0.009 0.0001 6 Jimmy Vicaut 10.27 0.019 0.0004 7 Nesta Carter 10.95 0.699 0.4886 SUM 71.76 0.6675 𝜇= 𝑋 𝑁 = =10.251 𝜎= 𝑋−𝜇 2 𝑁 = = = 0.31

Resultat längdhopp damer
X X-μ 𝑥−𝜇 2 1 Brittney Reese USA 6.82 0.2791 0.0779 2 Olga Kucherenko RUS 6.77 0.2291 0.0525 3 Ineta Radevica LAT 6.76 0.2191 0.0480 4 Nastassia M-Ivanova BLR 6.74 0.1991 0.0396 5 Carolina Kluft SWE 6.56 0.0191 0.0004 6 Janay DeLoach 7 Darya Klishina 6.50 0.0017 8 Karin Mey Melis TUR 6.44 0.0102 9 Mayookha Johny IND 6.37 0.0292 10 Naide Gomes POR 6.26 0.0789 11 Maurren Maggi BRA 6.17 0.1376 SUM 71.95 0.4763 𝜇= 𝑋 𝑁 = =6.541 𝜎= 𝑋−𝜇 2 𝑁 = = = 0.21

Variationskoefficienten:
Standardavvikelsen dividerad med medelvärdet I 100 m för män var standardavvikelsen 0.31 sekunder. I längdhopp för damer var den 21 cm. Vilken gren var jämnast? Ett sätt att jämföra kan vara att dividera standardavvikelsen med medelvärdet. 𝜎 𝜇 = =0.030 𝜎 𝜇 = =0.032

Stambladsdiagram Exempel
Ingår inte i kursen

Fraktiler Vi har redan gått igenom en fraktil, medianen som delar materialet i två lika stora delar. På motsvarande sätt delar kvartilerna materialet i fyra delar, decilerna i 10 delar och percentilerna i hundra delar.

Percentilformeln 𝐿 𝑝 = 𝑛+1 𝑃 100 Kvartilformeln 𝐿 𝑞 = 𝑛+1 𝑄 4 Medianformeln 𝐿 𝑚 = 𝑛 Ett datamaterial har en median 3 kvartiler, 9 deciler och 99 percentiler. Medianen sammanfaller med andra kvartilen 5 decilen och 50’e percentilen

Kvartilerna i vårt exempel.
Tredje siffran i ordning eftersom löptalet börjar med en trea Age: Decimalerna från löptalet Differensen mellan tredje och fjärde siffran (22-20) 19 20 22 23 24 26 28 38 42 45 53 Kvartilformeln 𝐿 1 = 14+1 ∙ 1 4 =3,75 𝐿 2 = 14+1 ∙ 2 4 =7,5 𝐿 3 = 14+1 ∙ 3 4 =11,25

Median Det mittersta värdet efter att vi ordnat observationerna i storleksordning Ålder: 19 20 22 23 24 26 28 38 42 45 53 Här har vi 14 observationer och därför ingen som är i mitten. Vi tar medelvärdet av de två mittersta. Median = 25 Medianformeln 𝐿 𝑚 = 14+1 ∙ 1 2 =7,5

Lådagram - The box plot För att konstruera ett lådagram behöver vi kvartiler och extremvärden (outliers). Extremvärden är värden som är 1,5 kvartilavstånd mindre än den första kvartilen eller 1,5 kvartilavstånds större än den tredje kvartilen Kvartilavståndet är avståndet mellan första och tredje kvartilen.

Lådagram Första kvartilen: 21.5 Median: 25 Tredje kvartilen: 39 19 20
22 23 24 26 28 38 42 45 53 Kvartilavståndet är 17.5 Extremvärden är värden som är mindre än eller större än 65,25, det finns inga extremvärden i vårt exempel. 20 30 40 50 60

Ett exempel med extremvärden
Första kvartilen: 33.25 32 33 34 37 38 39 40 50 Kvartilformeln 𝐿 1 =13∙ 1 4 =3,25 𝐿 2 =13∙ 2 4 =6,5 𝐿 3 =13∙ 3 4 =9,75 Median: 37.5 Tredje kvartilen: 38.75 Kvartilavståndet är 5.5

Lådagram Första kvartilen: 33,25 Median: 37,5 Tredje kvartilen: 38,75
32 33 34 37 38 39 40 50 Kvartilavståndet är 5.5 Extremvärden är värden som är mindre än 25 eller större än 47, vi har ett extremvärde: 50. 30 35 40 45 50

Frekvenstabeller, kontinuerlig kvantitativ variabel
Vi vill beskriva åldersstrukturen hos medlemmarna i en idrottsklubb Ålder Antal medl, frekvens Andel medl, relativ frekvens 0 - 9 19 0,16 59 0,48 23 0,19 10 0,08 6 0,05 4 0,03 n = 121 1,00

Skewness - snedfördelning

The Relative Positions of the Mean, Median and the Mode

Tolkning av Pearsons ”measure of skewness:”
Om medelvärde och median är lika är fördelningen symmetrisk och ”the Pearsons measure of skewness” lika med noll. Om medelvärdet är större än medianen är fördelningen positivt skev och ”the Pearsons meassure of skewness” är positiv. Om medelvärdet är mindre än medianen är fördelningen negativt skev och ”the Pearsons meassure of skewness” är negativ. Skillnaden mellan medelvärde och median relateras till standardavvikelsen för att kunna jämföra fördelningar med olika standardavvikelser.

Att studera samband mellan variabler
Är läskdrickande en viktig orsak till övervikt? läskdrickande kroppsvikt Olle 1 60 Stina 1,8 65 Pelle 2 59 Nisse 2,3 61 Bo 2,8 70 Anna 3,2 Ritha 72 Sandra 3,4 Lisa 3,6 73 Kerstin 4 75 summa 27,3 670 medel 2,73 67 Vi väljer urval personer att studera, ber dem anteckna hur mycket läsk de dricker per vecka och väger dem. I tabellen till vänster har alla individer fått varsin rad. I första kolumnen antecknar vi hur mycket läsk de dricker per vecka. I andra kolumnen hur mycket de väger.

kroppsvikt Läsk per vecka

Korstabeller - Contingency Tables
En plot kräver att båda variablerna mäts åtminstone på intervallskala. Om vi vill studera samband mellan variabler mätta på nominal eller ordinalskala använder vi korstabell istället.

Antal elever Korstabeller Kön Textil-slöjd Trä-slöjd Totalt Flickor
Exempel Vi vill beskriva hur många elever som valt träslöjd respektive textilslöjd Antal elever Kön Textil-slöjd Trä-slöjd Totalt Flickor 40 . 35 . 75 . Pojkar 30 . 65 . 70 .

Korstabeller, relativa frekvenser
Exempel Vi vill beskriva hur många elever som valt träslöjd respektive textilslöjd Andel elever Kön Textil-slöjd Trä-slöjd Totalt Flickor 0,29 . 0,25 . 0,54 . Pojkar 0,21 . 0,46 . 0,50 . 1,00 .

Exempel Vi vill beskriva hur många elever som valt träslöjd respektive textilslöjd Andel elever Kön Textil-slöjd Trä-slöjd Totalt Flickor 0,53 . 0,47 . 1,00 . Pojkar 0,46 . 0,54 .

Exempel Vi vill beskriva hur många elever som valt träslöjd respektive textilslöjd Andel elever Kön Textil-slöjd Trä-slöjd Totalt Flickor 0,57 . 0,50 . Pojkar 0,43 . 1,00 .

Grupperade stapeldiagram kan användas för att illustrera datamaterial med fler än en kategorivariabel. Hur är könsfördelningen i trä respektive textilslöjden?

Grupperade stapeldiagram kan användas för att illustrera datamaterial med fler än en kategorivariabel. Hur väljer flickor respektive pojkar?

Index Index för en variabel
Ett tal som mäter den relativa förändringen av en variabel eller en sammanräkning av variabler från en period till en annan. Index för en variabel Vi beräknar indexet genom att dividera värdet varje år med värdet från basåret.

Index Number – Example 1 Enligt the Bureau of Labor Statistics var genomsnittslönen år 2000 $ År 2009 hade den ökat till $ Beräkna ett indextal för genomsnittslönen 2009 med 2000 som basår. Medellönen har ökat med 32,81% Men indexnumret säger oss inget om nivån på medellönen, vi tappar information när vi beräknar ett index

Beräkning av index över sysselsättningen i Sverige
antal sysselsatta Index 2005 100,0 2006 101,8 2007 104,3 2008 105,2 2009 102,8 2010 103,9 ∙100 ∙100 ∙100 Det år då indexet sätts till 100 kallas basår, i det här fallet 2005.

Att byta basår Basåret är det år som vi sätter indexet till 100 (Lite förvirrande i boken där man kan få intrycket att basåret är det år från vilket vi tar de konsumerade kvantiteterna.) Ibland kan man vilja byta basår för att underlätta jämförelser. ”Dividera alla indextal med indextalet för det år du vill ha som basår och multiplicera sedan med 100.” Index.xlsx

Indexnummer används oftast för att illustrera förändringar över tid men kan också användas för att jämföra olika saker eller platser. På nästa slide beräknas ett index som jämför antalet passagerare på olika flygplatser med antalet passagerare på George Bush Intercontinental Airport i Houston.

När vi beräknar ett index dividerar vi alla siffror med den siffra som vi jämför med.
92,3 40,1 =230,2 47,7 40,1 =119,0 Men indexnumret ger ingen information om antalet passagerare, bara en jämförelse mellan flygplatserna. Återigen en förlust av information.

Sammanräknade index Sammanräknade index används när man vill utrycka en mängd olika variabler med en siffra, exempelvis välfärdsindex där man räknar samman ekonomiska variabler med sociala variabler som läskunnighet och barnadödlighet. De vanligaste exemplen, åtminstone för ekonomer, är prisindex där vi räknar samman den genomsnittliga prisutvecklingen för ett stort antal varor eller tjänster.

Varför räkna om data till Index?
1 . Om vi är mer intresserade av den procentuella förändringen än av den absoluta nivån, eller vi kanske inte ens känner nivån. 2. Om vi vill utrycka förändringen av ett flertal variabler med en enda siffra. De vanligaste exemplen är prisindex där man väger samman prisförändringar på olika saker. Andra exempel är s.k. välfärdsindex, korruptionsindex etc.

Jordgubbar 20 kr per liter
Naturell yougurt 22 kr per liter Är yougurt dyrare än jordgubbar? Jordgubbar 40 kr per kg Naturell yougurt 22 kr per kg Är yougurt billigare än jordgubbar?

År 1 År 2 prisökning Jordgubbar Pris per liter 20 22 10% Pris per kg
40 44 Yougurt 33 50% Det är enklare att jämför prisförändringen på olika varor än att jämföra prisnivån.

Priset på mat Om jordgubbar har stigit med 10 % och yoghurt med 13.6 procent hur mycket har då priset på mat stigit? Vi måste då väga samman de olika priserna, man brukar använda konsumerad mängd som vikter, eftersom våra kostnader påverkas mest av priset på det som vi köper mycket av. Unweighted Indexes Simple Average of the Price Indexes Simple Aggregate Index Weighted Indexes Laspeyres Price Index Paasche Price Index

Laspeyre Prisindex Paasches Prisindex
𝐼 0,𝑡 𝐿 = 𝑝 𝑡 𝑞 𝑝 0 𝑞 0 ⋅100 𝐼 0,𝑡 𝑃 = 𝑝 𝑡 𝑞 𝑡 𝑝 0 𝑞 𝑡 ⋅100 Där: .p0 = Pris vid tidpunkt 0 .pt = Pris vid tidpunkt t .q0 = Kvantitet vid tidpunkt 0 .qt = Kvantitet vid tidpunkt t

År 1 År 2 prisökning Jordgubbar Pris per liter 20 22 10%
Antal sålda liter 50 000 60 000 Yougurt 33 50% 95 000 Laspeyres Paasche

År 1 År 2 prisökning Dator 10 Gb hårddisk 4 000 ? 20 Gb hårddisk 5 000
När varornas prestanda förändras över tiden är det svårt att mäta prisförändringar.

Kedjeindex Om det är lång tid mellan basåret och slutåret blir skillnaden stor mellan kvantiteterna och därmed mellan Paasche och Laspeyre Det är då bättre att beräkna prisförändringarna ett år i taget och multiplicera samman dessa.

Principen för kedjeindex
Antag att A och B är två variabler för vilka vi inte känner nivån men vet den årliga förändringen. Årlig förändring Index serier, basår:1 År A B 1 2% 1% 2 1.5% 0.5% 3 2.5% 4 3% -0.5% 5 6 År A B 1 100 2 101,5 100,5 3 4 5 6 100∙1,005

Antag att A och B är två variabler för vilka vi inte känner nivån men vet den årliga förändringen. Årlig förändring Index serier, basår:1 År A B 1 2% 1% 2 1.5% 0.5% 3 2.5% 4 3% -0.5% 5 6 År A B 1 100 2 101,5 100,5 3 104,0 4 5 6 100,5∙1,01

Antag att A och B är två variabler för vilka vi inte känner nivån men vet den årliga förändringen. Årlig förändring Index serier, basår:1 År A B 1 2% 1% 2 1.5% 0.5% 3 2.5% 4 3% -0.5% 5 6 År A B 1 100 2 101,5 100,5 3 104,0 4 107,2 101,0 5 109,3 102,0 6 110,4 103,5 107,2∙1,02 101,5∙0,995

Svenska konsumentprisindex
Ett långtidsindex beräknas för varje år baserat på kvantiteterna i hushållens konsumtion det året. KPI på årsbasis beräknas genom att sätta 100 för basåret. KPI nästa år fås genom att multiplicera 100 med det årets prisförändring (Långtidsindex). För följande år multipliceras årets långtidsindex med KPI året innan. Svenska KPI är alltså ett kedjeindex. Men långtidsindexet kan beräknas först i efterhand när vi vet hur årets konsumtion var fördelad på olika varugrupper.

Svenska konsumentprisindex
Ett korttidsindex beräknas för varje månad som avser prisförändring från årsskiftet. Detta baseras på föregående års kvantiteter, årets kvantiteter är ju inte kända än. KPI på månadsbasis beräknas genom att multiplicera aktuell månads korttidsindex med föregående års KPI.

BNP deflatorn BNP deflatorn mäter prisutvecklingen på det som svenska företag producerat. Det avviker från KPI av två skäl. För beskattade varor kommer konsumentpriset att stiga när skatten höjs men producentpriset sjunker. -De beräknas inte på samma varor, exporterade varor och varor som säljs till andra företag eller offentlig sektor ingår i BNP deflatorn men inte i KPI. En stor del av varorna som ingår i KPI är importerade och ingår inte i BNP deflatorn. När vi beräknar den ekonomiska tillväxten deflateras Nominell BNP med BNP deflatorn. När vi beräknar nationalinkomsten deflateras istället med KPI. Nationalinkomsten ger därför ett bättre mått på hur svenskarnas välstånd utvecklas än vad BNP ger.

Användning av prisindex
𝑅𝑒𝑎𝑙 𝑙ö𝑛= 𝑛𝑜𝑚𝑖𝑛𝑒𝑙𝑙 𝑙ö𝑛 𝐾𝑃𝐼 𝐷𝑒𝑓𝑙𝑎𝑡𝑒𝑟𝑎𝑡 𝑣ä𝑟𝑑𝑒 = 𝑛𝑜𝑚𝑖𝑛𝑒𝑙𝑙𝑡 𝑣ä𝑟𝑑𝑒 𝑙ä𝑚𝑝𝑙𝑖𝑔𝑡 𝑖𝑛𝑑𝑒𝑥

Deflatering 𝐷𝑒𝑓𝑙𝑎𝑡𝑒𝑟𝑎𝑡 𝑣ä𝑟𝑑𝑒 = 𝑛𝑜𝑚𝑖𝑛𝑒𝑙𝑙𝑡 𝑣ä𝑟𝑑𝑒 𝑙ä𝑚𝑝𝑙𝑖𝑔𝑡 𝑖𝑛𝑑𝑒𝑥
𝐷𝑒𝑓𝑙𝑎𝑡𝑒𝑟𝑎𝑡 𝑣ä𝑟𝑑𝑒 = 𝑛𝑜𝑚𝑖𝑛𝑒𝑙𝑙𝑡 𝑣ä𝑟𝑑𝑒 𝑙ä𝑚𝑝𝑙𝑖𝑔𝑡 𝑖𝑛𝑑𝑒𝑥 Val av lämpligt index beror av syfte. Anta att vi vill deflatera svensk export av pappersmassa. Om vi använder KPI får vi ett mått på hur mycket varor vi kunde köpa för de pengar vi sålde pappersmassa för. Om vi deflaterar med priset på pappersmassa får vi ett mått på hur mycket pappersmassa vi har exporterat.

Reallön indexserie 145,9 114,9 ∙100 299,0 255,5 ∙100 löneindex KPI
1996 114,9 255,5 100,0 1997 119,7 259,7 104,2 101,6 1998 122,8 256,6 106,9 100,4 1999 125,8 259,9 109,5 101,7 2000 129,4 262,5 112,6 102,7 2001 135,2 269,5 117,7 105,5 2002 139,7 275,1 121,6 107,7 2003 143,3 278,6 124,7 109,0 2004 145,9 279,4 127,0 109,3 2005 150,7 281,8 131,2 110,3 2006 155,4 286,4 112,1 2007 162,4 296,3 141,3 116,0 2008 167,5 299,0 145,8 117,0 145,9 114,9 ∙100 299,0 255,5 ∙100

Reallön indexserie 𝑅𝑒𝑎𝑙 𝑙ö𝑛= 𝑛𝑜𝑚𝑖𝑛𝑒𝑙𝑙 𝑙ö𝑛 𝐾𝑃𝐼 141,3 116,0 ∙100
𝑅𝑒𝑎𝑙 𝑙ö𝑛= 𝑛𝑜𝑚𝑖𝑛𝑒𝑙𝑙 𝑙ö𝑛 𝐾𝑃𝐼 Reallön indexserie löneindex KPI real lön 1996 114,9 255,5 100,0 1997 119,7 259,7 104,2 101,6 102,5 1998 122,8 256,6 106,9 100,4 106,4 1999 125,8 259,9 109,5 101,7 107,6 2000 129,4 262,5 112,6 102,7 109,6 2001 135,2 269,5 117,7 105,5 111,6 2002 139,7 275,1 121,6 107,7 112,9 2003 143,3 278,6 124,7 109,0 114,4 2004 145,9 279,4 127,0 109,3 116,1 2005 150,7 281,8 131,2 110,3 118,9 2006 155,4 286,4 112,1 120,6 2007 162,4 296,3 141,3 116,0 121,9 2008 167,5 299,0 145,8 117,0 124,6 141,3 116,0 ∙100

Reallön årlig procentuell förändring
löneindex KPI real lön löneökning inflation real löneökning 1996 100,0 1997 104,2 101,6 102,5 4,2 1,6 2,5 1998 106,9 100,4 106,4 2,6 -1,2 3,8 1999 109,5 101,7 107,6 2,4 1,3 1,1 2000 112,6 102,7 109,6 2,9 1,0 1,9 2001 117,7 105,5 111,6 4,5 2,7 1,8 2002 121,6 107,7 112,9 3,3 2,1 1,2 2003 124,7 109,0 114,4 2004 127,0 109,3 116,1 0,3 1,5 2005 131,2 110,3 118,9 0,9 2006 135,2 112,1 120,6 3,1 2007 141,3 116,0 121,9 3,5 2008 145,8 117,0 124,6 2,2 109,6 107,6 −1 ∙100

Du är en fondförvaltare och röda kurvan nedan visar hur din fond utvecklats medan den blå streckade linjen visar konkurrentens fond.

Kanske du borde byta basår i figuren?

Kanske borde du bara rita en graf över senare delen av perioden?
Som vi ser kan intrycket man får av en indexserie påverkas ganska mycket av hur man väljer att framställa den.

Föreläsningsanteckningar till:

Liknande presentationer

En presentation över ämnet: "Föreläsningsanteckningar till:"— Presentationens avskrift:

Liknande presentationer

Om projektet

Kontakta oss

Logga in

Logga in via sociala nätverk:

Föreläsningsanteckningar till:

Liknande presentationer

En presentation över ämnet: "Föreläsningsanteckningar till:"— Presentationens avskrift:

Liknande presentationer

Om projektet

Kontakta oss