Föreläsningsanteckningar till:

Föreläsningsanteckningar till:
F7 undersökningsdesign F8 konfidensintervall F9 hypotesprövning

Reliabilitet och validitet
Reliabilitet: Noggrannheten i mätningen. Validitet: Mäter vi det som vi avser att mäta? Exempel: Antag att vi vill veta hälsotillståndet vid födseln hos barnen som förlösts vid ett speciellt BB. Ett alternativ kan vara att mäta hur mycket de väger eftersom extremt låg födelsevikt kan vara ett tecken på dåligt hälsotillstånd. Om vågen är exakt kommer vår undersökning att ha en hög reliabilitet, om vågen är dålig är reliabiliteten dålig. Men validiteten är förmodligen ganska dålig oavsett eftersom även barn med normal födelsevikt kan ha dåligt hälsotillstånd.

De olika stegen i en kvantitativ undersökning.
Bryman och Bell anger ett antal olika steg när man ska göra en kvantitativ undersökning. Låt oss illustrera de olika stegen i en kvantitativ undersökning utifrån C-uppsatsen: Lojalitet - Myt eller verklighet? En kvantitativ studie om lojalitet på apoteksmarknaden

Teori Det första steget handlar om att läsa in sig på den teori som finns på området. Vilka begrepp används, vilka teorier finns om olika orsakssamband. Vilka modeller har utvecklats. I vårt exempel används i första hand en modell av Dick och Basus. Men i detta steg har författarna förmodligen läst in sig på en mängd olika modeller för att kunna välja vilken de vill använda.

Dick och Basus modell för kundlojalitet

2. Syfte – hypotes Utifrån syftet kan man formulera hypoteser baserade på teorin, som man sedan försöker falsifiera. Om vi lyckas falsifiera en hypotes kan vi dra slutsatsen att vår teori var felaktig. Om inte lyckas falsifiera en hypotes kan vi inte dra några slutsatser. I vårt exempel: Syfte: Syftet är att undersöka om konsumenterna på apoteksmarknaden är lojala samt att beskriva vilken typ av lojalitet som är vanligast. Dessutom är målet att ta reda på om någon av faktorerna kön eller ålder påverkar lojaliteten. Nollhypotes: Det finns inget samband mellan kön och lojalitetstyp. Mothypotes: Det finns ett samband mellan kön och lojalitetstyp Det finns inget samband mellan ålder och lojalitetstyp. Det finns ett samband mellan ålder och lojalitetstyp. Om vi lyckas falsifiera en nollhypotes har vi bevisat mothypotesen.

3. Undersökningsdesign. Egen datainsamling eller använda sekundärdata? Fallstudie eller urvalsundersökning: Vill vi kunna uttala oss om hela populationen eller bara om de objekt vi studerar. Vilken metod ska vi använda? Tvärsnitt eller tidserie (longitudinell design)? I vårt exempel: Enkäter används för att samla in data, dvs egen datainsamling. Urvalsundersökning används för att kunna uttala sig generellt om apotekskunder. Den viktigaste metoden är Chi Square analys av korstabeller. Det är en tvärsnittsstudie eftersom alla respondenter tillfrågas vid samma tidpunkt.

4. Utformning av mått på begreppen - operationalisering Teorier utformas kring olika begrepp. Om vi ska göra en kvantitativ undersökning måste dessa begrepp göras mätbara, de måste operationaliseras. I vårt exempel: Vid enkätundersökningar består operationaliseringen av utformning av enkätfrågor och beslutsregel när de analyseras. Kön och ålder är redan mätbara:

4. Utformning av mått på begreppen - operationalisering I vårt exempel: Vid enkätundersökningar består operationaliseringen av utformning av enkätfrågor och beslutsregel när de analyseras. Beteendemässig lojalitet: 4 eller 5 besök = stark beteendemässig lojalitet 1,2 eller 3 besök = svag beteendemässig lojalitet

4. Utformning av mått på begreppen - operationalisering I vårt exempel: Relativ attityd konstrueras från attitydstyrka och differentieringsgrad. Attitydstyrka mäts i uppsatsen med hjälp 3 frågor och differentieringsgrad med 3 andra frågor.

4. Utformning av mått på begreppen - operationalisering I vårt exempel: Relativ attityd konstrueras från attitydstyrka och differentieringsgrad. Men vi behöver också en besluttsregel för att tolka svaren. Författarna använder ett poängsystem.

1 2 3 4 5 1 2 3 4 5 5 4 3 2 1 1 2 3 4 5 1 2 3 4 5 5 4 3 2 1

4. Utformning av mått på begreppen - operationalisering I vårt exempel: Relativ attityd konstrueras från attitydstyrka och differentieringsgrad. Men vi behöver också en regel för att tolka svaren. Författarna använder ett poängsystem. Minst 11 poäng på de tre första frågorna ger stark attitydstyrka. Minst 11 poäng på de nästkommande tre frågorna ger stark differentieringsgrad.

5. Val av plats(er) där forskningen ska göras I vårt exempel Katrineholm 6. Val av respondenter I vårt fall görs detta genom att dela ut enkäter på olika apotek i Katrineholm 7. Tillämpning av undersökningsinstrument för datainsamling. I vårt fall utdelning av enkäter och kodning av svaren i Excel eller SPSS.

8. Bearbetning av data I vårt exempel konstruktion av lojalitetstyper 9. Analys av data I vårt fall statistiska beräkningar och konstruktion av diagram. 10. Resultat slutsatser. Vilka slutsatser kan vi dra från beräkningarna och diagrammen vi gjort? I vårt fall: Det finns ett samband mellan ålder och lojalitetstyp Angående kön kan inga slutsatser dras eftersom nollhypotesen inte kunde falsifieras 11. Formulering av resultat och slutsatser Att skriva uppsatsen.

Population versus Urval
Populationen är alla objekt eller individer som vi är intresserade av. Urvalet är några som vi väljer ut för att studera

Inferens Vad kan vi säga om populationen baserat på vårt urval?
Ett företag som tillverkar byxor gör ett experiment för att kontrollera kvalitén. Man väljer slumpmässigt ut 100 par som man utsätter för hård nötning och mäter den tid det tar innan byxorna går sönder. Populationen är alla byxor som företaget tillverkar Urvalet är de 100 par man väljer att testa Baserat på egenskaper hos de 100 byxor vi testar drar vi slutsatser om alla byxor företaget tillverkar och kommer att tillverka.

Obundet slumpmässigt urval.
Alla individer i populationen ska ha samma sannolikhet att komma med i urvalet. Fördelar: Om det inte finns någon systematisk avvikelse mellan de vi valt ut för att studera och hela populationen kommer avvikelser mellan urvalet och populationen enbart att vara slumpmässiga. Då kan vi från vår urvalsundersökning dra slutsatser om hela populationen och beräkna hur stor felmarginalen är för våra slutsatser. Ju större urval vi gör desto säkra slutsatser kan vi dra men undersökningen blir dyrare och det kan ta längre tid innan vi får fram resultatet.

Stratifierat slumpmässigt urval.
Vi drar slumpmässigt ett visst antal från olika delpopulationer. Exempelvis kan man dela in personerna i åldersgrupper och sedan dra exempelvis 20 procent av deltagarna i varje åldersgrupp. Fördelar: Om det för varje strata inte finns någon systematisk avvikelse mellan de vi valt ut för att studera och hela stratat kan vi dra slutsatser om hela stratat och beräkna hur stor felmarginalen är för våra slutsatser. Vi kan jämföra resultaten mellan våra olika strata och se om de skiljer sig åt. Vi kan få en bättre skattning av hela populationen eftersom vi inte riskerar att slumpmässigt förlora individer med viktiga egenskaper. (Vid ett vanligt slumpmässigt urval kan det bli så att vi inte får med några äldre i vårt urval.)

Bekvämlighetsurval. Vi använder de objekt som råkar finns till hands
Fördelar: Enkelt och billigt Om vi kan argumentera för att det inte finns några systematiska avvikelser mellan de objekt vi studerar och hela populationen kan vi behandla bekvämlighetsurvalet som ett obundet slumpmässigt urval.

Vilken typ av urval användes i: Lojalitet - Myt eller verklighet?
En kvantitativ studie om lojalitet på apoteksmarknaden. De delade ut enkäter vid olika apotek i Katrineholm. Västeråsare har lägre sannolikhet att hamna i urvalet än personer boende i Katrineholm. Detta är ett bekvämlighetsurval.

Om de delar ut enkäter till alla personer som kommer in på apoteket under en viss tidsperiod kan det möjligen betraktas som ett slumpmässigt urval av Katrineholmsbor. (Men det kanske finns systematiska avvikelser mellan de som besöker apoteket på förmiddan och de som kommer på kvällen) Om populationen är Katrineholmsbor kanske antagandet om slumpmässigt urval fungerar ganska bra. Om populationen är svenska folket eller hela jordens befolkning kan det nog inte betraktas som ett slumpmässigt urval. Om man delar ut enkäter där många människor passerar och enbart ett fåtal tar emot enkäten finns kanske en systematisk avvikelse mellan de som har en benägenhet att ta emot papper som delas ut och de som inte har det.

Strukturerade intervjuer kontra enkätundersökning.
Billigare Mindre tidskrävande Ingen intervjuareffekt Strukturerad intervju Mindre bortfall Man vet säker vem som besvarar frågorna Intervjuaren kan förtydliga frågorna, därmed kan man ställa mer komplicerade frågor

Exempel på enkätundersökning från Bryman och Bell.
I Bryman och Bell finns ett exempel på en enkätundersökning riktad till ett urval gymbesökare.

Ett utdrag ur den enkätundersökning vi ska analysera i Lab 3

Öppna och slutna frågor.
Exempel på en öppen fråga: Människor vill ha ut olika saker av ett arbete. Vad vill du helst ha ut av ditt arbete? ……………………………………………………………………………………………………………………………………………………………………………………………………………………………………………… Exempel på en sluten fråga: Människor vill ha ut olika saker av ett arbete. Vilken av de fem följande faktorerna passar bäst in på vad du vill ha ut av ditt arbete? En bra lön Att känna att man presterar något positivt Inte för mycket kontroll; att kunna fatta egna beslut Roliga arbetsuppgifter och trevliga medarbetare. Tryggt arbete utan risk för uppsägning Övrigt

I en öppen fråga får respondenten själv formulera sitt svar, i en sluten fråga får man välja mellan ett antal färdigformulerade svarsalternativ. Öppna frågor ger större möjlighet för respondenten att helt få fram sina åsikter, och kan ge tankar som forskaren själv inte tänkt på, men kan inte analyseras med kvantitativa metoder. Man kan också använda en kombination. Först en sluten fråga och därefter en rad där respondenten kan motivera sitt svar. Den slutna fråga kan vi analysera med kvantitativa metoder, den öppna frågan kan ge tips om hur vi ska tolka vår analys. Öppna frågor kan användas i en liten pilotstudie för att generera svarsalternativ till slutna frågor i den faktiska studien.

Scanna frågan på sid 266

En sluten fråga kan kompletteras med en möjlighet att specificera ett eget alternativ.
Människor vill ha ut olika saker av ett arbete. Vilken av de fem följande faktorerna passar bäst in på vad du vill ha ut av ditt arbete? En bra lön Att känna att man presterar något positivt Inte för mycket kontroll; att kunna fatta egna beslut Roliga arbetsuppgifter och trevliga medarbetare. Tryggt arbete utan risk för uppsägning Övrigt Om du valt övrigt specificera gärna vad: …………………………………………………………………………………..….

Vertikala eller horisontella svarsalternativ.

Ett utdrag ur den enkätundersökning vi ska analysera i Lab 3

Utformning av olika format för skalor Binärt responsformat:
Kurslitteraturen var lämplig för att uppnå kursens syfte: Håller med Håller inte alls med Verbalt responsformat: Håller helt med Håller delvis med Vet inte har ingen åsikt Håller inte med Numeriskt responsformat: 5 står för håller helt med och 1 för håller inte alls med.

Utformning av olika format för skalor
Bipolärt numeriskt responsformat: Kurslitteraturen var lämplig Kurslitteraturen var olämplig för att uppnå kursens syfte: för att uppnå kursens syfte Frekvensformat: Föreläsningarna brukar vara relevanta för att uppnå kursens syfte. Alltid Ofta Ganska ofta Ibland Aldrig Även om vi inte använder ett numeriskt svarsformat ska vi alltid koda om svaren till siffror för att kunna analysera i datorer.

Kvotskala eller ordinalskala?
I det verbala responsformatet är det uppenbart att vi har ordinalskala, man kan inte jämföra avståndet mellan de olika svarsalternativen. Men även det numeriska formatet av en skala som ”betygsätter” någonting brukar betraktas som ordinalskala. Förmodligen kan inte respondenterna på ett entydigt sätt mäta avståndet mellan en 3’a och en 4’a och jämföra det med avståndet mellan en 1’a och en 2’a. Följande fråga är däremot kvotskala: Hur många barn har du? Här kan alla enas om att 3 barn är ett barn mer än 2 barn. 0 betyder att man inte har några barn alls.

Nominalskala Nominalskala Kvotskala Nominalskala Nominalskala Nominalskala Kvotskala Ordinalskala Kvotskala Ordinalskala Kvotskala Ordinalskala

Öppna eller slutna numeriska frågor.
Ett alternativ hade varit att fråga: ………………………………… Vet ej  Första alternativet ger ordinalskala, medan andra alternativet ger kvotskala. Fördelen med andra alternativet är därför att vi kan använda fler olika statistiska metoder. Andra alternativet kan ge fler vet ej svar om man inte vet sin exakta förbrukning. Fördelen med första alternativet är därför att vi troligen får ett mindre bortfall.

Svarsalternativen bör vara balanserade:
Verbalt responsformat: Kurslitteraturen var lämplig för att uppnå kursens syfte: Håller helt med Håller delvis med Vet inte har ingen åsikt Håller inte med Här finns det en övervikt av positiva svar vilken kan styra respondenten

Undvik mångtydiga frågor
Hur många gånger brukar du gå på bio Ofta Ganska ofta Sällan Aldrig Hur många gånger gick du på bio förra månaden 1 2 3 4 5 Fler än 5

Undvik mångtydiga frågor
Har du bil? Ja Nej Har du tillgång till bil? Ja jag äger en egen bil Ja jag kan enkelt låna bil av familjemedlem Nej men jag kan enkelt låna bil av någon vän Nej men jag kan enkelt hyra bil Nej jag har inte tillgång till bil Det kan ofta vara svårt att själv avgöra om frågorna är entydiga, därför bör man alltid prova dem på några olika personer, be dem fylla i enkäten och sedan motivera vad de menade med svaren och om de ansåg att alternativen var otydliga.

Undvik att fråga om mer än en sak i samma fråga
Hur nöjd är du med lönen och anställningsvillkoren på ditt jobb? Eller att ha med två olika saker i samma svarsalternativ ”Roliga arbetsuppgifter och trevliga medarbetare”.

Att använda flera frågor för att ta fram ett begrepp / en variabel
Att använda flera frågor för att ta fram ett begrepp / en variabel. En s.k. likertskala Exempelvis i ”Lojalitet - Myt eller verklighet?” mättes attitydstyrka med tre frågor:

De olika frågorna kan fånga delvis olika aspekter av begreppet.
Fördelar: De olika frågorna kan fånga delvis olika aspekter av begreppet. Man kan kontrollera om svaren är konsistenta. De som instämde i de två första frågorna bör ej instämma i den tredje. Mäta intern validitet med Cronbach alpha. Nackdelar: Det blir många frågor för respondenterna att besvara vilket kan öka bortfallet.

Övrigt att tänka på vid utformning av enkäter.
Inte för många frågor, det kan verka avskräckande och ge ett högt bortfall. Fråga om allt som krävs för att uppfylla studiens syfte men inga onödiga frågor. Tydliga instruktioner om hur frågorna ska besvaras. exempelvis om man ska fylla i ett eller flera svarsalternativ. Exemplifiera med Sofias och Matildas tydliga instruktioner.

Övrigt att tänka på vid utformning av enkäter.
Inte för många frågor, det kan verka avskräckande och ge ett högt bortfall. Fråga om allt som krävs för att uppfylla studiens syfte men inga onödiga frågor. Tydliga instruktioner om hur frågorna ska besvaras. exempelvis om man ska fylla i ett eller flera svarsalternativ. Har respondenterna den kunskap som krävs för att besvara frågan? Ska ni ha med bakgrundsinformation om studiens syfte och fakta kring ämnet? Undvik ledande frågor.

Urvalsundersökning – Inferens
Inferens – teorin om hur man från ett urval kan dra slutsatser om hela populationen. Urvalets medelvärde används som estimator för populationens medelvärde. Urvalets standardavvikelse används som estimator för populationens standardavvikelse. Urvalets medelvärde är antagligen inte lika med populationens medelvärde, vi har ett urvalsfel. Standardavvikelsen säger oss något om hur stort urvalsfelet bör vara. Vi kan beräkna ett konfidensintervall inom vilket populationens medelvärde har en viss sannolikhet att ligga.

Exempel på urvalsundersökning:
SCBs undersökning av partisympatier.

Urvalsmedelvärden Om vi beräknar medelvärdet på alla möjliga urval ur en population kommer dessa att vara approximativt normalfördelade och ha en mindre spridning än vad populationen har. Exempel populationen är 4 bröder i åldrarna 3,5,7 och 9 år, röd kolumn. Vi drar 6 olika urval vilka redovisas i de gula kolumnerna. Medel-värdena för population och urval visas på den gröna raden. 3 5 7 9 6 4 8

Individernas värden i populationen Urvalens medelvärden 3 4 5 7 6 9 8 medel Standard-avvikelse 2,236 1,414

population Urvals-medelvärden urvalsfel 3 4 -2 5 -1 7 6 9 1 8 2 medel Standard-avvikelse 2,236 1,414

Urvalsmedelvärden Om vi beräknar medelvärdet på alla möjliga urval ur en population kommer dessa att vara approximativt normalfördelade och ha en mindre spridning än vad populationen har. Om populationen är normalfördelad kommer urvalsmedelvärdena alltid att vara normalfördelade. Om populationen inte är normalfördelad kommer urvalsmedelvärdena vara normalfördelade om vi gör stora urval. Ju större urval desto mindre spridning

Centrala gränsvärdessatsen – central limit theorem
Centrala gränsvärdessatsen ger oss ett samband mellan urvalsmedelvärdenas standardavvikelse och ursprungspopulationsens standardavvikelse. (Gäller när populationen är oändligt stor eller åtminstone betydligt större än vårt urval)

Att beräkna ett konfidensintervall (i stora populationer)
Vi vill beräkna ett konfidensintervall för populationsmedelvärdet där det sanna medelvärdet med 95 % sannolikhet finns inom intervallet. Vi vet att populationens standardavvikelse är σ (oftast vet man inte populationens standardavvikelse men lås oss anta att vi gör det) Urvalets medelvärde är normalfördelat med standardavvikelsen: I en normalfördelning ligger 95 % av utfallen mellan minus 1,96 och plus 1,96 standardavvikelser.

The empirical rule 68,3% 95,4% 99,7% 95 % 99 %

Eller så hämtar vi z från sista raden i tabellen för t fördelningen.
Om vi tar ett konfidensintervall runt vårt punktestimat som är 1.96 standardavvikelser åt båda hållen är sannolikheten 95 procent att populationens medelvärde finns inom intervallet. (Eller egentligen: Sannolikheten att få ett urval med medelvärdet 𝑥 är mindre än 5 % om medelvärdet i populationen ligger utanför konfidensintervallet.) Men vi kan välja att göra konfidensintervall med större eller mindre konfidensgrad. Där z erhålls ur normalfördelningstabellen genom att leta upp konfidensgraden dividerat med 2. Eller så hämtar vi z från sista raden i tabellen för t fördelningen.

Konfidens intervall för medelvärden när vi vet populationens standardavvikelse
𝑥 - Urvalets medelvärde 𝑧 - Ett värde ur z fördelningen för en specifik konfidensgrad 𝜎 - Populationens standardavvikelse 𝑛 - Urvalstorleken Intervallets bredd beror av konfidensgrad och urvalsmedelvärdenas standardavvikelse. Urvalsmedelvärdenas standardavvikelse beror av två saker: Standardavvikelsen hos observationerna i populationen Urvalsstorleken .

Tolkning av konfidensintervall
Vid konfidensgraden 95 % kommer 95 % av intervallen att innehålla det sanna värdet. 95% av urvalsmedelvärdena kommer att ligga mellan 1.96 standardavvikelser från den sanna medelvärdet.

Att beräkna ett konfidensintervall när σ är okänd
Oftast vet vi inte standardavvikelsen i hela populationen, vi kan då använda urvalets standardavvikelse s som estimator för σ Men om vi använder s istället för σ blir fördelningen inte normalfördelad utan 𝑡-fördelad. Även 𝑡-fördelningen är kontinuerlig och klockformad. Det finns en 𝑡-fördelning för varje urvalsstorlek. Ju större urvalsstorlek desto mindre skillnad mellan 𝑡-fördelningen och normalfördelningen. 𝑡-fördelningen har större spridning än normalfördelningen vilket innebär att 𝑡-värdet för en given konfidensgrad är större än 𝑧 värdet.

En jämförelse av z och t fördelning vid små urval.

Konfidensintervall när populationens standardavvikelse är okänd.
Där 𝑡 erhålls ur students t-tabellen. 𝑡-värdet beror av konfidensgrad och antalet frihetsgrader. Frihetsgraderna är lika med urvalsstorleken minus 1.

Konstruera 99 % konfidensintervall för den tid som gymbesökare i hela populationen ägnar åt viktmaskiner och hantlar.

Konstruera 99 % konfidensintervall för den tid som gymbesökare i hela populationen ägnar åt viktmaskiner och hantlar. Populationsstorlek? Urvalstorlek: 𝑛=90 Frihetsgrader: 89 Konfidensgrad: 99% 𝑥 =14,92 𝑠=7,95

Konstruera 99 % konfidensintervall för den tid som gymbesökare i hela populationen ägnar åt viktmaskiner och hantlar. Populationsstorlek? Urvalstorlek: 𝑛=90 Frihetsgrader: 89 Konfidensgrad: 99% 𝑥 =14,92 𝑠=7,95 𝑡=2,632 Konfidensintervallet är mellan 11,45 och 18,39

Konfidensintervall för medelvärden
Använd Z-fördelningen Om vi vet populationens standardavvikelse Använd t-fördelningen Om populationens standardavvikelse är okänd .

Connect 31, page 323 Population: alla arbetsledare och instruktörer på general motors Urvalsstorlek = 85 Frihetsgrader = 84 Konfidensgrad = 95%

Connect 31, page 323 Urvalsstorlek = 85 Frihetsgrader = 84 Konfidensgrad = 95% Konfidensintervallet är mellan 6,13 och 6,87

Korrektionsfaktor för ändliga populationer.
Ändliga och oändliga populationer. En ändlig population har en begränsad storlek. Den här statistikklassen är en ändlig population som består av er som blivit antagna. Jordens befolkning är också en ändlig population om än mycket större. De byxor som vårt företag kommer att tillverka i framtiden är nog närmast oändlig, åtminstone vet vi inte hur många byxor de kommer att tillverka. Egentligen är general motors anställda en ändlig population men om den var betydligt större än vårt urval kan vi räkna som om den vore oändlig.

Antag att general motors bara har 85 anställda arbetsledare och instruktörer. Då skulle vår undersökning vara en totalundersökning och urvalsmedelvärdet skulle vara lika med populations medelvärde. Ju mindre populationen är i förhållande till urvalet desto mindre blir vårt urvalsfel. Om n = N

Om n = 100, N = 1000 Om n = 500, N = 1000

Connect 27, page 322 Populationsstorlek = 300 Urvalsstorlek = 36 Frihetsgrader = 35 Konfidensgrad = 95%

Connect 27, page 322 Populationsstorlek = 300 Urvalsstorlek = 36 Frihetsgrader = 35 Konfidensgrad = 95% Konfidensintervallet är mellan 33,41 och 36,59

Inferens på kvalitativa variabler
Kvalitativa variabler mäter vi i form av andelar (relativa frekvenser) för ett visst utfall. Vi kan dra ett urval av Sveriges bilägare och fråga vilket bilmärke de äger. Utifrån andelen Volvoägare i det urvalet kan vi estimera ett konfidensintervall för andelen Volvoägare av alla Sveriges bilägare. Eller vi kan se vår skola tidigare som ett urval av alla svenska skolelever och skatta ett konfidensintervall för andelen elever som valt träslöjd baserat på andelen som valt träslöjd i vårt urval.

Konfidensintervall på andelar:
SCBs undersökning av partisympatier.

Konfidensintervall för andelar
Konfidensintervall på andelar görs på liknande sätt men med en egen formel:

Beräkna ett konfidensintervall för den andel i populationen gymbesökare som har bantning som huvudskäl för sin träning. Konfidensgrad 95 %

Connect 15 page 216 Konfidensgrad 95 %

Inferens på andelar när binomialvillkoren är uppfyllda:
Två möjliga utfall i varje försök. Värdet på variabeln är antalet försök med utfallet ja. Sannolikheten för ja är samma i varje försök Försöken är oberoende Dessutom måste: och

Inferens på andelar när urvalet dras ur en ändlig population.
Om populationen är ändlig måste vi använda korrektionsfaktorn för ändliga populationer.

Connect 30 page 322 Konfidensgrad 95 %

Hur stort urval bör jag göra?

Men problemet är att för att bestämma stickprovstorleken måste vi känna standardavvikelsen respektive andelen. Pilotstudie Jämföra med tidigare studier på andra populationer Om ingen information om andelen är tillgänglig använd 0.5 eftersom det maximerar urvalsstorleken.

Icke-stickprovsfel Hittills har vi beräknat det statistiska urvalsfelet eller stickprovsfelet. Storleken på detta kan vi beräkna. Icke urvallsfel är betydligt mer problematiska för de kan vi inte beräkna på samma sätt. Täckningsfel Övertäckning Undertäckning Mätfel Bearbetningsfel Bortfall

Bortfall Vi lyckas undvika överteckning och undertäckning när vi skapar vår urvalsram, dvs denna är lika med hela populationen. Vi gör ett slumpmässigt urval och skickar ut enkäter till dessa. Men enbart hälften av dem som får en enkät besvarar den. Nu har vi inte längre ett slumpmässigt urval eftersom de som väljer att inte svara förmodligen avviker i något avseende från dem som svarar. (De som svarar är förmodligen mer engagerade i frågan, har nog en annan inställning till undersökningar etc.) Vi kan inte lita på vårt konfidensintervall

Bortfallsundersökning – Slumpmässigt urval ur bortfallet
Vi drar ett slumpmässigt urval ur bortfallet. Vi gör allt vi kan för att få in deras svar. Exempelvis ringer upp och gör intervju per telefon. Vi behandlar vårt urval som ett stratifierat urval, där våra strata blir de som tenderar att svara på enkäter respektive de som tenderar att inte svara på enkäter.

Beräkning av punkestimat vid bortfallsanalys.
𝑛=100 Antal svar: 60 Ja: 45 Nej: 15 𝑝 𝑠𝑣 = =0,75 Men eftersom vi har bortfall kan vi inte lita på detta punktestimat. Vi gör ett slumpmässigt urval på 10 personer av de 40 som inte besvarade enkäten och intervjuar dem per telefon. Av dessa svara 5 stycken ja och 5 stycken nej. 𝑝 𝑏 = 5 10 =0,5 Punktestimat för antalet ja i hela urvalet: 45+0,5∙40=65 𝑝= =0,65 Antalet som ej svarade, bortfallet Antalet ja i brevenkäterna Andelen ja i bortfallet

Åtgärder för att minska bortfallet vid enkätstudier:
Introduktionsbrev som förklarar syftet och skapar motivation att delta. Frankerat svarskuvert vid postenkäter Se till att veta vilka som besvarat för att kunna skicka påminnelser. Inte för många frågor Snygg och tydlig layout Öppna / slutna frågor Morot, kanske en lott till alla som svarar

Inferens - hypotesprövning
En hypotes är ett uttalande om en egenskap hos en population, exempelvis medelvärdet för en av variablerna. Vi använder sedan data för att se om vi kan motbevisa hypotesen. Nollhypotes - Den hypotes vi försöker motbevisa Mothypotes – komplementhändelsen till nollhypotesen. De båda hypoteserna ska vara ömsesidigt uteslutande och kollektivt uttömmande.

Nollhypotes: Vad är mothypotesen? Det ska alltid finnas en likhet i nollhypotesen. Dvs =, ≤ eller ≥ Nollhypotes: Vad är mothypotesen?

Om vi inte kan falsifiera nollhypotesen betyder det INTE att den är sann.
Men om vi kan förkasta nollhypotesen med en viss signifikans kan vi säga att mothypotesen är sann på denna signifikansnivå. Det vi vill bevisa bör vi sätta upp som mothypotes. Mothypotesen är vår forskningshypotes. Vi tror att svenska kvinnor i genomsitt är kortare än 180 cm. För att bevisa det gör vi följande hypotesprövning:

Att välja signifikansnivå
Signifikansnivån: α anger sannolikheten att vi förkastar nollhypotesen trots att den är sann. Fel av typ 1 och fel av typ 2 Förkastar inte Förkastar H0 är sann Korrekt beslut Typ 1 fel, α H0 är falsk Typ 2 fel, β Eftersom vi vet hur stor sannolikheten för typ 1 fel är, drar vi slutsten att mothypotesen är rätt och vet hur stor risk det är att vi har fel. Typ 2 fel går ej beräkna. Därför drar vi aldrig någon slutsats om vi inte kan förkasta nollhypotesen

Att göra en hypotesprövning

Teststatistika för medelvärdet i en population där vi känner standardavvikelsen
Medelvärdet i urvalet Medelvärdet enligt vår hypotes Standardavvikelsen i populationen Urvalsstorleken

Teststatistika för medelvärdet i en population där vi inte känner standardavvikelsen
Medelvärdet i urvalet Medelvärdet enligt vår hypotes Standardavvikelsen i urvalet Urvalsstorleken

Att formulera en beslutsregel,
finna ett kritiskt värde för teststatistikan. För att förkasta H0 behöver vi få ett värde på kvinnors medellängd i vårt urval som är tillräckligt mycket kortare än 180 för att det ska vara väldigt liten sannolikhet att dra ett sådant urval om kvinnors medellängd är 180 cm eller mer. Vid signifikansnivån 5% blir vårt kritiska värde:

Att formulera en beslutsregel,
finna ett kritiskt värde för teststatistikan. För att förkasta H0 behöver vi få ett värde på kvinnors medellängd i vårt urval som är tillräckligt mycket kortare än 180 för att det ska vara väldigt liten sannolikhet att dra ett sådant urval om kvinnors medellängd är 180 cm eller mer. Vid signifikansnivån 5% blir vårt kritiska värde: - 1,669 Beslutsregel: Vi förkastar nollhypotesen om värdet på teststatistiken är mindre än -1,669

Beräkna teststatistikan och fatta ett beslut:
Eftersom – 8 är mindre än –1,669 kan vi förkasta H0 Eftersom nollhypotesen är falsk kan vi dra slutsatsen att svenska kvinnor i genomsitt är kortare än 180 cm.

Att välja beslutsregel

Dubbelsidiga hypotestester
Genomsnittslängden på en counterbalance bar ska vara 43 mm. Man är rädd att inställningen av maskinen som tillverkar dem har ändrats. (Sid 351) Vi förkastar H0 om vårt urvalsmedelvärde antingen är större eller mindre än 43 med tillräckligt stor marginal. Signifikansnivå 0,02.

Dubbelsidiga hypotestester
Genomsnittslängden på en counterbalance bar ska vara 43 mm. Man är rädd att inställningen av maskinen som tillverkar dem har ändrats. Vi förkastar H0 om vårt urvalsmedelvärde antingen är större eller mindre än 43 med tillräckligt stor marginal. Signifikansnivå 0,02. Vi förkastar H0 om teststatistikan blir större än 2,718 eller mindre än –2,718 Eftersom – 2,913 är mindre än -2,718 kan nollhypotesen förkastas. Vi drar slutsatsen att medelvärdet inte är lika med 43

P-värde När vi säger om vi förkastar H0 på 5 % nivån eller ej så vet man inget om med hur bred marginal som H0 förkastades. P-värdet anger sannolikheten att få detta värde på teststatistikan (eller ett ännu mer extremt värde) om H0 är sann. Om p värdet är lägre än signifikansnivån förkastar vi H0. P-värdet anger den signifikansnivå som krävs för att H0 ska förkastas. P-värdet anger sannolikheten att vi har fel om vi säger att H0 är falsk. P-värdet anger sannolikheten att vi har fel om vi drar slutsatsen att mothypotesen är sann.

Om vi går tillbaka till kvinnornas medellängd:

Om vi går tillbaka till kvinnornas medellängd:
Eftersom – 8 är mindre än –3,449 måste p-värdet vara mindre än 0,0005

Test av andelar Hypotestest avseende andelen i en population som har en viss egenskap. Andelen i urvalet Andelen enligt vår hypotes urvalsstorleken

Connect 21 page 359 I urvalet var andelen större än 70 %. Men innebär det att vi kan förkasta H0? Dvs är andelen större än 70 % även i populationen?

Connect 21 page 359 I urvalet var andelen större än 70 %. Men innebär det att vi kan förkasta H0? Dvs är andelen större än 70 % även i populationen? Vi förkastar H0 om z är större än 1,645 Vi kan inte förkasta H0 på 5 % nivån. Därmed kan vi inte dra några slutsatser.

Att jämföra populationer – kapitel 11
Jämförelse av medelvärdet i två olika populationer. Har populationerna samma medelvärde eller skiljer de sig åt? 1. Vi vet standardavvikelsen i respektive population. 2. Vi vet inte de exakta standardavvikelserna men vi vet att de är lika stora. 3. Vi vet inte vad standardavvikelserna är eller om de är lika i båda populationerna.

Olika och okända standardavvikelser i populationerna.

Olika och okända standardavvikelser stora urval.

Olika och okända standardavvikelser stora urval.
Ex övn 615 Kritiskt värde: 1,975 Beslutsregel: Förkasta H0 om t >1,975 eller t<-1,975. Eftersom -1,84 > -1,975 kan vi inte förkasta H0

Test av andelar från olika populationer
Teststatistikan beräknas enligt: Där: p1 respektive p2 är andelarna från respektive urval och pc den poolade andelen. X1 respektive X2 är antalet från respektive urval som har egenskapen.

Test av andelar från olika populationer - exempel
Manelli Perfume Company recently developed a new fragrance that it plans to market under the name Heavenly. A number of market studies indicate that Heavenly has very good market potential. The Sales Department at Manelli is particularly interested in whether there is a difference in the proportions of younger and older women who would purchase Heavenly if it were marketed. Samples are collected from each of these independent groups. Each sampled woman was asked to smell Heavenly and indicate whether she likes the fragrance well enough to purchase a bottle.

Steg 1: Sätt upp nollhypotes och mothypotes. (nyckelord: “there is a difference”) H0: 1 =  2 H1:  1 ≠  2 Steg 2: Välj signifikansnivå anges i uppgiften Steg 3: Välj lämplig teststatistika

Step 4: Formulera beslutsregel. Förkasta H0 om Z > 1.96 eller Z < -1.96

Steg 5: Välj slumpmässigt ett urval från varje population, beräkna andelarna och fatta ett belut Låt p1 = andel bland unga kvinnor p2 = andel bland äldre kvinnor Vi förkastar nollhypotesen. Vi kan dra slutsatsen att mothypotesen är sann. Andelen som skulle köpa heavenly är inte lika stor bland unga kvinnor som bland äldre kvinnor.

Vad är p-värdet i det här exemplet?
p-värdet är sannolikheten att få det här värdet på teststatistikan eller ett värde som avviker ännu mer från noll. Dvs 𝑃 𝑧 < −2,21 𝑒𝑙𝑙𝑒𝑟 𝑧 > 2,21 = 2 ∙ 𝑃 𝑧 > 2,21 = 2 ∙ 0,5−𝑃 0<𝑧< 2,21

Vad är p-värdet i det här exemplet?
p-värdet är sannolikheten att få det här värdet på teststatistikan eller ett värde som avviker ännu mer från noll om nollhypotesen är sann Dvs 𝑃 𝑧 < −2,21 𝑒𝑙𝑙𝑒𝑟 𝑧 > 2,21 = 2 ∙ 𝑃 𝑧 > 2,21 = 2 ∙ 0,5−𝑃 0<𝑧< 2,21 =2∙ 0,5−0,4864 =2∙0,0136=0,0272 Om p-värdet är lägre än signifikansnivån kan nollhypotesen förkastas. 𝑝-värdet är 0,027

Test av medelvärde från fler än två populationer –
ANOVA-testet 𝐻 0 : 𝜇 𝑎 = 𝜇 𝑏 = 𝜇 𝑐 = 𝜇 𝑑 = 𝜇 𝑒 𝐻 1 : 𝑚𝑖𝑛𝑠𝑡 𝑒𝑛 𝑎𝑣 𝑝𝑜𝑝𝑢𝑙𝑎𝑡𝑖𝑜𝑛𝑒𝑟𝑛𝑎 ℎ𝑎𝑟 𝑒𝑡𝑡 𝑚𝑒𝑑𝑒𝑙𝑣ä𝑟𝑑𝑒 𝑠𝑜𝑚 𝑎𝑣𝑣𝑖𝑘𝑒𝑟 𝑓𝑟å𝑛 𝑑𝑒 𝑎𝑛𝑑𝑟𝑎. Denna hypotes kan utvärderas med ANOVA testet om populationerna är: oberoende, normalfördelade och har samma standardavvikelse.

Exempel på ANOVA test: Låt oss dela in våra snabbmatsrestauranger i fyra delpopulationer utifrån vilken kedja de tillhör. Vi vill nu testa om medelvärdet av antal anställda är samma i alla fyra populationerna. Vi använder signifikansnivån 5%: 𝐻 0 : 𝜇 𝑅𝑜𝑦 𝑅𝑜𝑔𝑒𝑟 = 𝜇 𝐵𝑢𝑟𝑔𝑒𝑟 𝐾 = 𝜇 𝐾𝑖𝑛𝑔 𝐹𝑟𝑖 = 𝜇 𝑊𝑒𝑛𝑑𝑦𝑠 𝐻 1 : 𝑚𝑖𝑛𝑠𝑡 𝑒𝑛 𝑎𝑣 𝑝𝑜𝑝𝑢𝑙𝑎𝑡𝑖𝑜𝑛𝑒𝑟𝑛𝑎 ℎ𝑎𝑟 𝑒𝑡𝑡 𝑚𝑒𝑑𝑒𝑙𝑣ä𝑟𝑑𝑒 𝑠𝑜𝑚 𝑎𝑣𝑣𝑖𝑘𝑒𝑟 𝑓𝑟å𝑛 𝑑𝑒 𝑎𝑛𝑑𝑟𝑎.

Exempel på ANOVA test i SPSS
Analyze/Compare Means/ Means Klicka på options Kryssa för ANOVA table and eta

Eftersom p värdet är mindre än 0,05 kan nollhypotesen förkastas
Konfidensintervall: 19,9±1,98∙ 9, => 18,4<𝜇<21,4 9,6±1,99∙ 3, => 8,7<𝜇<10,5 18,2±1,99∙ 6, => 16,8<𝜇<19,6 19,0±2,00∙ 8, => 16,8<𝜇<21,3 Eftersom p värdet är mindre än 0,05 kan nollhypotesen förkastas

Eftersom nollhypotesen förkastades måste minst en av populationerna ha ett avvikande medelvärde.
Utifrån konfidensintervallen ser vi att det är King Fried Chicken som har färre anställda per restaurang. Notera att antaganden för ANOVA testen inte var uppfyllda i det här fallet eftersom standardavvikelserna skiljer sig åt. Så vi kan inte helt lita på resultatet från ANOVA, men vi ser att vi ändå kan dra den slutsatsen från konfidensintervallen.

Eftersom p värdet är större än 0,05 kan nollhypotesen inte förkastas
Vi kan inte dra någon slutsats eftersom vi inte lyckades förkasta H0. Det är möjligt att dessa tre medelvärden är lika i hela populationerna men vi vet inte med säkerhet. Eftersom p värdet är större än 0,05 kan nollhypotesen inte förkastas

Hypotestest om standardavvikelse/varians från två olika populationer.
Har Roy Rogers och Wendys olika standardavvikelser? Använd 10 % signifikansnivå. Hypotestest av varianser från två olika populationer 𝐹= 𝑠 𝑠 2 2 𝐹= 8, , = 71,6 43,6 =1,64 Kritiskt värde: Hämtar vi från F fördelningen för 5 % signifikansnivå. (eftersom vi har ett dubbelsidigt test ska vi halvera signifikansnivån.) Frihetsgraderna är 55 för täljaren (numerator) och 84 för nämnaren (denominator).

Hypotestest om standardavvikelse/varians från två olika populationer.
Har Roy Rogers och Wendys olika standardavvikelser? Använd 10 % signifikansnivå. Hypotestest av varianser från två olika populationer 𝐹= 𝑠 𝑠 2 2 𝐹= 8, , = 71,6 43,6 =1,64 Kritiskt värde: Hämtar vi från F fördelningen för 5 % signifikansnivå. (eftersom vi har ett dubbelsidigt test ska vi halvera signifikansnivån.) Frihetsgraderna är 55 för täljaren (numerator) och 84 för nämnaren (denominator). Kritiska värdet är mindre än 1,59. Eftersom vårt F värde är större än 1,59 måste det också vara större än det kritiska värdet. Vi kan förkasta nollhypotesen. Roy Rogers och Wendys har olika varianser.

Tabellen anger personbästa under 2012 för ett urval av 9 svenska 400 meters löpare.
Namn utomhus inomhus Felix Francois 90 Örgryte 47,63 47,76 Petter Olson 91 Malmö 48,37 48,95 Martin Bengtsson 92 Ullevi 48,93 49,90 Patrik Sjöö 92 Hässelby 49,01 49,92 Rickard Gunnarsson 91 Hässelby 49,10 49,96 Oliwer Åstrand 92 Ymer 49,16 50,09 Desmond Manu 92 Sävedalen 49,27 50,20 Markus Johansson 90 Ume FI 48,83 50,59 Anton Nilsson 92 Huddinge 49,38 50,63 medel 48,85 49,78 standardavvikelse 0,54 0,90 Går det fortare att springa 400 meter utomhus än inomhus? Använd 0,005 % signifikansnivå

Vi beräknar differensen mellan utomhus och inomhusrekord.
Namn utomhus inomhus Diff Felix Francois 90 Örgryte 47,63 47,76 -0,13 Petter Olson 91 Malmö 48,37 48,95 -0,58 Martin Bengtsson 92 Ullevi 48,93 49,90 -0,97 Patrik Sjöö 92 Hässelby 49,01 49,92 -0,91 Rickard Gunnarsson 91 Hässelby 49,10 49,96 -0,86 Oliwer Åstrand 92 Ymer 49,16 50,09 -0,93 Desmond Manu 92 Sävedalen 49,27 50,20 Markus Johansson 90 Ume FI 48,83 50,59 -1,76 Anton Nilsson 92 Huddinge 49,38 50,63 -1,25 medel 48,85 49,78 -0,92 standardavvikelse 0,54 0,90 0,44 Går det fortare att springa 400 meter utomhus än inomhus? Använd 0,005 % signifikansnivå

Hypotestest från två beroende urval
𝑡= 𝑑 𝑠 𝑑 𝑛 Där 𝑑 är medelvärdet av differenserna mellan två observationer på samma element och 𝑠 𝑑 är differensernas standardavvikelse

Beslutsregel förkasta nollhypotesen om t < - 3,355
Hypotestest från två beroende urval 𝑡= 𝑑 𝑠 𝑑 𝑛 Där 𝑑 är medelvärdet av differenserna mellan två observationer på samma element och 𝑠 𝑑 är differensernas standardavvikelse Beslutsregel förkasta nollhypotesen om t < - 3,355 𝑡= −0,92 0, =−6,27 Vi kan förkasta H0 och dra några slutsatsen att det går fortare att springa 400 meter utomhus.

Hypotestestning i SPSS Test på medelvärde:
I ett urval av 373 snabbmatsrestauranger undersöks priset på mellanläsk. 𝐻 0 :𝜇=1 𝐻 1 :𝜇≠1

Analyze/Compare Means/One Sample T-test Ange vilken variabel du vill testa Ange medelvärdet enligt nollhypotesen

I ett urval av 373 snabbmatsrestauranger undersöks priset på mellanläsk. Eftersom p-värdet är mindre än 0,05 kan nollhypotesen förkastas. Vi kan dra slutsatsen att medelvärdet inte är lika med 1 𝐻 0 :𝜇=1 𝐻 1 :𝜇≠1

Hypotestestning i SPSS Test på medelvärde från 2 urval:
I ett urval av 300 snabbmatsrestauranger från New Jersey och 73 från Pennsylvania undersöks priset på mellanläsk. 𝐻 0 : 𝜇 𝑁𝐽 = 𝜇 𝑃 𝐻 1 : 𝜇 𝑁𝐽 ≠ 𝜇 𝑃

Hypotestestning i SPSS Test på medelvärde från 2 urval:
Analyze/Compare Means/ independent-Samples T-test Ange vilken variabel du vill testa Ange vilken variabel du vill använda för att dela in urvalen.

Medelvärdet är större i New Jersey än i Pennsylvania
Eftersom p-värdet är mindre än 0,05 kan nollhypotesen förkastas. Vi kan dra slutsatsen att medelvärdena skiljer sig åt. 𝐻 0 : 𝜇 𝑁𝐽 = 𝜇 𝑃 𝐻 1 : 𝜇 𝑁𝐽 ≠ 𝜇 𝑃

Hypotestestning i SPSS Test på andel:
Hur stor andel av restaurangerna ligger i New Jersey? 𝐻 0 :𝜋=0,75 𝐻 1 :𝜋≠0,75

Hypotestestning i SPSS Test på andelar:
Analyze / Non-parametric tests / leacy dialog / Binomial Ange vilken variabel du vill testa Ange andelen enligt nollhypotesen

Observera att detta p-värde är för enkelsidigt test
Observera att detta p-värde är för enkelsidigt test. Eftersom vi hade en dubbelsidig test får vi dubblera p-värdet. Det blir alltså 0,016. Vi kan avslå nollhypotesen på 5 % signifikansnivå. Vi drar slutsatsen att andelen inte är 0,75

Föreläsningsanteckningar till:

Liknande presentationer

En presentation över ämnet: "Föreläsningsanteckningar till:"— Presentationens avskrift:

Liknande presentationer

Om projektet

Kontakta oss

Logga in

Logga in via sociala nätverk:

Föreläsningsanteckningar till:

Liknande presentationer

En presentation över ämnet: "Föreläsningsanteckningar till:"— Presentationens avskrift:

Liknande presentationer

Om projektet

Kontakta oss