Lite repetition och SAMBAND & INFERENS. population Population Stickprov, urval INFERENS = Dra slutsatser från data om hela populationen utifrån ett stickprov.

Slides:



Advertisements
Liknande presentationer
Inferens om en population Sid
Advertisements

Hej hypotestest!. Bakgrund  Signifikansanalys  Signifikansprövning  Signifikanstest  Hypotesprövning  Hypotestest Kärt barn har många namn Inblandade:
Samband mellan kvalitativa variabler Sid
FL3 732G81 Linköpings universitet.
FL8 732G70 Statistik A Detta är en generell mall för att göra PowerPoint presentationer enligt LiUs grafiska profil. Du skriver in din rubrik,
732G22 Grunder i statistisk metodik
FL9 732G70 Statistik A Detta är en generell mall för att göra PowerPoint presentationer enligt LiUs grafiska profil. Du skriver in din rubrik,
FL5 732G70 Statistik A Detta är en generell mall för att göra PowerPoint presentationer enligt LiUs grafiska profil. Du skriver in din rubrik,
Jämförelse av två populationer Sid
Kapitel 5 Stickprovsteori Sid
F11 Olika urvalsmetoder, speciellt obundet slumpmässigt urval (OSU)
Workshop i statistik för medicinska bibliotekarier!
Vad ingår kursen? i korta drag
Tillämpad statistik Naprapathögskolan
Sammanfatta siffrorna…
Förelasning 1 Kursintroduktion Statistiska undersökningar
Förelasning 6 Hypotesprövning
En mycket vanlig frågeställning gäller om två storheter har ett samband eller inte, många gånger är det helt klart: y x För en mätserie som denna är det.
FL7 732G70 Statistik A Detta är en generell mall för att göra PowerPoint presentationer enligt LiUs grafiska profil. Du skriver in din rubrik,
Egenskaper för punktskattning
Linjär regression föreläsning 9
Normalfördelningen och centrala gränsvärdessatsen
F8 Hypotesprövning. Begrepp
Grundläggande statistik ht 09, AN
Forskningsmetodik Sampling och urval Hypotesprövning Lektion 9
Statistik Lars Valter Fil.lic. Statistik
Matematisk statistik och signal-behandling - ESS011 Föreläsning 1 Igor Rychlik 2015 (baserat på föreläsningar av Jesper Rydén)
732G22 Grunder i statistisk metodik
Statistiska samband i trafikolyckor Av: Lina Forsberg Hangjin Lee Daniel Leo Carl-Mikael Westman.
Lite repetition och SAMBAND & INFERENS. population Population Stickprov, urval INFERENS = Dra slutsatser från data om hela populationen utifrån ett stickprov.
Föreläsning 1, Introduktion Varför statistik? Population – Urval - Mätnivå Deskription Cirkeldiagram, stapeldiagram, histogram, spridningsdiagram, boxplot…
Kostvetenskapliga Metoder 1. VAD ÄR STATISTIK? 2. DESKRIPTION 3. NORMALFÖRDELNING 4. HYPOTESPRÖVNING a) t-test b) ickeparametriska test c) chitvåtest.
Kvantitativ metod. 2 Vad är statistik? En massa siffror Beskrivning av staten Metodlära.
SAMBAND. Vi vill undersöka om det finns ett samband mellan tentamensresultat och genomsnittligt antal timmar/dag man studerat. Person ABCDEFGHIJ Timmar/
Medicinsk statistik II Läkarprogrammet T5 HT 2013 Susann Ullén FoU-centrum Skåne Skånes Universitetssjukhus.
Deskription + enkät Mätnivån styr hur man kan analysera data Tabeller – frekvenstabeller Diagram – cirkeldiagram, stapeldiagram, histogram, boxplot Beskrivande.
  2 f ( 2 ) Chi-Square Distribution: df=10, df=30, df=50 df = 10 df = 30 df = 50 Chi-2-fördelningen.
Vetenskaplig metod Statistik 1. VAD ÄR STATISTIK? 2. DESKRIPTION 3. URVAL 4. STATISTISK INFERENS OCH HYPOTESPRÖVNING a) t-test b) ickeparametriska test.
Statistisk hypotesprövning. Test av hypoteser Ofta när man gör undersökningar så vill man ha svar på olika frågor (s.k. hypoteser). T.ex. Stämmer en spelares.
Vad är Statistik? Inom statistik teorin studeras -Hur vi samlar in data. -Hur data analyseras och vilka slutsatser som kan dras från data. -Hur insamlad.
Kostvetenskapliga Metoder 1. VAD ÄR STATISTIK? 2. DESKRIPTION 3. URVAL 4. STATISTISK INFERENS OCH HYPOTESPRÖVNING a) t-test b) ickeparametriska test c)
Kvantitativ metod (Intro) Vad är statistik? När kan man använda statistiska metoder? De olika stegen i en statistisk undersökning –Problemformulering (syfte.
Deskription + enkät Mätnivån styr hur man kan analysera data Tabeller – frekvenstabeller Diagram – cirkeldiagram, stapeldiagram, histogram, boxplot Beskrivande.
UTVÄRDERING OCH KVALITET Metod för utvärderingen viktig för utvärderingens status. En utvärdering utifrån ett vetenskapligt arbetssätt ger andra möjlighet.
Statistisk inferensteori. Inledning Den statistiska inferensteorin handlar i huvudsak om att dra slutsatser från ett slumpmässigt urval (sannolikhetsurval)
En sak i taget 1. Mata in data 2. Förbered data för beräkningar 3. Beräkna 1. Börja med att testa din hypotes 2. Därefter titta på ev bakomliggande faktorer.
Kvantitativa forskningsmetoder Sociologi A VT 2015 Ilkka Henrik Mäkinen (momentansvarig)
Samband & Inferens Konfidensintervall Statistisk hypotesprövning –Hypotetisk –deduktiv metod Samband mellan nominal/ordinal-variabler –Chi2-test Samband.
Kvantitativ metod (Intro) Vad är statistik? När kan man använda statistiska metoder? De olika stegen i en statistisk undersökning Olika sätt att göra ett.
1 Numeriska Deskriptiva Tekniker. 2 Centralmått §Vanligtvis fokuserar vi vår uppmärksamhet på två typer av mått när vi beskriver en population: l Centraläge.
Hypotesprövning. Statistisk hypotesprövning och hypotetisk-deduktiv metod Hypotetisk-deduktiv metod: –Hypotes: Alla svanar är vita. –Empirisk konsekvens:
1 Multipel Regression Kapitel Modell Vi har p oberoende variabler som vi tänker oss kan vara relaterade till den beroende variabeln. Y ~ N( , 
Idag: Repetition av Chi2-test Kap 6*, Kodning av svaren Kap 10*, Olika feltyper Kap 12*, Rapportskrivning *Dahmström.
Korstabeller och logistisk regression Samband mellan kvalitativa variabler.
Samband & Inferens Konfidensintervall Statistisk hypotesprövning –Hypotetisk –deduktiv metod Samband mellan nominal/ordinal-variabler –Chi2-test Samband.
Sannolikhet och statistik Tabell Används för att ge en bra överblick av svaren man fått in, datan. Består av rader och kolumner. Frekvens Är hur många.
Samband & Inferens Konfidensintervall Statistisk hypotesprövning
INFERENS & SAMBAND. population Population Stickprov, urval INFERENS = Dra slutsatser om hela populationen utifrån ett stickprov Data, observationer.
Kvantitativ metod (Intro) Vad är statistik? När kan man använda statistiska metoder? De olika stegen i en statistisk undersökning –Olika sätt att göra.
INFERENS & SAMBAND. population Population Stickprov, urval INFERENS = Dra slutsatser från data om hela populationen utifrån ett stickprov Data, observationer.
DESKRIPTION Bearbeta, tolka och redovisa resultat. Vad ingår? Tabeller - Sammanfatta material Diagram - Åskådliggöra material Lägesmått - ”Genomsnitt”
Samband & Inferens Hypotetisk –deduktiv metod Samband mellan nominal/ordinal-variabler –Chi2-test Samband mellan kvot-varibaler –Korrelationskoefficient.
Statistisk metod (Intro) Vad är statistik (kvantitativ metod)? När kan man använda statistiska metoder? De olika stegen i en statistisk undersökning Definition.
Enkel Linjär Regression. 1 Introduktion Vi undersöker relationer mellan variabler via en matematisk ekvation. Motivet för att använda denna teknik är:
INFERENS OCH SAMBAND. Vi vill undersöka om det finns ett samband mellan tentamensresultat och genomsnittligt antal timmar/dag man studerat. Person ABCDEFGHIJ.
STATISTISK METODIK 1. INLEDNING / VAD ÄR STATISTIK? 2. UNDERSÖKNINGSMETODIK 3. DESKRIPTION 4. SAMBAND.
Marknadsundersökning Kap 12
Data och att presentera data
Förelasning 1 Kursintroduktion Statistiska undersökningar
Y 5.4 Tabeller och diagram Frekvens och relativ frekvens
Presentationens avskrift:

Lite repetition och SAMBAND & INFERENS

population Population Stickprov, urval INFERENS = Dra slutsatser från data om hela populationen utifrån ett stickprov Data, observationer

Population och urvalsram Innan undersökningen inleds måste vi definiera vilka enheter/individer som skall undersökas = målpopulationen. Därefter måste en urvalsram eller rampopulation upprättas, d v s en lista över alla enheterna. När målpopulationen och rampopulationen skiljer sig åt uppkommer s k täckningsfel (övertäckning / undertäckning)

Varför slumpmässiga urval? Fördelen med att göra slumpmässiga urval är att vi kan generalisera resultatet till att gälla hela populationen och inte bara den grupp av personer som vi har undersökt. –OSU (Obundet slumpmässigt urval) –Systematiskt urval –Stratifierat urval –Klusterurval (gruppurval )

Kvalitet och felkällor Täckningsfel Bortfallsfel Mätfel Bearbetningsfel Urvalsfel

Mätnivåer ”Som man frågar får man svar...” Nominalskala, kön, yrke, civilstånd… Ordinalskala, attitydskalor, betyg… (Intervallskala, temperatur, kalendertid… ) Kvotskala, inkomst, vikt, längd, ålder…

Presentation av data Tabeller, diagram Centralmått - typvärde - median - kvartiler - medelvärde Spridningsmått - variationsvidd - kvartilavstånd, kvartilav. - standardavvikelse

Nominalskala Lämpliga tabeller, diagram etc: Frekvenstabeller, stapeldiagram (och cirkeldiagram) Lämpliga lägesmått: Typvärde (det vanligaste värdet) Lämpliga spridningsmått: -

Cirkeldiagram

Stapeldiagram

Grupperat stapeldiagram

GulGrönBlåRöd GulGrönBlåRöd Man Kvinna

Ordinalskala Lämpliga tabeller, diagram etc: Frekvenstabeller, stapeldiagram och cirkeldiagram Lämpliga lägesmått: Median (och typvärde) Lämpliga spridningsmått: Variationsbredd, kvartilavstånd, kvartilavvikelse

Kvotskala (och intervallskala) Lämpliga tabeller, diagram etc: Histogram, frekvenstabeller. Stapeldiagram (och cirkeldiagram) för klassindelat material Lämpliga lägesmått: Medelvärde och median Lämpliga spridningsmått: Standardavvikelse, kvartilavstånd, kvartilavvikelse, variationsvidd

Exempel: Descriptive Statistics: Resultat Variable N Mean StDev Minimum Q1 Median Q3 Maximum Range Resultat 10 25,90 8,95 14,00 18,75 23,50 35,50 39,00 25,00 10 personers tentamensresultat noterades till: 20, 25, 22, 35, 15, 14, 22, 30, 37, 39

population Population: Alla som skrev tentan (Antag att antalet är stort) Stickprov. Ur populationen valdes det slumpmässigt ut 10 personer INFERENS = Om man vet att medelvärdet i stickprovet är 25.9, hur bra är denna gissning av det sanna medelvärdet i hela populationen? De 10 personerna fick i medeltal 25.9 poäng på tentan Sanna medelvärdet (Okänt)

Konfidensintervall Det är svårt att ”träffa mitt i prick” och därför används konfidensintervall, dvs. ett intervall som täcker det sanna värdet i populationen med en viss säkerhet. Oftast gör man intervall med 95% eller 99% säkerhet. I vårt exempel kan ett 95%-igt konfidensintervall beräknas till:

Man säger att den statistiska felmarginalen är på 6.4 poäng. Dvs, vi kan vara ganska säkra på att det sanna medel- värdet i populationen ligger mellan 19.5 och 32.3 poäng. Detta eftersom vi använt en metod som, i det långa loppet, ger oss rätt i 95 % av fallen.

Samband Forts. Exempel Fråga: Finns det någon variabel som skulle kunna förklara variationen i tentamensresultat? Man skulle t.ex. kunna undersöka om det finns ett samband mellan tentamens-resultat och genomsnittligt antal timmar per dag som man studerat.

Person ABCDEFGHIJ Timmar/ Dag Resultat

Spridningsdiagram (Scatterplot) Ett spridningsdiagram är en grafisk beskrivning av samband mellan två variabler där varje punkt representerar en individ/enhet Lodrät axel (y-axeln) - beroende variabel Vågrät axel (x-axeln) - förklarande variabel Detta samband går att sammanfatta i ett mått, och det är korrelationskoefficienten

Korrelationskoefficienten Korrelationskoefficienten r är ett mått på det linjära samband mellan två kvot/intervall- variabler. Korrelationskoefficienten kan anta värden mellan –1 och +1. Observera att r är ett mått på linjärt samband. Även om r = 0 kan det finnas ett samband. Korrelationen mellan antal timmar per vecka och tentamensresultat i vårt exempel är 0,92.

Variation Att förstå variationen i data är en av statistikernas uppgifter. Finns det någon variabel som kan förklara den variation som vi ser, eller är variationen oförklarad? Se gärna youtube-klippet om variation som ligger på kurswebben. Se upp för falska samband!

Test av samband mellan två variabler mätta på nominal eller ordinal mätnivå När man vill ta reda på om två variabler, mätta på nominal / ordinal mätnivå, är beroende av varandra så kan man använda sig av ett Chitvå- test ( χ 2 -test ).

Exempel: En studie på socionomstudenter i Övik har gjorts för att undersöka om det finns ett samband mellan om man föredrar varmrätt /efterrätt och om man föredrar träning/vila. Urval: Ett klusterurval gjordes och lotten föll på T3. 33 personer deltog i studien.

TräningVila Varmrätt158 Efterrätt46 Följande resultat erhölls:

Samband mellan om man föredrar varmrätt/efterrätt och om man föredrar träning/vila.

Samma diagram fast nu i %...

TräningVila Varmrätt79%57% Efterrätt21%43% Det ser ut som om personer som föredrar träning är mer förtjust i varmrätt jämfört med de som föredrar vila. Fråga: Är det slumpen som är orsaken till detta samband eller är det så att sambandet är statistiskt säkerställt.

Test av hypoteser Ofta när man gör undersökningar så vill ha svar på olika frågor (hypoteser). Finns det någon skillnad mellan män och kvinnor när det gäller frukostvanor? Har män högre lön än kvinnor? Föredrar personer som tränar varmrätt i större utsträckning än de personer som föredrar vila? etc.

Hypotetisk-Deduktiv metod Metoden innebär: 1.Att formulera en hypotes (nollhypotes). 2.Att härleda konsekvenser som logiskt måste följa av hypotesen. 3.Att undersöka om dessa konsekvenser stämmer överens med verkligheten.

LOGISKT GILTIGA SLUTSATSER (EXEMPEL) Giltig Inte Giltig Hypotes: Alla svanar är vita. Utsaga: Om vi ser en svan så måste den vara vit. Observation: Svanen är svart. Slutsats: Förkasta hypotesen. Alla svanar är inte vita. Hypotes: Alla svanar är vita. Utsaga: Om vi ser en svan så måste den vara vit. Observation: Svanen är vit. Slutsats: Hypotesen är sann. Alla svanar är vita. Ej giltig slutsats. Det kan finnas andra färger!

Motsägelsebevis Inom statistisk prövning söker vi inte direkta motsägelser i form av ”omöjliga händelser” för att förkasta hypoteser, utan motsägelser i form av ”osannolika händelser”. Exempel: Nollhypotes: Andelen varmrätts-fantaster är lika oavsett om man föredrar träning eller vila. Fråga: Är det osannolikt stor skillnad mellan andelen varmrätts-fantaster bland de som föredrar träning kontra de som föredrar vila om hypotesen skulle vara sann?

Osannolik händelse Exempelvis så kan man välja att definiera en ”osannolik händelse” som en händelse som bara inträffar 5 gånger av 100 om nollhypotesen är sann. I statistiska termer kallas det att för att man har valt signifikansnivån (α)till 0,05 ( Vanliga signifikansnivåer är 0.05, 0.01, 0.10)

Teststatistika Inom statistisk hypotesprövning uttrycker vi utsagorna i form av värdet på en s k teststatistika. Värdet på teststatistikan räknar man ut med hjälp av sitt stickprov. Det varierar alltså från stickprov till stickprov. Utifrån vår hypotes och sannolikhetsteorin kan vi säga vad värdet på teststatistikan troligtvis kommer att bli då hypotesen är sann. Sedan tar vi ett stickprov och räknar ut värdet på teststatistikan. Får vi ett osannolikt värde förkastar vi hypotesen.

36 p-värdet P-värdet talar om hur sannolikt det är att nollhypotesen är sann, eller mer korrekt: Ett p-värde är sannolikheten att, om nollhypotesen är sann, få ett minst lika ”extremt” värde på teststatistikan som det vi faktiskt fått. Om p-värdet är litet har jag antingen sett något som är osannolikt eller också är nollhypotesen falsk. Om p- värdet tillräckligt litet (< 0.05 eller <0.01) förkastas nollhypotesen.

Hypotesprövning: Steg för steg Ange nollhypotes Ange mothypotes (det vi vill visa) Ange signifikansnivå α: 0.05, 0.01, (Hur säkra vill vi vara?) Utför testet (beräkna teststatistikan) och beräkna p-värdet. Dra slutsats genom att jämföra p-värde och signifikansnivån (α). - Förkasta nollhypotesen (p-värdet < α ) - Förkasta ej nollhypotesen (p-värdet ≥ α )

χ 2 -test testar om det finns ett samband mellan nominal- och/eller ordinal-skalevariabler Exempel 1: En studie på socionomstudenter har gjorts för att undersöka om det finns ett samband mellan om dessa föredrar varmrätt/efterrätt och om dessa föredrar träning/vila. Ett klusterurval gjordes och lotten föll på T3. 33 personer deltog i studien.

Nollhypotes: Det finns inget samband mellan om man föredrar träning eller vila och om man föredrar varmrätt eller efterrätt. Mothypotes: Det finns ett samband mellan om man föredrar träning eller vila och om man föredrar varmrätt eller efterrätt.

Observerad tabell: TräningVila Varmrätt15823 Efterrätt

Om nollhypotesen är sann så borde vi förvänta oss följande tabell, förväntad tabell: Teststatistika: TräningVila Varmrätt23 Efterrätt

Det förväntade värdet räknas ut med hjälp av följande formel:

Om nollhypotesen är sann borde χ obs 2 vara nära 0. Är tillräckligt långt ifrån 0 för att vi kan förkasta nollhypotesen? Vi jämför vårt erhållna p-värde med signifikansnivån vi har satt upp. Här väljer vi signifikansnivån α= 0,05. Observerat p-värde: (Excel ger oss detta värde) Slutsats?

I vårt exempel så tolkar man p-värdet så här: p-värde = Sannolikheten att χ obs 2 =1.815 eller ännu större än (om nollhypotesen är sann) = Tolkning: Om det inte finns något samband mellan varmrätt/efterrätt och träning/vila så är det 17.8% chans att få det resultat som vi fått (eller något ännu extremare. Det är ungefär lika stor chans som att få en 6:a då man kastar en tärning…

Eftersom p-värdet = är större än 0.05(=α) så kan vi inte förkasta hypotesen. (Observera att vi inte har bevisat att nollhypotesen är sann.) Dvs det är inte statistiskt säkerställt att det finns ett samband mellan varmrätt/efterrätt och träning/vila. …eller det finns ingen signifikant skillnad mellan… →Den observerade skillnaden är inom felmarginalen.

Se gärna youtube-klippet om p-värden som ligger på kurswebben!

Exempel 2: Umeå är känd för att vara en stad där väldigt många cyklar. En undersökning genomfördes för att undersöka om det är någon skillnad mellan socionomstudenter i Umeå och Övik i denna fråga. Dvs finns det något samband mellan om man bor i Övik eller Umeå och man föredrar cykel framför gång?

Ett urval av socinomstudenter gjordes enligt följande modell: Först delades Umeå och Öviks socionomstudenter in i två olika strata. Därefter gjordes ett klusterurval i de två stratumen. Ett slumpmässigt urval bland terminerna gjordes i de två stratumen och lotten föll på T3 på båda orterna. (Vilken slump!)

nollhypotes: Det finns inget samband mellan socionomstudenterna i Umeå och Övik vad gäller om de föredrar cykel eller gång. mothypotes: Det finns ett samband mellan socionomstudenterna i Umeå och Övik vad gäller om de föredrar cykel eller gång. Signifikansnivå = 0.05

UmeåÖvik Cykla35 (53%)7 (21%) Gå31 (47%)26 (79%) Observerad tabell:

UmeåÖvik Cykla42 Gå Förväntad tabell: χ obs 2 =

Slutsats: Vi observerar χ obs 2 = 9.12 Är 9.12 så långt ifrån 0 att vi kan förkasta nollhypotesen? Observerat p-värde: Slutsats: Vi kan förkasta nollhypotesen (0.003<0.05).

eller… Det är statistiskt säkerställt att socionom- studenterna i Umeå i större utsträckning föredrar cykel jämfört med socionom- studenterna i Övik. Det är en signifikant skillnad mellan Umeå och Öviks socionomstudenter vad gäller om dessa föredrar cykel eller gång.

Två typer av fel -Typ I fel: Förkasta nollhypotesen när den är sann. -Typ II fel: Att inte förkasta nollhypotesen när den är falsk.

Hitintills har vi tittat på en korstabell där varje variabel bara har två värden. Man kan använda Chi2 test även där variablerna kan ha flera värden. T.ex: a)Hur skulle ni formulera nollhypotesen och mothypotesen i det här exemplet? b)P-värdet blev Vad drar ni för slutsats? Antal av KönKön ögonfärgkvinnamanTotalt annat8210 blå15116 brun527 Totalt28533

SLUT! Lycka till med era egna analyser!