INFERENS & SAMBAND. population Population Stickprov, urval INFERENS = Dra slutsatser från data om hela populationen utifrån ett stickprov Data, observationer.

Slides:



Advertisements
Liknande presentationer
Punkt- och intervallskattning Felmarginal
Advertisements

Bedömning av uppfyllelse av miljökvalitetsnormer
Inferens om en population Sid
Hej hypotestest!. Bakgrund  Signifikansanalys  Signifikansprövning  Signifikanstest  Hypotesprövning  Hypotestest Kärt barn har många namn Inblandade:
FL4 732G70 Statistik A Detta är en generell mall för att göra PowerPoint presentationer enligt LiUs grafiska profil. Du skriver in din rubrik,
Samband mellan kvalitativa variabler Sid
1 Exempel Man drar ett OSU om medlemmar ur en stor politiskt oberoende organisation, och frågar dels om kön, dels om politisk tillhörighet (vänster eller.
FL8 732G70 Statistik A Detta är en generell mall för att göra PowerPoint presentationer enligt LiUs grafiska profil. Du skriver in din rubrik,
732G22 Grunder i statistisk metodik
FL9 732G70 Statistik A Detta är en generell mall för att göra PowerPoint presentationer enligt LiUs grafiska profil. Du skriver in din rubrik,
Jämförelse av två populationer Sid
F11 Olika urvalsmetoder, speciellt obundet slumpmässigt urval (OSU)
Workshop i statistik för medicinska bibliotekarier!
Tillämpad statistik Naprapathögskolan
Skattningens medelfel
Förelasning 6 Hypotesprövning
Föreläsning 81 Sampling och urval Ofta möter vi påståenden av typen “4.5 miljoner svenskar såg VM-finalen i fotboll”, “en svensk tolvåring väger i genomsnitt.
En mycket vanlig frågeställning gäller om två storheter har ett samband eller inte, många gånger är det helt klart: y x För en mätserie som denna är det.
Fysikexperiment 5p Föreläsning Korrelationer Ett effektivt sätt att beskriva sambandet mellan två variabler (ett observationspar) är i.
FL7 732G70 Statistik A Detta är en generell mall för att göra PowerPoint presentationer enligt LiUs grafiska profil. Du skriver in din rubrik,
Egenskaper för punktskattning
Föreläsning 7 Fysikexperiment 5p Poissonfördelningen Poissonfördelningen är en sannolikhetsfördelning för diskreta variabler som är mycket.
Linjär regression föreläsning 9
Normalfördelningen och centrala gränsvärdessatsen
F8 Hypotesprövning. Begrepp
F8 Hypotesprövning. Begrepp
Forskningsmetodik Sampling och urval Hypotesprövning Lektion 9
Statistik Lars Valter Fil.lic. Statistik
Några allmänna räkneregler för sannolikheter
732G22 Grunder i statistisk metodik
Statistiska samband i trafikolyckor Av: Lina Forsberg Hangjin Lee Daniel Leo Carl-Mikael Westman.
Forskningsmetodik lektion
Lite repetition och SAMBAND & INFERENS. population Population Stickprov, urval INFERENS = Dra slutsatser från data om hela populationen utifrån ett stickprov.
Kostvetenskapliga Metoder 1. VAD ÄR STATISTIK? 2. DESKRIPTION 3. NORMALFÖRDELNING 4. HYPOTESPRÖVNING a) t-test b) ickeparametriska test c) chitvåtest.
SAMBAND. Vi vill undersöka om det finns ett samband mellan tentamensresultat och genomsnittligt antal timmar/dag man studerat. Person ABCDEFGHIJ Timmar/
Lite repetition och SAMBAND & INFERENS. population Population Stickprov, urval INFERENS = Dra slutsatser från data om hela populationen utifrån ett stickprov.
Samband och förändring. Delen i procent Finns två metoder. Antingen räknar man först 1 % (genom att dividera med 100) och multiplicerar till den procenten.
Medicinsk statistik II Läkarprogrammet T5 HT 2013 Susann Ullén FoU-centrum Skåne Skånes Universitetssjukhus.
Deskription + enkät Mätnivån styr hur man kan analysera data Tabeller – frekvenstabeller Diagram – cirkeldiagram, stapeldiagram, histogram, boxplot Beskrivande.
  2 f ( 2 ) Chi-Square Distribution: df=10, df=30, df=50 df = 10 df = 30 df = 50 Chi-2-fördelningen.
Modell för konsumtionen i Sverige Från Baudins kompendium.
Vetenskaplig metod Statistik 1. VAD ÄR STATISTIK? 2. DESKRIPTION 3. URVAL 4. STATISTISK INFERENS OCH HYPOTESPRÖVNING a) t-test b) ickeparametriska test.
Föreläsning 7 (Kajsa Fröjd) Korstabeller och Chi-tvåtest Kap 2.5, Man har två kvalitativa variabler som man vill gemensamt undersöka. 1.
Statistisk hypotesprövning. Test av hypoteser Ofta när man gör undersökningar så vill man ha svar på olika frågor (s.k. hypoteser). T.ex. Stämmer en spelares.
Vad är Statistik? Inom statistik teorin studeras -Hur vi samlar in data. -Hur data analyseras och vilka slutsatser som kan dras från data. -Hur insamlad.
Kostvetenskapliga Metoder 1. VAD ÄR STATISTIK? 2. DESKRIPTION 3. URVAL 4. STATISTISK INFERENS OCH HYPOTESPRÖVNING a) t-test b) ickeparametriska test c)
UTVÄRDERING OCH KVALITET Metod för utvärderingen viktig för utvärderingens status. En utvärdering utifrån ett vetenskapligt arbetssätt ger andra möjlighet.
Statistisk inferensteori. Inledning Den statistiska inferensteorin handlar i huvudsak om att dra slutsatser från ett slumpmässigt urval (sannolikhetsurval)
En sak i taget 1. Mata in data 2. Förbered data för beräkningar 3. Beräkna 1. Börja med att testa din hypotes 2. Därefter titta på ev bakomliggande faktorer.
Kvantitativa forskningsmetoder Sociologi A VT 2015 Ilkka Henrik Mäkinen (momentansvarig)
Samband & Inferens Konfidensintervall Statistisk hypotesprövning –Hypotetisk –deduktiv metod Samband mellan nominal/ordinal-variabler –Chi2-test Samband.
1 Numeriska Deskriptiva Tekniker. 2 Centralmått §Vanligtvis fokuserar vi vår uppmärksamhet på två typer av mått när vi beskriver en population: l Centraläge.
Hypotesprövning. Statistisk hypotesprövning och hypotetisk-deduktiv metod Hypotetisk-deduktiv metod: –Hypotes: Alla svanar är vita. –Empirisk konsekvens:
1 Multipel Regression Kapitel Modell Vi har p oberoende variabler som vi tänker oss kan vara relaterade till den beroende variabeln. Y ~ N( , 
Idag: Repetition av Chi2-test Kap 6*, Kodning av svaren Kap 10*, Olika feltyper Kap 12*, Rapportskrivning *Dahmström.
Föreläsning 7 (Kajsa Fröjd) Korstabeller och Chi-tvåtest Kap 2.5, Två/flera populationer och en kvalitativ variabel (”The first model” i Moore)
Korstabeller och logistisk regression Samband mellan kvalitativa variabler.
Samband & Inferens Konfidensintervall Statistisk hypotesprövning –Hypotetisk –deduktiv metod Samband mellan nominal/ordinal-variabler –Chi2-test Samband.
Sannolikhet och statistik Tabell Används för att ge en bra överblick av svaren man fått in, datan. Består av rader och kolumner. Frekvens Är hur många.
Samband & Inferens Konfidensintervall Statistisk hypotesprövning
INFERENS & SAMBAND. population Population Stickprov, urval INFERENS = Dra slutsatser om hela populationen utifrån ett stickprov Data, observationer.
1 UNDERSÖKNINGSMETODIK Ett gemensamt syfte för alla undersökningar är att få ökad kunskap om ett visst problemområde Statistiska undersökningar kan vara.
Samband & Inferens Hypotetisk –deduktiv metod Samband mellan nominal/ordinal-variabler –Chi2-test Samband mellan kvot-varibaler –Korrelationskoefficient.
Enkel Linjär Regression. 1 Introduktion Vi undersöker relationer mellan variabler via en matematisk ekvation. Motivet för att använda denna teknik är:
INFERENS OCH SAMBAND. Vi vill undersöka om det finns ett samband mellan tentamensresultat och genomsnittligt antal timmar/dag man studerat. Person ABCDEFGHIJ.
STATISTISK METODIK 1. INLEDNING / VAD ÄR STATISTIK? 2. UNDERSÖKNINGSMETODIK 3. DESKRIPTION 4. SAMBAND.
Marknadsundersökning Kap 12
Multipel regression och att bygga (fungerande) modeller
Relation mellan variabler – samvariation, korrelation, regression
Grundläggande begrepp
Presentationens avskrift:

INFERENS & SAMBAND

population Population Stickprov, urval INFERENS = Dra slutsatser från data om hela populationen utifrån ett stickprov Data, observationer

Exempel: Descriptive Statistics: Resultat Variable N Mean StDev Minimum Q1 Median Q3 Maximum Range Resultat 10 25,90 8,95 14,00 18,75 23,50 35,50 39,00 25,00 10 personers tentamensresultat noterades till: 20, 25, 22, 35, 15, 14, 22, 30, 37, 39

population Population: Alla som skrev tentan (Antag att antalet är stort) Stickprov. Ur populationen valdes det slumpmässigt ut 10 personer INFERENS = Om man vet att medelvärdet i stickprovet är 25.9, hur bra är denna gissning av det sanna medelvärdet? De 10 personerna fick i medeltal 25.9 poäng på tentan Sant medelvärde. Okänt.

Konfidensintervall Det är svårt att ”träffa mitt i prick” och därför används konfidensintervall, dvs. ett intervall som täcker det sanna värdet i populationen med en viss säkerhet. Oftast gör man intervall med 95% eller 99% säkerhet. I vårt exempel kan ett 95%.igt konfidensintervall beräknas till:

Man säger att den statistiska felmarginalen är på 6.4 poäng. Dvs, vi kan vara ganska säkra på att det sanna medel- värdet i populationen ligger mellan 19.5 och 32.3 poäng. Detta eftersom vi använt en metod som, i det långa loppet, ger oss rätt i 95 % av fallen.

Samband Forts. Exempel Fråga: Finns det någon variabel som skulle kunna förklara variationen i tentamensresultat? Man skulle t.ex. kunna undersöka om det finns ett samband mellan tentamens-resultat och genomsnittligt antal timmar per dag som man studerat.

Person ABCDEFGHIJ Timmar/ Dag Resultat

Spridningsdiagram (Scatterplot) Ett spridningsdiagram är en grafisk beskrivning av samband mellan två variabler där varje punkt representerar en individ/enhet Lodrät axel (y-axeln) - beroende variabel Vågrät axel (x-axeln) - förklarande variabel Detta samband går att sammanfatta i ett mått, och det är korrelationskoefficienten

Korrelationskoefficienten Korrelationskoefficienten r är ett mått på det linjära samband mellan två kvantitativa variabler. Korrelationskoefficienten kan anta värden mellan –1 och +1. Observera att r är ett mått på linjärt samband. Även om r = 0 kan det finnas ett samband. Korrelationen mellan antal timmar per vecka och tentamensresultat i vårt exempel är 0,92.

Test av samband mellan två kvalitativa variabler Vi kan använda ett Chitvå-test ( χ 2 -test ) när vi vill ta reda på om två variabler är oberoende av varandra.

Exempel: En studie har gjorts för att undersöka om det finns ett samband mellan kön och frukostvanor. 100 personer deltog i studien. Följande resultat erhölls: Äterfrukost JANEJ Kön Kvinna5010 Man2515

Test av hypoteser Ofta när man gör undersökningar så vill ha svar på olika frågor (hypoteser). Finns det någon skillnad mellan män och kvinnor när det gäller frukostvanor? Är alla kaffesorter lika populära? Har män högre lön än kvinnor?

HYPOTES-DEDUKTIVA METODEN HypotesUtsaga Observation Tankevärld Verklighet Försöker förutsäga vad som kommer att hända om hypotesen stämmer 2 ” Dialog med verkligheten” Deduktion - logiskt giltigt argument (Prediktiv inferens) Induktion (Induktiv inferens)

LOGISKT GILTIGA SLUTSATSER (EXEMPEL) Giltig Inte Giltig Hypotes: Djuret är en häst. Utsaga: Om det är en häst så måste djuret ha fyra ben. Observation: Djuret har inte fyra ben. Slutsats: Förkasta hypotesen. Det är inte en häst. Hypotes: Djuret är en häst. Utsaga: Om det är en häst så måste djuret ha fyra ben. Observation: Djuret har fyra ben. Slutsats: Hypotesen är sann. Det är en häst. Ej giltig slutsats. Det kan vara ett annat fyrbent djur!

Motsägelsebevis Inom statistisk prövning söker vi inte direkta motsägelser i form av ”omöjliga händelser” för att förkasta hypoteser, utan motsägelser i form av ”osannolika händelser”.

χ 2 -test testar om det finns ett samband mellan nominal- och/eller ordinal-skalevariabler Exempel: Vid en marknadsundersökning av fyra kaffesorter deltog 100 personer. Var och en fick provsmaka de fyra märkena i ett blindtest och säga vilken av sorterna de tycket var godast. Resultatet av testet blev följande: Sort:EllipsGexusLuberLöflia Antal pers

Tyder försöksresultatet på att någon eller några sorter är populärare än andra, eller är alla likvärdiga? I statistiska termer formulerar vi problemet så här: Nollhypotes: Alla kaffesorter är lika populära Mothypotes: Alla kaffesorter är inte lika populära Det vi vill visa ska vi ha i mothypotesen.

Om nollhypotesen är sann så borde vi förvänta oss följande utfall av försöket: Skillnaden mellan den observerade och förväntade tabellen beror antingen på slumpen eller på att det faktiskt finns en skillnad i tycke. Sort:EllipsGexusLuberLöflia Antal pers25

Vi mäter skillnaden mellan de två tabellerna på följande sätt: = 4.64 Om nollhypotesen är sann borde χ² vara nära 0. Fråga:Är 4.64 så långt i från 0 att vi kan förkasta vår hypotes? Är detta en osannolik händelse?

Osannolik händelse Exempelvis så kan man välja att definiera en ”osannolik händelse” som en händelse som bara inträffar 5 gånger av 100 om hypotesen är sann. I statistiska termer kallas det att för att man har valt signifikansnivån (α)till 0,05 ( Vanliga signifikansnivåer är 0.05, 0.01, 0.10)

Statistikprogrammen (Excel, SPSS, Minitab…) beräknar ett s k p-värde för testet. P-värdet uttrycker sannolikheten att observera vårt värde eller ett extremare förutsatt att hypotesen är sann. Vi förkastar hypotesen om p-värdet är mindre än 0.05 (om signifikansnivå är 0,05).

I vårt exempel så tolkar man p-värdet så här: p-värde = Sannolikheten att χ obs 2 = 4.64 eller ännu större än 4.64 (om nollhypotesen är sann) = Det är alltså 20% chans att få det resultat som vi fått om alla kaffesorter är lika populära. Det är inte så osannolikt…

När vi testade hypotesen: Alla kaffesorterna är lika populära. så erhöll vi ett p-värde på 0.20 vilket är större än Detta gör att vi inte kan förkasta hypotesen. OBS! Vi har därmed inte bevisat att den är sann!

Två typer av fel -Typ I fel: Förkasta nollhypotesen när den är sann. -Typ II fel: Att inte förkasta nollhypotesen när den är falsk.

Teststatistika Inom statistisk hypotesprövning uttrycker vi utsagorna i form av värdet på en s k teststatistika. Värdet på teststatistikan räknar man ut med hjälp av sitt stickprov. Det varierar alltså från stickprov till stickprov.

Utifrån vår hypotes och sannolikhetsteorin kan vi säga vad värdet på teststatistikan troligtvis kommer att bli då hypotesen är sann. Sedan drar vi ett stickprov och räknar ut värdet på teststatistikan.Får vi ett osannolikt värde förkastar vi hypotesen. I exemplet ovan var χ obs 2 teststatistika.

29 p-värdet Ett p-värde är sannolikheten att, om nollhypotesen är sann, få ett minst lika ”extremt” värde på teststatistikan som det vi faktiskt fått. Om p-värdet är litet har jag antingen sett något som är osannolikt eller också är nollhypotesen falsk. Om p-värdet tillräckligt litet (< 0.05 eller <0.01) förkastas nollhypotesen.

Hypotesprövning: Steg för steg Ange nollhypotes Ange mothypotes (det vi vill visa) Ange signifikansnivå α: 0.05, 0.01, (Hur säkra vill vi vara?) Utför testet och beräkna p-värdet. Dra slutsats genom att jämföra p-värde och signifikansnivån (α). - Förkasta nollhypotesen (p-värdet < α ) - Förkasta ej nollhypotesen (p-värdet ≥ α )

Forts. exempel frukostvanor: Nollhypotes: Andelen personer som inte äter frukost är lika oavsett om man är man eller kvinna. (inget samband kön/frukost) Mothypotes: Andelen personer som inte äter frukost är olika för män ock kvinnor.

Äterfrukost JANEJ Kön Kvinna5010 Man2515 Observerad tabell:

Äterfrukost JANEJ Kön Kvinna60 Man Förväntad tabell: χ obs 2 =

Om nollhypotesen är sann borde χ obs 2 vara nära 0. Är 5.56 så långt ifrån 0 att vi kan förkasta nollhypotesen? Vi jämför vårt erhållna p-värde med signifikansnivån vi har satt upp. Här väljer vi signifikansnivån α= 0,05. Observerat p-värde: Slutsats?

Eftersom p-värdet = 0,018 är mindre än 0.05(=α) så kan vi förkasta hypotesen. Dvs det är statistiskt säkerställt att det är skillnad mellan andelen som äter frukost bland kvinnor och män. Eller det finns en signifikant skillnad mellan andelen som äter frukost bland kvinnor och män.

Hitintills har vi tittat på en korstabell där varje variabel bara har två värden (JA/NEJ). Man kan använda Chi2 test även där variablerna kan ha flera värden. I dator- övningen kommer ni att titta på: Hur skulle ni formulera nollhypotesen och mothypotesen här?

Exempel: Finns det samband mellan lön och kön? Kön Lön MänKvinnor Totalt80

Tabellen indikerar lönediskriminering, men tabellen tar ej hänsyn till den bakomliggande variabeln utbildning. Gör en trevägsindelad tabell för variablerna! Kön Lön Utbildning

Finns det samband mellan lön och kön? HögutbildadLågutbildad Lön MänKvinnorMänKvinnor (22%)2(20%)30(86%)58(83%) (44%)5(50%)5(14%)10(14%) (33%)3(30%)0(0%)2(3%) Totalt 45(100%)10(100%)35(100%)80(100%)

population Population Stickprov, urval INFERENS = Dra slutsatser från data om hela populationen utifrån ett stickprov Data, observationer

När det gäller analysen av era enkäter måste ni fundera på: –Vilka tabeller och diagram som ska användas –Vilka central och spridningsmått som ska användas. –Vilka samband som ska presenteras –Vilka test ska göras –Hur resultatet skall redovisas

Lycka till!