INFERENS OCH SAMBAND. Vi vill undersöka om det finns ett samband mellan tentamensresultat och genomsnittligt antal timmar/dag man studerat. Person ABCDEFGHIJ.

Slides:



Advertisements
Liknande presentationer
Punkt- och intervallskattning Felmarginal
Advertisements

Bedömning av uppfyllelse av miljökvalitetsnormer
Ett stickprov kvantitativa data: t-test
Inferens om en population Sid
Hej hypotestest!. Bakgrund  Signifikansanalys  Signifikansprövning  Signifikanstest  Hypotesprövning  Hypotestest Kärt barn har många namn Inblandade:
FL4 732G70 Statistik A Detta är en generell mall för att göra PowerPoint presentationer enligt LiUs grafiska profil. Du skriver in din rubrik,
Samband mellan kvalitativa variabler Sid
1 Exempel Man drar ett OSU om medlemmar ur en stor politiskt oberoende organisation, och frågar dels om kön, dels om politisk tillhörighet (vänster eller.
FL8 732G70 Statistik A Detta är en generell mall för att göra PowerPoint presentationer enligt LiUs grafiska profil. Du skriver in din rubrik,
732G22 Grunder i statistisk metodik
FL9 732G70 Statistik A Detta är en generell mall för att göra PowerPoint presentationer enligt LiUs grafiska profil. Du skriver in din rubrik,
Jämförelse av två populationer Sid
732G22 Grunder i statistisk metodik
F11 Olika urvalsmetoder, speciellt obundet slumpmässigt urval (OSU)
Workshop i statistik för medicinska bibliotekarier!
Tillämpad statistik Naprapathögskolan
Skattningens medelfel
Förelasning 6 Hypotesprövning
Föreläsning 81 Sampling och urval Ofta möter vi påståenden av typen “4.5 miljoner svenskar såg VM-finalen i fotboll”, “en svensk tolvåring väger i genomsnitt.
En mycket vanlig frågeställning gäller om två storheter har ett samband eller inte, många gånger är det helt klart: y x För en mätserie som denna är det.
Fysikexperiment 5p Föreläsning Korrelationer Ett effektivt sätt att beskriva sambandet mellan två variabler (ett observationspar) är i.
FL7 732G70 Statistik A Detta är en generell mall för att göra PowerPoint presentationer enligt LiUs grafiska profil. Du skriver in din rubrik,
Egenskaper för punktskattning
Föreläsning 7 Fysikexperiment 5p Poissonfördelningen Poissonfördelningen är en sannolikhetsfördelning för diskreta variabler som är mycket.
Linjär regression föreläsning 9
Normalfördelningen och centrala gränsvärdessatsen
F8 Hypotesprövning. Begrepp
F8 Hypotesprövning. Begrepp
Forskningsmetodik Sampling och urval Hypotesprövning Lektion 9
Statistik Lars Valter Fil.lic. Statistik
Några allmänna räkneregler för sannolikheter
732G22 Grunder i statistisk metodik
1 Fler uträkningar med normalfördelningstabell Låt X vara Nf(170,5). Beräkna Lösning:
Statistiska samband i trafikolyckor Av: Lina Forsberg Hangjin Lee Daniel Leo Carl-Mikael Westman.
Lite repetition och SAMBAND & INFERENS. population Population Stickprov, urval INFERENS = Dra slutsatser från data om hela populationen utifrån ett stickprov.
Kostvetenskapliga Metoder 1. VAD ÄR STATISTIK? 2. DESKRIPTION 3. NORMALFÖRDELNING 4. HYPOTESPRÖVNING a) t-test b) ickeparametriska test c) chitvåtest.
SAMBAND. Vi vill undersöka om det finns ett samband mellan tentamensresultat och genomsnittligt antal timmar/dag man studerat. Person ABCDEFGHIJ Timmar/
Lite repetition och SAMBAND & INFERENS. population Population Stickprov, urval INFERENS = Dra slutsatser från data om hela populationen utifrån ett stickprov.
Samband och förändring. Delen i procent Finns två metoder. Antingen räknar man först 1 % (genom att dividera med 100) och multiplicerar till den procenten.
Medicinsk statistik II Läkarprogrammet T5 HT 2013 Susann Ullén FoU-centrum Skåne Skånes Universitetssjukhus.
  2 f ( 2 ) Chi-Square Distribution: df=10, df=30, df=50 df = 10 df = 30 df = 50 Chi-2-fördelningen.
Modell för konsumtionen i Sverige Från Baudins kompendium.
Vetenskaplig metod Statistik 1. VAD ÄR STATISTIK? 2. DESKRIPTION 3. URVAL 4. STATISTISK INFERENS OCH HYPOTESPRÖVNING a) t-test b) ickeparametriska test.
Föreläsning 7 (Kajsa Fröjd) Korstabeller och Chi-tvåtest Kap 2.5, Man har två kvalitativa variabler som man vill gemensamt undersöka. 1.
Statistisk hypotesprövning. Test av hypoteser Ofta när man gör undersökningar så vill man ha svar på olika frågor (s.k. hypoteser). T.ex. Stämmer en spelares.
Vad är Statistik? Inom statistik teorin studeras -Hur vi samlar in data. -Hur data analyseras och vilka slutsatser som kan dras från data. -Hur insamlad.
Kostvetenskapliga Metoder 1. VAD ÄR STATISTIK? 2. DESKRIPTION 3. URVAL 4. STATISTISK INFERENS OCH HYPOTESPRÖVNING a) t-test b) ickeparametriska test c)
UTVÄRDERING OCH KVALITET Metod för utvärderingen viktig för utvärderingens status. En utvärdering utifrån ett vetenskapligt arbetssätt ger andra möjlighet.
Samband mellan kvalitativa variabler Korstabeller Moore kapitel 2.5 och kapitel 9.
Statistisk inferensteori. Inledning Den statistiska inferensteorin handlar i huvudsak om att dra slutsatser från ett slumpmässigt urval (sannolikhetsurval)
En sak i taget 1. Mata in data 2. Förbered data för beräkningar 3. Beräkna 1. Börja med att testa din hypotes 2. Därefter titta på ev bakomliggande faktorer.
Kvantitativa forskningsmetoder Sociologi A VT 2015 Ilkka Henrik Mäkinen (momentansvarig)
Samband & Inferens Konfidensintervall Statistisk hypotesprövning –Hypotetisk –deduktiv metod Samband mellan nominal/ordinal-variabler –Chi2-test Samband.
Hypotesprövning. Statistisk hypotesprövning och hypotetisk-deduktiv metod Hypotetisk-deduktiv metod: –Hypotes: Alla svanar är vita. –Empirisk konsekvens:
1 Multipel Regression Kapitel Modell Vi har p oberoende variabler som vi tänker oss kan vara relaterade till den beroende variabeln. Y ~ N( , 
Idag: Repetition av Chi2-test Kap 6*, Kodning av svaren Kap 10*, Olika feltyper Kap 12*, Rapportskrivning *Dahmström.
Föreläsning 7 (Kajsa Fröjd) Korstabeller och Chi-tvåtest Kap 2.5, Två/flera populationer och en kvalitativ variabel (”The first model” i Moore)
Korstabeller och logistisk regression Samband mellan kvalitativa variabler.
Samband & Inferens Konfidensintervall Statistisk hypotesprövning –Hypotetisk –deduktiv metod Samband mellan nominal/ordinal-variabler –Chi2-test Samband.
Sannolikhet och statistik Tabell Används för att ge en bra överblick av svaren man fått in, datan. Består av rader och kolumner. Frekvens Är hur många.
Samband & Inferens Konfidensintervall Statistisk hypotesprövning
INFERENS & SAMBAND. population Population Stickprov, urval INFERENS = Dra slutsatser om hela populationen utifrån ett stickprov Data, observationer.
1 UNDERSÖKNINGSMETODIK Ett gemensamt syfte för alla undersökningar är att få ökad kunskap om ett visst problemområde Statistiska undersökningar kan vara.
INFERENS & SAMBAND. population Population Stickprov, urval INFERENS = Dra slutsatser från data om hela populationen utifrån ett stickprov Data, observationer.
Samband & Inferens Hypotetisk –deduktiv metod Samband mellan nominal/ordinal-variabler –Chi2-test Samband mellan kvot-varibaler –Korrelationskoefficient.
Enkel Linjär Regression. 1 Introduktion Vi undersöker relationer mellan variabler via en matematisk ekvation. Motivet för att använda denna teknik är:
STATISTISK METODIK 1. INLEDNING / VAD ÄR STATISTIK? 2. UNDERSÖKNINGSMETODIK 3. DESKRIPTION 4. SAMBAND.
Marknadsundersökning Kap 12
Relation mellan variabler – samvariation, korrelation, regression
Grundläggande begrepp
Presentationens avskrift:

INFERENS OCH SAMBAND

Vi vill undersöka om det finns ett samband mellan tentamensresultat och genomsnittligt antal timmar/dag man studerat. Person ABCDEFGHIJ Timmar/ Dag Resultat

Samband mellan timmar per vecka och tentamensresultat

Spridningsdiagram (Scatterplot) Ett spridningsdiagram är en grafisk beskrivning av samband mellan två variabler där varje punkt representerar en individ/enhet Lodrät axel (y-axeln) - beroende variabel Vågrät axel (x-axeln) - förklarande variabel

Korrelationskoefficienten Korrelationskoefficienten r är ett mått på linjärt samband mellan två kvantitativa variabler. Korrelationskoefficienten kan anta värden mellan –1 och +1. Observera att r är ett mått på linjärt samband. Även om r = 0 kan det finnas ett samband mellan x och y som ej är linjärt. Korrelationen mellan antal timmar per vecka och tentamensresultat i vårt exempel är 0,92.

Exempel En studie har gjorts för att undersöka om det finns ett samband mellan socialbidrag och alkholmissbruk. 400 personer deltog i studien. Följande resultat erhölls: Socialbidrag JANEJ Alkohol missbruk JA5040 NEJ Totalt200

Finns det samband mellan alkoholmissbruk och socialbidrag? Socialbidrag JANEJ Alkohol missbruk JA50/200= (25%) 40/200= (20%) NEJ 150 (75%) 180 (80%) Totalt200

Test av samband mellan två kvalitativa variabler Vi kan använda ett Chitvå-test när vi vill ta reda på om två variabler är oberoende av varandra. Vi vill testa: Hypotes: Andelen personer med alkoholmissbruk är lika om man har socialbidrag eller inte.

Test av hypoteser Ofta när man gör undersökningar så vill ha svar på olika frågor (hypoteser). Är andelen personer med alkoholmissbruk lika om man har socialbidrag eller inte? Är alla kaffesorter lika populära? Finns det någon skillnad mellan män och kvinnor när det gäller val av yrke? Har män högre lön än kvinnor?

HYPOTETISK-DEDUKTIV METOD HypotesUtsaga Observation Tankevärld Verklighet Försöker förutsäga vad som kommer att hända om hypotesen stämmer 2 ” Dialog med verkligheten” Deduktion - logiskt giltigt argument (Prediktiv inferens) Induktion (Induktiv inferens)

Logiskt giltiga slutsatser (exempel) Giltig Inte Giltig Hypotes: Det regnar. Utsaga: Om det regnar blir det blött på marken. Observation: Det är inte blött på marken. Slutsats: Det regnar inte. Hypotes: Det regnar. Utsaga: Om det regnar blir det blött på marken. Observation: Det är blött på marken. Slutsats: Det regnar. Ej giltig slutsats. Det kan vara blött på marken p g a andra orsaker.

Logiskt giltiga slutsatser (exempel) Giltig Inte Giltig Hypotes: Alla människor har 10 fingrar. Utsaga: Alla människor som jag träffar har 10 fingrar. Observation: Jag träffar en person som pga en olycka bara har 9 fingrar. Slutsats: Inte alla människor har 10 fingrar. Hypotes: Alla människor har 10 fingrar. Utsaga: Alla människor som jag träffar har 10 fingrar. Observation: Jag träffar 240 personer som alla har 10 fingrar. Slutsats: Alla människor har 10 fingrar. Ej giltig slutsats. Trots att jag inte (hittills) har träffat någon med fler eller färre fingrar betyder inte det att sådana personer inte existerar.

Motsägelsebevis Inom statistisk prövning söker vi inte direkta motsägelser i form av ”omöjliga händelser” för att förkasta hypoteser (t ex en torr mark är en omöjlig händelse vid regn, d v s om marken är torr förkastas hypotesen ”Det regnar.”) utan motsägelser i form av ”osannolika händelser”.

Osannolik händelse Antag att vi misstänker att andelen personer med alkoholmissbruk är olika för de med socialbidrag och de som inte har socialbidrag och att vi vill testa denna hypotes. Nollhypotes: Andelen personer med alkoholmissbruk är lika om man har socialbidrag eller inte (inget samband) Utsaga: Om andelen personer med alkoholmissbruk är lika om man har socialbidrag eller inte så finns ingen eller endast en liten skillnad i en urvalsundersökning i andelen alkoholmissbrukare i de två grupperna. Om hypotesen är sann så är det en osannolik händelse att i en urvalsundersökning att observera en stor skillnad i andelen alkoholmissbrukare i de två grupperna.

Exempel Vid en marknadsundersökning av fyra kaffesorter deltog 100 personer. Var och en fick provsmaka de fyra märkena i ett blindtest och säga vilken av sorterna de tycket var godast. Resultatet av testet blev följande: Sort:EllipsGexusLuberLöflia Antal pers

Tyder försöksresultatet på att någon eller några sorter är populärare än andra, eller är alla likvärdiga? I statistiska termer kan vi formulera problemet så här: Nollhypotes: Alla kaffesorter är lika populära Mothypotes: Alla kaffesorter är inte lika populära

Om nollhypotesen är sann borde vi förvänta oss följande utfall av försöket: Kan vi uttala oss om huruvida nollhypotesen är sann eller ej? Sort:EllipsGexusLuberLöflia Antal pers

Ett sätt att mäta hur mycket den observerade tabellen avviker från den förväntade tabellen är genom att titta på skillnaderna:

Problem dock att avvikelsen mellan 10 och 20 är relativt större än mellan och Hur ska vi ta hänsyn till det? Dela med förväntade värdet och bilda en teststatistika :

Om vår nollhypotes är sann borde vara nära 0. Fråga:Är 4.64 så långt i från 0 att vi kan förkasta vår hypotes? Är detta en osannolik händelse?

Osannolik händelse Exempelvis så kan man välja att definiera en ”osannolik händelse” som en händelse som bara inträffar 5 gånger av 100 om hypotesen är sann. I statistiska termer kallas det att för att man har valt signifikansnivån till 0,05 ( Vanliga signifikansnivåer är 0.05, 0.01, 0.10)

Statistikprogrammen (Excel, SPSS, Minitab…) beräknar ett s k P-värde för testet. P-värdet uttrycker sannolikheten att observera vårt värde eller ett extremare förutsatt att hypotesen är sann. Vi förkastar hypotesen om P-värdet är mindre än 0.05 (om signifikansnivå är 0,05).

I vårt exempel så tolkar man p-värdet så här: P-värde = Sannolikheten att = 4.64 eller ännu större än 4.64 (om nollhypotesen är sann) = Det är alltså 20% chans att få det resultat som vi fått om alla kaffesorter är lika populära. Det är inte så osannolikt…

När vi testade hypotesen: Alla kaffesorterna är lika populära. så erhöll vi ett p-värde på 0.20 vilket är större än Detta gör att vi inte kan förkasta hypotesen. OBS! Vi har inte bevisat att den är sann!

Teststatistika Inom statistisk hypotesprövning uttrycker vi utsagorna i form av värdet på en s k teststatistika. Värdet på teststatistikan räknar man ut med hjälp av sitt stickprov. Det varierar alltså från stickprov till stickprov.

Utifrån vår hypotes och sannolikhetsteorin kan vi säga vad värdet på teststatistikan troligtvis kommer att bli då hypotesen är sann. Sedan drar vi ett stickprov och räknar ut värdet på teststatistikan. Får vi ett osannolikt värde förkastar vi hypotesen. I exemplet ovan var teststatistika.

31 P-VÄRDET Ett p-värde är sannolikheten att, om nollhypotesen är sann, få ett minst lika ”extremt” värde på teststatistikan som det vi faktiskt fått. Om p-värdet är litet har jag antingen sett något som är osannolikt eller också är hypotesen falsk. Om p-värdet tillräckligt litet (< 0.05 eller <0.01) förkastas nollhypotesen.

Vi vill testa: Nollhypotes: Andelen personer med alkoholmissbruk är lika för de som har socialbidrag och de som inte har socialbidrag. (inget samband) Mothypotes: Andelen personer med alkoholmissbruk är olika för de med socialbidrag och de som inte har socialbidrag.

Socialbidrag JANEJ Alkohol missbruk JA5040 NEJ Totalt200

FörväntadSocialbidrag tabellJANEJ Alkohol missbruk JA90*200/400 =45 90*200/400 =45 NEJ 310*200/400 = *200/400 =155 Vi räknar ut de förväntade värdena om nollhypotesen är sann och gör ett Chi-två test:

Vi jämför den observerade tabellen med den förväntade. Om tabellerna skiljer sig mycket från varandra så förkastar vi nollhypotesen. Då tror vi att det finns något samband.

Om nollhypotesen är sann borde vara nära 0. Är 1.43 så långt ifrån 0 att vi kan förkasta nollhypotesen? Vi jämför vårt erhållna p-värde med signifikansnivån vi har satt upp. Observerat p-värde: 0,23 Slutsats?

Antag att vårt data hade sett ut så här med 385 personer: Observerad tabell: Förväntad tabell: Socialbidrag JANEJ Alkohol missbruk JA5025 NEJ Tot Socialbidrag JANEJ Alkohol missbruk JA NEJ

Om nollhypotesen är sann borde vara nära 0. Är 8.08 så långt ifrån 0 att vi kan förkasta nollhypotesen? Vi jämför vårt erhållna p-värde med signifikansnivån vi har satt upp. Observerat p-värde: 0,004 Slutsats?

Eftersom p-värdet = 0,004 < 0.05 så kan vi förkasta hypotesen. Dvs det är statistiskt säkerställt att det är skillnad mellan andelen alkoholmissbrukare för de med socialbidrag och de som inte har socialbidrag. Eller det finns en signifikant skillnad mellan andelen alkohol-missbrukare för de med socialbidrag och de som inte har socialbidrag..

Hypotesprövning: Steg för steg Ange nollhypotes Ange mothypotes (det vi vill visa) Ange signifikansnivå α: 0.05, 0.01, (Hur säkra vill vi vara?) Utför testet och beräkna p-värdet. Dra slutsats genom att jämföra p-värde och signifikansnivån (α). - Förkasta nollhypotesen (p-värdet < α ) - Förkasta ej nollhypotesen (p-värdet ≥ α )

Finns det samband mellan lön och kön? Kön Lön MänKvinnor Totalt80

Tabellen indikerar lönediskriminering, men tabellen tar ej hänsyn till den bakomliggande variabeln utbildning. Gör en trevägsindelad tabell för variablerna! Kön Lön Utbildning

Finns det samband mellan lön och kön? HögutbildadLågutbildad Lön MänKvinnorMänKvinnor (22%)2(20%)30(86%)58(83%) (44%)5(50%)5(14%)10(14%) (33%)3(30%)0(0%)2(3%) Totalt 45(100%)10(100%)35(100%)80(100%)

Fler män är högutbildade därför bättre löner. Vi har bland högutbildade samma fördelning Vi har bland lågutbildade samma fördelning

Hitintills har vi tittat på en korstabell där varje variabel bara har två värden (JA/NEJ). Man kan använda Chi2 test även där variablerna kan ha flera värden. I dataövningen kommer ni att titta på: Hur skulle ni formulera nollhypotesen och mothypotesen här?

Två typer av fel -Typ I fel: Förkasta nollhypotesen när den är sann. -Typ II fel: Att inte förkasta nollhypotesen när den är falsk.

Punktskattning och konfidensintervall Antag att vi, med hjälp av ett stickprov bestående av n=3000 individer, vill skatta andelen i populationen som skulle rösta på socialdemokraterna om det vore val idag. Antag att 1200 av 3000 svarar att de skulle rösta på socialdemokraterna. Vi kan då skatta andelen i populationen med 1200/3000=0.4. Hur bra är denna skattning ?

Det är svårt att ”träffa mitt i prick” och därför används konfidensintervall, dvs. ett intervall som täcker det sanna värdet i populationen med en viss säkerhet (95%, 99% ).

Åter till exemplet: Vi såg att stickprovproportionen blev 0.40, dvs Ett 95%-igt konfidensintervall blir då

Den statistiska felmarginalen är då 1.8 procentenheter. Vi kan vara ganska säkra på att andelen i populationen ligger mellan 38.2 % och 41.8 %, eftersom vi använt en metod som, i det långa loppet, ger oss rätt i 95 % av fallen.

Lite repetition… Population: Grupp av individer vi vill undersöka. Urvalsundersökning: En delmängd av populationen väljs ut och undersöks. Om slumpmässigt urval kan och vill vi generalisera till populationen!

Analys Beskrivande statistik –Tabeller –Diagram –Beskrivande mått VIKTIG!!!!! Inferens –Punktskattning –Konfidensintervall –Test

När det gäller analysen av era enkäter måste ni fundera på: –Vilka tabeller och diagram som ska användas –Vilka central och spridningsmått som ska användas. –Vilka samband som ska presenteras –Vilka test ska göras –Hur resultatet skall redovisas

Lycka till!