Icke parametriska metoder – Föreläsningsanteckningar till: F14 icke parametriska metoder F15 icke parametriska metoder Icke parametriska metoder – för variabler mätta på nominal- eller ordinalskala Föreläsningarna baseras på kapitel 15 och 16 i Lind et all. (17 och 18 i upplaga 15) Samt ”Att välja statistisk metod”
För att göra hypotestest på medelvärde måste variablerna vara mätta på kvotskala. För att använda OLS måste den beroende variabeln vara mätt på kvotskala, de oberoende måste antingen vara mätta på kvotskala eller göras om till dummyvariabler. På de här båda föreläsningarna ska vi gå igenom metoder som fungerar även på nominal och ordinalskala. Vissa av de här metoderna kan i vissa fall vara lämpliga även när vi har kvotskala.
Analys av variabler mätta på nominalskala. Om vår variabel är mätt på nominalskala kan vi beräkna andelen som har en visst utfall på variabeln och göra hypotestest på andel. Vill vi använda hela frekvensfördelningen, dvs fördelningen över alla möjliga utfall på variabeln använder vi Chi2 analys.
Test av andelar Hypotestest avseende andelen i en population som har en viss egenskap. Andelen i urvalet Andelen enligt vår hypotes urvalsstorleken
Connect 21 page 359 I urvalet var andelen större än 70 %. Men innebär det att vi kan förkasta H0? Dvs är andelen större än 70 % även i populationen?
Connect 21 page 359 I urvalet var andelen större än 70 %. Men innebär det att vi kan förkasta H0? Dvs är andelen större än 70 % även i populationen? Vi förkastar H0 om z är större än 1,645 Vi kan inte förkasta H0 på 5 % nivån. Därmed kan vi inte dra några slutsatser.
Test av andelar från olika populationer Teststatistikan beräknas enligt: Där: p1 respektive p2 är andelarna från respektive urval och pc den poolade andelen. X1 respektive X2 är antalet från respektive urval som har egenskapen.
Test av andelar från olika populationer - exempel Manelli Perfume Company recently developed a new fragrance that it plans to market under the name Heavenly. A number of market studies indicate that Heavenly has very good market potential. The Sales Department at Manelli is particularly interested in whether there is a difference in the proportions of younger and older women who would purchase Heavenly if it were marketed. Samples are collected from each of these independent groups. Each sampled woman was asked to smell Heavenly and indicate whether she likes the fragrance well enough to purchase a bottle.
Test av andelar från olika populationer - exempel Steg 1: Sätt upp nollhypotes och mothypotes. (nyckelord: “there is a difference”) H0: 1 = 2 H1: 1 ≠ 2 Steg 2: Välj signifikansnivå. 0.05 anges i uppgiften Steg 3: Välj lämplig teststatistika
Test av andelar från olika populationer - exempel Step 4: Formulera beslutsregel. Hitta det kritiska värdet
Test av andelar från olika populationer - exempel Step 4: Formulera beslutsregel. Förkasta H0 om Z > 1.96 eller Z < -1.96
Test av andelar från olika populationer - exempel Steg 5: Välj slumpmässigt ett urval från varje population, beräkna andelarna och fatta ett belut Låt p1 = andel bland unga kvinnor p2 = andel bland äldre kvinnor Vi förkastar nollhypotesen. Vi kan dra slutsatsen att mothypotesen är sann. Andelen som skulle köpa heavenly är inte lika stor bland unga kvinnor som bland äldre kvinnor.
Vad är p-värdet i det här exemplet? p-värdet är sannolikheten att få det här värdet på teststatistikan eller ett värde som avviker ännu mer från noll. Dvs 𝑃 𝑧 < −2,21 𝑒𝑙𝑙𝑒𝑟 𝑧 > 2,21 = 2 ∙ 𝑃 𝑧 > 2,21 = 2 ∙ 0,5−𝑃 0<𝑧< 2,21
Vad är p-värdet i det här exemplet? p-värdet är sannolikheten att få det här värdet på teststatistikan eller ett värde som avviker ännu mer från noll om nollhypotesen är sann Dvs 𝑃 𝑧 < −2,21 𝑒𝑙𝑙𝑒𝑟 𝑧 > 2,21 = 2 ∙ 𝑃 𝑧 > 2,21 = 2 ∙ 0,5−𝑃 0<𝑧< 2,21 =2∙ 0,5−0,4864 =2∙0,0136=0,0272 Om p-värdet är lägre än signifikansnivån kan nollhypotesen förkastas. 𝑝-värdet är 0,027
Hypotestestning i SPSS Test på andel: Kan vi bevisa att andelen restauranger som ligger i New Jersey inte är 75 %? 𝐻 0 :𝜋=0,75 𝐻 1 :𝜋≠0,75
Hypotestestning i SPSS Test på andelar: Analyze / Non-parametric tests / leacy dialog / Binomial Ange vilken variabel du vill testa Ange andelen enligt nollhypotesen
Observera att detta p-värde är för enkelsidigt test Observera att detta p-värde är för enkelsidigt test. Eftersom vi hade en dubbelsidig test får vi dubblera p-värdet. Det blir alltså 0,016. Vi kan avslå nollhypotesen på 5 % signifikansnivå. Vi drar slutsatsen att andelen inte är 0,75
Chi 2 test Vi kommer att använda Chi 2 test för två syften. Testa om en fördelning för en kvalitativ variabel följer en förväntad fördelning eller skiljer sig från den. Testa om två variabler mätta på nominalskala är oberoende eller ej.
Egenskaper hos Chi 2 fördelningen positivt snedfördelad. Icke negativ. Utseendet beror av antalet frihetsgrader.
Chi 2 test: Att jämföra en fördelning med en förväntad fördelning 𝑓 0 : observerad frekvens 𝑓 𝑒 : förväntad frekvens Hypoteser H0: Det är ingen skillnad mellan den observerade och den förväntade frekvensen. H1: Det är skillnad mellan den observerade och den förväntade frekvensen.
Exempel på sidan 550 ( 655 i upplaga 15) Erfarenhet av sjukhusvistelse på nationell nivå: 0 gång per år 40 % 1 gång per år 30 % 2 gång per år 20 % 3 eller fler 10 % Erfarenhet av sjukhusvistelse på lokal nivå: Urval av 150 personer: 0 55 1 50 2 32 3 13
Formulera hypoteser H0: Det är ingen skillnad mellan den lokala och den nationella frekvensen av sjukhusbesök. H1: Det är skillnad mellan den lokala och den nationella frekvensen av sjukhusbesök. Välj signifikansnivå 0.05 som angavs i uppgiften.
Teststatistikan är: Det kritiska värdet är chi2 fördelat med k-1 frihetsgrader, där k är antalet kategorier. I det här fallet har vi alltså tre frihetsgrader.
Hitta det kritiska värdet ur rätt tabell 3 frihetsgrader. Signifikans = 5%
Beräkning av förväntade frekvenser Förväntade frekvenser i urvalet om fördelningen lika med den förväntade Nationell fördelning Frekvenser observerade i urvalet Beräkning av fe 0.40 X 150 = 60 0.30 X 150 = 45 0.30 X 150 = 30 0.10 X 150= 15 .
Beräkna värdet på teststatistikan Beräknad χ2
1.3723 Det beräknade χ2på1.3723 är lägre än det kritiska värdet. Vi kan inte förkasta nollhypotesen. Skillnaderna mot den förväntade frekvenserna kan vara ren slump. Vi kan inte dra några slutsatser om skillnader i erfarenhet av sjukhusvård.
Lind, Övning 17 sid 549 (övn. 5 sid 654 upplaga 15) Är tärningen schysst? 𝑓0−𝑓𝑒 𝟐 𝑓𝑒 0.8 0.2 1.8 3.2 7.6 f0 fe 1 3 5 2 6 4 9 7 total 30 𝑓0−𝑓𝑒 -2 1 -3 4 2
Hitta det kritiska värdet i tabellen 5 frihetsgrader Sign = 10 % Vi kan inte förkasta H0 Detta är ett ganska sannolikt utfall även om tärningen är schysst.
Men anta att vi kastar tärningen tre hundra gånger och får samma relativa fördelning. 𝑓0−𝑓𝑒 𝟐 𝑓𝑒 8 2 18 32 76 f0 fe 1 30 50 2 60 3 20 4 5 90 6 70 total 300 𝑓0−𝑓𝑒 -20 10 -30 40 20
Hitta det kritiska värdet i tabellen 5 frihetsgrader Sign = 10 % Vi kan förkasta H0. Om detta mönster upprepar sig så här många gånger kan vi vara ganska säkra på att tärningen är felaktig.
Att använda chi 2 för att testa om två kvalitativa variabler är oberoende eller inte. I vår skola var valet av slöjdform och kön beroende variabler. Variablerna var beroende därför att den betingade sannolikheten för val av slöjdform berodde på kön (och tvärt om). Men om det istället hade varit ett urval ur en större population hade vi då kunnat dra slutsatsen att dessa variabler är beroende även i hela populationen?
Korstabeller, relativ frekvenser Kolumnsummorna ger den obetingade sannolikheten för de olika slöjdvalen. Genom att dividera varje cell med radsumman får vi de betingade sannolikheterna. Andel elever Kön Textil-slöjd Trä-slöjd Totalt Flickor 0,29 . 0,25 . 0,54 . Pojkar 0,21 . 0,46 . 0,50 . 1
Korstabeller, relativ frekvenser Om radsummorna är ett har vi de betingade sannolikheterna för slöjdval i de fyra mittersta rutorna. Andel elever Kön Textil-slöjd Trä-slöjd Totalt Flickor 0,53 . 0,47 . 1 . Pojkar 0,46 . 0,54 .
Korstabeller, relativ frekvenser Om kolumnsummorna är ett har vi de betingade sannolikheterna för kön i de fyra mittersta rutorna. Andel elever Kön Textil-slöjd Trä-slöjd Totalt Flickor 0,57 . 0,50 . Pojkar 0,43 . 1,00 .
Andel svenskar Kön Född på en söndag Ej född på en söndag Totalt Flickor 0,07 . 0,43 . 0,50 . Pojkar 0,14 , 0,86 , 1 ,
Andel svenskar Kön Född på en söndag Ej född på en söndag Totalt Flickor 0,14 . 0,86 . 1 . Pojkar
Andel svenskar Kön Född på en söndag Ej född på en söndag Totalt Flickor 0,50 . . Pojkar 1 ,
Antag att våra 140 elever vore ett urval från en betydligt större population. Låt oss testa om val av slöjdform och kön är beroende även i den stora populationen, med 5 % signifikansnivå. H0: Val av slöjdform och kön är oberoende variabler. H1: Val av slöjdform och kön är beroende variabler. Vi kan testa detta med chi2 om vi beräknar de förväntade frekvenserna i korstabellen givet att variablerna är oberoende Under H0 ges de förväntade frekvenserna av:
Förväntat antal elever Faktiskt antal elever Textilslöjd Träslöjd Totalt Flickor 40 . 35 . 75 . Pojkar 30 . 65 . 70 . 140 . Förväntat antal elever Textilslöjd Träslöjd Totalt Flickor 37.5 . 75 . Pojkar 32.5 . 65 . Total 70 . 140 .
Förväntat antal elever Förväntad relativ frekvens Under H0 är sannolikheten att välja träslöjd oberoende av kön. Förväntat antal elever Textilslöjd Träslöjd Totalt Flickor 37.5 . 75 . Pojkar 32.5 . 65 . Total 70 . 140 . Förväntad relativ frekvens Textilslöjd Träslöjd Totalt Flickor 0,5 . 1 . Pojkar Total
Vi har nu några observerade och några förväntade frekvenser så vi kan göra en chi 2 test. fe Flickor - textil 40 37.5 Flickor - trä 35 Pojkar - textil 30 32.5 Pojkar - trä totalt 140 f0 fe f0 - fe 𝑓 0 − 𝑓 𝑒 2 𝑓 𝑒 Flickor - textil 40 37.5 2.5 0.17 Flickor - trä 35 -2.5 Pojkar - textil 30 32.5 0.19 Pojkar - trä totalt 140 0.72 2,5 2 37,5
Vid chi 2 test på korstabeller beräknas frihetsgraderna som (𝑅−1) ∙(𝐾−1) Där R är antalet rader och K antalet kolumner. Frihetsgrader: 1 * 1 = 1 Signifikansnivå 5 % Eftersom 0,72 är mindre än 3,84 kan vi inte förkasta H0. Det kan hända att variablerna är oberoende i hela populationen.
Är variablerna lokalisering och kedjetillhörighet oberoende? Pennsylvania New Jersey
Pennsylvania New Jersey
Är variablerna lokalisering och kedjetillhörighet oberoende? Gör en hypotestest med 5 % signifikansnivå Korstabell med faktiska frekvenser New jersey Pennsylvania total Burger King 125 30 155 King Fried Chicken 65 12 77 Roy Roger 69 16 85 Wendys 41 15 56 300 73 373
H0: Lokalisering och kedjetillhörighet är oberoende variabler. H1: Lokalisering och kedjetillhörighet är beroende variabler. Förväntade frekvenser under H0 New jersey Pennsylvania total Burger King 124,7 30,3 155 King Fried Chicken 61,9 15,1 77 Roy Roger 68,4 16,6 85 Wendys 45,0 11,0 56 300 73 373 56∙300 373
f0 fe BK - NJ 125 124.7 BK - PENN 30 30.3 KFC - NJ 65 61.9 KFC - PENN 12 15.1 RR - NJ 69 68.4 RR - PENN 16 16.6 WENDYS - NJ 41 45.0 WENDYS - PENN 15 11.0 totalt 373 f0 fe f0 - fe 𝑓 0 − 𝑓 𝑒 2 𝑓 𝑒 BK - NJ 125 124.7 0.3 0.001 BK - PENN 30 30.3 -0.3 0.003 KFC - NJ 65 61.9 3.1 0.155 KFC - PENN 12 15.1 -3.1 0.636 RR - NJ 69 68.4 0.6 0.005 RR - PENN 16 16.6 -0.6 0.022 WENDYS - NJ 41 45.0 -4 0.356 WENDYS - PENN 15 11.0 4 1.455 totalt 373 2.632
Hitta det kritiska värdet Frihetsgrader: 3∙1 =3 Sign = 5%
7.815 Critical Value Det beräknade χ2på 2,632 är lägre än det kritiska värdet. Vi kan inte förkasta nollhypotesen. Skillnaderna mot den förväntade frekvenserna kan vara ren slump. Vi kan inte dra några slutsatser om huruvida variablerna är beroende eller ej.
Att använda chi 2 på korstabeller i SPSS Analyze/Descriptive statistics/Crosstabs
Att använda chi 2 på korstabeller i SPSS Klicka på statistics Bocka för Chi-square, klicka på continue.
f0 fe f0 - fe 𝑓 0 − 𝑓 𝑒 2 𝑓 𝑒 BK - NJ 125 124.7 0.3 0.001 BK - PENN 30 30.3 -0.3 0.003 KFC - NJ 65 61.9 3.1 0.155 KFC - PENN 12 15.1 -3.1 0.636 RR - NJ 69 68.4 0.6 0.005 RR - PENN 16 16.6 -0.6 0.022 WENDYS - NJ 41 45.0 -4 0.356 WENDYS - PENN 15 11.0 4 1.455 totalt 373 2.632
Att använda chi 2 på korstabeller i SPSS Klicka på cells Bocka för expected, klicka på continue.
Nu får vi inte bara de observerade frekvenserna utan även de förväntade under H0.
H0: Lokalisering och kedjetillhörighet är oberoende variabler. H1: Lokalisering och kedjetillhörighet är beroende variabler. Förväntade frekvenser under H0 New jersey Pennsylvania total Burger King 124,7 30,3 155 King Fried Chicken 61,9 15,1 77 Roy Roger 68,4 16,6 85 Wendys 45,0 11,0 56 300 73 373 56∙300 373
Begränsningar med Chi 2 test Chi 2 test kan bara användas om de förväntade frekvenserna inte är för små. Om vi har två celler måste varje frekvens vara minst 5. Om vi har mer än två celler ska vi inte använda Chi 2 om fler än 20 procent av dessa är lägre än 5.
Analys av ordinaldata - Teckentest Teckentest baseras på skillnaden mellan två relaterade observationer. Exempelvis samma person före och efter en behandling. H0 : Antalet personer som har högst värde på första variabeln är lika högt som antalet som har högst värde på andra variabeln. H1 : Antalet personer har högst värde på första variabeln avviker från de som har högst värde på andra variabeln. H0 : 𝜋=0,5 H1 : 𝜋≠0,5 Där 𝜋= andelen som har högst värde på första variabeln. Binomialfördelningen är teststatistika för små urval och standardiserade normalfördelningen, z , för stora urval.
Normal Approximation to the Binomial - Example Binomial distribution solution: P(X ≥ 60) = 0.063+0.048+ … + 0.001) = 0.197
Analys av ordinaldata - Teckentest Testets utförande Sätt ett tecken på varje par av observationer, + - eller = Räkna antalet användbara par, (alla + och – men ta bort observationerna med =.) Jämför antalet + eller - med kritiskt värde från binomialfördelningen (om 𝑛≤10) eller beräkna z värde (om 𝑛>10) . Vi fokuserar på urvalsstorlekar på 10 eller mer. Därmed kan vi använda z.
Teckentest med användande av normalfördelningen. Om urvalsstorleken är större än 10 kan vi använda normalfördelningen. Där X är antalet plus (eller minus) , μ är medelvärdet och σ standardavvikelsen för en binomialfördelning med π = 0,5. Dvs 𝜇=0.5∙𝑛 och 𝜎=0.5∙ 𝑛 Teckentest 𝑧= 𝑋±0.50 −0.50𝑛 0.50 𝑛 Där X är antalet plustecken eller minustecken i urvalet. (Använd plus om X är mindre än 50 % av urvalsstorleken, annars minus)
Samuelsons Chemicals vill utvärdera ett träningsprogram för databasanvändning. Ett urval av chefer får prova träningsprogrammet. Deras färdigheter i databasanvändning betygssätt både före och efter träningsprogrammet.
Utför ett hypotestest för att se om träningsprogrammet förbättrade färdigheterna i databashantering. Använd 10 procent signifikansnivå. Steg 1: Formulera hypoteserna: H0: π ≤ 0,5 (Ingen förbättring har skett till följd av programmet.) H1: π > 0,5 (Programmet har gett en förbättring.) Steg 2: Välj signifikansnivå: Här ska vi ha 0,10 Steg 3: Välj teststatistika: Z beräknad med formeln för teckentest. Steg 4: Formulera en beslutsregel Förkasta H0 om p värdet överstiger 0,10 Alternativt om z > 1,282
Steg 5: Beräkna teststatistikan: 𝑧= 11−0.50 −0.50∙14 0.50∙ 14 =1,87 Vi kan förkasta H0 eftersom z överstiger det kritiska värdet. Men vi kan också beräkna p värdet.
Steg 5: Beräkna teststatistikan: 𝑧= 11−0.50 −0.50∙14 0.50∙ 14 =1,87 Vi kan förkasta H0 eftersom z överstiger det kritiska värdet. Men vi kan också beräkna p värdet. p-värde = 0,5 – 0,4693 = 0,0307 Signifikant på 0,10 procents signifikansnivå eftersom p-värdet är mindre än 10 %. (Skulle varit signifikant även om vi valt 5% signifikansnivå)
𝑧= 11−0.50 −0.50∙14 0.50∙ 14 =1,87
Exampel 2 Avdelningen för marknadsundersökningar på Cola, Inc., ska undersöka preferenserna för två nyutvecklade läskedrycker A och B. Ett urval av 64 testpersoner fick provsmaka och säga vilken de tyckte var godast. 42 föredrog A medan 22 föredrog B. Använd en 5 procents signifikansnivå för att se om det finns en skillnad i preferenserna för de två smakerna.
Steg 1: Formulera hypoteserna: 𝐻0: 𝜋 = 0,5 (Lika många föredrar A som föredrar B). 𝐻1: 𝜋 ≠ 0,5 (Den ena varianten är mer populär). Steg 2: Välj signifikansnivå: Här ska vi ha 0,05 Steg 3: Välj teststatistika: 𝑧= 𝑋±0.50 −0.50𝑛 0.50 𝑛 Steg 4: Formulera en beslutsregel: Förkasta nollhypotesen om z större än 1,96 eller mindre än – 1,96 Steg 5: Beräkna testatistikans värde 𝑧= 42−0.50 −0.50∙64 0.50 64 = 2,38 Vi förkastar H0 eftersom 2,38 är större än 1,96 Den ena varianten är populärare.
Exercise 29 12 gillade Surgeon 7 gillade Critical Care 1 indifferent Signifikansnivå 10 % 𝑧= 12−0.5−0.5∙19 0.5 19 𝑧= 2 2.18 =0.918 Formulera Hypoteserna. H0: π = .50 Båda är lika populära. H1: π ≠ .50 Det finns en preferens för den ena. 𝑧= 𝑋±0.50 −0.50𝑛 0.50 𝑛
Exercise 29 12 gillade Surgeon 7 gillade Critical Care 1 indifferent Signifikansnivå 10 % 𝑧= 12−0.5−0.5∙19 0.5 19 𝑧= 2 2.18 =0.918 Formulera Hypoteserna. H0: π = .50 Båda är lika populära. H1: π ≠ .50 Det finns en preferens för den ena. 𝑧= 𝑋±0.50 −0.50𝑛 0.50 𝑛 Vi kan inte förkasta nollhypotesen eftersom 0,918 är mindre än 1,645
Exercise 29 12 gillade Surgeon 7 gillade Critical Care 1 indifferent Signifikansnivå 10 % 𝑧= 7+0.5−0.5∙19 0.5 19 𝑧= −2 2.18 =−0.918 Formulera Hypoteserna. H0: π = .50 Båda är lika populära. H1: π ≠ .50 Det finns en preferens för den ena. 𝑧= 𝑋±0.50 −0.50𝑛 0.50 𝑛 Vi kan inte förkasta nollhypotesen eftersom -0,918 är större än -1,645
Analys av ordinaldata – Wilcoxon teckenrangtest för beroende urval (Signed-Rank Test for dependent samples) En forskare vill undersöka om det går att lindra huvudvärk med hjälp av en ny behandling. Han drar ett slumpmässigt urval av 11 patienter som har sökt för problem med återkommande huvudvärk. Patienterna får ange sina huvudvärksproblem på en skala mellan 1 och 10, där 10 är stora problem och 1 små problem, före respektive efter en tioveckors behandling med den nya metoden. Gör en hypotestest för att se om vi kan bevisa att behandlingen har effekt på huvudvärk. Använd 5 % signifikansnivå. 𝐻 0 : Behandlingen har ingen effekt på huvudvärk. 𝐻 1 : Huvudvärken antingen förbättras eller försämras av behandlingen.
före efter Diff Absolut diff Rank R+ R- 8 5 3 2 6 4 Summa Först noterar vi poängen för de olika personerna före och efter behandlingen.
före efter Diff Absolut diff Rank R+ R- 8 5 3 - 2 1 6 4 -1 Summa Därefter beräknas differensen. De som är indifferenta tas bort från analysen.
Gör en kolumn med de absoluta differenserna före efter Diff Absolut diff Rank R+ R- 8 5 3 - 2 1 6 4 -1 Summa Gör en kolumn med de absoluta differenserna
Rangordna de absoluta differenserna före efter Diff Absolut diff Rank R+ R- 8 5 3 7,5 - 2 1 6 4 -1 9 Summa Rangordna de absoluta differenserna
före efter Diff Absolut diff Rank R+ R- 8 5 3 7,5 - 2 1 6 4 -1 9 Summa 36 Placera Rangtalen i två olika kolumner, en för de personer som angett förbättring, än för de som angett försämring.
Teststatistikan i ett dubbelsidigt Wilcoxons teckenrangtest är rangsumman i den kolumn som hade lägst rangsumma. Kritiskt värde erhålls från Wilcoxons T-values Nollhypotesen förkastas om den lägsta ranksumman är lägre än det kritiska värdet.
Teststatistikan i ett dubbelsidigt Wilcoxons teckenrangtest är rangsumman i den kolumn som hade lägst rangsumma. Kritiskt värde erhålls från Wilcoxons T-values Nollhypotesen förkastas om den lägsta ranksumman är lägre än det kritiska värdet. I vårt exempel är alltså teststatistikan = 9. Eftersom 9 är större än 5 kan vi inte förkasta nollhypotesen. Därmed kan vi inte dra några slutsatser.
Wilcoxon teckenrangtest och vanlig teckentest i SPSS Analyze / nonparametric test / legacy dialogs / 2 related samples Välj de variabler vi ska jämföra, i detta fall before and after. Kryssa i de test du vill ha, vi väljer Wilcoxon och sign.
Wilcoxon teckenrangtest och vanlig teckentest i SPSS Analyze / nonparametric test / legacy dialogs / 2 related samples
Wilcoxon teckenrangtest och vanlig teckentest i SPSS Analyze / nonparametric test / legacy dialogs / 2 related samples Teckentestet är svagare, vi utnyttjar ju inte differensernas storlek i teckentestet.
Jämförelse med t-test från beroende urval: Man skulle kunna tycka att vi även kunde ha använt t-test från beroende urval: Hypotestest från två beroende urval 𝑡= 𝑑 𝑠 𝑑 𝑛 Där 𝑑 är medelvärdet av differenserna mellan två observationer på samma element och 𝑠 𝑑 är differensernas standardavvikelse Men det testen kräver intervallskala och normalfördelning. I det här fallet hade vi endast ordinalskala och kan därför inte använda det vanliga t-testet.
Låt oss använda Wilcoxon teckenrangtest på exemplet husvärdering från sidan 365 i Lind (393 i upplaga 15). H0: Båda firmorna gör likartad värdering H1: Värderingarna skiljer sig åt Schadek Bowyer Diff Absolut diff Rank R+ R- 235 228 7 8 210 205 5 5,5 231 219 12 10 242 240 2 1 198 230 223 227 4 3,5 215 -5 225 222 3 249 245 Summa 45
Kritiskt värde 5% signifikans: 5 Värdet på teststatistikan var 5.5 På 5 % signifikansnivå kan vi förkasta nollhypotesen. På 1 % signifikansnivå kan vi inte förkasta nollhypotesen. P-värde ca 0.02
𝑡-testet på sidan 395 i lind hade ett p-värde på 0,009. 𝑡-testet är starkare eftersom vi utnyttjar mer information när vi använder siffrorna istället för rangtalen. Därför ger det ofta (men inte alltid) ett lägre 𝑝-värde
Jämförelse av t-test, teckenrangtest och teckentest när vi har beroende urval. 𝑡-test från beroende urval är ett starkare test än Wilcoxon teckenrangtest vilket i sin tur är starkare än det vanliga teckentestet. Om vi har intervall eller kvotskala använder vi därför 𝑡-test från beroende urval. Om vi har ordinalskala, dvs om vi inte kan mäta exakta avstånd mellan värden men kan rangordna avstånden, använder vi Wilcoxons teckenrangtest. (Vi kan använda Wilcoxon även på intervall och kvotskala om vi tror att populationerna inte är normalfördelade och vårt urval är väldigt litet.) Om vi inte ens kan rangordna intervallen, vi vet bara om ena alternativet är bättre eller sämre än det andra, inget om hur mycket bättre, är teckentest vårt enda alternativ.
Jämförelser av två oberoende urval vid ordinaldata: Wilcoxon rangsummetest för oberoende urval (kallas Mann/Whitney i SPSS) När vi testade medelvärden från två olika populationer med hjälp av t-test, var det ett krav att variabeln var mätt på kvotskala. Om variabeln är mätt på ordinalskala kan vi inte använda det testet, ett alternativ är då att använda Wilcoxons rangsummetest. Låt oss ta ett exempel från en enkätundersökning om elbesparing.
I en enkätundersökning om elbesparing ställdes bl a följande frågor Hur stor var den uppskattade elförbrukningen för hushållet under år 2009? Här fick man välja mellan ett antal olika förbrukningsmängder men kunde också kryssa i vet ej. Jag har vidtagit följande energibesparande åtgärder. Jag använder alltid lågenergilampor Rangordna från 1 till 7 där Inte alls (1) Alltid (7) Är det så att de som vet hur mycket el de förbrukar använder lågenergilampor i större utsträckning? Om man är intresserad av energibesparing borde man veta hur mycket el man gör åt och man borde använda lågenergilampor
Hypoteser: H0: De som känner till sin elförbrukning använder lågenergilampor i lika stor utsträckning som de som inte känner till sin elförbrukning. H1: De som känner till sin elförbrukning använder lågenergilampor i större eller mindre utsträckning än de som inte känner till sin elförbrukning.
Vet ej sin elförbrukning Vet sin elförbrukning Vet ej sin elförbrukning lågenergi RANG 1 2 3 4 5 6 7
Vet sin elförbrukning Vet ej sin elförbrukning lågenergi RANG 1 2 3 4 5 6 7 Det finns 3 stycken ettor, dessa ska få rangtalen 1, 2 och 3 men eftersom vi inte kan skilja dem åt får de tvåor alla tre.
Vi betecknar rangsumman med W Vet sin elförbrukning Vet ej sin elförbrukning lågenergi RANG 1 2 6,5 3 12,5 4 17,5 5 22 6 26 7 30,5 summa 314,5 Summa 246,5 Vi betecknar rangsumman med W
Vi kan beräkna ett z värde med hjälp av följande formel: 𝑧= 𝑊− 𝑛 1 𝑛 1 + 𝑛 2 +1 2 𝑛 1 𝑛 2 𝑛 1 + 𝑛 2 +1 12 = 314,5− 17 17+16+1 2 17∙16 17+16+1 12 = 314,5−289 770,67 = 25,5 21,4 =1,19 Vad händer om vi tar den andra gruppens rangsumma? 𝑧= 𝑊− 𝑛 1 𝑛 1 + 𝑛 2 +1 2 𝑛 1 𝑛 2 𝑛 1 + 𝑛 2 +1 12 = 246,5− 16 17+16+1 2 17∙16 17+16+1 12 = 246,5−272 770,67 = −25,5 21,4 =−1,19 Vid dubbelsidig test spelar det ingen roll vilken rangsumma vi tar. Vid enkelsidig test ska vi ta rangsumman för den grupp som har störst värde enligt alternativhypotesen.
Användning av lågenergilampor Wilcoxon rangsummetest i SPSS Analyze / nonparametric test / legacy dialogs / 2 independent samples Användning av lågenergilampor Vet sin elförbrukning
Wilcoxon rangsummetest i SPSS Analyze / nonparametric test / legacy dialogs / 2 independent samples
Jämförelser av flera oberoende urval vid ordinaldata: Kruska Wallis test, Analysis av variances by ranks När vi testade medelvärden från flera olika populationer med hjälp av ANOVA-test, var det ett krav att variabeln var mätt på kvotskala. Om variabeln är mätt på ordinalskala kan vi inte använda det testet, ett alternativ är då att använda Kruska Wallis test. Låt oss ta ett exempel från samma enkätundersökning om elbesparing men nu använder vi alla svaren från de som visste sin elförbrukning och delar in dem i tre grupper, låg medel och hög elförbrukning . H0: De 3 grupperna använder lågenergilampor i lika stor utsträckning. H1: De 3 grupperna använder lågenergilampor i olika stor utsträckning.
Kruska Wallis test i SPSS Analyze / nonparametric test / legacy dialogs / K independent samples F_5A I vilken utsträckning använder du lågenergilampor? F_6tre Elförbrukning
F_5A I vilken utsträckning använder du lågenergilampor? 1 låg förbrukning 2 medelförbrukning 3 hög förbrukning Eftersom p värdet är större än 0,5 kan vi inte förkasta nollhypotesen, de tre fördelningarna kan vara lika.
Att jämföra oberoende urval/populationer Flera populationer Nominalskala Hypotestest på andelar från två populationer, Chi 2 Chi 2 i korstabell Ordinalskala Wilcoxon rangsummetest Kruska Wallis Kvotskala Hypotesttest på medelvärde från två populationer ANOVA testet
I en enkätundersökning om elbesparing ställdes bl a följande frågor Jag har vidtagit följande energibesparande åtgärder. 5a) Jag använder alltid lågenergilampor Rangordna från 1 till 7 där Inte alls (1) Alltid (7) 5b) Släcker alla lampor i rum där ingen är Är de svarande mer eller mindre benägna att använda lågenergilampor, än att släcka lampor när de lämnar rummet? Nu har vi ett urval där vi för varje person har svar på båda frågorna, vi har beroende urval. Vi kan använda teckentest eller wilcoxons teckenrangtest. H0: svenska energikonsumenter är lika benägna att använda lågenergilampor som att släcka lampor för att spara energi. H1: Svenska energikonsumenter använder i större utsträckning den ena metoden för att spara energi.
Enligt Wilcoxons teckenrangtest kan vi förkasta nollhypotesen om att metoderna används i samma utsträckning. Svenskarna släcker lampor i större utsträckning än vad de använder lågenergilampor.
Teckentesten kan inte förkasta nollhypotesen Teckentesten kan inte förkasta nollhypotesen. (Teckentesten använder ju inte ”styrkan” i skillnaderna) De som släcker lampor i högre utsträckning har förmodligen större skillnad mellan sina svar.
Spearmans rangkorrelationskoefficient I en enkätundersökning om elbesparing ställdes bl a följande frågor Jag har vidtagit följande energibesparande åtgärder. 5a) Jag använder alltid lågenergilampor Rangordna från 1 till 7 där Inte alls (1) Alltid (7) 5b) Släcker alla lampor i rum där ingen är Är det samma personer som är noga med att släcka lampor och som använder lågenergilampor? Finns det en korrelation mellan att spara energi med hjälp av lågenergilampor och att spara energi genom att släcka lampor? Vi kan dock inte använda den vanliga korrelationskoefficienten eftersom den kräver intervall eller kvotskala. På ordinaldata används istället Spearmans rangkorrelationskoefficient.
Spearmans rangkorrelation i SPSS Analyze / Correlate / Bivariate H0: Spearmans rangkorrelationen är noll H1: Spearmans rangkorrelation är inte noll
Korrelationen är signifikant positiv men ganska svag Korrelationen är signifikant positiv men ganska svag. Även om det finns en tendens att de som använder lågenergilampor i stor utsträckning även släcker lampor i högre rad finns det också många som enbart använder den ena typen av energibesparande åtgärd.