Linjär regression föreläsning 9 “Linjär regression” är facktermen för den procedur som finner den bästa möjliga räta linjen, givet ett antal x- och y-värden. En rät linje kan skrivas som y = m·x + b , där m är riktningkoefficienten och b “interceptet”, dvs det värde där linjen skär y-axeln. y x y = m·x + b Dy Dx b Givet ett antal x- och y-värden så finns det en formel för att beräkna m och b för den räta linje som bäst ansluter till punkterna: föreläsning 9
Exempel: Antag följande serie: (1,-0.6), (2, 1.5), (3, 2.5), (4, 4.6) och (5, 7.7) x y x·y x2 1 -0.6 2 1.5 3 4 2.5 7.5 9 4.6 18.4 16 5 7.7 38.5 25 15 15.7 66.8 55 Insatt i formlerna får vi: y = -2.77 + 1.97·x föreläsning 9
Som allt annat så måste metoden användas med förnuft Som allt annat så måste metoden användas med förnuft. Formlerna kommer att producera den bästa räta linjen genom punkterna, oavsett om punkterna ligger på en rät linje eller inte. Man måste alltså också kontrollera kvaliteten på anpassningen. ÖVERKURS Den procedur vi beskrivit här ger oss med utgångspunkt från talparen den linje för vilken summan av det kvadratiska avståndet mellan linjen och punkterna är minst. Detta fungerar väl när felen i de enskilda punkterna är identiska. I många situtationer är det inte fallet, vissa punkter har mindre fel än andra. Det är då inte rimligt att tillmäta alla punkter lika stor betydelse, det är viktigare att den linje man får fram går nära punkter med små fel än att den går nära punkter med små fel. Detta uppnås genom att man istället för att minimera kvadraten på det absoluta avståndet minimerar kvadraten på avståndet uttryckt i standardavvikelser. Detta förändrar formlerna för att beräkna b och m, så att de blir där vikten wi beräknas ur där si är osäkerheten i y-värdet. föreläsning 9
Mer om hypotesprövning Hurvida man tar hänsyn till felens storlek eller inte kan ha avgörande betydelse, särskilt om det är stor skillnad mellan felets storlek för olika punkter: Viktad anpassning som tar hänsyn till felens storlek. Anpassning utan hänsyn till felens storlek. Mer om hypotesprövning Man kan ofta tycka att formulerandet av noll-hypotesen känns litet märklig. Tag till exempel det exempel som förekommer i boken, där en tillverkare av huvudvärkstabletter misstänks för att fuska och inte lägga 500 tabletter i varje burk, vilket är vad som anges på förpackningen. Man gjorde då en undersökning av 200 förpackningar och fann att de i genomsnitt innehöll 499 tabletter med en standardavvikelse om 7 st. Nollhypotesen formuleras som H0: förpackningarna innehåller 500 tabletter, den alternativa hypotesen: HA: förpackningarna innehåller färre än 500 tabletter. Varför väljer man att formulera denna noll-hypotes, och inte istället H0: förpackningen innehåller färre än 500 tabletter? Låt oss först testa de hypoteser som formulerats ovan och sedan återvända till frågan. Givet en standardavvikelse för hela fördelningen s=7, så vet vi att standardavvikelsen i medelvärdet ges av sm = 7 / √N = 7 / √200 = 0.49. Avvikelsen (standard score) för detta sample ges då av (VGV!) föreläsning 9
Mätresultatet befinner sig alltså 2 sigma ut i den negativa svansen, vilket har ett P-värde på ungefär 2.5%, medelvärdet för vårt urval skiljer sig alltså signigikant (åtminstone på 5%-nivån) från det uppgivna medelvärdet för populationen, och vi förkastar noll-hypotesen. Metoden för att testa noll-hypotesen kräver att vi kan definiera sannolikheten för att erhålla just vårt resultat om nollhypotesen är riktig. Det är därför vi inte använder “mindre än 500” som nollhypotes, det kan vi inte göra utan att ange hur mycket mindre. Sannolikheten för att få ett medelvärde på 499 skiljer sig ju markant mellan antagandet att det i genomsnitt finns 498 tabletter i burkarna eller om man antar att det finns 475 tabletter i varje punkt. Nollhypotesen måste alltså vara den hypotes som går att definiera precist. Felslut När vi testar en hypotes och drar en slutsats kan vi dra en felaktig slutsats på två olika sätt (vi kan naturligtvis också dra en korrekt slutsats!), vi kan antingen förkasta en noll-hypotes som är korrekt ellerockså acceptera en inkorrekt noll-hypotes som möjlig. Dessa två möjligheter betecknas “Feltyp I” och “Feltyp II”. “Sanning” H0 sann H0 falsk Slut-sats Förkasta H0 Feltyp I Korrekt Acceptera H0 Korrekt Feltyp II Den här tabellen kan vara värd två reflektioner: när vi definierar signifikansnivån för vår hypotestestning så undersöker vi sannolikheten att det vi observerar är en statistisk fluktuation av det fall som beskrivs av nollhypotesen - P-värdet. Vi bestämmer sedan hur små sannolikheter vi skall acceptera. Väljer vi t ex en signifikansnivå om 5% så accepterar vi alla nollhypoteser som har en sannolikhet att via en statistisk fluktuation ge det observerade resultatet som är större än 5%. Det innebär också att i 5% av alla fall så kommer en statistisk fluktuation ge ett resultat som vi kommer att förkasta, detta ligger inbyggt i vår definition av hur vi testar en hypotes. Men en sådan förkastad fluktuation är just ett fel av typ I. Det finns alltså en direkt koppling mellan signifikansnivå och feltyp I. Är vår signifikansnivå X% kommer vi att göra ett fel av typ I i just X% av alla tester. - När man bestämmer hur man formulerar noll-hypotesen och den alternativa hypotesen och vilken signifikansnivå man vill kräva måste man fundera över vilka konsekvenserna av de bägge felen blir. Om konsekvenserna av att man accepterar en inkorrekt alternativ hypotes är allvarliga måste man kräva en hög signifikansnivå, omvänt om konsekvenserna av föreläsning 9
förkasta en korrekt noll-hypotes är allvarliga bör man minimera risken för ett fel av typ I och lägga en låg tröskel för signifikansnivån. Det här resonemanget får man givetvis föra med försiktighet: om vi tillåter alltför stora justeringar av signifikansnivån kan man lätt styra hypotestestningen så att det i praktiken blir omöjligt att motbevisa en given hypotes, ett bra sätt att rädda en favorittes genom den här proceduren. Normalt bör man alltså inte avvika för mycket från det etablerade området med signifikansnivåer runt 1-5%, men det är självklart så att om man vill undvika att kärnkraftverk havererar eller förvissa sig om att vi inte förorsakar en ny neurosedynkatastrof så är det rimligt att man är litet “extra försiktig”. föreläsning 9