Linjär regression föreläsning 9

Slides:



Advertisements
Liknande presentationer
Punkt- och intervallskattning Felmarginal
Advertisements

Bedömning av uppfyllelse av miljökvalitetsnormer
Inferens om en population Sid
Talföljder formler och summor
Kap 1 - Algebra och linjära modeller
Hej hypotestest!. Bakgrund  Signifikansanalys  Signifikansprövning  Signifikanstest  Hypotesprövning  Hypotestest Kärt barn har många namn Inblandade:
FL4 732G70 Statistik A Detta är en generell mall för att göra PowerPoint presentationer enligt LiUs grafiska profil. Du skriver in din rubrik,
Numeriska beräkningar i Naturvetenskap och Teknik
Föreläsning 2 21 jan 2008.
Komplexa tal inför Laborationerna
1 Exempel Man drar ett OSU om medlemmar ur en stor politiskt oberoende organisation, och frågar dels om kön, dels om politisk tillhörighet (vänster eller.
FL8 732G70 Statistik A Detta är en generell mall för att göra PowerPoint presentationer enligt LiUs grafiska profil. Du skriver in din rubrik,
732G22 Grunder i statistisk metodik
FL10 732G81 Linköpings universitet.
FL9 732G70 Statistik A Detta är en generell mall för att göra PowerPoint presentationer enligt LiUs grafiska profil. Du skriver in din rubrik,
FL5 732G70 Statistik A Detta är en generell mall för att göra PowerPoint presentationer enligt LiUs grafiska profil. Du skriver in din rubrik,
Inferens om en ändlig population Sid
Kapitel 5 Stickprovsteori Sid
732G22 Grunder i statistisk metodik
F11 Olika urvalsmetoder, speciellt obundet slumpmässigt urval (OSU)
Sekant, tangent, ändringskvot och derivata för en funktion
Workshop i statistik för medicinska bibliotekarier!
Tillämpad statistik Naprapathögskolan
Vibeke Horstmann, Inst för hälsa, vård, samhälle, Centre for Ageing and Supportive Environments Jämförelse av två behandlingar.
Felkalkyl Ofta mäter man inte direkt den storhet som är den intressanta, utan en grundläggande variabel som sedan används för att beräkna det som man är.
Skattningens medelfel
Förelasning 6 Hypotesprövning
Centrala Gränsvärdessatsen:
Föreläsning 81 Sampling och urval Ofta möter vi påståenden av typen “4.5 miljoner svenskar såg VM-finalen i fotboll”, “en svensk tolvåring väger i genomsnitt.
En mycket vanlig frågeställning gäller om två storheter har ett samband eller inte, många gånger är det helt klart: y x För en mätserie som denna är det.
Fysikexperiment 5p Föreläsning Korrelationer Ett effektivt sätt att beskriva sambandet mellan två variabler (ett observationspar) är i.
FL7 732G70 Statistik A Detta är en generell mall för att göra PowerPoint presentationer enligt LiUs grafiska profil. Du skriver in din rubrik,
Binomialsannolikheter ritas i ett stolpdiagram
Statistikens grunder 2 dagtid
Egenskaper för punktskattning
Simulering Introduktion Exempel: Antag att någon kastar tärning
Föreläsning 7 Fysikexperiment 5p Poissonfördelningen Poissonfördelningen är en sannolikhetsfördelning för diskreta variabler som är mycket.
Normalfördelningen och centrala gränsvärdessatsen
Övningsexempel till Kapitel 7 Ex 1. BRÄNNBOLLSDILEMMAT ! En person funderar över hur man bäst uppskattar 28 meter. Av erfarenhet vet han att hans steglängd,
F8 Hypotesprövning. Begrepp
F8 Hypotesprövning. Begrepp
Forskningsmetodik Sampling och urval Hypotesprövning Lektion 9
Slumptal Pseudoslumptal Fysikexperiment 5p Föreläsning 2
Statistik Lars Valter Fil.lic. Statistik
Fysikexperiment, 5p1 Random Walk 36 försök med Random walk med 1000 steg. Beräknad genomsnittlig räckvidd är  1000  32. Visualisering av utfallsrum.
732G22 Grunder i statistisk metodik
VetU termin 4 moment 3 Analysera nivåer av kalium och kreatinin Mätningar genomförda på 120 män och 120 kvinnor (tidigare studenter KI) Dagens uppgift:
1 Fler uträkningar med normalfördelningstabell Låt X vara Nf(170,5). Beräkna Lösning:
Olika sätt att resonera kring hur människor bör handla
Krav på vetenskaplig tolkning
Lite repetition och SAMBAND & INFERENS. population Population Stickprov, urval INFERENS = Dra slutsatser från data om hela populationen utifrån ett stickprov.
SAMBAND. Vi vill undersöka om det finns ett samband mellan tentamensresultat och genomsnittligt antal timmar/dag man studerat. Person ABCDEFGHIJ Timmar/
Lite repetition och SAMBAND & INFERENS. population Population Stickprov, urval INFERENS = Dra slutsatser från data om hela populationen utifrån ett stickprov.
Statistisk hypotesprövning. Test av hypoteser Ofta när man gör undersökningar så vill man ha svar på olika frågor (s.k. hypoteser). T.ex. Stämmer en spelares.
Statistisk inferensteori. Inledning Den statistiska inferensteorin handlar i huvudsak om att dra slutsatser från ett slumpmässigt urval (sannolikhetsurval)
1. Kontinuerliga variabler
Samband & Inferens Konfidensintervall Statistisk hypotesprövning –Hypotetisk –deduktiv metod Samband mellan nominal/ordinal-variabler –Chi2-test Samband.
Hypotesprövning. Statistisk hypotesprövning och hypotetisk-deduktiv metod Hypotetisk-deduktiv metod: –Hypotes: Alla svanar är vita. –Empirisk konsekvens:
1 Multipel Regression Kapitel Modell Vi har p oberoende variabler som vi tänker oss kan vara relaterade till den beroende variabeln. Y ~ N( , 
Idag: Repetition av Chi2-test Kap 6*, Kodning av svaren Kap 10*, Olika feltyper Kap 12*, Rapportskrivning *Dahmström.
Samband & Inferens Konfidensintervall Statistisk hypotesprövning –Hypotetisk –deduktiv metod Samband mellan nominal/ordinal-variabler –Chi2-test Samband.
Samband & Inferens Konfidensintervall Statistisk hypotesprövning
INFERENS & SAMBAND. population Population Stickprov, urval INFERENS = Dra slutsatser om hela populationen utifrån ett stickprov Data, observationer.
INFERENS & SAMBAND. population Population Stickprov, urval INFERENS = Dra slutsatser från data om hela populationen utifrån ett stickprov Data, observationer.
Regression Har långa högre inkomst?. Världsrekord på engelska milen.
Samband & Inferens Hypotetisk –deduktiv metod Samband mellan nominal/ordinal-variabler –Chi2-test Samband mellan kvot-varibaler –Korrelationskoefficient.
Enkel Linjär Regression. 1 Introduktion Vi undersöker relationer mellan variabler via en matematisk ekvation. Motivet för att använda denna teknik är:
INFERENS OCH SAMBAND. Vi vill undersöka om det finns ett samband mellan tentamensresultat och genomsnittligt antal timmar/dag man studerat. Person ABCDEFGHIJ.
Marknadsundersökning Kap 12
Trender och fluktuationer
Presentationens avskrift:

Linjär regression föreläsning 9 “Linjär regression” är facktermen för den procedur som finner den bästa möjliga räta linjen, givet ett antal x- och y-värden. En rät linje kan skrivas som y = m·x + b , där m är riktningkoefficienten och b “interceptet”, dvs det värde där linjen skär y-axeln. y x y = m·x + b Dy Dx b Givet ett antal x- och y-värden så finns det en formel för att beräkna m och b för den räta linje som bäst ansluter till punkterna: föreläsning 9

Exempel: Antag följande serie: (1,-0.6), (2, 1.5), (3, 2.5), (4, 4.6) och (5, 7.7) x y x·y x2 1 -0.6 2 1.5 3 4 2.5 7.5 9 4.6 18.4 16 5 7.7 38.5 25 15 15.7 66.8 55 Insatt i formlerna får vi: y = -2.77 + 1.97·x föreläsning 9

Som allt annat så måste metoden användas med förnuft Som allt annat så måste metoden användas med förnuft. Formlerna kommer att producera den bästa räta linjen genom punkterna, oavsett om punkterna ligger på en rät linje eller inte. Man måste alltså också kontrollera kvaliteten på anpassningen. ÖVERKURS Den procedur vi beskrivit här ger oss med utgångspunkt från talparen den linje för vilken summan av det kvadratiska avståndet mellan linjen och punkterna är minst. Detta fungerar väl när felen i de enskilda punkterna är identiska. I många situtationer är det inte fallet, vissa punkter har mindre fel än andra. Det är då inte rimligt att tillmäta alla punkter lika stor betydelse, det är viktigare att den linje man får fram går nära punkter med små fel än att den går nära punkter med små fel. Detta uppnås genom att man istället för att minimera kvadraten på det absoluta avståndet minimerar kvadraten på avståndet uttryckt i standardavvikelser. Detta förändrar formlerna för att beräkna b och m, så att de blir där vikten wi beräknas ur där si är osäkerheten i y-värdet. föreläsning 9

Mer om hypotesprövning Hurvida man tar hänsyn till felens storlek eller inte kan ha avgörande betydelse, särskilt om det är stor skillnad mellan felets storlek för olika punkter: Viktad anpassning som tar hänsyn till felens storlek. Anpassning utan hänsyn till felens storlek. Mer om hypotesprövning Man kan ofta tycka att formulerandet av noll-hypotesen känns litet märklig. Tag till exempel det exempel som förekommer i boken, där en tillverkare av huvudvärkstabletter misstänks för att fuska och inte lägga 500 tabletter i varje burk, vilket är vad som anges på förpackningen. Man gjorde då en undersökning av 200 förpackningar och fann att de i genomsnitt innehöll 499 tabletter med en standardavvikelse om 7 st. Nollhypotesen formuleras som H0: förpackningarna innehåller 500 tabletter, den alternativa hypotesen: HA: förpackningarna innehåller färre än 500 tabletter. Varför väljer man att formulera denna noll-hypotes, och inte istället H0: förpackningen innehåller färre än 500 tabletter? Låt oss först testa de hypoteser som formulerats ovan och sedan återvända till frågan. Givet en standardavvikelse för hela fördelningen s=7, så vet vi att standardavvikelsen i medelvärdet ges av sm = 7 / √N = 7 / √200 = 0.49. Avvikelsen (standard score) för detta sample ges då av (VGV!) föreläsning 9

Mätresultatet befinner sig alltså 2 sigma ut i den negativa svansen, vilket har ett P-värde på ungefär 2.5%, medelvärdet för vårt urval skiljer sig alltså signigikant (åtminstone på 5%-nivån) från det uppgivna medelvärdet för populationen, och vi förkastar noll-hypotesen. Metoden för att testa noll-hypotesen kräver att vi kan definiera sannolikheten för att erhålla just vårt resultat om nollhypotesen är riktig. Det är därför vi inte använder “mindre än 500” som nollhypotes, det kan vi inte göra utan att ange hur mycket mindre. Sannolikheten för att få ett medelvärde på 499 skiljer sig ju markant mellan antagandet att det i genomsnitt finns 498 tabletter i burkarna eller om man antar att det finns 475 tabletter i varje punkt. Nollhypotesen måste alltså vara den hypotes som går att definiera precist. Felslut När vi testar en hypotes och drar en slutsats kan vi dra en felaktig slutsats på två olika sätt (vi kan naturligtvis också dra en korrekt slutsats!), vi kan antingen förkasta en noll-hypotes som är korrekt ellerockså acceptera en inkorrekt noll-hypotes som möjlig. Dessa två möjligheter betecknas “Feltyp I” och “Feltyp II”. “Sanning” H0 sann H0 falsk Slut-sats Förkasta H0 Feltyp I Korrekt Acceptera H0 Korrekt Feltyp II Den här tabellen kan vara värd två reflektioner: när vi definierar signifikansnivån för vår hypotestestning så undersöker vi sannolikheten att det vi observerar är en statistisk fluktuation av det fall som beskrivs av nollhypotesen - P-värdet. Vi bestämmer sedan hur små sannolikheter vi skall acceptera. Väljer vi t ex en signifikansnivå om 5% så accepterar vi alla nollhypoteser som har en sannolikhet att via en statistisk fluktuation ge det observerade resultatet som är större än 5%. Det innebär också att i 5% av alla fall så kommer en statistisk fluktuation ge ett resultat som vi kommer att förkasta, detta ligger inbyggt i vår definition av hur vi testar en hypotes. Men en sådan förkastad fluktuation är just ett fel av typ I. Det finns alltså en direkt koppling mellan signifikansnivå och feltyp I. Är vår signifikansnivå X% kommer vi att göra ett fel av typ I i just X% av alla tester. - När man bestämmer hur man formulerar noll-hypotesen och den alternativa hypotesen och vilken signifikansnivå man vill kräva måste man fundera över vilka konsekvenserna av de bägge felen blir. Om konsekvenserna av att man accepterar en inkorrekt alternativ hypotes är allvarliga måste man kräva en hög signifikansnivå, omvänt om konsekvenserna av föreläsning 9

förkasta en korrekt noll-hypotes är allvarliga bör man minimera risken för ett fel av typ I och lägga en låg tröskel för signifikansnivån. Det här resonemanget får man givetvis föra med försiktighet: om vi tillåter alltför stora justeringar av signifikansnivån kan man lätt styra hypotestestningen så att det i praktiken blir omöjligt att motbevisa en given hypotes, ett bra sätt att rädda en favorittes genom den här proceduren. Normalt bör man alltså inte avvika för mycket från det etablerade området med signifikansnivåer runt 1-5%, men det är självklart så att om man vill undvika att kärnkraftverk havererar eller förvissa sig om att vi inte förorsakar en ny neurosedynkatastrof så är det rimligt att man är litet “extra försiktig”. föreläsning 9