Ladda ner presentationen
1
Normalfördelningen och centrala gränsvärdessatsen
Om vi summerar ett stort antal slumpmässigt fördelade tal, så kommer den asymptotiska fördelningen för summan att gå mot en normalfördelning Detta gäller oberoende av hur fördelningen ser ut för de termer som ingår i summan!!
2
“De stora talens välsignelse”
Felet i medelvärdet Det vill säga standardavvikelsen hos normalfördelningen I fråga (uppskattad med variansen av datapunkterna) dividerad med kvadratroten ur antalet mätvärden). “De stora talens välsignelse”
4
Felfortplantning
5
Statistisk signifikans
Resultatet av en mätning (observation) sägs vara statistiskt signifikant om det är osannolikt att resultatet beror på slumpen. Tex: Sannolikheten att det inträffat på grund av slumpen är mindre än 0,05 (dvs 1 på 20) Sannolikheten att det inträffat på grund av slumpen är mindre än 0,01 (dvs 1 på 100)
6
Men kom ihåg!! Sannolikheten att det inträffat på grund av slumpen är mindre än 0,05 (dvs 1 på 20) En gång på 20 är det ”signifikant” på grund av slumpen!!!!!!!!!!! Signifikansnivån är mycket viktig!! 0,05, 0.001, …..
7
Olika sannolikheter Om man kan anta på goda grunder att en viss händelse sker kallas det teoretisk sannolikhet. Om man baserar sannolikheten på observerade händelser kallas det relativ frekvenssannolikhet Om man baserar sannolikheten på erfarenhet och intuition kallas det subjektiv sannolikhet
8
Sannolikhetsfördelningen för summan av två tärningar
Utfall Kombinationer antal Sannolikhet /36 1+2, /36 1+3, 3+1, /36 1+4, 4+1, 2+3, /36 1+5, 5+1, 2+4, 4+2, /36 1+6, 6+1, 2+5, 5+2, 3+4, /36 2+6, 6+2, 3+5, 5+3, /36 3+6, 6+3, 4+5, /36 4+6, 6+4, /36 5+6, /36 /36
9
Verklig korrelation?
10
Bakgrundsfaktorer som ger falsk korrelation
Exempel: Under vintern säljs mindre glass, sker fler benbrott, dricks mer glögg, säljs fler skidresor och fler åker buss till jobbet än på sommaren. Men det är väl ingen som drar slutsatsen att det är ökad bussåkning som ger upphov till ökad glöggkonsumtion. Det beror mer på det kalla vädret.
11
Möjliga förklaringar för en korrelation
Statistisk fluktuation (se tabell 7.3) Bakomliggande faktorer (tex väder etc) En variabel beror av den andra (ett kausalt samband)
12
Kausalitet En korrelation mellan två variabler kan indikera en kausalitet (en variabel beror av den andra) men inte ensam bevisa att man har en kausalitet. En mängd andra undersökningar behövs!
13
Riktlinjer för att visa kausalitet
Kontroller att korrelationen existerar även när andra parametrar varieras Kontrollera att korrelationen förstärks då en misstänkt parameter förstärks Om effekten kan orsakas av någon känd effekt, kontrollera att effekten finns kvar då man tagit hänsyn till den kända effekten. Försök att göra ett experiment Försök finna en fysisk orsak till korrelationen
14
Ex. hur man visade att rökning orsakade lungcancer
Observerad korrelation mellan rökning och lungcancer för alla typer av människor Man fann att för människor med lika förutsättningar att icke rökare hade mer sällan lungcancer än rökare Folk som rökte mycket och länge hade högre chans att få luncancer När man korrigerade för kända orsaker till lungcancer som tex radon hade rökare fortfarande högre frekvens än icke rökare Man gjorde djurförsök och fann att de ”rökande” fick lungcancer Biologer studerade cellkulturer och fann att röken orsakade mutationer och att det inte fanns någon genetisk faktor
16
Kombination av sannolikheter
17
Medelvärdet hos en population
Medelvärdet för fem basketspelare är 242,4 pound Vi delar upp de fem i så många samplestorlekar som möjligt Samplestorlek 1 2 3 4 5 Antal möjliga samples 10
19
Egenskaper Medelvärdet är detsamma för de olika fördelningarna
Spridningen blir mindre ju större sample
20
Samplemedelvärden för större populationer
Populationsmedelvärdet (m) på samtliga personer i populationen är det sanna värdet. Ett urval (sample) med en del av populationen kommer att ha ett medelvärde (x) som skiljer sig något från populationsmedelvärdet (m) Men medelvärdet för en mängd olika samples kommer att vara normalfördelade med ett medelvärde nära m
22
Andelar av en population
För en ja/nej fråga har man bara två svar och vi har att en andel av populationen Tex p= 550/1100 = 0,50 För en delmängd (sample) av populationen har vi p = 50/100 Standardavvikelsen hos p är ^
23
95% konfidensintervall Uppskatta ”felmarginalen”,E, för 95% KI
E=1,96s/ n (s= standardavvikelsen för samplet) x - E < m < x + E Betyder att 95% av alla samplemedelvärden ligger inom intervallet
25
95% konfidensintervall för andelar av en population
Felmarginalen, E, för 95% konfidensintervallet är:
26
Uppskattning av samplestorlek
27
Uppskattning av samplestorlek for andelar av en population
28
Hypotesprövning Nollhypotesen H0 är den man testar
Alternativa hypotesen Ha antar att parametern som testas avviker från H0 Definitionen av hypoteserna skall bestämmas innan man utför testen!!!
29
Hypotestestning Man behöver:
1. Det antagna värdet för populationsparametern (m) eller p 2. Medelvärdet x eller p 3. Samplestorleken, n 4. Standardavvikelsen för populationen, s, eller för stora samples standardavvikelsen för samplet, s ^
30
P-värdet P-värdet för en hypotes om en parameter är sannolikheten att ett sample minst lika extremt som det observerade, under antagandet att nollhypotesen är sann.
31
Signifikans vid 0.05 nivån för ensidigt intervall
32
Signifikans vid 0,05 nivå för tvåsidigt intervall
33
Fel i hypotesprövningen
H0 sann H0 falsk Förkasta H0 Feltyp 1 Korrekt Acceptera H0 Korrekt Feltyp II Vid en signifikansnivå på 0,05 kommer vi att förkasta H0 i 5% av fallen. Signifikansnivån är sannolikheten för Feltyp 1
Liknande presentationer
© 2024 SlidePlayer.se Inc.
All rights reserved.