Presentation laddar. Vänta.

Presentation laddar. Vänta.

Statistisk inferensteori. Inledning Den statistiska inferensteorin handlar i huvudsak om att dra slutsatser från ett slumpmässigt urval (sannolikhetsurval)

Liknande presentationer


En presentation över ämnet: "Statistisk inferensteori. Inledning Den statistiska inferensteorin handlar i huvudsak om att dra slutsatser från ett slumpmässigt urval (sannolikhetsurval)"— Presentationens avskrift:

1 Statistisk inferensteori

2 Inledning Den statistiska inferensteorin handlar i huvudsak om att dra slutsatser från ett slumpmässigt urval (sannolikhetsurval) till en population. Består av två huvuddelar: – Estimation – Hypotesprövning

3 Vid såväl estimation som hypotesprövning använder vi observationerna i stickprovet för att beräkna numeriska värden av olika slag som används för att uppskatta motsvarande värden i populationen. Vi använder t.ex. stickprovsmedelvärdet för att uppskatta populationsmedelvärdet.

4 population Population Stickprov, urval INFERENS = Dra slutsatser om hela populationen utifrån ett stickprov Data, observationer

5 Exempel: Descriptive Statistics: Resultat Variable N Mean StDev Minimum Q1 Median Q3 Maximum Range Resultat 10 25,90 8,95 14,00 18,75 23,50 35,50 39,00 25,00 10 personers tentamensresultat noterades till: 20, 25, 22, 35, 15, 14, 22, 30, 37, 39

6 population Population: Alla som skrev tentan (Antag att antalet är stort) Stickprov. Ur populationen valdes det slumpmässigt ut 10 personer INFERENS = Om man vet att medelvärdet i stickprovet är 25.9, hur bra är denna gissning av det sanna medelvärdet? De 10 personerna fick i medeltal 25.9 poäng på tentan Sanna medelvärdet (Okänt)

7 Numeriska värden som beräknas med hjälp av observationerna i ett stickprov kallas för statistikor. Exempel på statistikor: – Stickprovsmedelvärdet ( ) – Stickprovsstandardavvikelsen (s) – Stickprovsproportionen ( ) Eftersom att statistikans värde räknas ut med hjälp av stickprovet kommer detta värde att variera från stickprov till stickprov.

8 Samplingfördelningar Precis som vi gör för variationen i vår population kan vi använda oss av en fördelning för att beskriva statistikans variation från stickprov till stickprov Dessa fördelningar kallas samplingfördelningar. En samplingfördelning för en statistika talar om för oss vilka värden statistikan skulle anta vid upprepade stickprov av samma storlek från samma population

9 Fördelningen för stickprovsmedelvärdet ( ) Om vi tar stickprov från en normalfördelning är stickprovsmedelvärdet alltid normalfördelat oavsett stickprovsstorlek. Om vi tar stickprov från någon annan fördelning är stickprovsmedelvärdet approximativt normalfördelat om stickprovet är ”stort” (tumregel som fungerar i de flesta fall: Minst 30).

10 Stickprovsmedelvärdets medelvärde och standardavvikelse Låt n vara stickprovsstorleken och låt  och  vara medelvärdet och standardavvikelsen i den population vi tar stickprov ur. Då är Medelvärdet av alla möjliga stickprovsmedelvärden: Standardavvikelsen för stickprovsmedelvärdena:

11 Fördelning för stickprovsproportionen ( ) Proportion= Andel (t.ex. andelen kvinnor i en population) Populationen består av ettor och nollor (t.ex. om man är kvinna har man värdet 1, om man är man värdet 0) Räknar antalet ettor i populationen (eller stickprovet) och delar detta med det totala antalet Om stickprovet är stort kan vi hävda att stickprovsproportionen är approximativt normalfördelad.

12 Singlar ett viktat mynt (p=0,8) p= sannolikheten att få krona

13 När populationen består av ettor och nollor är populationens medelvärde p (populationsproportionen) och populationens standardavvikelse Detta ger: Medelvärdet av alla möjliga stickprovs- proportioner: Standardavvikelsen: Medelvärde och standardavvikelse för stickprovsproportionen

14 Konfidensintervall När man skattar en populationsparameter (t.ex. populationsmedelvärdet) med en statistika (t.ex. stickprovsmedelvärdet) är det svårt att ”träffa mitt i prick” Därför används s.k. konfidensintervall, dvs. ett intervall som täcker det sanna värdet i populationen med en viss säkerhet. Oftast gör man intervall med 95% eller 99% säkerhet.

15 Antag att vi med hjälp av ett stickprov bestående av 100 individer vill skatta genomsnittsintelligensen (mätt med ett IQ- test) i en population. Antag vidare att vi vet att standardavvikelsen i populationen är  =15.

16 Vi vet då följande: 1. Om vi tar upprepade stickprov bestående av n=100 individer kan stickprovsmedelvärdets variation mellan olika stickprov beskrivas av en normalfördelning med standardavvikelsen 2. I 95% av alla stickprov kommer stickprovsmedelvärdet att vara högst enheter ifrån populationsmedelvärdet.

17 I 95 % av alla stickprov kommer stickprovsmedelvärdet och populationsmedelvärdet att ligga inom två standardavvikelser från varandra Dvs. 95 % av alla stickprov ger ett stickprovsmedelvärde sådant att populationsmedelvärdet ligger inom intervallet: dvs. i vårt fall inom intervallet

18 Intervallet kallas för ett 95%-igt konfidensintervall för µ kallas för den statistiska felmarginalen.

19 Om vi t.ex. får = 97 så sträcker sig det 95%-iga konfidensintervallet från 94 till 100. Vi kan alltså med 95%-ig konfidens påstå att µ ligger mellan 94 och 100. Vi baserar detta på att vi använt en metod som ger oss rätt i 95% av fallen i det långa loppet. Observera att om vi gör många undersökningar och alltid beräknar 95%-iga konfidensintervall så kommer vi också att ”missa” µ i ca 5% av fallen i det långa loppet.

20 Konfidensintervall för en populationsproportion Antag att vi, med hjälp av ett stickprov bestående av n=3000 individer, vill skatta andelen i populationen som skulle rösta på socialdemokraterna om det vore val idag.

21 Vi vet följande: 1. Om vi tar upprepade stickprov bestående av n=3000 individer kan stickprovsproportionens variation mellan olika stickprov beskrivas av en normalfördelning med standardavvikelsen där p är populationsproportionen.

22 2. I 95% av fallen kommer stickprovsproportionen att vara högst ifrån p. 3. Ovanstående stämmer approximativt även om vi ersätter populationsproportionen med stickprovsproportionen, dvs. om vi använder

23 – Antag att 1200 av 3000 svarar att de skulle rösta på socialdemokraterna om det vore val idag. Vi får då – Det 95%-iga konfidensintervallet blir

24 – Felmarginalen är då 1.8 procentenheter. – Vi kan vara ganska säkra på att andelen i populationen ligger mellan 38.2 % och 41.8 %, eftersom vi använt en metod som, i det långa loppet, ger oss rätt i 95 % av fallen.


Ladda ner ppt "Statistisk inferensteori. Inledning Den statistiska inferensteorin handlar i huvudsak om att dra slutsatser från ett slumpmässigt urval (sannolikhetsurval)"

Liknande presentationer


Google-annonser