Centrala Gränsvärdessatsen: När vi nu lärt oss olika sätt att karaktärisera en fördelning av mätvärden, kan vi börja fundera över vad vi förväntar oss t ex för fördelningen av mätdata när vi mätte längden av en parkeringsficka. Finns det över huvud taget anledning att förvänta sig något speciellt? Finns det en generell fördelning som ”beskriver en mätning”? Svaret ges av en vid första påseende märklig sats: Centrala Gränsvärdessatsen: Om vi summerar ett stort antal slumpmässigt fördelade tal, så kommer den asymptotiska fördelningen för summan att gå mot en normalfördelning Detta gäller oberoende av hur fördelningen ser ut för de termer som ingår i summan!! Så vad är denna “normalfördelning”, och vad har den med mätningar att göra? Normalfördelningen: 2s x Forskningsmetodik HT 2003
Forskningsmetodik HT 2003 Egenskaper Maximum vid x = m Symmetrisk runt x = m När s är litet så blir exponenten stor -> lutningen blir större När s är litet så blir normaliseringskonstanten större -> höjden vid toppen blir relativt sett högre Ytan under kurvan är lika med 1- kurvan är ”normaliserad”. Normalfördelningen har normaliseringen 1. Utryckt på vanlig svenska betyder det att ytan under kurvan alltid är lika med ett, det är därför topppen blir högre när vidden blir smalare. För att förstå hur centralvärdessatsen sats kan hjälpa oss så kan vi betrakta resultatet av en mätning som beroende av det sanna värdet till vilket har adderats slumpvisa bidrag från ett stort antal okända (och en del kända) felkällor. Det totala felet i mätningen är då summan av alla dessa bidrag. Enligt centrala gränsvärdessatsen är då denna summa (= det totala mätfelet) normalfördelat. Resultatet av ett stort antal mätningar kommer då att spridas runt det sanna värdet, och fördelningen av mätningarna runt detta kommer att ha en form som ges av normalfördelningen. Forskningsmetodik HT 2003
Exempel: Summera tal slumpvis fördelade mellan 0 och 1: Den ursprungliga fördelningen: Summan av 2 tal: 5 termer 20 termer Se figur 5.27 sidan 212! Exempel 3 s 193 När kan man förvänta sig en normalfördelning? De flesta värdena skall ligga nära medelvärdet. Positiva avvikelser är lika vanliga som negativa. Stora avvikelser är mindre sannolika än små. Den totala avvikelsen för ett mätvärde är summan av en mängd slumpmässiga bidrag. (Strikt matematiskt kommer punkt 4, tack vare centrala gränsvärdessatsen leda till de övrig punkterna) När vi gör en mätning kan vi under förutsättning att negativa och positiva mätfel är lika vanliga förvänta oss att summan av det mätfel som adderas till det sanna värdet har ett medelvärde som är noll Alltså kan vi förvänta oss att våra mätresultat följer en normalfördelning, centrerad på det sanna värdet (om vi bortser från eventuella systematiska fel). Forskningsmetodik HT 2003
Eftersom normalfördelningen är “normaliserad” - så kan man tolka ytan under kurvan mellan två x-värden som den relativa frekvensen för att mätvärdena skall hamna I detta intervall. Uttrycker man integrationsgränser i parametern s så har alla normalfördelningar samma area inom dessa gränser - oberoende av vilka exakta värden m och s antar. Integrerar man en normalfördelning mellan till exempel -s och +s så är arean 68% av hela arean. Detta har betydelse när vi tolkar f(x) som en sannolikhetsfördelning - sannolikheten att hamna i intervallet [m-2s, m+2s] är 95% och så vidare. Exempel mitt på sid 200 Exempel 5 sid 200 Ett standardiserat mått på avvikelsen ges av (mätvärdet - medelvärdet) / standardavvikelsen. I boken kallas detta mått “standard score” eller “z-score”. Vanligare I naturvetenskap är kanske termen “pull” Med hjälp av tabeller som t.ex. tabell 5.1 på sidan 205 I läroboken kan man enkelt gå ifrån percentiler till pull och vice versa. Exempel 7&8 på sid 204 Vi kan nu ge en kvantitativ uppskattning av osäkerheten I ett mätvärde: ger vi en uppskattning av mätvärdet som m ± s så antar vi om vi gör ett stort antal mätningar så kommer det sanna värdet att täckas in av vårt intervall I 68% av fallen. Ofta säger man att det är 68% sannolikhet att det sanna värdet ligger inom ±1 sigma, det räcker för vårt bruk, men det finns en subtil matematisk skillnad. Forskningsmetodik HT 2003
Forskningsmetodik HT 2003 Tillbaks till vår mätsituation: Om det inte finns stora systematiska effekter så kan vi alltså förvänta oss att våra mätresultat - efter ett stort antal mätningar och under förutsättning att det inte finns systematiska effekter - beskrivs av en normalfördelning. Vi förväntar oss att m svarar mot det sanna värdet för den parameter vi vill mäta, vi kommer snart att se att s säger oss någonting om mätmetodens precision. Givet mätdata, hur uppskattar vi parametrarna m och s? Man kan strikt matematiskt visa att medelvärdet är den bästa uppskattningen av m och att variansen är den bästa uppskattningen av s. Forskningsmetodik HT 2003
“De stora talens välsignelse” Har man gjort många mätningar är normalfördelningen relativt väl bestämd: Gausskurvan på den vänstra grafen stämmer alldeles klart bättre med data än den till höger. Men samma skillnad I centrum för Gaussfördelningen ger två kurvor som ser ganska likvärdiga ut om vi har färre mätpunkter, och därmed ojämnare distributioner. Det går att visa att skillnaden mellan det sanna värdet och det som uppskattas genom att ta medelvärdet av datapunkterna har en normalfördelning centrerad på noll med en vidd som ges av: Det vill säga standardavvikelsen hos normalfördelningen I fråga (uppskattad med variansen av datapunkterna) dividerad med kvadratroten ur antalet mätvärden). “De stora talens välsignelse” Ex 1 och 2 sidan 213 Forskningsmetodik HT 2003