Mer avancerad analys Vad kan nu vara mer avancerat?

Slides:



Advertisements
Liknande presentationer
Punkt- och intervallskattning Felmarginal
Advertisements

Bedömning av uppfyllelse av miljökvalitetsnormer
Inferens om en population Sid
Hej hypotestest!. Bakgrund  Signifikansanalys  Signifikansprövning  Signifikanstest  Hypotesprövning  Hypotestest Kärt barn har många namn Inblandade:
Point Estimation Dan Hedlin
FL4 732G70 Statistik A Detta är en generell mall för att göra PowerPoint presentationer enligt LiUs grafiska profil. Du skriver in din rubrik,
Klusterurval, forts..
Exempel Utifrån medicinsk erfarenhet är 5% av befolkningen smittade av ett visst virus. Ett nytt test har visat sig ge 80% av de smittade korrekt diagnos.
Numeriska beräkningar i Naturvetenskap och Teknik
FL3 732G81 Linköpings universitet.
FL8 732G70 Statistik A Detta är en generell mall för att göra PowerPoint presentationer enligt LiUs grafiska profil. Du skriver in din rubrik,
FL9 732G70 Statistik A Detta är en generell mall för att göra PowerPoint presentationer enligt LiUs grafiska profil. Du skriver in din rubrik,
FL5 732G70 Statistik A Detta är en generell mall för att göra PowerPoint presentationer enligt LiUs grafiska profil. Du skriver in din rubrik,
732G22 Grunder i statistisk metodik
Inferens om en ändlig population Sid
Jämförelse av två populationer Sid
Kapitel 5 Stickprovsteori Sid
Asymptotic evaluations Dan Hedlin
F11 Olika urvalsmetoder, speciellt obundet slumpmässigt urval (OSU)
Statistikens grunder, 15p dagtid
Tillämpad statistik Naprapathögskolan
Stickprovsförfaranden
Felkalkyl Ofta mäter man inte direkt den storhet som är den intressanta, utan en grundläggande variabel som sedan används för att beräkna det som man är.
Grundlägande statistik,ht 09, AN1 F5 Kombinatorik (KW 1.6) Ex.: På en matsedel finns tre förrätter, två huvudrätter och två efterrätter. På hur många olika.
Skattningens medelfel
2. Enkel regressionsanalys
Experimentell utvärdering Språkteknologisk forskning och utveckling (HT 2006)
Förelasning 6 Hypotesprövning
Centrala Gränsvärdessatsen:
FK2002,FK2004 Föreläsning 2.
Föreläsning 81 Sampling och urval Ofta möter vi påståenden av typen “4.5 miljoner svenskar såg VM-finalen i fotboll”, “en svensk tolvåring väger i genomsnitt.
En mycket vanlig frågeställning gäller om två storheter har ett samband eller inte, många gånger är det helt klart: y x För en mätserie som denna är det.
Fysikexperiment 5p Föreläsning Korrelationer Ett effektivt sätt att beskriva sambandet mellan två variabler (ett observationspar) är i.
DNA-bevis För jämförelser mellan biologiska spår (blod, hår, saliv, hudrester, andra kroppsvätskor, mm.) och prov från en misstänkt förövare av ett brott.
FL7 732G70 Statistik A Detta är en generell mall för att göra PowerPoint presentationer enligt LiUs grafiska profil. Du skriver in din rubrik,
Övningsexempel till Kapitel 4
Binomialsannolikheter ritas i ett stolpdiagram
Egenskaper för punktskattning
Sannolikhet Stickprov Fördelningar
FL6 732G70 Statistik A Detta är en generell mall för att göra PowerPoint presentationer enligt LiUs grafiska profil. Du skriver in din rubrik,
Simulering Introduktion Exempel: Antag att någon kastar tärning
Föreläsning 7 Fysikexperiment 5p Poissonfördelningen Poissonfördelningen är en sannolikhetsfördelning för diskreta variabler som är mycket.
Normalfördelningen och centrala gränsvärdessatsen
Matematisk statistik och signal-behandling - ESS011 Föreläsning 3 Igor Rychlik 2015 (baserat på föreläsningar av Jesper Rydén)
732G22 Grunder i statistisk metodik
Föreläsning 11732G26 Surveymetosik med uppsats Urvalsvikter vid dragning med återläggning av PSU Vid urval utan återläggning: Använd analogin med Q i här:
Slumptal Pseudoslumptal Fysikexperiment 5p Föreläsning 2
Fysikexperiment, 5p1 Random Walk 36 försök med Random walk med 1000 steg. Beräknad genomsnittlig räckvidd är  1000  32. Visualisering av utfallsrum.
Några allmänna räkneregler för sannolikheter
732G22 Grunder i statistisk metodik
1 Fler uträkningar med normalfördelningstabell Låt X vara Nf(170,5). Beräkna Lösning:
Grundläggande statistik, ht 09, AN
Grundläggande statistik, ht 09, AN1 F6 Slumpmässigt urval 1. Population där X är diskret med fördelningen p(x). Medelvärdet μ och variansen σ². Observationer:
1 Normalfördelningsmodellen. 2 En modell är en förenklad beskrivning av någon del av verkligheten. Beskrivningen måste vara relevant för det vi skall.
1 Stokastiska variabler. 2 Variabler En variabel är en egenskap hos en individ /objekt. En variabel kan, som vi tidigare sett, vara kvalitativ eller kvantitativ.
Deskription Normalfördelningsmodellen 1. 2 En modell är en förenklad beskrivning av någon del av verkligheten. Beskrivningen måste vara relevant för det.
Statistisk hypotesprövning. Test av hypoteser Ofta när man gör undersökningar så vill man ha svar på olika frågor (s.k. hypoteser). T.ex. Stämmer en spelares.
Vad är Statistik? Inom statistik teorin studeras -Hur vi samlar in data. -Hur data analyseras och vilka slutsatser som kan dras från data. -Hur insamlad.
Statistisk inferensteori. Inledning Den statistiska inferensteorin handlar i huvudsak om att dra slutsatser från ett slumpmässigt urval (sannolikhetsurval)
Betingade sannolikheter. 2 Antag att vi kastar en tärning och noterar antalet prickar som kommer upp. Låt A vara händelsen ”udda antal prickar”, dvs.
Diskreta slumpvariabler. Stokastiskvariabel En slumpvariabel (stokastisk variabel) är en Funktion eller regel som tilldelar ett tal till varje Utfall.
1. Kontinuerliga variabler
1 Numeriska Deskriptiva Tekniker. 2 Centralmått §Vanligtvis fokuserar vi vår uppmärksamhet på två typer av mått när vi beskriver en population: l Centraläge.
Samband & Inferens Konfidensintervall Statistisk hypotesprövning
Regression Har långa högre inkomst?. Världsrekord på engelska milen.
Samband & Inferens Hypotetisk –deduktiv metod Samband mellan nominal/ordinal-variabler –Chi2-test Samband mellan kvot-varibaler –Korrelationskoefficient.
Enkel Linjär Regression. 1 Introduktion Vi undersöker relationer mellan variabler via en matematisk ekvation. Motivet för att använda denna teknik är:
Grundlägande statistik,ht 09, AN
Grundl. statistik F2, ht09, AN
Ett verktyg för systematisk uppföljning i missbruksbruksvården
Presentationens avskrift:

Mer avancerad analys Vad kan nu vara mer avancerat? Avancerad beräkning av P(E | HP ) resp. P(E | HD ) Strukturer för värdering mot hypoteser på aktivitetsnivå Blandbilder (DNA, fingeravtryck, verktygsspår…) Multivariata mätvärden Bayesianska nätverk för sannolikhetskalkyler Osäkerhetsbedömningar av likelihoodkvoter … och mycket mer!

Multivariata mätvärden Grundläggande kurser i statistik/matematisk statistik: Mycket om univariata mätvärden, dvs. utfall av endimensionella variabler Stickprov utreds som regel baserat på teori för oberoende univariata slumpvariabler Regressionsanalys innehåller fler än en variabel, men endast responsvariabeln (y) är en slumpvariabel, övriga betraktas som deterministiska (fixerade till sina värden i designen). Analyserna är därför betingade. Viss behandling av tvådimensionella slumpvariabler Täthets- och sannolikhetsfunktioner. Beräkning av sannolikheter med summering/integration i två dimensioner. Betingade täthets- och sannolikhetsfunktioner Kovarians och korrelation som teoretiska mått.

Om vi nu har m slumpvariabler eller alternativt en m-dimensionell slumpvariabel? Om variablerna är statistiskt oberoende  Teori för endimensionella variabler kan användas. Om beroendestrukturer finns mellan variablerna: Krävs att en simultan täthets/sannolikhetsfunktion f (x1, … , xm ) ställs upp För alla utom en sannolikhetsfördelning är denna funktion nödvändig för att kunna göra sannolikhetsberäkningar (inga genvägar finns) Om vi kan anta s.k. multivariat normalfördelning (som alltså är undantaget) räcker det att känna till väntevärdet i för var och en av de endimensionella variablerna (samlas i en väntevärdesvektor). variansen i2 för var och en av de endimensionella variablerna kovariansen  ij mellan alla par av endimensionella variabler De senare två samlas i en kovariansmatris

Om X = ( X1, … , Xm ) är en m-dimensionell (m-variat) normalfördelad slumpvariabel (en stokastisk vektor ) betecknas denna Eftersom kovariansen ij mellan Xi och Xj måste vara densamma som kovariansen ji mellan Xj och Xi blir kovariansmatrisen symmetrisk.

Multivariata normalfördelningar har flera mycket bra egenskaper Varje ingående endimensionell variabel är endimensionellt normalfördelad med motsvarande väntevärde och varians. Om två av de ingående endimensionella variablerna har kovariansen 0 är de också oberoende (detta gäller endast för normalfördelningar) Den betingade sannolikhetsfördelningen för en av de ingående endimensionella variablerna givet en eller flera av de övriga ingående variablerna är också normalfördelad med relativt enkla uttryck för väntevärde och varians Optimal prediktor av en av de ingående variablerna givet en eller flera av de övriga ingående variablerna sammanfaller med bästa linjära prediktor, dvs.

När använder vi multivariata mätningar i forensiskt analysarbete? Glasundersökningar: Elementalanalys, dvs. jämförelse av ämnessammansättning hos säkrade glasfragment och hos referensprov Analys av gummi i bromsspår Analys av oljor för jämförelse mellan utsläppsprover och fartygslaster Analys av metallinnehåll i gods från misstänkta stölder av skrot Amfetaminjämförelser m.m. Gaskromatografi och Svepelektronmikroskopi ger multivariata mätvärden!

Amfetaminjämförelser Att konstatera att ett visst beslag innehåller amfetamin behöver egentligen inte värderas  Analysbesked, inte värdering av forensiska bevis Analysbesked av detta slag kan vara tillräckligt för att fälla en misstänkt för narkotikainnehav langning (om analysbeskedet med säkerhet visar på mängd över viss gräns) När kan då resultatvärdering bli aktuellt? För att styrka (eller motsäga) att amfetaminet har ett visst ursprung

Vad mäter man i detta sammanhang? Föroreningar i amfetaminet Föroreningar tillkommer i amfetamin successivt med tiden Förekomst av vissa föroreningar i viss mängd används därför för att tidsbestämma amfetaminets tillverkningstidpunkt jämföra med andra amfetaminbeslag för att gruppera Övergripande syfte: Hjälp i polisens (och hela rättsväsendets) kartläggning av nationella och internationella nätverk för amfetamintillverkning och försäljning.

Baserat på ett samarbete med andra laboratorier i Europa mäter SKL idag drygt 20 olika föroreningar (variabler) i amfetaminbeslag. Multivariata mätvärden där beroende mellan variabler inte kan uteslutas Normalfördelade mätvärden? Hur kan man jämföra? Multivariata avståndsmått Låt x = (x1, x2, … , x23 ) vara mätvärden för 23 föroreningar i ett beslag och y = (y1, y2, … , y23 ) vara motsvarande mätvärden i ett annat beslag.

Ett otal avståndsmått existerar Euklidiskt avstånd (det klassiska avståndsmåttet): Pearsonavstånd (överenskommet avståndsmått inom samarbetet):

Kvotmetoden (utvecklad vid SKL): Studerar kvoter xi / yi och utgår från maximala värden hos sådana Canberra-avstånd Sinuskvadratavstånd mm. Mahalanobis avståndsmått: Ett mer avancerat avståndsmått. Uttrycket anges med hjälp av matrismultiplikation och matrisinvertering (linjär algebra) Utveckling av det Euklidiska avståndet där hänsyn tas till kovarians (korrelation) mellan föroreningsvariablerna.

Om nu avståndet mellan två beslag har beräknats, Hur kan vi värdera detta avstånd gentemot hypoteser? Ultimat: En likelihoodkvot beräknas. Kan sannolikheter beräknas här? Likelihoodkvoten blir här vad namnet verkligen anger, en kvot mellan två likelihoodvärden, det ena under modellen att beslagen har samma ursprung, det andra under modellen att beslagen har olika ursprung. Jämför ”continuos approach” vid LR baserad på brytningsindex för glas. Ovanstående är föremål för aktuell forskning!!

Att gå från det diskreta till det kontinuerliga Likelihoodkvoter har vi generellt satt upp som dvs. uttryckts som en kvot av två betingade sannolikheter. En mer generell formel är där L står för likelihooden

Vad är då en likelihood ? Ett resultat som uttrycks i form av ett mätvärde x (av en storhet eller en differens mellan två mätningar av samma typ av storhet) flera mätvärden x1, … , xn (ett stickprov av mätvärden av en storhet eller differenser mellan flera par av mätningar; en multivariat observation) kan ”sättas in” i en täthets- eller sannolikhetsfunktion som beskriver sannolikhetsfördelningen för mätvärdena/differenserna: f (x ) f (x1, … , xn )

Från grunden kan vi anta att det finns en generell täthets/sannolikhetsfunktion. T.ex. om det rör sig om ett normalfördelat mätvärde är det generella uttrycket för täthetsfunktionen Antag nu att om HP är sann så är  =2 och  = 1 medan om HD är sann så är  =3 och  = 2 Likelihooden under HP för värdet x blir då och likelihooden under HD för värdet x blir Likelihoodkvoten blir

Likelihooden är alltså egentligen täthets/sannolikhetsfunktionen beräknad för det aktuella mätvärdet/de aktuella mätvärdena under givna värden på sannolikhetsfördelningens parametrar. Speciellt: I statistiska sammanhang brukar man skatta parametrarna utifrån de mätvärden man har så att täthets/sannolikhetsfunktionens värde beräknad för mätvärdena blir maximal, s.k. Maximum-Liklihood-skattning. Själva maximala värdet brukar då kallas likelihooden.

Om vi nu inte har någon generell beskrivning av täthets/sannolikhetsfunktionen? Exempel: Har en viss omstridd bild tagits med digitalkamera A eller med digitalkamera B? Mätmetod: Brus i bilden kan observeras och korrelationen mellan bildbruset och en kameras ”bakgrundsbrus” kan uppskattas. Referensmaterial för korrelationer mellan bildbrus och bakgrundsbrus hos bilder tagna med respektive kamera är tillgängliga.

Referensdata är diskreta i den meningen att det rör sig om ett ändligt antal observationer. Hur kan man omforma histogrammen till täthetsfunktioner? Kärnskattningsteknik där x1, … , xn är de korrelationer man har i referensmaterialet för en kamera. K är en s.k. kärnfunktion, som i princip är en symmetrisk funktion (runt 0) med integrerad yta =1, t.ex. täthetsfunktionen för N (0,1) och h är en s.k. bandbredd. Ett stort värde på h medför att skattningen blir mycket utjämnad (slät) medan ett litet värde medöfr en ”hackigare” skattning

Kanske: T.ex. kan en observerad korrelation = 0.015 nu värderas som en likelihoodkvot mellan värdet på blå kurva och värdet på röd kurva för x = 0.015

Osäkerhetsbedömningar av likelihoodkvoter Problem: Ett rapporterat resultatvärde är som all annan rapporterad statistik behäftad med osäkerhet. Nuläget: Endast värdet rapporteras och sätts in på lämplig plats i skalan. Vore det inte förnuftigt att kunna ange ett ”konfidensintervall” för det sanna värdet hos LR ? (Det observerade LR är faktiskt en skattning!!)

Analytiska metoder: Vi utgår som tidigare från att resultaten erhållits som mätvärden, x vilka har en bakomliggande generell täthetsfunktion f (x) Notera at för enkelhets skull använder vi x för att beteckna ett eller flera mätvärden. Likelihoodkvoten kan då skrivas där är likelihooden under antagande att HP är sann innefattande att parametrar i den generella f kan behöva skattas och är likelihooden under antagande att HD är sann vilket i princip alltid innebär att parametrar i den generella f måste skattas

Enkelt specialfall: Vi antar att f beror på en enda parameter, t.ex. ett medelvärde  . Vi skriver därför f = f (x ;  ) Likelihoodkvoten kan omformuleras till Matematiskt måste vi nu Taylorutveckla LR för att kunna gå vidare. Om man är bekant med matematisk-statistisk linjärisering vet man att detta kallas att utnyttja Gauss’ approximationsformler. Oftast knöligt och för att i slutändan kunna komma till ett konfidensintervall krävs att asymptotiska normalfördelningsegenskaper kan utnyttjas. Asymptotik är tveksamt foresnsiska sammanhang!!

Ett alternativ: Återsampling Bootstrapmetoden Antag att vi har ett slumpmässigt stickprov, dvs. n oberoende observationer av slumpvariabler med likadana sannolikhetsfördelningar: x1, … , xn Den sannolikhetsfördelning som råder kan approximativt illustreras med t.ex. ett histogram:

Bootstrapidén är nu att detta histogram (eller mer formellt: den empiriska skattningen av sannolikhetsfördelningen) kan tillfälligt spela rollen av att vara den sanna fördelningen. Stickprovet går in som substitut för populationen. Praktiskt. ”Nya” stickprov kan dras från det gamla. Dragning görs med återläggning  Populationen ses som oändlig där varje enskilt värde förekommer med den relativa frekvens det har i stickprovet. T.ex. Antag att stickprovet består av värdena 3, 5, 2, 2, 8 Som substitut för populationen innebär detta följande sannolikhetsfördelning:

Uppskattad sannolikhetsfördelning hos På varje ”nytt” stickprov beräknas det som ursprungligen har beräknats i originalstickprovet  I princip punktskattningar, i vårt fall LR Utvärdering av punktskattningarnas egenskaper görs genom att studera deras variation över de ”nya” stickproven. Bootstrapprincipen: Uppskattad sannolikhetsfördelning hos är en approximation av sannolikhets-fördelningen hos Precisionen i den uppskattade sannolikhetsfördelning hos bestäms av M, dvs. antalet upprepade stickprovsdragningar

Vi kan t.ex. få följande histogram över punktskattningar från M =1000 nya stickprov: Värdena kan transformeras till ett histogram över : I detta histogram (eg. i följden av ordnade värden går det att hitta t.ex. 5:e och 95:e percentilerna

Ett 90%-igt approximativt konfidensintervall (s. k Ett 90%-igt approximativt konfidensintervall (s.k. percentilintervall) kan nu konstrueras enligt: P* betyder att sannolikheter beräknas under antagande att ursprungligt stickprov är population.

Tillämpning på likelihoodkvoter Enkelt fall: Hur har vi fått fram ”Match probability”? Via en databas, t.ex. i DNA-sammanhang en databas om c:a 300 individer ur vilken allelfrekvenser har uppskattats. Databasen är ett stickprov!

Tillämpa bootstrap (återsampling) på databasen. I DNA-fallet Skapa ”nya” databaser genom att med återläggning dra individer ur den ursprungliga. För varje databas, fastställ allelfrekvenserna Beräkna LR för varje databas Upprepning av förfarandet M gånger  M varianter av LR. Konstruera konfidensintervall Anm. Det finns alternativa sätt att göra själva återsamplingen. Det behöver inte vara en dragning av individer.