Mer avancerad analys Vad kan nu vara mer avancerat? Avancerad beräkning av P(E | HP ) resp. P(E | HD ) Strukturer för värdering mot hypoteser på aktivitetsnivå Blandbilder (DNA, fingeravtryck, verktygsspår…) Multivariata mätvärden Bayesianska nätverk för sannolikhetskalkyler Osäkerhetsbedömningar av likelihoodkvoter … och mycket mer!
Multivariata mätvärden Grundläggande kurser i statistik/matematisk statistik: Mycket om univariata mätvärden, dvs. utfall av endimensionella variabler Stickprov utreds som regel baserat på teori för oberoende univariata slumpvariabler Regressionsanalys innehåller fler än en variabel, men endast responsvariabeln (y) är en slumpvariabel, övriga betraktas som deterministiska (fixerade till sina värden i designen). Analyserna är därför betingade. Viss behandling av tvådimensionella slumpvariabler Täthets- och sannolikhetsfunktioner. Beräkning av sannolikheter med summering/integration i två dimensioner. Betingade täthets- och sannolikhetsfunktioner Kovarians och korrelation som teoretiska mått.
Om vi nu har m slumpvariabler eller alternativt en m-dimensionell slumpvariabel? Om variablerna är statistiskt oberoende Teori för endimensionella variabler kan användas. Om beroendestrukturer finns mellan variablerna: Krävs att en simultan täthets/sannolikhetsfunktion f (x1, … , xm ) ställs upp För alla utom en sannolikhetsfördelning är denna funktion nödvändig för att kunna göra sannolikhetsberäkningar (inga genvägar finns) Om vi kan anta s.k. multivariat normalfördelning (som alltså är undantaget) räcker det att känna till väntevärdet i för var och en av de endimensionella variablerna (samlas i en väntevärdesvektor). variansen i2 för var och en av de endimensionella variablerna kovariansen ij mellan alla par av endimensionella variabler De senare två samlas i en kovariansmatris
Om X = ( X1, … , Xm ) är en m-dimensionell (m-variat) normalfördelad slumpvariabel (en stokastisk vektor ) betecknas denna Eftersom kovariansen ij mellan Xi och Xj måste vara densamma som kovariansen ji mellan Xj och Xi blir kovariansmatrisen symmetrisk.
Multivariata normalfördelningar har flera mycket bra egenskaper Varje ingående endimensionell variabel är endimensionellt normalfördelad med motsvarande väntevärde och varians. Om två av de ingående endimensionella variablerna har kovariansen 0 är de också oberoende (detta gäller endast för normalfördelningar) Den betingade sannolikhetsfördelningen för en av de ingående endimensionella variablerna givet en eller flera av de övriga ingående variablerna är också normalfördelad med relativt enkla uttryck för väntevärde och varians Optimal prediktor av en av de ingående variablerna givet en eller flera av de övriga ingående variablerna sammanfaller med bästa linjära prediktor, dvs.
När använder vi multivariata mätningar i forensiskt analysarbete? Glasundersökningar: Elementalanalys, dvs. jämförelse av ämnessammansättning hos säkrade glasfragment och hos referensprov Analys av gummi i bromsspår Analys av oljor för jämförelse mellan utsläppsprover och fartygslaster Analys av metallinnehåll i gods från misstänkta stölder av skrot Amfetaminjämförelser m.m. Gaskromatografi och Svepelektronmikroskopi ger multivariata mätvärden!
Amfetaminjämförelser Att konstatera att ett visst beslag innehåller amfetamin behöver egentligen inte värderas Analysbesked, inte värdering av forensiska bevis Analysbesked av detta slag kan vara tillräckligt för att fälla en misstänkt för narkotikainnehav langning (om analysbeskedet med säkerhet visar på mängd över viss gräns) När kan då resultatvärdering bli aktuellt? För att styrka (eller motsäga) att amfetaminet har ett visst ursprung
Vad mäter man i detta sammanhang? Föroreningar i amfetaminet Föroreningar tillkommer i amfetamin successivt med tiden Förekomst av vissa föroreningar i viss mängd används därför för att tidsbestämma amfetaminets tillverkningstidpunkt jämföra med andra amfetaminbeslag för att gruppera Övergripande syfte: Hjälp i polisens (och hela rättsväsendets) kartläggning av nationella och internationella nätverk för amfetamintillverkning och försäljning.
Baserat på ett samarbete med andra laboratorier i Europa mäter SKL idag drygt 20 olika föroreningar (variabler) i amfetaminbeslag. Multivariata mätvärden där beroende mellan variabler inte kan uteslutas Normalfördelade mätvärden? Hur kan man jämföra? Multivariata avståndsmått Låt x = (x1, x2, … , x23 ) vara mätvärden för 23 föroreningar i ett beslag och y = (y1, y2, … , y23 ) vara motsvarande mätvärden i ett annat beslag.
Ett otal avståndsmått existerar Euklidiskt avstånd (det klassiska avståndsmåttet): Pearsonavstånd (överenskommet avståndsmått inom samarbetet):
Kvotmetoden (utvecklad vid SKL): Studerar kvoter xi / yi och utgår från maximala värden hos sådana Canberra-avstånd Sinuskvadratavstånd mm. Mahalanobis avståndsmått: Ett mer avancerat avståndsmått. Uttrycket anges med hjälp av matrismultiplikation och matrisinvertering (linjär algebra) Utveckling av det Euklidiska avståndet där hänsyn tas till kovarians (korrelation) mellan föroreningsvariablerna.
Om nu avståndet mellan två beslag har beräknats, Hur kan vi värdera detta avstånd gentemot hypoteser? Ultimat: En likelihoodkvot beräknas. Kan sannolikheter beräknas här? Likelihoodkvoten blir här vad namnet verkligen anger, en kvot mellan två likelihoodvärden, det ena under modellen att beslagen har samma ursprung, det andra under modellen att beslagen har olika ursprung. Jämför ”continuos approach” vid LR baserad på brytningsindex för glas. Ovanstående är föremål för aktuell forskning!!
Att gå från det diskreta till det kontinuerliga Likelihoodkvoter har vi generellt satt upp som dvs. uttryckts som en kvot av två betingade sannolikheter. En mer generell formel är där L står för likelihooden
Vad är då en likelihood ? Ett resultat som uttrycks i form av ett mätvärde x (av en storhet eller en differens mellan två mätningar av samma typ av storhet) flera mätvärden x1, … , xn (ett stickprov av mätvärden av en storhet eller differenser mellan flera par av mätningar; en multivariat observation) kan ”sättas in” i en täthets- eller sannolikhetsfunktion som beskriver sannolikhetsfördelningen för mätvärdena/differenserna: f (x ) f (x1, … , xn )
Från grunden kan vi anta att det finns en generell täthets/sannolikhetsfunktion. T.ex. om det rör sig om ett normalfördelat mätvärde är det generella uttrycket för täthetsfunktionen Antag nu att om HP är sann så är =2 och = 1 medan om HD är sann så är =3 och = 2 Likelihooden under HP för värdet x blir då och likelihooden under HD för värdet x blir Likelihoodkvoten blir
Likelihooden är alltså egentligen täthets/sannolikhetsfunktionen beräknad för det aktuella mätvärdet/de aktuella mätvärdena under givna värden på sannolikhetsfördelningens parametrar. Speciellt: I statistiska sammanhang brukar man skatta parametrarna utifrån de mätvärden man har så att täthets/sannolikhetsfunktionens värde beräknad för mätvärdena blir maximal, s.k. Maximum-Liklihood-skattning. Själva maximala värdet brukar då kallas likelihooden.
Om vi nu inte har någon generell beskrivning av täthets/sannolikhetsfunktionen? Exempel: Har en viss omstridd bild tagits med digitalkamera A eller med digitalkamera B? Mätmetod: Brus i bilden kan observeras och korrelationen mellan bildbruset och en kameras ”bakgrundsbrus” kan uppskattas. Referensmaterial för korrelationer mellan bildbrus och bakgrundsbrus hos bilder tagna med respektive kamera är tillgängliga.
Referensdata är diskreta i den meningen att det rör sig om ett ändligt antal observationer. Hur kan man omforma histogrammen till täthetsfunktioner? Kärnskattningsteknik där x1, … , xn är de korrelationer man har i referensmaterialet för en kamera. K är en s.k. kärnfunktion, som i princip är en symmetrisk funktion (runt 0) med integrerad yta =1, t.ex. täthetsfunktionen för N (0,1) och h är en s.k. bandbredd. Ett stort värde på h medför att skattningen blir mycket utjämnad (slät) medan ett litet värde medöfr en ”hackigare” skattning
Kanske: T.ex. kan en observerad korrelation = 0.015 nu värderas som en likelihoodkvot mellan värdet på blå kurva och värdet på röd kurva för x = 0.015
Osäkerhetsbedömningar av likelihoodkvoter Problem: Ett rapporterat resultatvärde är som all annan rapporterad statistik behäftad med osäkerhet. Nuläget: Endast värdet rapporteras och sätts in på lämplig plats i skalan. Vore det inte förnuftigt att kunna ange ett ”konfidensintervall” för det sanna värdet hos LR ? (Det observerade LR är faktiskt en skattning!!)
Analytiska metoder: Vi utgår som tidigare från att resultaten erhållits som mätvärden, x vilka har en bakomliggande generell täthetsfunktion f (x) Notera at för enkelhets skull använder vi x för att beteckna ett eller flera mätvärden. Likelihoodkvoten kan då skrivas där är likelihooden under antagande att HP är sann innefattande att parametrar i den generella f kan behöva skattas och är likelihooden under antagande att HD är sann vilket i princip alltid innebär att parametrar i den generella f måste skattas
Enkelt specialfall: Vi antar att f beror på en enda parameter, t.ex. ett medelvärde . Vi skriver därför f = f (x ; ) Likelihoodkvoten kan omformuleras till Matematiskt måste vi nu Taylorutveckla LR för att kunna gå vidare. Om man är bekant med matematisk-statistisk linjärisering vet man att detta kallas att utnyttja Gauss’ approximationsformler. Oftast knöligt och för att i slutändan kunna komma till ett konfidensintervall krävs att asymptotiska normalfördelningsegenskaper kan utnyttjas. Asymptotik är tveksamt foresnsiska sammanhang!!
Ett alternativ: Återsampling Bootstrapmetoden Antag att vi har ett slumpmässigt stickprov, dvs. n oberoende observationer av slumpvariabler med likadana sannolikhetsfördelningar: x1, … , xn Den sannolikhetsfördelning som råder kan approximativt illustreras med t.ex. ett histogram:
Bootstrapidén är nu att detta histogram (eller mer formellt: den empiriska skattningen av sannolikhetsfördelningen) kan tillfälligt spela rollen av att vara den sanna fördelningen. Stickprovet går in som substitut för populationen. Praktiskt. ”Nya” stickprov kan dras från det gamla. Dragning görs med återläggning Populationen ses som oändlig där varje enskilt värde förekommer med den relativa frekvens det har i stickprovet. T.ex. Antag att stickprovet består av värdena 3, 5, 2, 2, 8 Som substitut för populationen innebär detta följande sannolikhetsfördelning:
Uppskattad sannolikhetsfördelning hos På varje ”nytt” stickprov beräknas det som ursprungligen har beräknats i originalstickprovet I princip punktskattningar, i vårt fall LR Utvärdering av punktskattningarnas egenskaper görs genom att studera deras variation över de ”nya” stickproven. Bootstrapprincipen: Uppskattad sannolikhetsfördelning hos är en approximation av sannolikhets-fördelningen hos Precisionen i den uppskattade sannolikhetsfördelning hos bestäms av M, dvs. antalet upprepade stickprovsdragningar
Vi kan t.ex. få följande histogram över punktskattningar från M =1000 nya stickprov: Värdena kan transformeras till ett histogram över : I detta histogram (eg. i följden av ordnade värden går det att hitta t.ex. 5:e och 95:e percentilerna
Ett 90%-igt approximativt konfidensintervall (s. k Ett 90%-igt approximativt konfidensintervall (s.k. percentilintervall) kan nu konstrueras enligt: P* betyder att sannolikheter beräknas under antagande att ursprungligt stickprov är population.
Tillämpning på likelihoodkvoter Enkelt fall: Hur har vi fått fram ”Match probability”? Via en databas, t.ex. i DNA-sammanhang en databas om c:a 300 individer ur vilken allelfrekvenser har uppskattats. Databasen är ett stickprov!
Tillämpa bootstrap (återsampling) på databasen. I DNA-fallet Skapa ”nya” databaser genom att med återläggning dra individer ur den ursprungliga. För varje databas, fastställ allelfrekvenserna Beräkna LR för varje databas Upprepning av förfarandet M gånger M varianter av LR. Konstruera konfidensintervall Anm. Det finns alternativa sätt att göra själva återsamplingen. Det behöver inte vara en dragning av individer.