Experimentell utvärdering Språkteknologisk forskning och utveckling (HT 2006)
Utvärdering Varför utvärdering? –Objektiva mått på kvalitet Absoluta mått: Hur bra är ett system? Relativa mått: Vilket system är bäst? Metoder för utvärdering: –Formella metoder (t.ex. korrekthetsbevis) –Experimentella metoder (kontrollerade empiriska mätningar)
Aspekter att utvärdera Software product evaluation (ISO 9126): –Functionality –Reliability –Usability –Efficiency –Maintainability –Portability Dessa aspekter är tillämpbara på alla datorsystem inklusive språkteknologiska system
Experimentell metod Experiment: –Studier där ett eller flera villkor manipuleras i syfte att studera deras inflytande på ett visst fenomen Grundbegrepp: –Beroende variabler: De fenomen man vill studera. –Oberoende variabler: Alla andra fenomen som kan tänkas påverka utfallet. –Experimentella variabler: De oberoende variabler man manipulerar (systematiskt varierar). –Bakgrundsvariabler: Oberoende variabler som inte manipuleras (och som man helst vill hålla konstanta).
Experimentell validitet Intern validitet: –Är experimentet konstruerat så att man kan studera de experimentella variablernas inflytande på de beroende variablerna? –Beror på experimentell design, mätmetoder m.m. Extern validitet: –I vilken utsträckning kan experimentets resultat generaliseras från det observerade stickprovet till en större population? –Beror på stickprovets konstruktion (storlek, urvalsmetod m.m.) och bygger på statistisk inferens.
Utvärdering av korrekthet De flesta språkteknologiska system gör fel även när de fungerar perfekt. Korrekthet kan utvärderas experimentellt: –Experimentella variabler: System (och systemparametrar) Indata och/eller användare –Beroende variabler: Olika mått på korrekthet (kvalitet)
Urvalsmetoder För att resultaten skall vara generaliserbara, måste stickprov vara representativa: –Hur väljer man testdata och/eller försökspersoner? Grundläggande krav på stickprov: –Slumpmässigt –Så stort som möjligt
Testdata Utvärdering med representativa indata Krav på testdata: –Distinkta från (eventuella) träningsdata –Representativt stickprov –Tillräcklig storlek Mätning av korrekthet förutsätter normalt att korrekta utdata är kända: –Guldstandard: Utdata konstruerade (eller korrigerade) av mänskliga experter
Deskriptiv statistik Mätresultat sammanfattas med deskriptiv statistik: –Frekvensmått –Lägesmått (medelvärde, median, typvärde) –Spridningsmått (varians, standardavvikelse) Exempel: –Procent korrekt: –Precision och recall:
Statistisk inferens Statistisk inferens: –Inferens om en större population från ett mindre stickprov (jfr induktionsprincipen) Skattning: –Punktskattning –Intervallskattning Hypotestestning: –Jämförelser mellan grupper (system)
Konfidensintervall Deskriptiva stickprovsmått kan användas för att skatta korrekthet för nya data Exempel: –95% konfidensintervall för proportion p (0 p 1): –Antag: I ett (slumpmässigt) stickprov på 1000 ord har en ordklasstaggare taggar 921 ord rätt –Intervallskattning: –Slutsats: Taggarens korrekthet är (med 95% säkerhet) 92.1% 1.7%
Hypotestestning Givet deskriptiva stickprovsmått för flera system, kan vi testa vilka skillnader som är signifikanta Exempel: –Beroende t-test: –Antag: Två taggare har 921 respektive 941 rätt på 100 ord; variansen av skillnaden är –Hypotestest: –Slutsats: Skillnaden är inte signifikant på nivån 0.05
Standardmetoder (exempel) Enkel kategorisering (taggning, WSD, …): –Procent korrekt (P/R för enskilda kategorier) Informationssökning: –Precision –Recall Syntaktisk parsning: –PARSEVAL (BP/BR, LP/LR, ZC) –Dependensbaserade metriker Maskinöversättning: –BLEU, NIST, …
Laboration Utvärdering av dependensparsning Utvärderingsmått: –Procent korrekt: Rätt huvudord (Head only) Rätt huvudord + grammatisk funktion (Head + Deprel) Statistisk inferens: –Konfidensintervall för utvärderingsmått –Hypotestest för signifikanta skillnader Verktyg: –MaltEval –VassarStats