Ladda ner presentationen
Presentation laddar. Vänta.
Publicerades avRoger Nyström
1
Experimentell utvärdering Språkteknologisk forskning och utveckling (HT 2006)
2
Utvärdering Varför utvärdering? –Objektiva mått på kvalitet Absoluta mått: Hur bra är ett system? Relativa mått: Vilket system är bäst? Metoder för utvärdering: –Formella metoder (t.ex. korrekthetsbevis) –Experimentella metoder (kontrollerade empiriska mätningar)
3
Aspekter att utvärdera Software product evaluation (ISO 9126): –Functionality –Reliability –Usability –Efficiency –Maintainability –Portability Dessa aspekter är tillämpbara på alla datorsystem inklusive språkteknologiska system
4
Experimentell metod Experiment: –Studier där ett eller flera villkor manipuleras i syfte att studera deras inflytande på ett visst fenomen Grundbegrepp: –Beroende variabler: De fenomen man vill studera. –Oberoende variabler: Alla andra fenomen som kan tänkas påverka utfallet. –Experimentella variabler: De oberoende variabler man manipulerar (systematiskt varierar). –Bakgrundsvariabler: Oberoende variabler som inte manipuleras (och som man helst vill hålla konstanta).
5
Experimentell validitet Intern validitet: –Är experimentet konstruerat så att man kan studera de experimentella variablernas inflytande på de beroende variablerna? –Beror på experimentell design, mätmetoder m.m. Extern validitet: –I vilken utsträckning kan experimentets resultat generaliseras från det observerade stickprovet till en större population? –Beror på stickprovets konstruktion (storlek, urvalsmetod m.m.) och bygger på statistisk inferens.
6
Utvärdering av korrekthet De flesta språkteknologiska system gör fel även när de fungerar perfekt. Korrekthet kan utvärderas experimentellt: –Experimentella variabler: System (och systemparametrar) Indata och/eller användare –Beroende variabler: Olika mått på korrekthet (kvalitet)
7
Urvalsmetoder För att resultaten skall vara generaliserbara, måste stickprov vara representativa: –Hur väljer man testdata och/eller försökspersoner? Grundläggande krav på stickprov: –Slumpmässigt –Så stort som möjligt
8
Testdata Utvärdering med representativa indata Krav på testdata: –Distinkta från (eventuella) träningsdata –Representativt stickprov –Tillräcklig storlek Mätning av korrekthet förutsätter normalt att korrekta utdata är kända: –Guldstandard: Utdata konstruerade (eller korrigerade) av mänskliga experter
9
Deskriptiv statistik Mätresultat sammanfattas med deskriptiv statistik: –Frekvensmått –Lägesmått (medelvärde, median, typvärde) –Spridningsmått (varians, standardavvikelse) Exempel: –Procent korrekt: –Precision och recall:
10
Statistisk inferens Statistisk inferens: –Inferens om en större population från ett mindre stickprov (jfr induktionsprincipen) Skattning: –Punktskattning –Intervallskattning Hypotestestning: –Jämförelser mellan grupper (system)
11
Konfidensintervall Deskriptiva stickprovsmått kan användas för att skatta korrekthet för nya data Exempel: –95% konfidensintervall för proportion p (0 p 1): –Antag: I ett (slumpmässigt) stickprov på 1000 ord har en ordklasstaggare taggar 921 ord rätt –Intervallskattning: –Slutsats: Taggarens korrekthet är (med 95% säkerhet) 92.1% 1.7%
12
Hypotestestning Givet deskriptiva stickprovsmått för flera system, kan vi testa vilka skillnader som är signifikanta Exempel: –Beroende t-test: –Antag: Två taggare har 921 respektive 941 rätt på 100 ord; variansen av skillnaden är 0.13. –Hypotestest: –Slutsats: Skillnaden är inte signifikant på nivån 0.05
13
Standardmetoder (exempel) Enkel kategorisering (taggning, WSD, …): –Procent korrekt (P/R för enskilda kategorier) Informationssökning: –Precision –Recall Syntaktisk parsning: –PARSEVAL (BP/BR, LP/LR, ZC) –Dependensbaserade metriker Maskinöversättning: –BLEU, NIST, …
14
Laboration Utvärdering av dependensparsning Utvärderingsmått: –Procent korrekt: Rätt huvudord (Head only) Rätt huvudord + grammatisk funktion (Head + Deprel) Statistisk inferens: –Konfidensintervall för utvärderingsmått –Hypotestest för signifikanta skillnader Verktyg: –MaltEval –VassarStats
Liknande presentationer
© 2024 SlidePlayer.se Inc.
All rights reserved.