Presentation laddar. Vänta.

Presentation laddar. Vänta.

Experimentell utvärdering Språkteknologisk forskning och utveckling (HT 2006)

Liknande presentationer


En presentation över ämnet: "Experimentell utvärdering Språkteknologisk forskning och utveckling (HT 2006)"— Presentationens avskrift:

1 Experimentell utvärdering Språkteknologisk forskning och utveckling (HT 2006)

2 Utvärdering Varför utvärdering? –Objektiva mått på kvalitet Absoluta mått: Hur bra är ett system? Relativa mått: Vilket system är bäst? Metoder för utvärdering: –Formella metoder (t.ex. korrekthetsbevis) –Experimentella metoder (kontrollerade empiriska mätningar)

3 Aspekter att utvärdera Software product evaluation (ISO 9126): –Functionality –Reliability –Usability –Efficiency –Maintainability –Portability Dessa aspekter är tillämpbara på alla datorsystem inklusive språkteknologiska system

4 Experimentell metod Experiment: –Studier där ett eller flera villkor manipuleras i syfte att studera deras inflytande på ett visst fenomen Grundbegrepp: –Beroende variabler: De fenomen man vill studera. –Oberoende variabler: Alla andra fenomen som kan tänkas påverka utfallet. –Experimentella variabler: De oberoende variabler man manipulerar (systematiskt varierar). –Bakgrundsvariabler: Oberoende variabler som inte manipuleras (och som man helst vill hålla konstanta).

5 Experimentell validitet Intern validitet: –Är experimentet konstruerat så att man kan studera de experimentella variablernas inflytande på de beroende variablerna? –Beror på experimentell design, mätmetoder m.m. Extern validitet: –I vilken utsträckning kan experimentets resultat generaliseras från det observerade stickprovet till en större population? –Beror på stickprovets konstruktion (storlek, urvalsmetod m.m.) och bygger på statistisk inferens.

6 Utvärdering av korrekthet De flesta språkteknologiska system gör fel även när de fungerar perfekt. Korrekthet kan utvärderas experimentellt: –Experimentella variabler: System (och systemparametrar) Indata och/eller användare –Beroende variabler: Olika mått på korrekthet (kvalitet)

7 Urvalsmetoder För att resultaten skall vara generaliserbara, måste stickprov vara representativa: –Hur väljer man testdata och/eller försökspersoner? Grundläggande krav på stickprov: –Slumpmässigt –Så stort som möjligt

8 Testdata Utvärdering med representativa indata Krav på testdata: –Distinkta från (eventuella) träningsdata –Representativt stickprov –Tillräcklig storlek Mätning av korrekthet förutsätter normalt att korrekta utdata är kända: –Guldstandard: Utdata konstruerade (eller korrigerade) av mänskliga experter

9 Deskriptiv statistik Mätresultat sammanfattas med deskriptiv statistik: –Frekvensmått –Lägesmått (medelvärde, median, typvärde) –Spridningsmått (varians, standardavvikelse) Exempel: –Procent korrekt: –Precision och recall:

10 Statistisk inferens Statistisk inferens: –Inferens om en större population från ett mindre stickprov (jfr induktionsprincipen) Skattning: –Punktskattning –Intervallskattning Hypotestestning: –Jämförelser mellan grupper (system)

11 Konfidensintervall Deskriptiva stickprovsmått kan användas för att skatta korrekthet för nya data Exempel: –95% konfidensintervall för proportion p (0  p  1): –Antag: I ett (slumpmässigt) stickprov på 1000 ord har en ordklasstaggare taggar 921 ord rätt –Intervallskattning: –Slutsats: Taggarens korrekthet är (med 95% säkerhet) 92.1%  1.7%

12 Hypotestestning Givet deskriptiva stickprovsmått för flera system, kan vi testa vilka skillnader som är signifikanta Exempel: –Beroende t-test: –Antag: Två taggare har 921 respektive 941 rätt på 100 ord; variansen av skillnaden är 0.13. –Hypotestest: –Slutsats: Skillnaden är inte signifikant på nivån 0.05

13 Standardmetoder (exempel) Enkel kategorisering (taggning, WSD, …): –Procent korrekt (P/R för enskilda kategorier) Informationssökning: –Precision –Recall Syntaktisk parsning: –PARSEVAL (BP/BR, LP/LR, ZC) –Dependensbaserade metriker Maskinöversättning: –BLEU, NIST, …

14 Laboration Utvärdering av dependensparsning Utvärderingsmått: –Procent korrekt: Rätt huvudord (Head only) Rätt huvudord + grammatisk funktion (Head + Deprel) Statistisk inferens: –Konfidensintervall för utvärderingsmått –Hypotestest för signifikanta skillnader Verktyg: –MaltEval –VassarStats


Ladda ner ppt "Experimentell utvärdering Språkteknologisk forskning och utveckling (HT 2006)"

Liknande presentationer


Google-annonser