Experimentell utvärdering Språkteknologisk forskning och utveckling (HT 2006)

Slides:



Advertisements
Liknande presentationer
Punkt- och intervallskattning Felmarginal
Advertisements

Inferens om en population Sid
Hej hypotestest!. Bakgrund  Signifikansanalys  Signifikansprövning  Signifikanstest  Hypotesprövning  Hypotestest Kärt barn har många namn Inblandade:
Point Estimation Dan Hedlin
Språkteknologisk forskning och utveckling (HT 2007)
FL8 732G70 Statistik A Detta är en generell mall för att göra PowerPoint presentationer enligt LiUs grafiska profil. Du skriver in din rubrik,
FL9 732G70 Statistik A Detta är en generell mall för att göra PowerPoint presentationer enligt LiUs grafiska profil. Du skriver in din rubrik,
732G22 Grunder i statistisk metodik
Inferens om en ändlig population Sid
Jämförelse av två populationer Sid
Kapitel 5 Stickprovsteori Sid
Skånes Universitetssjukhus
Ett stickprov kvantitativa data: t-test
Asymptotic evaluations Dan Hedlin
F11 Olika urvalsmetoder, speciellt obundet slumpmässigt urval (OSU)
Workshop i statistik för medicinska bibliotekarier!
Språkteknologiska metoder Språkteknologisk forskning och utveckling (HT 2006)
Tillämpad statistik Naprapathögskolan
Felkalkyl Ofta mäter man inte direkt den storhet som är den intressanta, utan en grundläggande variabel som sedan används för att beräkna det som man är.
Sammanfatta siffrorna…
Skattningens medelfel
Grundläggande Biostatistik
Förelasning 1 Kursintroduktion Statistiska undersökningar
Förelasning 6 Hypotesprövning
Centrala Gränsvärdessatsen:
732G81 Statistik Föreläsning 3 732G81 Statistik
En mycket vanlig frågeställning gäller om två storheter har ett samband eller inte, många gånger är det helt klart: y x För en mätserie som denna är det.
FL7 732G70 Statistik A Detta är en generell mall för att göra PowerPoint presentationer enligt LiUs grafiska profil. Du skriver in din rubrik,
Statsvetenskap 3, statsvetenskapliga metoder
Sannolikhet Stickprov Fördelningar
FL6 732G70 Statistik A Detta är en generell mall för att göra PowerPoint presentationer enligt LiUs grafiska profil. Du skriver in din rubrik,
Noggrannhet – Precision – Riktighet
Att välja metod Från Henrik Boström Vad används metoden till?
Normalfördelningen och centrala gränsvärdessatsen
Övningsexempel till Kapitel 7 Ex 1. BRÄNNBOLLSDILEMMAT ! En person funderar över hur man bäst uppskattar 28 meter. Av erfarenhet vet han att hans steglängd,
Matematisk statistik och signal-behandling - ESS011 Föreläsning 3 Igor Rychlik 2015 (baserat på föreläsningar av Jesper Rydén)
F8 Hypotesprövning. Begrepp
Grundläggande statistik ht 09, AN
Forskningsmetodik Sampling och urval Hypotesprövning Lektion 9
Föreläsning 11732G26 Surveymetosik med uppsats Urvalsvikter vid dragning med återläggning av PSU Vid urval utan återläggning: Använd analogin med Q i här:
Statistik Lars Valter Fil.lic. Statistik
Matematisk statistik och signal-behandling - ESS011 Föreläsning 1 Igor Rychlik 2015 (baserat på föreläsningar av Jesper Rydén)
732G22 Grunder i statistisk metodik
Grundläggande statistik, ht 09, AN
Helena Lindgren 1 MDI – fördjupningskurs (D – nivå) Kursens mål ge teoretisk fördjupning i ämnet människa-dator interaktion, ge kunskap om metoder.
Statistiska samband i trafikolyckor Av: Lina Forsberg Hangjin Lee Daniel Leo Carl-Mikael Westman.
Grundläggande statistik, ht 09, AN1 F6 Slumpmässigt urval 1. Population där X är diskret med fördelningen p(x). Medelvärdet μ och variansen σ². Observationer:
Lägesmått. Lägesmått Vad är lägesmått? Sammanfatta en mängd data Exempelvis hur mycket veckopengar får elever som går i åk7… En klass består av ca.
Lite repetition och SAMBAND & INFERENS. population Population Stickprov, urval INFERENS = Dra slutsatser från data om hela populationen utifrån ett stickprov.
Kostvetenskapliga Metoder 1. VAD ÄR STATISTIK? 2. DESKRIPTION 3. NORMALFÖRDELNING 4. HYPOTESPRÖVNING a) t-test b) ickeparametriska test c) chitvåtest.
1 Experimentella studier Litteratur: Dahmström: Kap 2 Research Metod: Kap 9.
Medicinsk statistik II Läkarprogrammet T5 HT 2013 Susann Ullén FoU-centrum Skåne Skånes Universitetssjukhus.
Vetenskaplig metod Statistik 1. VAD ÄR STATISTIK? 2. DESKRIPTION 3. URVAL 4. STATISTISK INFERENS OCH HYPOTESPRÖVNING a) t-test b) ickeparametriska test.
Statistisk hypotesprövning. Test av hypoteser Ofta när man gör undersökningar så vill man ha svar på olika frågor (s.k. hypoteser). T.ex. Stämmer en spelares.
Vad är Statistik? Inom statistik teorin studeras -Hur vi samlar in data. -Hur data analyseras och vilka slutsatser som kan dras från data. -Hur insamlad.
UTVÄRDERING OCH KVALITET Metod för utvärderingen viktig för utvärderingens status. En utvärdering utifrån ett vetenskapligt arbetssätt ger andra möjlighet.
Statistisk inferensteori. Inledning Den statistiska inferensteorin handlar i huvudsak om att dra slutsatser från ett slumpmässigt urval (sannolikhetsurval)
1 Numeriska Deskriptiva Tekniker. 2 Centralmått §Vanligtvis fokuserar vi vår uppmärksamhet på två typer av mått när vi beskriver en population: l Centraläge.
Kvantitativa forskningsmetoder Sociologi A VT 2015 Ilkka Henrik Mäkinen (momentansvarig)
Så kan det låta! … Mätinstrumentets reliabilitet och validitet ökades avsevärt genom en pilotstudie och för att nå bästa generaliserbarhet valdes ett representativt.
Samband & Inferens Konfidensintervall Statistisk hypotesprövning
INFERENS & SAMBAND. population Population Stickprov, urval INFERENS = Dra slutsatser om hela populationen utifrån ett stickprov Data, observationer.
Regression Har långa högre inkomst?. Världsrekord på engelska milen.
Enkel Linjär Regression. 1 Introduktion Vi undersöker relationer mellan variabler via en matematisk ekvation. Motivet för att använda denna teknik är:
STATISTISK METODIK 1. INLEDNING / VAD ÄR STATISTIK? 2. UNDERSÖKNINGSMETODIK 3. DESKRIPTION 4. SAMBAND.
Marknadsundersökning Kap 12
Vetenskapsprojekt, rubrik
Multipel regression och att bygga (fungerande) modeller
Data och att presentera data
Förelasning 1 Kursintroduktion Statistiska undersökningar
Presentationens avskrift:

Experimentell utvärdering Språkteknologisk forskning och utveckling (HT 2006)

Utvärdering Varför utvärdering? –Objektiva mått på kvalitet Absoluta mått: Hur bra är ett system? Relativa mått: Vilket system är bäst? Metoder för utvärdering: –Formella metoder (t.ex. korrekthetsbevis) –Experimentella metoder (kontrollerade empiriska mätningar)

Aspekter att utvärdera Software product evaluation (ISO 9126): –Functionality –Reliability –Usability –Efficiency –Maintainability –Portability Dessa aspekter är tillämpbara på alla datorsystem inklusive språkteknologiska system

Experimentell metod Experiment: –Studier där ett eller flera villkor manipuleras i syfte att studera deras inflytande på ett visst fenomen Grundbegrepp: –Beroende variabler: De fenomen man vill studera. –Oberoende variabler: Alla andra fenomen som kan tänkas påverka utfallet. –Experimentella variabler: De oberoende variabler man manipulerar (systematiskt varierar). –Bakgrundsvariabler: Oberoende variabler som inte manipuleras (och som man helst vill hålla konstanta).

Experimentell validitet Intern validitet: –Är experimentet konstruerat så att man kan studera de experimentella variablernas inflytande på de beroende variablerna? –Beror på experimentell design, mätmetoder m.m. Extern validitet: –I vilken utsträckning kan experimentets resultat generaliseras från det observerade stickprovet till en större population? –Beror på stickprovets konstruktion (storlek, urvalsmetod m.m.) och bygger på statistisk inferens.

Utvärdering av korrekthet De flesta språkteknologiska system gör fel även när de fungerar perfekt. Korrekthet kan utvärderas experimentellt: –Experimentella variabler: System (och systemparametrar) Indata och/eller användare –Beroende variabler: Olika mått på korrekthet (kvalitet)

Urvalsmetoder För att resultaten skall vara generaliserbara, måste stickprov vara representativa: –Hur väljer man testdata och/eller försökspersoner? Grundläggande krav på stickprov: –Slumpmässigt –Så stort som möjligt

Testdata Utvärdering med representativa indata Krav på testdata: –Distinkta från (eventuella) träningsdata –Representativt stickprov –Tillräcklig storlek Mätning av korrekthet förutsätter normalt att korrekta utdata är kända: –Guldstandard: Utdata konstruerade (eller korrigerade) av mänskliga experter

Deskriptiv statistik Mätresultat sammanfattas med deskriptiv statistik: –Frekvensmått –Lägesmått (medelvärde, median, typvärde) –Spridningsmått (varians, standardavvikelse) Exempel: –Procent korrekt: –Precision och recall:

Statistisk inferens Statistisk inferens: –Inferens om en större population från ett mindre stickprov (jfr induktionsprincipen) Skattning: –Punktskattning –Intervallskattning Hypotestestning: –Jämförelser mellan grupper (system)

Konfidensintervall Deskriptiva stickprovsmått kan användas för att skatta korrekthet för nya data Exempel: –95% konfidensintervall för proportion p (0  p  1): –Antag: I ett (slumpmässigt) stickprov på 1000 ord har en ordklasstaggare taggar 921 ord rätt –Intervallskattning: –Slutsats: Taggarens korrekthet är (med 95% säkerhet) 92.1%  1.7%

Hypotestestning Givet deskriptiva stickprovsmått för flera system, kan vi testa vilka skillnader som är signifikanta Exempel: –Beroende t-test: –Antag: Två taggare har 921 respektive 941 rätt på 100 ord; variansen av skillnaden är –Hypotestest: –Slutsats: Skillnaden är inte signifikant på nivån 0.05

Standardmetoder (exempel) Enkel kategorisering (taggning, WSD, …): –Procent korrekt (P/R för enskilda kategorier) Informationssökning: –Precision –Recall Syntaktisk parsning: –PARSEVAL (BP/BR, LP/LR, ZC) –Dependensbaserade metriker Maskinöversättning: –BLEU, NIST, …

Laboration Utvärdering av dependensparsning Utvärderingsmått: –Procent korrekt: Rätt huvudord (Head only) Rätt huvudord + grammatisk funktion (Head + Deprel) Statistisk inferens: –Konfidensintervall för utvärderingsmått –Hypotestest för signifikanta skillnader Verktyg: –MaltEval –VassarStats