Korpusbaserad datorlingvistik eller datorbaserad korpuslingvistik?

Slides:



Advertisements
Liknande presentationer
Grafer Riks-Stroke årsrapport
Advertisements

Annoterade satser och platta frasstrukturer för svenska
Teknik 1 utifrån förmågorna och centrala innehållet Vad teknik är
PDA som förvärvsmetod på universitets- och högskolebibliotek
Kap 1 - Algebra och linjära modeller
Att skriva sig till läsning
Att söka och förvalta kunskap
Golv, väggar, tak. fönster och en dörr
© Anders Broberg, Ulrika Hägglund, Lena Kallin Westin, 2004 Datastrukturer och algoritmer Föreläsning 4.
G I S Strate Kan GIS löna sig? 3.
Att beskriva och utvärdera sin egen verksamhet
Hälsopedagogik- Vad är det ?
© X-on Data EdWord. © X-on Data EdWord – tillägg till Word EdWord är en anpassning för att göra Microsoft Word enklare.
Lennart Lönngren VALENS Vad är det?.
SYNTAX Allmän Grammatik.
A study of the use of spell and grammar checker in texts by second foreign language learners of Spanish. Henrietta Carolsson Godolakis Department of Spanish,
ATT PRODUCERA EN UNDERSÖKNING
Översättningar på internet
Programmeringsteknik Föreläsning 13 Skolan för Datavetenskap och kommunikation.
Grammatik.
Språkteknologisk forskning och utveckling (HT 2007)
DAB752: Algoritmteori Leif Grönqvist
Reflektioner kring FU 2012 Enheten för miljöekonomi vid institutionen för nationalekonomi med statistik, Göteborgs Universitet. Magnus Hennlock.
Föreläsning 7 Analys av algoritmer T(n) och ordo
© Anders Broberg, Ulrika Hägglund, Lena Kallin Westin, 2003 Datastrukturer och algoritmer Föreläsning 4.
Statsvetenskap 3, statsvetenskapliga metoder
Algoritmer och datastrukturer
Växjö 21 april -04Språk & logik: Kontextfria grammatiker1 DAB760: Språk och logik 21/4: Kontextfria 10-12grammatiker Leif Grönqvist
Växjö 22 april -04Språk & logik: Parsning med kontextfria grammatiker1 DAB760:Språk och logik: 22 aprilParsning Leif Grönqvist
Föreläsning 10 Länkade lista Stack och Kö Att arbeta med listor
Växjö 29 april -04Språk & logik: Kontextfria grammatiker i språkteknologi1 DAB760, 29 april Kontextfria grammatiker i språkteknolog Leif Grönqvist
Växjö 15 april -04Språk & logik: Reguljära uttryck1 DAB760: Språk och logik 15/4: Finita automater och 13-15reguljära uttryck Leif Grönqvist
Radarmålföljning av mänskliga nervsignaler Bättre kunskap om de icke myeliniserade (C-) fibrerna skulle kunna leda till förbättrade eller nya metoder för.
1 ITK:P1 Föreläsning 7 Algoritmer och datastrukturer DSV Marie Olsson.
Språkteknologiska metoder Språkteknologisk forskning och utveckling (HT 2006)
7 1 Individual Project No.1: Paper Sus Lundgren. 7 2 Mål Att fördjupa dig i en aspekt av kursen du tyckte var intressant Att reflektera kring, analysera.
Introduktion till språkteknologi Introduktion. Språkteknologi Vi studerar vad som krävs för att få datorer att utföra nyttiga och intressanta uppgifter.
Experimentell utvärdering Språkteknologisk forskning och utveckling (HT 2006)
Datastrukturer och algoritmer VT © Anders Broberg, Ulrika Hägglund, Lena Kallin Westin, 2003 Bredden-först exempel ABCD EFGH IJKL MNOP = Obesökt.
Richard Hirsch Institutionen för kultur och kommunikation (IKK)
Hälsopedagogik- Vad är det ?
1. Konnektionism – grunderna
Skattning av trendkurvor/trendytor och förändringar över tiden Claudia von Brömssen SLU.
Lemmatiserare för okända ord Boel Mattsson. Projektbeskrivning Att göra ett program som gissar grundformen (lemmat) för okända ord Begränsning till substantiv,
Kapitel 2: Den ekonomiska analysens redskap David Begg, Stanley Fischer and Rudiger Dornbusch, Economics, 6th Edition, McGraw-Hill, 2000 Power Point presentation.
Institutionen för datavetenskap vid Helsingfors universitet Studierådg. Greger Lindén PB 68 Gustaf Hällströms gata 2b Helsingfors universitet
Läsbar prolog CM 8.1. allmäna principer correctness user-friendliness efficiency readability modifiability robustness documentation.
Statsvetenskap 3, statsvetenskapliga metoder
Prioritets Köer (Priority Queues ), Graph Data Structures & Problem Solving using Java --Kap 21,14.
Institutionen för datavetenskap vid Helsingfors universitet PB 68 Gustaf Hällströms gata 2b Helsingfors universitet
VAD TÄNKER FINLÄNDARNA OM SOCIAL- OCH HÄLSOVÅRDSTJÄNSTERNA SERVICE OCH DESS FRAMTID?
Introduktion till hälsofrämjande verksamhet 5sp
William Sandqvist C-programmering ID120V Stack och Kö William Sandqvist
För utveckling av verksamhet, produkter och livskvalitet. Stack och Kö - Implementering - Tilllämpningar.
Datastrukturer och algoritmer
Stack och Kö -Implementering -Tilllämpningar -- Kapitel 16, 11.
Problemlösning. Programmeringsmetaforer Instruktion Konstruktion Problemlösning Adaptation Demonstration.
För utveckling av verksamhet, produkter och livskvalitet. Algoritmer och datastrukturer Sorterings algoritmer.
F. Drewes, Inst. f. datavetenskap1 Föreläsning 5: Syntaxanalys (parsning) Syntaxanalysens mål Tillvägagångssätt och komplexitet Syntaxanalys.
Pontus Johansson 1 grammatiker 21.1 G 1 (BBS 7)
Formella metoder i MDI Behovet Vad menas med formell? Verktyg Exempel Att läsa: Kapitel 14 i kursboken.
Växjö 14 april -04Språk & logik: Finita automater1 DAB760: Språk och logik 14/4:Finita automater Leif Grönqvist Växjö Universitet.
Skolutveckling genom aktionsforskning
Anpassning av Europarådets språkliga referensnivåer för omsorgsarbete En lärande arbetsplats.
Wittingmetoden - en läs- och skrivinlärningsmetod
Vad är Statistik? Inom statistik teorin studeras -Hur vi samlar in data. -Hur data analyseras och vilka slutsatser som kan dras från data. -Hur insamlad.
Skriva meningar i huvudsats Alla meningar måste innehålla minst ett verb. Verbet kommer alltid på andra plats i en huvudsats. En mening kan ha flera verb!
Satsadverbial Du måste alltid tänka på satsadverbialen när du läser, lyssnar, skriver och talar! Satsadverbial är viktiga eftersom de ändrar meningens.
Skriva meningar i huvudsats
Grammatisk terminologi I
Presentationens avskrift:

Korpusbaserad datorlingvistik eller datorbaserad korpuslingvistik? Joakim Nivre Uppsala Universitet Växjö Universitet Institutionen för lingvistik och filologi Matematiska och system-tekniska institutionen

Disposition Skilda världar? Korpusbaserad datorlingvistik Datorbaserad korpuslingvistik Likheter och skillnader Förutsättningar för samarbete Korpusbaserad datorlingvistik – ett exempel Dependensbaserad syntaktisk analys Minnesbaserad inlärning

Skilda världar?

Korpusar och datorer Den ”empiriska revolutionen” i (dator)lingvistik: Ökad användning av empiriska data Uppbyggnad av stora korpusar Annotering av korpusdata (syntaktiskt, semantiskt) Bakomliggande orsaker: Teknisk utveckling: Ökad tillgång på maskinläsbar text (och digitaliserat tal) Förbättrad datorkapacitet Lagring Bearbetning Vetenskaplig perspektivförskjutning: Ifrågasättande av ”länstolslingvistik” Utveckling av statistiska språkmodeller

Datorbaserad korpuslingvistik Mål: Kunskap om språket Deskriptiv kartläggning Teoretisk hypotestestning Medel: Korpusdata som källa till kunskap om språket Deskriptiv statistik Statistisk inferens för hypotestestning Datorprogram för bearbetning av korpusdata Korpusuppbyggnad och annotering Sökning och visualisering (för människor) Statistisk bearbetning (för deskriptiv statistik och hypotestestning)

Korpusbaserad datorlingvistik Mål: Datorprogram som bearbetar naturligt språk Praktiska tillämpningar (översättning, sammanfattning, …) Modeller av språkinlärning och -användning Medel: Korpusdata som källa till kunskap om språket: Statistisk inferens för modellparametrar (skattning) Datorprogram för bearbetning av korpusdata Korpusuppbyggnad och annotering Sökning och informationsextraktion (för datorprogram) Statistisk bearbetning (för skattning/maskininlärning)

Korpusbearbetning 1 Korpusuppbyggnad: Annotering: Standardmetodologi: Tokenisering (minimala enheter, ord m.m.) Segmentering (på flera nivåer) Normalisering (t.ex. förkortningar, stavning, flerordsuttryck; grafiska element, metainformation m.m.) Annotering: Ordklasstaggning (ord  ordklass) Lemmatisering (ord  grundform/lemma) Syntaktisk analys (mening  syntaktisk representation) Semantisk analys (ord  betydelse, mening  argumentroller) Standardmetodologi: Automatisk analys (ofta baserad på andra korpusdata) Manuell validering (och rättning)

Korpusbearbetning 2 Sökning och sortering: Visualisering: Sökmetoder: Strängsökning Reguljära uttryck Dedicerade sökspråk Specialskrivna program Resultat: Konkordanser Frekvenstabeller Visualisering: Textuellt: Konkordanser m.m. Grafiskt: Diagram, syntaxträd m.m.

Korpusbearbetning 3 Statistisk bearbetning: Deskriptiv statistik Frekvenstabeller och diagram Statistisk inferens Hypotestestning (t-test, 2, Mann-Whitney, Wilcoxon etc.) Inlärning: Probabilistisk: Skatta sannolikhetsfördelningar Diskriminativ: Approximera mappning indata-utdata Induktion av lexikala och grammatiska resurser (t.ex. kollokationer, valensramar)

Användarkrav Korpuslingvister Datorlingvister Programvara Utdata Tillgänglig Lättanvänd Generell Utdata Lämpad för människor Gärna grafisk visualisering Funktioner Specifik sökning Deskriptiv statistik Datorlingvister Programvara Effektiv Specifik Modifierbar Utdata Lämpad för datorer Väldefinierad struktur (uppmärkt text) Funktioner Uttömmande sökning Statistisk inlärning

Sammanfattning Olika mål: … ger (delvis) olika krav: Studera språk Skapa datorprogram … ger (delvis) olika krav: Tillgängligt och användbart (för människor) Effektivt och standardiserat (för datorer) … men (delvis) samma behov: Korpusuppbyggnad och annotering Sökning, sortering och statistisk bearbetning

Symbios? Vad kan datorlingvister göra för korpuslingvister? Teknisk och allmänlingvistisk kompetens Program för automatisk analys (annotering) Vad kan korpuslingvister göra för datorlingvister? Lingvistisk och språkspecifik kompetens Manuell validering av automatisk analys Vad kan datorlingvister och korpuslingvister åstadkomma tillsammans? Automatisk annotering ger ökad precision i korpuslingvistik Manuell validering ger ökad precision i datorlingvistik En positiv spiral?

Korpusbaserad datorlingvistik – ett exempel

Dependensanalys 1 2 3 4 5 6 7 8 9 Economic news had little effect on ROOT OBJ PMOD NMOD SBJ NMOD NMOD NMOD 1 2 3 4 5 6 7 8 9 Economic news had little effect on financial markets . JJ NN VBD IN NNS

Induktiv dependensanalys Deterministisk syntaxanalys: Algoritm för att härleda dependensstruktur Kräver beslutsmekanism i valsituationer Alla beslut är oåterkalleliga Induktiv maskininlärning: Beslutsmekanism baserad på tidigare erfarenhet Generalisera från exempel (successiv förfining) Exempel = Analyserade meningar (”trädbank”) Ingen grammatik – bara analogi

Algoritm Datastrukturer: Starttillstånd: Algoritmsteg: Kö av oanalyserade ord (next = först i kön) Stack av delvis analyserade ord (top = överst i stacken) Starttillstånd: Tom stack Alla ord i kön Algoritmsteg: Shift: Lägg next överst på stacken (push). Reduce: Ta bort top (pop). Right: Lägg next överst på stacken (push); top  next Left: Ta bort top (pop); next  top

Algoritmexempel RA(NMOD) LA(NMOD) RA(OBJ) RA(P) SHIFT RA(PMOD) ROOT RA(NMOD) LA(NMOD) RA(OBJ) RA(P) SHIFT RA(PMOD) LA(NMOD) LA(NMOD) REDUCE REDUCE LA(SBJ) REDUCE SHIFT SHIFT SHIFT SHIFT OBJ PMOD NMOD SBJ NMOD NMOD NMOD 1 2 3 4 5 6 7 8 9 Economic news had little effect on financial markets . JJ NN VBD IN NNS

Guide Icke-determinism: Guide = Funktion (Kö, Stack, Graf)  Steg Möjliga metoder: Grammatik? Induktiv generalisering! RA(ATT)? RE? äter glass med … OBJ

Maskininlärning Guide: Modell: Klassificerare: Inlärning: Funktion (Kö, Stack, Graf)  Steg Modell: Funktion (Kö, Stack, Graf)  (f1, …, fn) Klassificerare: Funktion (f1, …, fn)  Steg Inlärning: Funktion { ((f1, …, fn), Steg) }  Klassificerare

Modell Ordklasser: t1, top, next, n1, n2, n3 hd ld rd . th next top n1 … n2 n3 t1 Ordklasser: t1, top, next, n1, n2, n3 Dependenstyper: t.hd, t.ld, t.rd, n.ld Ordformer: top, next, top.hd, n1 Stack Kö

Minnesbaserad inlärning Minnesbaserad inlärning och klassificering: Inlärning är lagring av erfarenheter i minnet. Problemlösning åstadkoms genom att återanvända lösningar från liknande problem som lösts tidigare. TIMBL (Tilburg Memory-Based Learner): Utgångspunkt: k-nearest neighbor Parametrar: Antal grannar (k) Distansmått Viktning av attribut, värden och instanser

Inlärningsexempel Instansbas: Ny instans: Distanser: k-NN: (a, b, a, c)  A (a, b, c, a)  B (b, a, c, c)  C (c, a, b, c)  A Ny instans: (a, b, b, a) Distanser: D(1, 5) = 2 D(2, 5) = 1 D(3, 5) = 4 D(4, 5) = 3 k-NN: 1-NN(5) = B 2-NN(5) = A/B 3-NN(5) = A

Experimentell utvärdering Induktiv dependensanalys: Deterministisk algoritm Minnesbaserad guide Data: Engelska: Penn Treebank, WSJ (1M ord) Konvertering till dependensstruktur Svenska: Talbanken, Professionell prosa (100k ord) Dependensstruktur och dependenstyper baserade på anonotering enligt MAMBA

Resultat Engelska: Svenska: 87,3% av alla ord fick rätt huvudord 85,6% av alla ord fick rätt huvudord och funktion Svenska: 85,9% av alla ord fick rätt huvudord 81,6% av alla ord fick rätt huvudord och funktion

Dependenstyper: Engelska Hög precision (86%  F): VC (hjälpverb  huvudverb) 95.0% NMOD (attribut) 91.0% SBJ (verb  subjekt) 89.3% PMOD (prepositionskomplement) 88.6% SBAR (subjunktion  verb) 86.1% Medelprecision (73%  F  83%): ROOT 82.4% OBJ (verb  objekt) 81.1% VMOD (verb- och satsadverbial) 76.8% AMOD (bestämning till adj/adv) 76.7% PRD (predikativ) 73.8% Låg precision (F  70%): DEP (övrigt)

Dependenstyper: Svenska Hög precision (84%  F): IM (infinitivmärke  infinitiv) 98.5% PR (preposition  substantiv) 90.6% UK (subjunktion  verb) 86.4% VC (hjälpverb  huvudverb) 86.1% DET (substantiv  determinator) 89.5% ROOT 87.8% SUB (verb  subjekt) 84.5% Medelprecision (76%  F  80%): ATT (attribut) 79.2% CC (samordning) 78.9% OBJ (verb  objekt) 77.7% PRD (verb  predikativ) 76.8% ADV (adverbial) 76.3% Låg precision (F  70%): INF, APP, XX, ID

Korpusannotering Hur bra är 85%? Hur kan precisionen förbättras? Tillräckligt bra för att spara tid och arbete vid manuell annotering Tillräckligt bra för att effektivisera sökning efter syntaktiska fenomen Hur kan precisionen förbättras? Genom annotering av nya data, som möjliggör bättre maskininlärning Genom förfinad lingvistisk analys av de strukturer som ska analyseras och de fel som görs

MaltParser Programvara för induktiv dependensanalys: Fritt tillgänglig för forskning och undervisning (http//w3.msi.vxu.se/~jha/MaltParser.html) Utvärderad på 20 olika språk Används för syntaktisk analys av svenska och turkiska i korpusprojekt vid Uppsala universitet