Växjö 29 april -04Språk & logik: Kontextfria grammatiker i språkteknologi1 DAB760, 29 april Kontextfria grammatiker i språkteknolog Leif Grönqvist

Slides:



Advertisements
Liknande presentationer
Fritidshem Elever 2013 Fritidshem - Elever 2013 Enhet:
Advertisements

Sätt kryss vid ett av följande alternativ:
Att förstå anonymiteten (översättning från
PowerPoint av Bendik S. Søvegjarto Koncept, text och regler av Skage Hansen.
Talföljder formler och summor
En Dag i Ramadan Ramadan
Novus Allmänheten om regional identitet i Dalarna (Del A) November Peter Blid Helena Björck Ida af Robson 2064.
X-mas algebra Är du redo? Klicka!!.
• Frågeledaren är den som vet svaren. De finns under en länk på sidan i kalendern. • Ni behöver antingen en 12-tärning eller två vanliga tärningar. • Slå.
En genomgång av spelet: Dubbelkrig-Grön
Gå till första sidan Med användarna i fokus Användarundersökning som utgångspunkt för vidareutveckling av sökguide Borås Blekinge Tekniska Högskola.
Restauranger och service Våren 2005 T SHR: Leif Holmström Temo: Arne Modig, David Ahlin Datum:
SSQ12-B Instruktioner Namn Datum Ålder
PowerPoint av Bendik S. Søvegjarto Koncept, text och regler av Skage Hansen.
Relationsdatabasdesign
Liten introduktion till Wiki’n som KunskapsDatabas
Svårigheter och möjligheter för ungdomar på arbetsmarknaden Anders Forslund IFAU och Nationalekonomiska institutionen, Uppsala universitet Ungdomars etablering.
Bidrar en integrerad vårdmodell till personcentrerad vård ? sjuksköterskors erfarenheter från en onkologisk klinik Anki Delin Eriksson.
hej och välkomna EKVATIONER Ta reda på det okända talet.
Varför grammatik? Vad är ordklasser?
BARNS RÖSTER OM INTERNET
När blir ett ord svenskt då?
Det var en gång tre systrar
För att ta några lektioner Om vänskap & Livet
Nytt golv av finaste furu
Dcg-notation 21.2 G 2.3 M (BBS 8). dagens föreläsning extra argument i dcg-notation prolog-anrop i dcg-notation avslutande kommentarer om dcg.
Förintelsen.
1 Sårbarhetsanalys av vägtransportnätverk Erik Jenelius Avd. för transport- och lokaliseringsanalys, KTH VTI Transportforum, Linköping, januari 2007.
Nya studera.nu Målgrupper och struktur. Målgrupper Potentiella studenter Studenter i systemet Forskarstudenter Andel av besökarna per målgrupp? Prioritering.
MEDELVÄRDE, MEDIAN & TYPVÄRDE
Växjö 21 april -04Språk & logik: Kontextfria grammatiker1 DAB760: Språk och logik 21/4: Kontextfria 10-12grammatiker Leif Grönqvist
Växjö 22 april -04Språk & logik: Parsning med kontextfria grammatiker1 DAB760:Språk och logik: 22 aprilParsning Leif Grönqvist
Stora additionstabellen
Swedex Muntligt test B1 40 poäng.
Växjö 15 april -04Språk & logik: Reguljära uttryck1 DAB760: Språk och logik 15/4: Finita automater och 13-15reguljära uttryck Leif Grönqvist
Presupposition gemensam kunskap som inte behöver påstås eller förklaras förutsatt information - bakgrundsantaganden konventionaliserade bärare av implicit.
Programmering B PHP Lektion 2
PIRATPARTIET Rubriksnitt: Impact, vanlig text Arial Här kan man lägga en lite ingressbetonad text på ett par tre meningar (men funkar även utan). Vill.
Programmering B PHP Lektion 3
Språkteknologiska metoder Språkteknologisk forskning och utveckling (HT 2006)
Semantik Orden och deras betydelse (Sema = tecken på grekiska)
Felkalkyl Ofta mäter man inte direkt den storhet som är den intressanta, utan en grundläggande variabel som sedan används för att beräkna det som man är.
Grundskola Elever 2013 Grundskoleenkät - Elever ( per klass)
Etik Moral Filosofi.
Lennart Edblom, Frank Drewes, Inst. f. datavetenskap 1 Föreläsning 6: Semantik Statisk semantik Attributgrammatiker Dynamisk semantik Axiomatisk.
Stöd till en evidensbaserad praktik för god kvalitet inom socialtjänsten – brukarmedverkan vid brukarundersökningar inom LSS • • SKAPAD.
Begrepp.
Grundskola Föräldrar 2013 Grundskoleenkät - Föräldrar Enhet:Gillberga skola.
SEO Manager för EPiServer LÅT REDAKTÖRERNA VARA REDAKTÖRER.
För utveckling av verksamhet, produkter och livskvalitet. -Algoritmer och Datastrukturer- -Algoritm analys och sökning algoritmer- Kap 5 -Algoritmer och.
Logikprogrammering 21/10 Binära träd
Forskning om dialog och dialogsystem på inst. för lingvistik målsättning: –utveckla teorier om mänsklig dialog som kan användas i byggandet av dialogsystem.
1 L U N D S U N I V E R S I T E T Resultat av internundersökning om information på LTH Genomförd våren 2007.
Här är ditt liv, Bertil! 15/
Ingenjörsmetodik IT & ME 2008
Föreläsning 7 Fysikexperiment 5p Poissonfördelningen Poissonfördelningen är en sannolikhetsfördelning för diskreta variabler som är mycket.
F. Drewes, Inst. f. datavetenskap1 Föreläsning 4: Syntaxdefinition Formell syntaxdefinition Lexikalisk och kontextfri syntax Flertydighet i kontextfri.
Räkna till en miljard 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13,14,15,16,17,18,19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, En miljard är ett.
Satslogik, forts. DAA701/716 Leif Grönqvist 5:e mars, 2003.
Logik med tillämpningar
F. Drewes, Inst. f. datavetenskap1 Föreläsning 5: Syntaxanalys (parsning) Syntaxanalysens mål Tillvägagångssätt och komplexitet Syntaxanalys.
Pontus Johansson 1 grammatiker 21.1 G 1 (BBS 7)
Skriftlig framställning
Moral och Etik Moraliska frågor berör frågor om vad som är rätt och fel/orätt, ont och gott. Andra vanliga begrepp som använd är bör, plikt och rättvisa.
Lennart Edblom, Frank Drewes, Inst. f. datavetenskap 1 Föreläsning 4: Syntaxdefinition Formell syntaxdefinition Lexikalisk och kontextfri syntax.
Växjö 22 april -04Språk & logik: Introduktion till labb 11 DAB760:Språk och logik: 22 aprilLabbintroduktion Leif Grönqvist
Växjö 14 april -04Språk & logik: Finita automater1 DAB760: Språk och logik 14/4:Finita automater Leif Grönqvist Växjö Universitet.
Huvudsats och bisats– att bygga meningar
Olika sätt att resonera kring hur människor bör handla
© Författarna och Gleerups Utbildning AB. Detta material ingår som en del i lärarmaterialet till Språket och berättelsen. Att läsa och förstå.
Presentationens avskrift:

Växjö 29 april -04Språk & logik: Kontextfria grammatiker i språkteknologi1 DAB760, 29 april Kontextfria grammatiker i språkteknolog Leif Grönqvist Växjö Universitet (MSI) GSLT (Sveriges nationella forskarskola i språkteknologi) Göteborg Universitet (Institutionen för lingvistik)

2Språk & logik: Kontextfria grammatiker i språkteknologiVäxjö 29 april -04 Dagens föreläsning  Naturligt språk vs programspråk  Stokastiska grammatiker  Trädbanker  Parsning i system Dialogsystem Fråga-svar-system

3Språk & logik: Kontextfria grammatiker i språkteknologiVäxjö 29 april -04 Naturligt språk vs programspråk  Ett programspråk beskrivs fullständigt av en kontextfri grammatik: Hanterliga mängder terminaler och icketerminaler Grammatiska regler beskriver konstruktioner som loopar, if-satser, klasser, aritmetiska uttryck, mm. Semantiken kan beskrivas ganska enkelt när vi har parsträd  Ett naturligt språk Har inte någon begränsad mängd terminaler, dvs. ord Grammatikböcker ger ingen fullständig beskrivning (och inte tillräckligt detaljerad) av övergångsreglerna Det ändrar sig hela tiden och olika människor talar och skriver olika Rätt och fel är lite luddigt Semantik är svårt och domänen mycket större in för programspråk Ambiguiteter är mycket vanliga

4Språk & logik: Kontextfria grammatiker i språkteknologiVäxjö 29 april -04 Naturligt språk  Ett exempel från “Statistical Techniques for Natural Language Parsing” av Charniak, 1997: ”Salespeople sold the dog biscuits”  Vad betyder den här meningen? Vi kan parsa med en enkel CFG: 

5Språk & logik: Kontextfria grammatiker i språkteknologiVäxjö 29 april -04 Ett parseträd

6Språk & logik: Kontextfria grammatiker i språkteknologiVäxjö 29 april -04 Men den kan också parsas:

7Språk & logik: Kontextfria grammatiker i språkteknologiVäxjö 29 april -04 Eller så här:

8Språk & logik: Kontextfria grammatiker i språkteknologiVäxjö 29 april -04 Hur vet vi människor vilken som är rätt?  Människor som hör eller läser en sats vet direkt vilken parsning som är den rätta  De orimliga sorteras bort innan vi ens märkt dem  Semantisk betydelse och kontext används för att avgöra  En grammatisk parser vet inte vad som är semantiskt rimligt  Den brukar inte använda någon kontext

9Språk & logik: Kontextfria grammatiker i språkteknologiVäxjö 29 april -04 Stokastiska grammatiker (PCFG)  Ett sätt att avgöra vilken parsning som är “rätt” är att lägga till sannolikheter:  (1.0)  (0.8)  (0.2)  (0.5)  (0.3)  (0.15)  (0.05)  Varje icketerminal måste summera till 1!

10Språk & logik: Kontextfria grammatiker i språkteknologiVäxjö 29 april -04 Olika sannolikheter för olika parsträd  Den första: 1.0*0.3*0.8*0.15 = Parsningen svarar mot: Försäljaren sålde hundkexen  Den andra: 1.0*0.3*0.2*0.5*0.3 = Försäljaren sålde kakor till hunden  Den tredje: 1.0*0.3*0.8*0.05*0.5*0.3 = Försäljaren sålde “hunden Biscuits”  Vi kan välja den med högst sannolikhet och hoppas att det är den rätta  Viktigt att inse att samtliga är grammatiskt korrekt  Chomskys exempel: ”Colorless green ideas sleep furiously” är grammatiskt men semantiskt orimligt

11Språk & logik: Kontextfria grammatiker i språkteknologiVäxjö 29 april -04 Parsning och taggning  Parsningen förutsätter taggade data, dvs ordklasser på orden  Parträdet blir fel om taggningen är fel Tyvärr kan vissa ord ha flera olika ordklasser: får, tacka, man, … Mängden ord (terminaler) är inte begränsad, så taggaren måste gissa ibland (samma för människor)  För att undvika att taggningsfel förstör parsningen så kan beslutet om ett ords tagg göras samtidigt som parsningen  Ordklasstaggningen beskrivs i grammatiken med olika sannolikheter för ords möjliga ordklasser

12Språk & logik: Kontextfria grammatiker i språkteknologiVäxjö 29 april -04 Evaluering av parsning  Kan mätas på två tydligt skilda sätt Andel helt korrekt parsade meningar Andel korrekt använda regler  Förstnämnda är mycket svårare  Enligt det andra måttet så kommer dagens parsers upp mot 90% korrekthet  Den mest kända utvärderingskorpusen har en meningslängd på 23 ord i genomsnitt…  Charniak påpekar att en sådan mening mycket väl kan ha en miljon olika parsträd enligt en CFG

13Språk & logik: Kontextfria grammatiker i språkteknologiVäxjö 29 april -04 Att få fram grammatiken  En CFG kan man knåpa ihop för hand  När man försöker parsa lite meningar märker man att den ibland inte räcker till – då lägger man till en ny regel  Till slut täcker den i stort sett hela språket  Hur ska vi gissa sannolikheterna?

14Språk & logik: Kontextfria grammatiker i språkteknologiVäxjö 29 april -04 Trädbanker  Utvärderingskorpusen jag nämnde förut är en så kallad trädbank En stor samling text, kanske meningar Manuellt taggade ordklasser på varje ord Manuellt parsade parsträd för varje mening  De manuella parsträden och ordklasserna antas vara rätt (kallas ofta ”Gold standard” vid utvärdering)  Grammatiken finns i parsträden – vi ser vilka regler som använts

15Språk & logik: Kontextfria grammatiker i språkteknologiVäxjö 29 april -04 CFG  PCFG  För att få fram sannolikheterna för reglerna används principen: Maximum Likelihood Estimation (MLE) Vilka möjligheter finns? Räkna antalet tillämpningar av de olika reglerna Sannolikheten för regeln x  y fås som antalet tillämningar av den i korpusen delat med totala antalet x.  Att ta fram de här sannolikheterna kallas träning  När vi väl har dem finns algoritmer som tar fram parsträdet med högst sannolikhet

16Språk & logik: Kontextfria grammatiker i språkteknologiVäxjö 29 april -04 Problem  Guldstandarden är fel Folk slarvar Problematiska meningar är svåra att parsa – vad betyder meningen egentligen? Inte ens språkexperter är överens Jämförelse av två bra guldstandarder gjorda av två lingvister ger avvikelse på kanske 2% Inget att göra åt… Guldstandarden antas vara rätt  Regler kan vara så ovanliga att de inte tillämpats i trädbanken som använts för träning Löses med “smoothing”. En (låg) sannolikhet uppskattas på något sätt för dessa regler

17Språk & logik: Kontextfria grammatiker i språkteknologiVäxjö 29 april -04 En svensk trädbank  Just nu pågår uppbyggandet av en svensk trädbank  Arbetet leds av Joakim Nivre i Växjö  Göteborg, Stockholm (KTH+SU), Uppsala, mfl. deltar också  Mycket kostsamt, pengar sökes från flera håll  Problem: trädbanken skall även innehålla talspråk Finns ingen etablerad grammatik för talspråk Satser är ingen bra enhet för att beskriva ett yttande Talspråk är multimodalt  Parsningen kommer troligen att göras med en dependensgrammatik

18Språk & logik: Kontextfria grammatiker i språkteknologiVäxjö 29 april -04 Parsning i tillämpningar  Fullständig parsning i öppen domän är mycket svårt  En parser tränad på allmän tidningstext fungerar inte i ett fråga-svar-system för apoteket  De flesta system använder partiell parsning Hitta nominalfraser i faktadatabasen Hitta grammatiska fragment: Vem gjorde vad? Vad hände när? Känn igen några viktiga typer av frågor

19Språk & logik: Kontextfria grammatiker i språkteknologiVäxjö 29 april -04 Parsning i tillämpningar, fråga-svar  Viktigt att förstå tillräckligt av frågan Vad skall svaret innehålla för “typ”? Vad skall elementet systemet svarar ha för egenskaper?  “Vem vann Wimbledon 1906?” Svaret skall vara av typen människa Troligen var det en tennisspelare Människan gjorde något 1906: “vann Wimbledon”  Om systemet vet att meningar på formen: “X vann Wimbledon 1906” är ett svar på frågan så kan vi leta upp meningar på den formen i databasen med kunskap  Finns inga sådana meningar så blir det värre…  Om systemet inte hittar ett direkt svar så kanske det kan ge en hänvisning till rätt stycke eller rätt dokument  Susanne Ekeklint på MSI jobbar med den här typen av system

20Språk & logik: Kontextfria grammatiker i språkteknologiVäxjö 29 april -04 Parsning i tillämpningar, dialogsystem  Dialogsystem använder ofta ingen parsning alls  Nyckelordsigenkänning räcker långt… S: Vart vill du åka? K: Stockholm på tisdag S: Varifrån vill du åka? K: Från Oslo S: När vill du åka? K: Tisdag sa jag ju S: Vilken tid vill du åka? K: Inte på morgonen S: Du vill åka från Stockholm till Oslo på tisdag morgon. Är det korrekt? K: Neeej! Iiinte på morgonen! S: Du vill åka på morgonen? K: Grrr!!! Jag vill prata med en riktig människa