Presentation laddar. Vänta.

Presentation laddar. Vänta.

Växjö 29 april -04Språk & logik: Kontextfria grammatiker i språkteknologi1 DAB760, 29 april Kontextfria grammatiker i språkteknolog Leif Grönqvist

Liknande presentationer


En presentation över ämnet: "Växjö 29 april -04Språk & logik: Kontextfria grammatiker i språkteknologi1 DAB760, 29 april Kontextfria grammatiker i språkteknolog Leif Grönqvist"— Presentationens avskrift:

1 Växjö 29 april -04Språk & logik: Kontextfria grammatiker i språkteknologi1 DAB760, 29 april Kontextfria grammatiker i språkteknolog Leif Grönqvist (leif.gronqvist@msi.vxu.se) Växjö Universitet (MSI) GSLT (Sveriges nationella forskarskola i språkteknologi) Göteborg Universitet (Institutionen för lingvistik)

2 2Språk & logik: Kontextfria grammatiker i språkteknologiVäxjö 29 april -04 Dagens föreläsning  Naturligt språk vs programspråk  Stokastiska grammatiker  Trädbanker  Parsning i system Dialogsystem Fråga-svar-system

3 3Språk & logik: Kontextfria grammatiker i språkteknologiVäxjö 29 april -04 Naturligt språk vs programspråk  Ett programspråk beskrivs fullständigt av en kontextfri grammatik: Hanterliga mängder terminaler och icketerminaler Grammatiska regler beskriver konstruktioner som loopar, if-satser, klasser, aritmetiska uttryck, mm. Semantiken kan beskrivas ganska enkelt när vi har parsträd  Ett naturligt språk Har inte någon begränsad mängd terminaler, dvs. ord Grammatikböcker ger ingen fullständig beskrivning (och inte tillräckligt detaljerad) av övergångsreglerna Det ändrar sig hela tiden och olika människor talar och skriver olika Rätt och fel är lite luddigt Semantik är svårt och domänen mycket större in för programspråk Ambiguiteter är mycket vanliga

4 4Språk & logik: Kontextfria grammatiker i språkteknologiVäxjö 29 april -04 Naturligt språk  Ett exempel från “Statistical Techniques for Natural Language Parsing” av Charniak, 1997: ”Salespeople sold the dog biscuits”  Vad betyder den här meningen? Vi kan parsa med en enkel CFG: 

5 5Språk & logik: Kontextfria grammatiker i språkteknologiVäxjö 29 april -04 Ett parseträd

6 6Språk & logik: Kontextfria grammatiker i språkteknologiVäxjö 29 april -04 Men den kan också parsas:

7 7Språk & logik: Kontextfria grammatiker i språkteknologiVäxjö 29 april -04 Eller så här:

8 8Språk & logik: Kontextfria grammatiker i språkteknologiVäxjö 29 april -04 Hur vet vi människor vilken som är rätt?  Människor som hör eller läser en sats vet direkt vilken parsning som är den rätta  De orimliga sorteras bort innan vi ens märkt dem  Semantisk betydelse och kontext används för att avgöra  En grammatisk parser vet inte vad som är semantiskt rimligt  Den brukar inte använda någon kontext

9 9Språk & logik: Kontextfria grammatiker i språkteknologiVäxjö 29 april -04 Stokastiska grammatiker (PCFG)  Ett sätt att avgöra vilken parsning som är “rätt” är att lägga till sannolikheter:  (1.0)  (0.8)  (0.2)  (0.5)  (0.3)  (0.15)  (0.05)  Varje icketerminal måste summera till 1!

10 10Språk & logik: Kontextfria grammatiker i språkteknologiVäxjö 29 april -04 Olika sannolikheter för olika parsträd  Den första: 1.0*0.3*0.8*0.15 = 0.036 Parsningen svarar mot: Försäljaren sålde hundkexen  Den andra: 1.0*0.3*0.2*0.5*0.3 = 0.009 Försäljaren sålde kakor till hunden  Den tredje: 1.0*0.3*0.8*0.05*0.5*0.3 = 0.0018 Försäljaren sålde “hunden Biscuits”  Vi kan välja den med högst sannolikhet och hoppas att det är den rätta  Viktigt att inse att samtliga är grammatiskt korrekt  Chomskys exempel: ”Colorless green ideas sleep furiously” är grammatiskt men semantiskt orimligt

11 11Språk & logik: Kontextfria grammatiker i språkteknologiVäxjö 29 april -04 Parsning och taggning  Parsningen förutsätter taggade data, dvs ordklasser på orden  Parträdet blir fel om taggningen är fel Tyvärr kan vissa ord ha flera olika ordklasser: får, tacka, man, … Mängden ord (terminaler) är inte begränsad, så taggaren måste gissa ibland (samma för människor)  För att undvika att taggningsfel förstör parsningen så kan beslutet om ett ords tagg göras samtidigt som parsningen  Ordklasstaggningen beskrivs i grammatiken med olika sannolikheter för ords möjliga ordklasser

12 12Språk & logik: Kontextfria grammatiker i språkteknologiVäxjö 29 april -04 Evaluering av parsning  Kan mätas på två tydligt skilda sätt Andel helt korrekt parsade meningar Andel korrekt använda regler  Förstnämnda är mycket svårare  Enligt det andra måttet så kommer dagens parsers upp mot 90% korrekthet  Den mest kända utvärderingskorpusen har en meningslängd på 23 ord i genomsnitt…  Charniak påpekar att en sådan mening mycket väl kan ha en miljon olika parsträd enligt en CFG

13 13Språk & logik: Kontextfria grammatiker i språkteknologiVäxjö 29 april -04 Att få fram grammatiken  En CFG kan man knåpa ihop för hand  När man försöker parsa lite meningar märker man att den ibland inte räcker till – då lägger man till en ny regel  Till slut täcker den i stort sett hela språket  Hur ska vi gissa sannolikheterna?

14 14Språk & logik: Kontextfria grammatiker i språkteknologiVäxjö 29 april -04 Trädbanker  Utvärderingskorpusen jag nämnde förut är en så kallad trädbank En stor samling text, kanske 50000 meningar Manuellt taggade ordklasser på varje ord Manuellt parsade parsträd för varje mening  De manuella parsträden och ordklasserna antas vara rätt (kallas ofta ”Gold standard” vid utvärdering)  Grammatiken finns i parsträden – vi ser vilka regler som använts

15 15Språk & logik: Kontextfria grammatiker i språkteknologiVäxjö 29 april -04 CFG  PCFG  För att få fram sannolikheterna för reglerna används principen: Maximum Likelihood Estimation (MLE) Vilka möjligheter finns? Räkna antalet tillämpningar av de olika reglerna Sannolikheten för regeln x  y fås som antalet tillämningar av den i korpusen delat med totala antalet x.  Att ta fram de här sannolikheterna kallas träning  När vi väl har dem finns algoritmer som tar fram parsträdet med högst sannolikhet

16 16Språk & logik: Kontextfria grammatiker i språkteknologiVäxjö 29 april -04 Problem  Guldstandarden är fel Folk slarvar Problematiska meningar är svåra att parsa – vad betyder meningen egentligen? Inte ens språkexperter är överens Jämförelse av två bra guldstandarder gjorda av två lingvister ger avvikelse på kanske 2% Inget att göra åt… Guldstandarden antas vara rätt  Regler kan vara så ovanliga att de inte tillämpats i trädbanken som använts för träning Löses med “smoothing”. En (låg) sannolikhet uppskattas på något sätt för dessa regler

17 17Språk & logik: Kontextfria grammatiker i språkteknologiVäxjö 29 april -04 En svensk trädbank  Just nu pågår uppbyggandet av en svensk trädbank  Arbetet leds av Joakim Nivre i Växjö  Göteborg, Stockholm (KTH+SU), Uppsala, mfl. deltar också  Mycket kostsamt, pengar sökes från flera håll  Problem: trädbanken skall även innehålla talspråk Finns ingen etablerad grammatik för talspråk Satser är ingen bra enhet för att beskriva ett yttande Talspråk är multimodalt  Parsningen kommer troligen att göras med en dependensgrammatik

18 18Språk & logik: Kontextfria grammatiker i språkteknologiVäxjö 29 april -04 Parsning i tillämpningar  Fullständig parsning i öppen domän är mycket svårt  En parser tränad på allmän tidningstext fungerar inte i ett fråga-svar-system för apoteket  De flesta system använder partiell parsning Hitta nominalfraser i faktadatabasen Hitta grammatiska fragment: Vem gjorde vad? Vad hände när? Känn igen några viktiga typer av frågor

19 19Språk & logik: Kontextfria grammatiker i språkteknologiVäxjö 29 april -04 Parsning i tillämpningar, fråga-svar  Viktigt att förstå tillräckligt av frågan Vad skall svaret innehålla för “typ”? Vad skall elementet systemet svarar ha för egenskaper?  “Vem vann Wimbledon 1906?” Svaret skall vara av typen människa Troligen var det en tennisspelare Människan gjorde något 1906: “vann Wimbledon”  Om systemet vet att meningar på formen: “X vann Wimbledon 1906” är ett svar på frågan så kan vi leta upp meningar på den formen i databasen med kunskap  Finns inga sådana meningar så blir det värre…  Om systemet inte hittar ett direkt svar så kanske det kan ge en hänvisning till rätt stycke eller rätt dokument  Susanne Ekeklint på MSI jobbar med den här typen av system

20 20Språk & logik: Kontextfria grammatiker i språkteknologiVäxjö 29 april -04 Parsning i tillämpningar, dialogsystem  Dialogsystem använder ofta ingen parsning alls  Nyckelordsigenkänning räcker långt… S: Vart vill du åka? K: Stockholm på tisdag S: Varifrån vill du åka? K: Från Oslo S: När vill du åka? K: Tisdag sa jag ju S: Vilken tid vill du åka? K: Inte på morgonen S: Du vill åka från Stockholm till Oslo på tisdag morgon. Är det korrekt? K: Neeej! Iiinte på morgonen! S: Du vill åka på morgonen? K: Grrr!!! Jag vill prata med en riktig människa


Ladda ner ppt "Växjö 29 april -04Språk & logik: Kontextfria grammatiker i språkteknologi1 DAB760, 29 april Kontextfria grammatiker i språkteknolog Leif Grönqvist"

Liknande presentationer


Google-annonser