Grammatikkontroll för skribenter med svenska som andraspråk

Slides:



Advertisements
Liknande presentationer
F. Drewes, Inst. f. datavetenskap1 Föreläsning 13: Resolution •Resolution i satslogiken •Resolution i predikatlogiken.
Advertisements

Mitt liv som elev Att skriva uppsats, att ordna sin text, den röda tråden, hur ska jag börja, att använda datorn som hjälp i skrivande m.m.
Nya skolan till hösten Projektarbete En personlig dator Aktivt lärande
Att tydliggöra de långsiktiga målen i Lgr -11 och kunskapskravens fem övergripande förmågor för elever, föräldrar och pedagoger.
PowerPoint av Bendik S. Søvegjarto Koncept, text och regler av Skage Hansen.
Anneli och Christians Datorskola
Nivåanpassad träning För att inkludera alla
Etik Hur ska vi vara mot varandra?
Lärdomar från skolor med mer traditionellt undervisningsmönster
Annoterade satser och platta frasstrukturer för svenska
PowerPoint av Bendik S. Søvegjarto Koncept, text och regler av Skage Hansen.
”Språk, lärande och identitetsutveckling är nära förknippade
Forskarskolan i moderna språkens didaktik IKT – undervisning och lärande i språk Uppföljning Jonas Granfeldt.
Indexering av en bild exempel. Detta är en bild av Beridna Högvakten i Stockholm. ( På bilden ses en parad med en militär.
Acando föreläsning Uppsala caseakademi
Fem frågor att ställa i uppföljningsarbetet
AU Digital samverkan LO Process
- Konsten att ge feed-back
Prolog, Mån 16/9 Rebecca Jonson.
Logikprogrammering, Mån 23/9 Rebecca Jonson. Repetition P :- Q, R. Deklarativ syn: –P är sann om Q och R är sanna. –Av Q och R följer P Procedurell syn:
A study of the use of spell and grammar checker in texts by second foreign language learners of Spanish. Henrietta Carolsson Godolakis Department of Spanish,
När blir ett ord svenskt då?
Föreläsning 7 Analys av algoritmer T(n) och ordo
Inkapsling.
Polymorfism.
A Robust Shallow Parser for Swedish Ola Knutsson, Johnny Bigert, Viggo Kann Royal Institute of Technology, Sweden.
Hur analyserar du resultaten i din kommun? Analysguide i fyra steg Öppna jämförelser – Stöd till brottsoffer.
K ALLE K ARLSSON IUP vt J AG GÅR I SKOLAN FÖR ATT …
Interna system utan kognitivt kaos Stefan Johansson, Funka.
Växjö 29 april -04Språk & logik: Kontextfria grammatiker i språkteknologi1 DAB760, 29 april Kontextfria grammatiker i språkteknolog Leif Grönqvist
Radarmålföljning av mänskliga nervsignaler Bättre kunskap om de icke myeliniserade (C-) fibrerna skulle kunna leda till förbättrade eller nya metoder för.
En övning i att analysera ett tal
IKT i nöd och lust! Hur får man eleverna att ta eget ansvar? Hur får man dem att samarbeta? Och hur får man lärare att vilja jobba ämnesövergripande?
HJÄRNGYMPA.
Att upptäcka matematiken med symbolhanterande räknare biennetten 2005 Patrik Erixon.
Ett naturvetenskapligt arbetssätt
Att sälja Lions Quest-kurser till skolor /14.
Are idioms difficult to learn? After this program it will ’be a piece of cake’
Experimentell utvärdering Språkteknologisk forskning och utveckling (HT 2006)
Specialpedagogiken i matematiken med inslag av appar
FRASER. En sats, som alltså kan vara antingen en huvudsats eller en bisats, består i sin tur av…
5S grunden för allt förbättringsarbete
Att lära sig att analysera
Logikprogrammering 21/10 Binära träd
Lemmatiserare för okända ord Boel Mattsson. Projektbeskrivning Att göra ett program som gissar grundformen (lemmat) för okända ord Begränsning till substantiv,
Varför börjar alla prata om ”Drop outs” ?
Case seminarium Grupp 3, Azra Custovac, Anna Ojdanic & Indira Todorovac.
Dystopia I litteraturen en skildring av ett inhumant, oftast totalitärt framtida samhälle. (Nationalencyklopedin) An imaginary place where people live.
Video Games The movie. E -Ni ska välja ett spel som är er favorit. -Ni ska förklara varför den är just er favorit -Hur kan spelet utvecklas i framtiden.
Datorseende TexPoint fonts used in EMF: AA.
Det är en exempel av framtidens datorer men före jag riktigt går in på det ska jag berätta om för i tidens datorer! Framtidens Datorer!
Leva tillsammans.
Karl-Henrik Hagdahl, 11 november Repetition Logikprogrammering: måndag 11 november 2002.
Pontus Johansson 1 grammatiker 21.1 G 1 (BBS 7)
Analysförmåga Jämföra: Likheter och skillnader, för- och nackdelar
Med världen i handen Mia Smith
Radarmålföljning av mänskliga nervsignaler Forskning som syftar till att förbättra och utveckla nya metoder för att behandla smärta Utveckling av ett automatiskt.
fokusgrupper En Kvalitativ datainsamlingsmetod Karina Kight
Vad är en KATA? katatogrow.com.
Huvudsats och bisats– att bygga meningar
Lärande, enligt PUH om hur du kan bli ägare av ditt eget lärande
Tallriksmodellen. Vad åt du till frukost, lunch?
Framtidskartläggning
Systematisk problemlösning enligt EPA-modellen -MÖJLIGHETER OCH UTMANINGAR.
Gemensamma grunder för samverkan och ledning vid samhällsstörningar Modul 02: Aktörer och deras roller och ansvar #grundSoL.
Wordgenomgång.
VÅRA REGLER - Varla IBK P-04 Svart
Att håll och utvecklas som ledare
? ? ? ! 3 min (30 min ex prat) 35 min Nu ska vi tala om dilemman. Ett äkta dilemma är en svår situation som inte förefaller ha någon.
Presentationens avskrift:

Grammatikkontroll för skribenter med svenska som andraspråk Johnny Bigert, Viggo Kann, Ola Knutsson och Jonas Sjöbergh KTH Nada Stockholm, Sverige

Grammatikkontroll i CALL Behov: Lärarna vill ha bort låg-nivå fel Eleverna vill inte upprepa fel Skapa “feedback” på elevers fria textproduktion Diskussion: Är det bra eller dåligt att fokusera på fel? Missade fel och falska alarm?

Räcker inte reglerna till? Varför inte fullparsning (deep parsing)? Kan man hitta alla fel i en text? Grammatiskt/acceptabelt Hur skall man analysera en text som är full av fel?

Tre metoder för grammatikkontroll Granska – handskrivna regler ProbGranska – statistik MLGranska – regler skapas automatiskt

Granskas uppbyggnad Tokeniseraren Taggaren Lexikon (SUC & SAOL) Statistik (SUC) Regelmatcharen Regler (300 regler) Ordböjningsfunktion Grafiskt gränssnitt Interaktion med användaren

Kvinnan. nn. utr. sin. def. nom. hade. vb. prt. akt. aux köpt. vb. sup Kvinnan nn.utr.sin.def.nom hade vb.prt.akt.aux köpt vb.sup.akt en dt.utr.sin.ind ny jj.pos.utr.sin.ind.nom hus nn.neu.plu.ind.nom bil nn.utr.sin.ind.nom

ex2@regler { X(wordcl=nn & spec=ind & case=nom), % hus Y(wordcl=nn) % bil --> mark(X Y) corr(X.join(Y.text)) action(scrutinizing) }

ProbGranska: Detektion av kontextkänsliga stavfel Vi vill hitta oförutsägbara fel, t.ex. för  frö Vi använder en hybridmetod: Statistik över taggtrigram (DT JJ NN 23000) från SUC (1 miljon ordklasstaggade ord) Lingvistisk kunskap för frastransformationer/reduktioner

Jag. pn. utr. sin. def. sub har. vb. prs. akt. aux en. dt. utr. sin Jag pn.utr.sin.def.sub har vb.prs.akt.aux en dt.utr.sin.ind liten jj.pos.utr.sin.ind.nom hund nn.utr.sin.ind.nom sa vb.prt.akt mannen nn.utr.sin.def.nom . mad

En första ansats Algoritm: För varje position i i indataströmmen om frekvensen av (ti-1 ti ti+1) är låg i referenskorpus rapportera fel till användaren rapportera inget fel

Glesa data (sparse data) Glesa data för taggtrigramsstatistik – oändligt stort korpus saknas. Fras- och satsgränser kan skapa nästa vilka trigram som helst.

Exempel på glesa data ”Det är varje chefs uppgift att …” Det är varje taggas som pn.neu.sin.def.sub/obj, vb.prs.akt, dt.utr/neu.sin.ind och har frekvensen noll. dt.utr/neu.sin.ind är ovanlig, 709 förekomster i SUC.

Ersätt en tagg med en annan liknande tagg Vi försöker ersätta: Det är varje chefs uppgift.. med Det är en chefs uppgift.. (pn.neu.sin.def.sub/obj, vb.prs.akt, dt.utr.sin.ind) Vi får upp taggfrekvensen till 231

Olika taggbyten är olika bra Vi måste ha viktade trigram. Vi använder statistik ur korpus för att få fram relevanta vikter.

Metoden är bra på att hitta fel … men ger fortfarande ifrån sig många falska alarm. Förbättra metoden med lingvistisk kunskap

Sats- och frasigekänning med ytparsning Använd satsen som analysenhet för feldetektionen. Transformera ovanliga fraser till frekventa Ersätt frasen med dess huvud Ta bort en del fraser (AdvP, PP).

Frastransformationer Exempel: Alla hundar som är bruna är lyckliga Hundarna är lyckliga NP NP

Slutsatser Metoden är bra på att identifiera kontextkänsliga stavfel. Med lingvistisk kunskap kan metoden få högre precision Metoden bör kunna skalas upp till n-gram över fras och därmed bör mer strukturella fel kunna upptäckas (framtida forskning)

MLGranska: Maskininlärning för feldetektion Se problemet som ett taggningsproblem Märk upp felen t.ex. med taggen ERROR och resten med OK Träna en maskininlärningsalgoritm (t.ex. TBL) på det annoterade materialet + material med korrekt text. Utvärdera på ett okänt men annoterat material.

MLGranska Vi behöver många fel Idé: Skapa fel automatiskt Träna en maskininlärningsalgoritm på detta material. Automatisk annotering. Förlåtande felgenerering. Skapa en “feltaggare” för varje feltyp

Skapa träningsdata 1. Ta en referenskorpus 2. Ta en kopia av denna referenskorpus. 3. Skapa särskrivningsfel i denna – märk upp dessa ERROR 4. Övriga ord märks upp med OK i de två korpusarna.

Familjen. NN. OK bodde. VB. OK i. PP. OK ett. DT. OK hus. NN. OK och Familjen NN OK bodde VB OK i PP OK ett DT OK hus NN OK och KN OK körde VB OK en DT OK miljövänlig JJ OK bil NN OK . MAD OK

Kvinnan NN OK hade VB OK köpt VB OK en DT OK ny JJ OK hus NN ERROR bil NN ERROR . MAD OK

Hur går träningen till? Regelmallar, ord/tagg före/efter Ta en kopia av träningskorpusen för att få en träningsmängd och ett “facit”. Applicera en initialgissning på träningsmängden = för varje ord – vilken tagg är vanligast? Skapa regler utifrån regelmallarna Välj ut de regler som gör träningsmängden mer lik “facit”. Välj bästa regeln, applicera denna, kolla nästa bästa regel.

Kvinnan NN OK hade VB OK köpt VB OK en DT OK ny JJ OK hus NN OK bil NN OK . MAD OK

NN OK + NN OK  NN ERROR + NN ERROR Kvinnan NN OK hade VB OK köpt VB OK en DT OK ny JJ OK hus NN ERROR bil NN ERROR . MAD OK

MLGranska möter en ny text Ordklasstagga orden Gör en initialgissning Tillämpa de genererade reglerna Förhoppningsvis har felen taggats med taggen ERROR Alla särskrivningar kontrolleras mot stavningskontrollen Stava

MLGranska Fördelar: Begränsad manuell insats En taggare per feltyp kan ge bra diagnos och även ersättningsförslag (åtminstone för särskrivningar). Nackdelar: Varje feltaggares enskilda falsklarm kan resultera i många falsklarm om man sätter ihop dem i ett verktyg.

Slutsatser Metoderna upptäcker olika fel – överens ibland Fördelar/nackdelar med varje metod? Vilka fel kommer vi fortfarande inte åt? Vi har jämfört metoderna på “felsamlingar” Just nu gör vi jämförelser på balanserat textmaterial