Lemmatiserare för okända ord Boel Mattsson. Projektbeskrivning Att göra ett program som gissar grundformen (lemmat) för okända ord Begränsning till substantiv,

Slides:



Advertisements
Liknande presentationer
Varför måste jag ha ett långt och jobbigt lösenord? Jo… det är såhär…
Advertisements

Ordklasser Substantiv Verb Pronomen Konjunktioner Adjektiv Adverb
Bedömning efter sex veckors drogfrihet. Förbättring i kognitiv funktion.
Komplement Bornholmsmodell för förskolan
Att skriva sig till läsning
Bonvenon al -ig- kaj -iĝ- Affix • -ig- och -iĝ- tillhör Esperantons affix • Som affix används de som suffix, efterstavelser • Men de kan också stå som.
Access med Sebastian och Robert
Varför grammatik? Vad är ordklasser?
FL4 732G70 Statistik A Detta är en generell mall för att göra PowerPoint presentationer enligt LiUs grafiska profil. Du skriver in din rubrik,
Svenska Grammatik.
Ordklasser "Ordklass" är namn på en grupp av ord som fungerar på samma sätt, när du använder dem.
Böja den bestämda/obestämda artikeln.
Grammatikkontroll för skribenter med svenska som andraspråk
Programmeringsteknik Föreläsning 13 Skolan för Datavetenskap och kommunikation.
Grammatik.
Programmeringsteknik Föreläsning 6 Skolan för Datavetenskap och kommunikation.
Svarar på frågorna: Var? Vart? Varifrån?
O – vanlig Miss – tänka Sam – arbeta
DAB752: Algoritmteori Leif Grönqvist
Korpusbaserad datorlingvistik eller datorbaserad korpuslingvistik?
FL8 732G70 Statistik A Detta är en generell mall för att göra PowerPoint presentationer enligt LiUs grafiska profil. Du skriver in din rubrik,
Föreläsning 6 Länkade lista Komplexitet Linjärsökning & binärsökning
2D1311 Programmeringsteknik med PBL Föreläsning 7 Skolan för Datavetenskap och kommunikation.
A Robust Shallow Parser for Swedish Ola Knutsson, Johnny Bigert, Viggo Kann Royal Institute of Technology, Sweden.
FL2 732G70 Statistik A Detta är en generell mall för att göra PowerPoint presentationer enligt LiUs grafiska profil. Du skriver in din rubrik,
Repetition satsdelar Vilka frågor ställs för att få fram p, s, dio, io? p= Vad händer? (bakar) s= Vem/vad + p? (Sara) dio= Vem/vad+p+s (en kaka) io= Till.
Figur 2 Antalet konkurser i Lunds kommun
Våra fyra första satsdelar i korthet
Ordklasser Substantiv Verb Pronomen Konjunktioner Adjektiv Adverb
HJÄRNGYMPA.
Lektion 4: Hur förändras språket och varför?
ORDKLASSERNA I SVENSKA SPRÅKET
Kandidatuppsats i Statistik F4
En fras består i sin tur av…
SPARKVIPA.
Sammanfattning av EU-lagstiftning: en introduktion 2009.
Beskrivning av några viktiga funktioner och egenskaper för IT-stödet PDU (Personcentrerat Dokumentations- och Uppföljningsverktyg), som en del av testbäddsprojektet.
Välkommen till Information om Hinfo Hinfo är en nationell databas för information om hjälpmedel Vad är Hinfo? Information om Hinfo 2006.
Att skriva dikter.
HETER DET ”EN LÅNG HÅRIG KVINNA” ELLER ”EN LÅNGHÅRIG KVINNA”? Luncha och lär!
Sammanfattning av EU-lagstiftning: en introduktion 2008.
Video Games The movie. E -Ni ska välja ett spel som är er favorit. -Ni ska förklara varför den är just er favorit -Hur kan spelet utvecklas i framtiden.
Orientering.
Svensk grammatik ORDKLASSER 1.
Morfologi – hur ord böjs och bildas
Johanna Ståhl, Pilängskolan, Lomma –
 Alla ord hör till en ordklass.  Till vilken ordklass ett ord hör beror på: - vad ordet betyder - hur det böjs - hur det används.
GRAMMATIK - SATSLÄRA Eleven kan översiktligt (C: med viss precision, A: med god precision) utifrån språkexempel redogöra för hur olika typer av satser,
Statistisk inferensteori. Inledning Den statistiska inferensteorin handlar i huvudsak om att dra slutsatser från ett slumpmässigt urval (sannolikhetsurval)
SKRIVA TEXTER Vad är uppgiften? Berätta om det inte något annat! Skriv mycket! Bättre med lång text och fel än lite och rätt. Några exempel på bisatser.
Ord som beskriver substantiv och pronomen
GRAMMATIK – SATSLÄRA 2 Eleven kan översiktligt (C: med viss precision, A: med god precision) utifrån språkexempel redogöra för hur olika typer av satser,
Fredagsmys Vecka 3.
Satsdelar Så här hittar du dem!.
Vecka 43 Tisdag den 24:e oktober 2017 Dagens namnsdag Eilert Evert  
Morfologi – hur ord böjs och bildas
Vecka 39 Onsdag den 27:e september 2017 Dagens namnsdag Dagmar Rigmor.
Modern svensk undervisning
Skriv orden i ordlistan ”Veckans ord” – alla orden behöver du förstå och kunna använda på läxförhöret 1/9. *realistisk *kontrollera *tuffa krav *tenta.
Vecka 38 Onsdag den 20:e september 2017 Dagens namnsdag.
Grammatisk terminologi I
Workshop 4: Tre diagram om teknik och tillverkning
Ordklasser och akademisk text
Ett läs-projekt med musik
Algoritmer.
Grammatik - satslära Eleven kan översiktligt (C: med viss precision, A: med god precision) utifrån språkexempel redogöra för hur olika typer av satser,
Morfologi – hur ord böjs och bildas
Beskrivande texter Svenska vt-19 v Marlene, Camilla och Johan.
Inför NP Svenska Våren 2019.
Svensk grammatik ORDKLASSER 1.
Presentationens avskrift:

Lemmatiserare för okända ord Boel Mattsson

Projektbeskrivning Att göra ett program som gissar grundformen (lemmat) för okända ord Begränsning till substantiv, verb och adjektiv Uppgiften formuleras som ett klassificeringsproblem t ex ordet "krämbluffen" tillhör den klass av ord där man ska ta bort "en" för att få grundformen

SUC- korpus LIBSVM Statistisk klassificerare ” krämbluffen ” ”krämbluff” Översikt av projekt

Beskrivning av klassificerare En klassificerare är en funktion som givet ett antal inparametrar ger en klass t ex ”en->0” i fallet ”krämbluffen” LIBSVM – ett färdigskrivet program LIBSVM skapar en statistisk klassificerare utifrån ett antal exempel (träningsmängd) En statistisk algoritm försöker hitta en funktion som passar så bra som möjligt med träningsmängden.

utdrag ur SUC-korpus Särskiltabsärskilt smygrustningennn.utr.sin.def.nomsmygrustning vadhavad gällervb.prs.aktgälla missilernn.utr.plu.ind.nommissil oroarvb.prs.aktoroa.mad.

Inparametrar till LIBSVM Ordets korrekt klassificerade klass Ordets suffix upp till fem bokstäver Ordets ordklass Exempel: För ordet smygrustningen blir inparametrarna en->0|n|en|gen|ngen|ingen|nn.utr.sin.def.nom

Träningsmängd, testmängd Som träningsmängd och testmängd har använts ett urval ur SUC bestående av substantiv, adjektiv och verb. Testmängden bestod av ord Olika storlekar på träningsmängden har använts: –1000 ord –2000 ord –5000 ord – ord

Andel korrekta klassifikationer som funktion av antalet ord i träningsmängden