Ladda ner presentationen
Presentation laddar. Vänta.
Publicerades avRune Eklund
1
Lemmatiserare för okända ord Boel Mattsson
2
Projektbeskrivning Att göra ett program som gissar grundformen (lemmat) för okända ord Begränsning till substantiv, verb och adjektiv Uppgiften formuleras som ett klassificeringsproblem t ex ordet "krämbluffen" tillhör den klass av ord där man ska ta bort "en" för att få grundformen
3
SUC- korpus LIBSVM Statistisk klassificerare ” krämbluffen ” ”krämbluff” Översikt av projekt
4
Beskrivning av klassificerare En klassificerare är en funktion som givet ett antal inparametrar ger en klass t ex ”en->0” i fallet ”krämbluffen” LIBSVM – ett färdigskrivet program LIBSVM skapar en statistisk klassificerare utifrån ett antal exempel (träningsmängd) En statistisk algoritm försöker hitta en funktion som passar så bra som möjligt med träningsmängden.
5
utdrag ur SUC-korpus Särskiltabsärskilt smygrustningennn.utr.sin.def.nomsmygrustning vadhavad gällervb.prs.aktgälla missilernn.utr.plu.ind.nommissil oroarvb.prs.aktoroa.mad.
6
Inparametrar till LIBSVM Ordets korrekt klassificerade klass Ordets suffix upp till fem bokstäver Ordets ordklass Exempel: För ordet smygrustningen blir inparametrarna en->0|n|en|gen|ngen|ingen|nn.utr.sin.def.nom
7
Träningsmängd, testmängd Som träningsmängd och testmängd har använts ett urval ur SUC bestående av substantiv, adjektiv och verb. Testmängden bestod av 50 000 ord Olika storlekar på träningsmängden har använts: –1000 ord –2000 ord –5000 ord –10 000 ord
8
Andel korrekta klassifikationer som funktion av antalet ord i träningsmängden
Liknande presentationer
© 2024 SlidePlayer.se Inc.
All rights reserved.