Namn- och termigenkänning i specialiserade texter Cecilia Hemming Högskolan i Skövde Institutionen för Kommunikation och Information Datalingvistik
GU-Språkteknologidagen, 22 april Namn- och termigenkänning Automatisk sammanfattning plocka ut det väsentliga ur en text Informationsextrahering (IE) hitta och presentera relevant information Informationsåtkomst (IR) hitta och presentera relevanta dokument Frågebesvarande system Maskinöversättning
GU-Språkteknologidagen, 22 april Namn och översättning I met Usama bin Laden Jag mötte Usama slänga i soptunnan Laden
GU-Språkteknologidagen, 22 april Vad är ett namn? Ett eller flera ord som betecknar person, organisation, plats, datum, tid, valuta, procentuttryck. Inte specifikt för en viss domän
GU-Språkteknologidagen, 22 april Namnigenkänning Hitta datum-/tid-/måttsuttryck, telefon/e-post,… Identifiera namn och dela in i relevanta kategorier Namn på personer, organisationer, platser, … Hitta domänspecifika termer namn på biologiska objekt (gener, proteiner,…) namn på tekniska objekt (maskiner, maskindelar, …)
GU-Språkteknologidagen, 22 april Problem Metonymi: mer än bara egentlig betydelse Polysemi Maj – person eller månad (maj)? Namn eller vanligt ord? Stig Flod Interpunktion, stavning, mellanrum, formatering Olika i olika språk och typer av text “Högskolan i Skövde”, “541 45” Skövde, Volvo satsar i Polen, släpp av mig på Volvo han har en Volvo organisation plats produkt
GU-Språkteknologidagen, 22 april Hur kan namn hittas? Namndatabaser och namnlistor +enkelt, snabbt, språkoberoende, anpassningsbart -samla/underhålla, hanterar inte ambiguitet/varianter Även titta på ords inre struktur Förnamn + Ord -> person (Ola Person) Ord + AB, HB, KB, … -> organisation(Bala AB)
GU-Språkteknologidagen, 22 april Databaser/namnlistor + ytparsning (forts.) Dessutom titta på kontexten Ord + “är {en|ett}” + Adj* + [Plats] Göteborg är en trevlig stad. Problem med ytparsning Charles de Gaulle[namn], [flygplats]? Svenska Britt Ekland gör ny film. Högskolan i Skövde – Föräldrarna i Bullerbyn
Namnigenkänning (engelsk nyhetstext) The English-language ArabNews reported onMondaythatPrince Nayef refusedtoanswer reportersquestionson thearrestofHani Abdel-RahimHussein al-Sayegh English-languageArabNewsPrinceNayefHaniAbdel-RahimHusseinal-Sayegh
GU-Språkteknologidagen, 22 april Termer “lexikal enhet huvudsakligen använd inom specifik domän” [Kageura 2002] Ofta sammansättningar Ett eller flera ord Ofta okända (inte i termdatabaser/-listor)
GU-Språkteknologidagen, 22 april Termer och översättning oljeledningsfäste oil management foothold
GU-Språkteknologidagen, 22 april Problem med termer – exempel från biomedicinska texter Olika benämningar/kortversioner för samma sak Interleukin-1 beta interleukin NF-IL6-beta NF IL Samma benämning på flera olika saker Ingen enhetlig standard på hur termer byggs upp TR2 interferon alpha-D hur termer skrivs namn, term eller vanlig nominalffras? Enkla termer, minst 6 olika skrivsätt EGR-1, EGR 1, Egr-1, Egr 1, egr-1, egr 1
GU-Språkteknologidagen, 22 april Komplexa termer -- NF Kappa B – alltid stor inledande bokstav och mellanslag -- NF kappa B -- ingående ord skrivs med liten bokstav -- NF kappaB -- vissa delar av namnet skrivs ihop -- NFkappaB -- alla delar skrivs ihop
Länka akronymer till namn på biologiska objekt Find next acronym Found? L1:= First Letter in the acronym N := Number of occurrences of L1 in the acronym Yes Within parentheses Yes Find the N:th word beginning in L1 to the left of the parentheses and mark that word and the rest of the left side context as Named Entity and link to the acronym Yes Is the acronym followed by ’(’ and a word beginning whith L1 No Mark the words inside the (…) as Named Entity and link to the acronym YesNo Place pointer at the first word in the sentence To next procedure (Named Entity Recognition shown in Figure 4) From previous procedure ThereareaslotumorrelatedgeneslikeNF2neurofibromatose of type 2. p16INK4a belongstoagroupcellcycleregulatorcalledcyclindependentkinaseinhibitors CDKI. () ( )
GU-Språkteknologidagen, 22 april Tack för mig!
GU-Språkteknologidagen, 22 april Syntaktiska termbildningsmönster Språkspecifika bildningsmönster svenska noun+noun -> franska noun prep noun/verb Swedish noun-2+noun-1 (modifierare+huvud) -> French noun-1 prep noun-2 (huvud + prep + modifierare) oljekanal # canalisation à huile bränsleledning # conduite de carburant
GU-Språkteknologidagen, 22 april Semantiska koncept Term: lingvistisk representation för ett domänspecifikt koncept Viktiga semantiska koncept för en domän relevanta termer för domänen För att kunna översätta en sammansatt term krävs korrekt semantisk tolkning t.ex. val av preposition “de” om modifierande substantiv uttrycker vad ngt är avsett för