Presentation laddar. Vänta.

Presentation laddar. Vänta.

Namn- och termigenkänning i specialiserade texter Cecilia Hemming Högskolan i Skövde Institutionen för Kommunikation och Information Datalingvistik.

Liknande presentationer


En presentation över ämnet: "Namn- och termigenkänning i specialiserade texter Cecilia Hemming Högskolan i Skövde Institutionen för Kommunikation och Information Datalingvistik."— Presentationens avskrift:

1 Namn- och termigenkänning i specialiserade texter Cecilia Hemming Högskolan i Skövde Institutionen för Kommunikation och Information Datalingvistik

2 GU-Språkteknologidagen, 22 april Namn- och termigenkänning Automatisk sammanfattning plocka ut det väsentliga ur en text Informationsextrahering (IE) hitta och presentera relevant information Informationsåtkomst (IR) hitta och presentera relevanta dokument Frågebesvarande system Maskinöversättning

3 GU-Språkteknologidagen, 22 april Namn och översättning I met Usama bin Laden Jag mötte Usama slänga i soptunnan Laden

4 GU-Språkteknologidagen, 22 april Vad är ett namn? Ett eller flera ord som betecknar person, organisation, plats, datum, tid, valuta, procentuttryck. Inte specifikt för en viss domän

5 GU-Språkteknologidagen, 22 april Namnigenkänning Hitta datum-/tid-/måttsuttryck, telefon/e-post,… Identifiera namn och dela in i relevanta kategorier Namn på personer, organisationer, platser, … Hitta domänspecifika termer namn på biologiska objekt (gener, proteiner,…) namn på tekniska objekt (maskiner, maskindelar, …)

6 GU-Språkteknologidagen, 22 april Problem Metonymi: mer än bara egentlig betydelse Polysemi Maj – person eller månad (maj)? Namn eller vanligt ord? Stig Flod Interpunktion, stavning, mellanrum, formatering Olika i olika språk och typer av text “Högskolan i Skövde”, “541 45” Skövde, Volvo satsar i Polen, släpp av mig på Volvo han har en Volvo organisation plats produkt

7 GU-Språkteknologidagen, 22 april Hur kan namn hittas? Namndatabaser och namnlistor +enkelt, snabbt, språkoberoende, anpassningsbart -samla/underhålla, hanterar inte ambiguitet/varianter Även titta på ords inre struktur Förnamn + Ord -> person (Ola Person) Ord + AB, HB, KB, … -> organisation(Bala AB)

8 GU-Språkteknologidagen, 22 april Databaser/namnlistor + ytparsning (forts.) Dessutom titta på kontexten Ord + “är {en|ett}” + Adj* + [Plats] Göteborg är en trevlig stad. Problem med ytparsning Charles de Gaulle[namn], [flygplats]? Svenska Britt Ekland gör ny film. Högskolan i Skövde – Föräldrarna i Bullerbyn

9 Namnigenkänning (engelsk nyhetstext) The English-language ArabNews reported onMondaythatPrince Nayef refusedtoanswer reportersquestionson thearrestofHani Abdel-RahimHussein al-Sayegh English-languageArabNewsPrinceNayefHaniAbdel-RahimHusseinal-Sayegh

10 GU-Språkteknologidagen, 22 april Termer “lexikal enhet huvudsakligen använd inom specifik domän” [Kageura 2002] Ofta sammansättningar Ett eller flera ord Ofta okända (inte i termdatabaser/-listor)

11 GU-Språkteknologidagen, 22 april Termer och översättning oljeledningsfäste oil management foothold

12 GU-Språkteknologidagen, 22 april Problem med termer – exempel från biomedicinska texter Olika benämningar/kortversioner för samma sak Interleukin-1 beta  interleukin NF-IL6-beta  NF IL Samma benämning på flera olika saker Ingen enhetlig standard på hur termer byggs upp TR2 interferon alpha-D hur termer skrivs namn, term eller vanlig nominalffras? Enkla termer, minst 6 olika skrivsätt EGR-1, EGR 1, Egr-1, Egr 1, egr-1, egr 1

13 GU-Språkteknologidagen, 22 april Komplexa termer -- NF Kappa B – alltid stor inledande bokstav och mellanslag -- NF kappa B -- ingående ord skrivs med liten bokstav -- NF kappaB -- vissa delar av namnet skrivs ihop -- NFkappaB -- alla delar skrivs ihop

14 Länka akronymer till namn på biologiska objekt Find next acronym Found? L1:= First Letter in the acronym N := Number of occurrences of L1 in the acronym Yes Within parentheses Yes Find the N:th word beginning in L1 to the left of the parentheses and mark that word and the rest of the left side context as Named Entity and link to the acronym Yes Is the acronym followed by ’(’ and a word beginning whith L1 No Mark the words inside the (…) as Named Entity and link to the acronym YesNo Place pointer at the first word in the sentence To next procedure (Named Entity Recognition shown in Figure 4) From previous procedure ThereareaslotumorrelatedgeneslikeNF2neurofibromatose of type 2. p16INK4a belongstoagroupcellcycleregulatorcalledcyclindependentkinaseinhibitors CDKI. () ( )

15 GU-Språkteknologidagen, 22 april Tack för mig!

16 GU-Språkteknologidagen, 22 april Syntaktiska termbildningsmönster Språkspecifika bildningsmönster svenska noun+noun -> franska noun prep noun/verb Swedish noun-2+noun-1 (modifierare+huvud) -> French noun-1 prep noun-2 (huvud + prep + modifierare) oljekanal # canalisation à huile bränsleledning # conduite de carburant

17 GU-Språkteknologidagen, 22 april Semantiska koncept Term: lingvistisk representation för ett domänspecifikt koncept Viktiga semantiska koncept för en domän  relevanta termer för domänen För att kunna översätta en sammansatt term krävs korrekt semantisk tolkning t.ex. val av preposition “de” om modifierande substantiv uttrycker vad ngt är avsett för


Ladda ner ppt "Namn- och termigenkänning i specialiserade texter Cecilia Hemming Högskolan i Skövde Institutionen för Kommunikation och Information Datalingvistik."

Liknande presentationer


Google-annonser