Namn- och termigenkänning i specialiserade texter Cecilia Hemming Högskolan i Skövde Institutionen för Kommunikation och Information Datalingvistik.

Slides:



Advertisements
Liknande presentationer
Configured Edititon för Unicenter 3.0 Sättet att snabbt komma igång med Unicenter.
Advertisements

Anneli och Christians Datorskola
Skapa ideala kundprofiler
PETER Nicks Product Marketing Manager
(Data)Modellering nikos dimitrakas rum 6626
Varför grammatik? Vad är ordklasser?
Hur gör vi på insidan?. Namn på AD? • Spelar det någon roll? • Kommun.se • Kommun.ad • Kommun.local • Ad.kommun.se • Hur validerar vi DNSSEC om AD och.
1 Logikprogrammering ons 11/9 David Hjelm. 2 Repetition Listor är sammansatta termer. De består av en ordnad mängd element. Elementen i en lista kan vara.
Prolog, Mån 16/9 Rebecca Jonson.
Böja den bestämda/obestämda artikeln.
Språkteknologisk forskning och utveckling (HT 2007)
Logikprogrammering Ons, 25/9
Dcg-notation 21.2 G 2.3 M (BBS 8). dagens föreläsning extra argument i dcg-notation prolog-anrop i dcg-notation avslutande kommentarer om dcg.
Svenska WebDewey Introduktion
INFORMATIONSHANTERING Tips & råd av Anna Maria & Joakim
Dagens dikt Idag är det måndag. Vi sitter i Hörsal 4. Det är februari.
Lättläst på webben Mittuniversitet 2 och 23 april 2007
Presupposition gemensam kunskap som inte behöver påstås eller förklaras förutsatt information - bakgrundsantaganden konventionaliserade bärare av implicit.
 SLIM-forskarskolan – språk och lärande i mångfaldsperspektiv  Ingår i lärarlyftet, en satsning på fortbildning och forskarutbildning för lärare.  Licenciatexamen.
SVENSKA.
Svenska WebDewey Introduktion Harriet Aagaard Svenska Deweyredaktion
Titel på ditt arbete -undertitel, vad handlar det mer specifikt om? Introduktion Här bör man skriva en kortfattad introduktion till sitt arbete, eller.
Formell logik Kapitel 1 och 2
Tabeller.
Möten med akademins värld Staffan Andersson Uppsala universitet.
Online all the time, anywhere with anything Ytterligare ett alternativ är att gå via Inställningar för bibliotek. © NetIntegrate Sweden AB 1.Gå till bibliotek.
Kap 11 Språk Kap 11
Everything you need to manage your digital media ImageVault is everything you need to securely and easily store, find and use all your digital media.
Stor och liten bokstav.
Relationen mellan IR och IE Upplägg Vad är informationsåtkomst (IR)? Skillnader mellan IR och IE Hur kan IR och IE kombineras? Hur har IR och IE kombinerats?
Dystopia I litteraturen en skildring av ett inhumant, oftast totalitärt framtida samhälle. (Nationalencyklopedin) An imaginary place where people live.
Gränsöverskridande i flerspråkig kommunikation med datorer Robin Cooper, professor i datalingvistik Föreståndare, Nationella forskarskolan i språkteknologi.
Logikprogrammering 21/10 Binära träd
Upplägget av delkursen massmedia:
Titel på ditt arbete -undertitel, vad handlar det mer specifikt om? Introduktion Här bör man skriva en kortfattad introduktion till sitt arbete, eller.
RED10 Research Evaluation for Development 2010 RED10 | Susanne Holmgren och Gustav Bertilsson Uleberg Institutionernas självvärderingar inom.
Engelska Människokroppen
Kompilerad av Gergely Karosi från Elias Wesséns Vårt svenska språk
PREPOSITIONER.
Skrivregler & grammatik
Logikprogrammering 16/ : operatorer Staffan Larsson.
Labgrupper: 2 pers/grupp fr o m lab 2 schema ENKÄT.
Karl-Henrik Hagdahl, 11 november Repetition Logikprogrammering: måndag 11 november 2002.
Pontus Johansson 1 grammatiker 21.1 G 1 (BBS 7)
To practise speaking English for 3-4 minutes Genom undervisningen i ämnet engelska ska eleverna ges förutsättningar att utveckla sin förmåga att: formulera.
DA7351 Programmering 1 Databas SQL Föreläsning 24.
Dokument Process (DP) Metadata Ett standardiseringssamarbete för att: Att effektivisera åtkomst till verksamhetsdokument mellan och inom organisationer.
Vi uppfattar verkligheten på olika sätt
Dystopia/ Utopia I litteraturen en skildring av ett inhumant, oftast totalitärt framtida samhälle. (Nationalencyklopedin) An imaginary place where people.
SUA – Skriva.
Att skriva vetenskapligt
Satsbegreppet. Begreppen mening och sats På svenska talar man ofta om meningar och satser, men på tyska finns inte begreppet mening. På svenska används.
Swedish for international students Kie FM Sandra Uitto Swedish teacher Language Center, Aalto University U-wing, II floor.
Types of Business Consulting Services Cornerstoneorg.com.
Sharing Research Data – how to stay competitive
Python.
Malmö Innovationsarena
DiVA-undervisning RISE 28 oktober 2016 Aina Svensson & Urban Ericsson
DiVA-undervisning Luleå tekniska universitet 20 maj 2016
Charlotta Hambre-Knight Översättare, Örebro universitet
You Must Take Marriage Advice to Stop Divorce! Dontgetdivorced.com.
Basic Swedish 1 Lektion 4, den 15 februari Välkomna
Talförmåga År 7 Bedömning Lärandemål/Syfte Lgr11
DM-Q-48 Template eQuality - Defect found at parts from supplier
I vissa datorer behöver du trycka på F5 för att starta bildspelet
Titel på projektet Title of the project
Betyg i moderna språk nu redan i år 6
Applying Analysis Patterns
Applying Analysis Patterns
Presentationens avskrift:

Namn- och termigenkänning i specialiserade texter Cecilia Hemming Högskolan i Skövde Institutionen för Kommunikation och Information Datalingvistik

GU-Språkteknologidagen, 22 april Namn- och termigenkänning Automatisk sammanfattning plocka ut det väsentliga ur en text Informationsextrahering (IE) hitta och presentera relevant information Informationsåtkomst (IR) hitta och presentera relevanta dokument Frågebesvarande system Maskinöversättning

GU-Språkteknologidagen, 22 april Namn och översättning I met Usama bin Laden Jag mötte Usama slänga i soptunnan Laden

GU-Språkteknologidagen, 22 april Vad är ett namn? Ett eller flera ord som betecknar person, organisation, plats, datum, tid, valuta, procentuttryck. Inte specifikt för en viss domän

GU-Språkteknologidagen, 22 april Namnigenkänning Hitta datum-/tid-/måttsuttryck, telefon/e-post,… Identifiera namn och dela in i relevanta kategorier Namn på personer, organisationer, platser, … Hitta domänspecifika termer namn på biologiska objekt (gener, proteiner,…) namn på tekniska objekt (maskiner, maskindelar, …)

GU-Språkteknologidagen, 22 april Problem Metonymi: mer än bara egentlig betydelse Polysemi Maj – person eller månad (maj)? Namn eller vanligt ord? Stig Flod Interpunktion, stavning, mellanrum, formatering Olika i olika språk och typer av text “Högskolan i Skövde”, “541 45” Skövde, Volvo satsar i Polen, släpp av mig på Volvo han har en Volvo organisation plats produkt

GU-Språkteknologidagen, 22 april Hur kan namn hittas? Namndatabaser och namnlistor +enkelt, snabbt, språkoberoende, anpassningsbart -samla/underhålla, hanterar inte ambiguitet/varianter Även titta på ords inre struktur Förnamn + Ord -> person (Ola Person) Ord + AB, HB, KB, … -> organisation(Bala AB)

GU-Språkteknologidagen, 22 april Databaser/namnlistor + ytparsning (forts.) Dessutom titta på kontexten Ord + “är {en|ett}” + Adj* + [Plats] Göteborg är en trevlig stad. Problem med ytparsning Charles de Gaulle[namn], [flygplats]? Svenska Britt Ekland gör ny film. Högskolan i Skövde – Föräldrarna i Bullerbyn

Namnigenkänning (engelsk nyhetstext) The English-language ArabNews reported onMondaythatPrince Nayef refusedtoanswer reportersquestionson thearrestofHani Abdel-RahimHussein al-Sayegh English-languageArabNewsPrinceNayefHaniAbdel-RahimHusseinal-Sayegh

GU-Språkteknologidagen, 22 april Termer “lexikal enhet huvudsakligen använd inom specifik domän” [Kageura 2002] Ofta sammansättningar Ett eller flera ord Ofta okända (inte i termdatabaser/-listor)

GU-Språkteknologidagen, 22 april Termer och översättning oljeledningsfäste oil management foothold

GU-Språkteknologidagen, 22 april Problem med termer – exempel från biomedicinska texter Olika benämningar/kortversioner för samma sak Interleukin-1 beta  interleukin NF-IL6-beta  NF IL Samma benämning på flera olika saker Ingen enhetlig standard på hur termer byggs upp TR2 interferon alpha-D hur termer skrivs namn, term eller vanlig nominalffras? Enkla termer, minst 6 olika skrivsätt EGR-1, EGR 1, Egr-1, Egr 1, egr-1, egr 1

GU-Språkteknologidagen, 22 april Komplexa termer -- NF Kappa B – alltid stor inledande bokstav och mellanslag -- NF kappa B -- ingående ord skrivs med liten bokstav -- NF kappaB -- vissa delar av namnet skrivs ihop -- NFkappaB -- alla delar skrivs ihop

Länka akronymer till namn på biologiska objekt Find next acronym Found? L1:= First Letter in the acronym N := Number of occurrences of L1 in the acronym Yes Within parentheses Yes Find the N:th word beginning in L1 to the left of the parentheses and mark that word and the rest of the left side context as Named Entity and link to the acronym Yes Is the acronym followed by ’(’ and a word beginning whith L1 No Mark the words inside the (…) as Named Entity and link to the acronym YesNo Place pointer at the first word in the sentence To next procedure (Named Entity Recognition shown in Figure 4) From previous procedure ThereareaslotumorrelatedgeneslikeNF2neurofibromatose of type 2. p16INK4a belongstoagroupcellcycleregulatorcalledcyclindependentkinaseinhibitors CDKI. () ( )

GU-Språkteknologidagen, 22 april Tack för mig!

GU-Språkteknologidagen, 22 april Syntaktiska termbildningsmönster Språkspecifika bildningsmönster svenska noun+noun -> franska noun prep noun/verb Swedish noun-2+noun-1 (modifierare+huvud) -> French noun-1 prep noun-2 (huvud + prep + modifierare) oljekanal # canalisation à huile bränsleledning # conduite de carburant

GU-Språkteknologidagen, 22 april Semantiska koncept Term: lingvistisk representation för ett domänspecifikt koncept Viktiga semantiska koncept för en domän  relevanta termer för domänen För att kunna översätta en sammansatt term krävs korrekt semantisk tolkning t.ex. val av preposition “de” om modifierande substantiv uttrycker vad ngt är avsett för