A Robust Shallow Parser for Swedish Ola Knutsson, Johnny Bigert, Viggo Kann Royal Institute of Technology, Sweden.

Slides:



Advertisements
Liknande presentationer
SOA Governance with SOA Software For BUGS Martin Svensson.
Advertisements

Att visa fotnot, datum, sidnummer Klicka på fliken ”Infoga”och klicka på ikonen sidhuvud/sidfot Klistra in text: Klistra in texten, klicka på ikonen (Ctrl),
Annoterade satser och platta frasstrukturer för svenska
Mellanblå fält till höger: Plats för bild – foto, diagram, film, andra illustrationer Comparison of some instruments and methods for determination of sunshine.
You should put a comma before a person’s name if you're talking directly to them… Come here, Lily! …or when you are introducing or talking about a person.
7 Det är= there is/are, it is
ASP.NET MVC MVC historik ● Traditionellt arkitekturmönster som ansetts särskilt lämpligt i webbapplikationer ● Separation of concerns & loose.
© Apoteket AB Sidhuvud med plats för gemensamt namn för OH-serien Sidhuvud med plats för Enhet / Utförare – Internt Swedish community pharmacy classification.
1.Numerical differentiation and quadrature Discrete differentiation and integration Ordinary.
Grammatikkontroll för skribenter med svenska som andraspråk
Logistic linguistics Bengt Sigurd & Mats Eeg-Olofsson From first sound/morpheme/word to last via shorter combinable roads (dyads) Logistic syllable analysis:
Landscaped Spaces Design for Health This slide show contains images related to health and the built environment. For more information see
Aims and outcomes Levnadsvillkor, attityder, värderingar och traditioner samt sociala, politiska och kulturella förhållanden i olika sammanhang och delar.
Kom och utveckla din syn på ledarskap!. Hur möter du de nya kraven på dig som ledare, säljare och i serviceyrken? Välkommen till frukostmöte om LUCK-konceptet.
VÄLKOMMNA till EUHA 17 - ’B-uppsatskursen’.  The research problem: * ett epistemologiskt problem, ex: en kritisk ställning mot ett fenomen, en empirisk.
Fråga 71 Hål är minoritetsbärare i ett n-typ kisel lager. Hålen injeceras från en sida och diffunderar in i n-typ lagret och en koncentrationsprofil upprättshåls.
Vägledningscentrum Career guidance centre
Workshop 7 mars 2013 Välkomna Dagens tema: Crowdsourcing Dagens talare 7/3/13 Behovsdriven utveckling i praktiken 1.
Våra framsteg Halvårsrapport 2012 ERNACT Co-operation for regional development.
1 CD5560 FABER Formal Languages, Automata and Models of Computation Exercise 2 Mälardalen University 2007.
Karlstad April 2013 Karin Henrekson Ahlberg and Rolf Öberg Rolf Öberg.
Unified Communications. Unified Communications and Collaboration Simplify Working Together Pervasive capabilities for where and how people work.
The Swedish Travel Card
Erik Stenborg Swedish adaptation of ISO TC 211 Quality principles.
För att uppdatera sidfotstexten, gå till menyn: Visa/Sidhuvud och sidfot... E-services – what’s now and what’s next for the Swedish Pensions Agency? Mikael.
Adult education in Sweden is extensive and has a long tradition. Adult education exists in many different forms and is organized by many different operators,
Create a stunning dashboard and keep your job Patrik Sundqvist.
Who används för att fråga efter personer
LvWSthlm1 Svensk Neuropediatrisk Förening Vidareutbildningsdagar 13-14, 2005 VÅRDPROGRAM EN RÄDDARE I NÖDEN eller SLUTET PÅ INDIVIDUELL KLINISK.
Transport models Are they really that important? Christian Nilsson, WSP 17 October 2014.
Swedish ports A linchpin in Swedish industry. 95% of Swedish foreign trade is transported through a port.
Presens och imperfekt av have. Translate! Jag har huvudvärk. Hon har en röd Volvo. De har två barn tillsammans.
Pågående form (ing-form)
Direct translation no complete intermediary sentence structure translation proceeds in a number of steps, each step dedicated to a specific task the most.
FIRMA OCH VARUMÄRKESENKÄT Näringslivets syn på firma och varumärken Industry’s view of trade names and trademarks.
För att uppdatera sidfotstexten, gå till menyfliken: Infoga | Sidhuvud och sidfot Fondbolagsträff 2015.
Exempelbaserade specifikationer med SpecFlow
Lemmatiserare för okända ord Boel Mattsson. Projektbeskrivning Att göra ett program som gissar grundformen (lemmat) för okända ord Begränsning till substantiv,
Arkitektrollen. Ansvar och uppgifter Architecture notebook Mycket intensivt elaboration – inception Mål: en stabil arkitektur i slutet på elaboration.
 Who frågar efter en persons (eller personers) identitet (vem dem är).  Who is he?  Who are they?  Who is coming?
To practise speaking English for 3-4 minutes Genom undervisningen i ämnet engelska ska eleverna ges förutsättningar att utveckla sin förmåga att: formulera.
© Gunnar Wettergren1 IV1021 Project models Gunnar Wettergren
“Be” (vara) i presens 1. I 2. You 3. He, she, it 1. We 2. You 3. They.
@ Anna Sågvall Hein 2005 Uppsala Chart Processor - UCP icke-deterministisk chartparser procedurell formalism versioner –UCP-1, UCP2 –UCP3 (light)
Shannon dekomposition
Varmt välkomna till Timrå gymnasiums Volontär mässa 5 februari en del i Well being projektet.
Don´t just try! Do! Emma Nääs
Lab Contact 1  Lab Assistants:  Meng Liu, Group B  Sara Abbaspour, Group A
Why you should consider hiring a real estate attorney!
Strategic Sustainable Development
Formal Languages, Automata and Models of Computation
How to Buy Engagement Rings for Women Online?. Buying engagement rings for women or tiffany celebration rings from the online market could be a bit challenging.
Säkerhetsföreskrifter/
You Must Take Marriage Advice to Stop Divorce! Dontgetdivorced.com.
Vad gör jag om jag vill forska med SPORs data?
Mixed-type assignments
Function= What it does Sooooo…. Basically- there are 3 different things a song DOES in a musical story.
Publish your presentations online we present SLIDEPLAYER.SI.
Publish your presentations online we present SLIDEPLAYER.RS.
Publish your presentations online we present SLIDEPLAYER.IN.
Publish your presentations online we present SLIDEPLAYER.VN.
Publish your presentations online we present SLIDEPLAYER.RO.
Publish your presentations online we present SLIDEPLAYER.EE.
Publish your presentations online we present SLIDEPLAYER.CO.IL.
Publish your presentations online we present SLIDEPLAYER.AE.
Publish your presentations online we present SLIDEPLAYER.BG.
Integrates many areas of study (science, math, language arts) into one project.
It all starts with a good teacher
Your Research Question
Presentationens avskrift:

A Robust Shallow Parser for Swedish Ola Knutsson, Johnny Bigert, Viggo Kann Royal Institute of Technology, Sweden

Introduction What is robustness? Robust against noisy, ill-formed and partial natural language data

Shallow parsing Many NLP-applications do not need full parsing Shallow parsing: A parsing approach Pre-processing for full parsing A collection of techniques Abney - finite state cascades (1991) Currently, a lot of attention on ML Well suitable for modularization

Chunking and phrase identification Common modules in a shallow parser: Tokenizer PoS-tagger Chunker Phrase identifier Grammatical function identifier

Chunking [NP Den mycket gamla mannen][VC gillade][NP mat] Phrase identification [NP Den [AP mycket gamla] mannen][VC gillade][NP mat]

Parsers for Swedish Full parser: UCP (Sågvall Hein) and SLE (Gambäck) Shallow parsers (phrase structure): Cass- Swe (Kokkinakis) and Megyesi using machine learning Dependency: CG (Birn) and FDG (Voutilainen)

Granska Text Analyzer (GTA) Hand-crafted rules Context-free backbone Partly object-oriented notation

Major Phrase Categories NP: Han såg den lilla mannen på bänken VC: Han har spelat kort hela natten PP: Han såg spår i sanden AP: Han ogillade små vita lögner ADVP: Han vill inte gå på bio. INFP: Han tycker om att spela

Clause Boundary Identification Based on Ejerhed’s algorithm Context-sensitive rules Using only PoS information

Different kinds of rules GTA contains 260 rules 200 identify phrase structure 20 clause boundary identification 40 selection rules (disambiguation)

Example rule, [NP den lilla bilen] { X(wordcl=dt| wordcl=hd | wordcl=rg), X2(wordcl=ab | wordcl=rg)?, Y(wordcl=jj | wordcl=ro | wordcl=pc)*, Z(wordcl=nn) --> action(help, wordcl:=Z.wordcl, pnf:= undef, gender:=Z.gender, num:=Z.num, spec:=Z.spec, case:=Z.case)

Clause boundary rule V(sed!=sen & text!="som" & wordcl!=sn), X((wordcl=pn & pnf=sub)| (wordcl=pm & case=nom) | (wordcl=nn & case=nom & V.case!=gen) | wordcl=ab), ---endleftcontext---, Y(wordcl=kn), ---beginrightcontext---, Y2(((wordcl=pn & pnf=sub) | (wordcl=pm & case=nom) | (wordcl=nn & case=nom) | wordcl=ab) & wordcl=X.wordcl), Z(wordcl=vb & (vbf=prs | vbf=prt | vbf=imp)) --> action(help, wordcl:=Y.wordcl)}

The Tetris Algorithm NP boken NP Fänrik Ax PP till general Claes VC gav PP till general Claes Olsson NP general Claes Olsson PP till general

The IOB format Marcus and Ramshaw 1995 A phrase/clause tag contains two parts: 1.Phrase/Clause type, e.g. NP, PP 2.One of two tags: I = Inside a phrase/clause B = Beginning a phrase/clause When a word does not belong to a phrase 3. O = Outside

Disagreement error De dt.utr/neu.plu.def NPB CLB gamla jj.pos.utr/neu.plu.ind/def.nom APB|NPI CLI äppelträdet nn.neu.sin.def.nom NPI CLI kan vb.prs.akt.mod VCB CLI bli vb.inf.akt.kop VCI CLI som kn O CLI nya jj.pos.utr/neu.plu.ind/def.nom APB CLI. mad O CLI

Partial input Arrangör nn.utr.sin.ind.nom NPB CLB var vb.prt.akt.kop VCB CLI Järfälla pm.gen NPB|NPB CLI naturskyddsförening nn.utr.sin.ind.nom NPB|NPI CLI där ab ADVPB CLI är vb.prs.akt.kop VCB CLI medlem nn.utr.sin.ind.nom NPB CLI. madO CLI

Noisy data Inte ab APB CLB så ab ADVPB|APB|API CLI tjck jj.pos.utr.sin.ind.nom APB|API|API CLI som ha O CLB det pn.neu.sin.def.sub/obj NPB CLI ofta ab.pos ADVPB CLI står vb.prs.akt VCB CLI i pp PPB CLI lärobökerna nn.utr.plu.def.nom NPB|PPI CLI ; mid0 CLI

Word order violation Ympkvisten nn.utr.sin.def.nom NPB CLB inte ab ADVPB CLI ska vb.prs.akt.mod VCB CLI vara vb.inf.akt.kop VCI CLI sådär ab ADVPB|APB CLI lång jj.pos.utr.sin.ind.nom APB CLI, mid O CLI

Evaluation Manually corrected output from GTA Untuned GTA in the evaluation words from SUC 5 genres

F-scores for individual phrase types TypeAccuracyCount ADVP AP INFP NP O PP VC Total88.7

F-score for clause boundary identification TaggerF-score UNIGRAM84.2 BRILL87.3 TNT88.3 F-score for a baseline identifier was 69.0%

Aplications with GTA We are using GTA in: Grammar checking, statistical and rule based Clustering of medical texts CALL-systems What do you want to do with GTA?

More information Contact: Ola Knutsson