Maskininlärning för informationsextraktion Fredrik Olsson, 5 maj 2000.

Slides:



Advertisements
Liknande presentationer
Meningsbyggnad.
Advertisements

1 A F A S I G N A L Datorhjälp vid kommunikationshinder Peter Kitzing, LU, V 2002.
Generisk förskrivning - utmaningar och möjligheter
Kliv in i projektet – delaktighet i projekt Steven Kabagambe.
Hur går det till att rapportera in betyg idag?
”Språk, lärande och identitetsutveckling är nära förknippade
Att söka och förvalta kunskap
Omvärld och invärld två bilder av vad biblioteken har att kämpa för
XHTML.
Aktionsforskning Harriet Axelsson
Your Name I am Perfect and loved as i am Everybody Fits I Focus on my strenghts I am worth $ _________ a month Focus on your own goal 15 min SeeLiveFeel.
Mål och betygskriterier
Acando föreläsning Uppsala caseakademi
Case seminarium: Individuell Reflektion
Språkteknologisk forskning och utveckling (HT 2007)
IKT och matematik Patrik Erixon Trondheim nov.2005.
Statsvetenskap 3, statsvetenskapliga metoder
Publiceringsstrategier Helena Juhlin, UB Institutionen för kulturvetenskaper Bild från GU- journalen nr
IKT i nöd och lust! Hur får man eleverna att ta eget ansvar? Hur får man dem att samarbeta? Och hur får man lärare att vilja jobba ämnesövergripande?
Silberschatz, Galvin and Gagne ©2009 Operating System Concepts – 8 th Edition, Kapitel 7: Deadlocks.
STOCKHOLMS UNIVERSITETSBIBLIOTEK Te l e f o n v x l: F ax: w w w.s u b.s u.se Plagiering Att använda andras idéer och ord.
Ambassadörsutbildning för dig som ska prata om IdrottOnline Version: beta
Vetenskaplighet En gissning blir inte vetenskap för att den råkar visa sig vara sann. Vetenskap handlar om att ge tillräckligt goda /rimliga skäl för att.
Marknadsförarens mall för att skapa köpares persona!
Språkteknologiska metoder Språkteknologisk forskning och utveckling (HT 2006)
Internet Styrdatorer och kablar Uppkopplade användare Servrar 182.QRZN.
Känna till och ha provat metoder och verktyg för processledning
Fokusgruppsmetoden i Nätmiljö Syfte Metodbakgrund: fördelar/nackdelar Genomförande Erfarenheter av metoden Slutsatser.
Diskreta, deterministiska system Projekt 1.2; Vildkatt
Marknadsförarens mall för att skapa köpares persona!
Relationen mellan IE och 'text mining' av och med Anette Hulth Läskurs i Informationsextraktion 1999/2000.
Relationen mellan IR och IE Upplägg Vad är informationsåtkomst (IR)? Skillnader mellan IR och IE Hur kan IR och IE kombineras? Hur har IR och IE kombinerats?
Institutionen för datavetenskap vid Helsingfors universitet PB 68 Gustaf Hällströms gata 2b Helsingfors universitet
Statsvetenskap 3, Statsvetenskapliga metoder
Kompletterande återkoppling till reflektionsuppgift 2 Sammanfattning av kvalitetsgranskningen.
Hur du säljer in dig själv och dina kunskaper!
Skriftlig individuell uppgift Interaktionsdesign i digitala medier (A.1) HT-2012, 7,5 hp Lärare: Daniel Nylén.
Hur ska jag kunna sova gott om natten när jag varje dag filtrerar bort 99,99% av den information jag kunde ha tagit till mig – hur kan jag vara säker på.
En mycket vanlig frågeställning gäller om två storheter har ett samband eller inte, många gånger är det helt klart: y x För en mätserie som denna är det.
Daniel Nylén, Institutionen för Informatik Organisation 2 C.1 Systemdesign.
MDI och användbarhet Måndagen den 27/3 Design och utvärdering, 5 poäng.
Att relatera till tidigare vetenskapliga arbeten
Lektion 5 Mahmud Al Hakim
Hur lär man sig att arbeta? Donald Schön The Reflective Practitioner – how professionals think in action.
Utmaningen Effektivisera en transaktionsintensiv logistik som var personalintensiv Kvalitetssäkra leveransen där felplocken låg på en för hög nivå Kunna.
Examensarbete Hur gör man?.
Torsdag.
Återblick. Vad är en databas? ”En samling information som är organiserad på ett sådant sätt att det är lätt att söka efter och hämta enskilda bitar information”
Institutionen för datavetenskap vid Helsingfors universitet PB 68 Gustaf Hällströms gata 2b Helsingfors universitet
Windows Vista: Utrullning Maria Johansson Windows Imaging WIM-filer Flera images per WIM-fil Filbaserat Hårdvaruoberoende Komprimerade Fånga systemläget.
Tillsynsuppgiften & Tillsynsrollen
1-1 Copyright © 2009 Pearson Education, Inc. Publishing as Pearson Addison-Wesley 1-1 Programmering 7.5 hp Programmering är... creativ, fascinerande, roligt,
KICKOFF 27 september 2006 Tillämpningsexpert i vetenskaplig visualisering Ingela Nyström
Dokument Process (DP) Metadata Ett standardiseringssamarbete för att: Att effektivisera åtkomst till verksamhetsdokument mellan och inom organisationer.
Datorkommunikation Lektion 8 Mahmud Al Hakim
Artificiell intelligens och robotar
Hur går det till att rapportera in betyg idag? Varje lärare fyller i ett Excel- dokument där varje delmoment i kursen fylls i. När betyget är satt skickas.
THE ABB – FG WILSON AND CATERPILLAR CASE Problemanalys ABB strategi var att på djupet förstå kunders behov och hjälpa dessa kunder för att bli mer konkurrenskraftiga.
Prototyper Grupp 4 Fredrik Persson | Mahdi Bawaqneh | Maksim Nikitin | Sverre Brecheisen.
Mål v.13 Jag känner mig säker (grön) Oftast går det bra (gul)
Intryck från AAPOR-konferensen i Austin maj 2016
Motsvarande RE = ( a+b )* abb
Vem ekonomistyr?.
IT Fördjupning Jon Wide
DM-Q-48 Template eQuality - Defect found at parts from supplier
Systemförståelse och systemiskt tänkande
Season 2018.
PSA/TUSS verifiering Gunnar Johanson / ES konsult
MaskinInlärning NyAs Dokument
Föräldrainformation av familjewebben
Presentationens avskrift:

Maskininlärning för informationsextraktion Fredrik Olsson, 5 maj 2000

”The field of machine learning is concerned with the question of how to construct computer programs that automatically improve with experience.” ”The field of machine learning is concerned with the question of how to construct computer programs that automatically improve with experience.” Tom Mitchell ”Machine Learning”. Vad är maskininlärning?

Vad är ML: användningsområden Har använts för bl.a. n data mining, n användarmodellering, n självgående fordon, n förutsäga svängningar på börsen, n spela schack.

Vad är ML: algoritmer Det finns ingen mästaralgoritm, valet av verktyg beror på uppgiften som ska lösas. Olika smaker: decision tree learning, artificial neural networks, genetic algorithms, bayesian learning, inductive logic programming,...

Vad är ML: inlärning med eller utan förlaga Inlärning med förlaga (supervised) innebär att man har ett facit till vad som ska läras in. Fördel: kontroll på när algoritmen är färdiglärd, lätt att utvärdera. Nackdel: mycket jobb att skapa ett facit. Vid inlärning utan förlaga (unsupervised) har man inget facit. Fördel: lätt att få tag i stora mängder data. Nackdel: svårt att utvärdera eller få bra resultat överhuvudtaget.

Hur har ML använts för datorlingvistik? n Ordklasstaggning. n Ontologibyggen. n Parsrar/grammatiker. n Disambiguering av ord. n Fler förslag?

Hur har ML använts för IE? Tre typer av extraktion: n från fri text, n från (halv)strukturerad text, n från on-linedokument m.h.a wrappersystem som inte använder lingvistiska kunskaper.

Hur har ML använts för IE? (2) Glickman & Jones (1999) utgår från att IE-system består av följande komponenter: 1.filtrering, 2.lingvistisk analys (tokenisering, morfologi, syntax), 3.semantisk analys (namnigenkänning och annat), 4.scenariospecifik mönstermatchning (wrappergenerering, automatisk deduktion av mallar), 5.diskursanalys, 6.mallgenerering. ML är intressantast för de domänspecifika delarna (3-6).

Hur har ML… (3): Namnigenkänning n Nymble (Bikel et al. 97) bygger en HMM från taggad text, behöver inga listor av namn. n MENE (Borthwick et al. 98) använder Maximum Entropy för att väga samman flera informationskällor, kräver taggad text.

Hur har ML… (4): Scenariospecifik mönstermatchning n Autoslog (Riloff 93) n CRYSTAL (Soderland et al. 95) n CRYSTAL + Webfoot (Soderland 97) n PALKA (Kim & Moldovan 95) n LIEP (Huffman 95) n HASTEN (Krupka 95) n RAPIER (Califf & Mooney 97) n WHISK (Soderland 99) n SRV (Freitag 98)

Hur har ML… (5): Wrappergenerering Oberoende av ”traditionell” IE för att omvandla webbsidor till databasformat. n WIEN (Kushmerick, Weld & Doorenbos 97) n SoftMealy (Hsu & Dung 98) n Stalker (Muslea, Minton & Knoblock 99)

Hur har ML… (6): Automatisk deduktion av mallar Inlärning utan förlaga av de mallar systemet ska fylla i, dvs. den information man vill att systemet ska söka efter. n AutoSlog-TS (Riloff & Shoen 95) n Collier 98, Nobata & Sekine 98, Pierce 98.

Hur har ML… (7): Diskursanalys Koreferens- och anaforaanalys förutsätts vara avklarad på den här nivån. n RESOLVE (McCarthy & Lehnert 95) n MLR (Aone & Bennett 95)

Hur har ML… (8): Generering av mallar Samlar ihop entiteter, relationer och händelser och fyller i mallarna. n Wrap-Up (Soderland & Lehnert 94) n Kehler 97, Kehler 98

Hur ska IE-system lättare kunna anpassas till nya domäner? Glickman & Jones säger: använd system utan, eller med klena, förlagor, dvs. sådana som: n själva identifierar karaktäristiken hos nya texter, n gör små datamängder större m.h.a. ”boot- strapping”, n är sparsamma med människors tid,

Hur ska IE-system…(2) n kombinerar olika typer av algoritmer, n anpassar hela systemet på en gång, inte enskilda delar, n kontinuerligt anpassar systemet. Hur dessa punkter ska realiseras är minst sagt oklart!

Mer information om ML för IE Inga konferenser än så länge, bara verkstäder: n Machine Learning for Information Extraction (ML4IE) 1999 i samband med 16th AAAI, USA: n ML4IE 2000 i samband med ECAI, Tyskland: ecate.itc.it:1025/cirave/ecai-workshop.html n Information Extraction meets Corpus Linguistics i samband med LREC 2000, Grekland: ml

Frågor och funderingar n Finns det en övertro på maskininlärning? - ”There’s no such thing as a free lunch!” n Kan ML åstadkomma förbättringar I IE- system som man inte kunde ha gjort ändå? n ML för IE verkar vara jättenytt… och det är ju kul.