Ladda ner presentationen
Presentation laddar. Vänta.
Publicerades avErik Åberg
1
Relationen mellan IE och 'text mining' av och med Anette Hulth Läskurs i Informationsextraktion 1999/2000
2
Dagens prat w Vad är informationsextraktion? w Vad är text mining? Olika definitioner: Marti Hearst Yves Kodratoff Ronen Feldman Mark Dixon w Vilken relation har IE och TM?
3
Vad är informationsextraktion? w Att fylla i fördefinierade mallar w Förutsätter att vi vet vad det är vi vill hitta
4
Vad är text mining? (I) w Fem huvudsakliga källor: Mark Dixon. An Overview of Document Mining Technology. 1997. (http://www.geocities.com/ResearchTriangle/T hinktank/1997/mark/writings/main.html) Ronen Feldman. (Ed.) Text Mining: Foundations, Techniques and Applications. Workshop at IJCAI’99.
5
w Forts. källor Ronen Feldman. Practical Text Mining. Tutorial at EACL’99. Marti Hearst. Untangling Text Data Mining. ACL’99. Yves Kodratoff. An Application to Knowledge Discovery in Texts. Lecture at ACAI’99.
6
Vad är text mining? (II) w Saknas definition som alla är överens om w Alla verkar dock överens om att andra definierar området på ett felaktigt eller bristfälligt sätt!
7
Vad säger Marti? (I) w De flesta (andra) anser att TM är data mining gjord på texter w Men, DM är att hitta mönster snarare än kunskap w Vill ”bokstavligtolka” mining-metaforen w Hitta kunskap som ingen tidigare kände till.
8
Vad säger Marti (II) ”Lånad” av M. Hearst Text Mining Tools: Instruments for Scientific Discovery, IMA Text Mining Workshop, April 17, 2000
9
Vad säger Marti? (III) w Känner till två (2) projekt som gör ”riktig” data mining Feldman & Dagan DARPA Topic Detection and Tracking Initiative w Swanson och migrän + magnesium
10
Vad säger Marti om IE? w Objection: Isn’t this just information extraction? w Response: IE is a useful tool that can be used in this endeavor, however It is currently used to instantiate pre-specified templates I am advocating coming up with entirely new, unforeseen “templates” ”Lånad” av M. Hearst Text Mining Tools: Instruments for Scientific Discovery, IMA Text Mining Workshop, April 17, 2000
11
Vad säger Yves? (I) w KDT = Knowledge Discovery in Texts w Knowledge ”The knowledge extracted has to be grounded in the real world and will modify the behaviour of a human or mechanical agent” w Discovery --> induktion används w Understandable and directly usable w TextS
12
Vad säger Yves? (II) w Ett exempel på KDT Le Monde använder inte instanser av begreppet katastrof (t.ex. översvämning eller olycka) om man talar om: Nordamerika Familjer Kvinnor Ekonomi Däremot c:a 300 andra koncept
13
Vad säger Yves om IE? w IE är ett ”problem” som NLP-samfundet sysslar med w Det syftar till att ”fylla fördefinierade mönster från texter” w Är inte lätt w Kan utgöra del av ett generellt KDT-system
14
Vad säger Ronen? (I) w Tekniker från: data mining machine learning information retrieval natural-language understanding case-based reasoning statistics knowledge management
15
Vad säger Ronen? (II) w Förbehandling (textkategorisering el. termextraktion) w Lagring och indexering w Analys (mängd olika tekniker) w Visualisering
16
Vad säger Ronen om IE? w Inte mycket... w Dock, ett föreslaget tema till verkstaden (men inga sådana bidrag)
17
Vad säger Mark? w Document mining letar efter mönster och tidigare okänd kunskap i ostrukturerade texter Hur många terroristattacker under 1995? Gör ett företag en bättre förtjänst genom att byta chef ofta? w Kombinerar tekniker från: IE; IR; NLP; och textsammanfattning
18
Vad säger Mark om IE? w Stegvis process: IR - hitta det dokument som är relevanta för uppgiften IE - extrahera information från dessa (mha templater) Mining - hitta mönster i dessa Tolka - tolka det funna mönstren
19
Vad hände på verkstaden (IJCAI’99)? w 22 artiklar eller korta artiklar w Svårt att se någon TM i flertalet w IE nämns i ett par som ett delsteg i processen w Gaizauskas ”ren” IE
20
Vad säger vi om text mining? w På vilket sätt skiljer sig definitionerna åt? w Har någon mer ”rätt” än någon annan?
21
Vad säger vi om IE? w Är IE + text mining = SANT?? w Hur förhåller sig ijängklijen IE till text mining? w Är det en komponent? Om ja, är den nödvändig?
Liknande presentationer
© 2024 SlidePlayer.se Inc.
All rights reserved.