Relationen mellan IE och 'text mining' av och med Anette Hulth Läskurs i Informationsextraktion 1999/2000
Dagens prat w Vad är informationsextraktion? w Vad är text mining? Olika definitioner: Marti Hearst Yves Kodratoff Ronen Feldman Mark Dixon w Vilken relation har IE och TM?
Vad är informationsextraktion? w Att fylla i fördefinierade mallar w Förutsätter att vi vet vad det är vi vill hitta
Vad är text mining? (I) w Fem huvudsakliga källor: Mark Dixon. An Overview of Document Mining Technology ( hinktank/1997/mark/writings/main.html) Ronen Feldman. (Ed.) Text Mining: Foundations, Techniques and Applications. Workshop at IJCAI’99.
w Forts. källor Ronen Feldman. Practical Text Mining. Tutorial at EACL’99. Marti Hearst. Untangling Text Data Mining. ACL’99. Yves Kodratoff. An Application to Knowledge Discovery in Texts. Lecture at ACAI’99.
Vad är text mining? (II) w Saknas definition som alla är överens om w Alla verkar dock överens om att andra definierar området på ett felaktigt eller bristfälligt sätt!
Vad säger Marti? (I) w De flesta (andra) anser att TM är data mining gjord på texter w Men, DM är att hitta mönster snarare än kunskap w Vill ”bokstavligtolka” mining-metaforen w Hitta kunskap som ingen tidigare kände till.
Vad säger Marti (II) ”Lånad” av M. Hearst Text Mining Tools: Instruments for Scientific Discovery, IMA Text Mining Workshop, April 17, 2000
Vad säger Marti? (III) w Känner till två (2) projekt som gör ”riktig” data mining Feldman & Dagan DARPA Topic Detection and Tracking Initiative w Swanson och migrän + magnesium
Vad säger Marti om IE? w Objection: Isn’t this just information extraction? w Response: IE is a useful tool that can be used in this endeavor, however It is currently used to instantiate pre-specified templates I am advocating coming up with entirely new, unforeseen “templates” ”Lånad” av M. Hearst Text Mining Tools: Instruments for Scientific Discovery, IMA Text Mining Workshop, April 17, 2000
Vad säger Yves? (I) w KDT = Knowledge Discovery in Texts w Knowledge ”The knowledge extracted has to be grounded in the real world and will modify the behaviour of a human or mechanical agent” w Discovery --> induktion används w Understandable and directly usable w TextS
Vad säger Yves? (II) w Ett exempel på KDT Le Monde använder inte instanser av begreppet katastrof (t.ex. översvämning eller olycka) om man talar om: Nordamerika Familjer Kvinnor Ekonomi Däremot c:a 300 andra koncept
Vad säger Yves om IE? w IE är ett ”problem” som NLP-samfundet sysslar med w Det syftar till att ”fylla fördefinierade mönster från texter” w Är inte lätt w Kan utgöra del av ett generellt KDT-system
Vad säger Ronen? (I) w Tekniker från: data mining machine learning information retrieval natural-language understanding case-based reasoning statistics knowledge management
Vad säger Ronen? (II) w Förbehandling (textkategorisering el. termextraktion) w Lagring och indexering w Analys (mängd olika tekniker) w Visualisering
Vad säger Ronen om IE? w Inte mycket... w Dock, ett föreslaget tema till verkstaden (men inga sådana bidrag)
Vad säger Mark? w Document mining letar efter mönster och tidigare okänd kunskap i ostrukturerade texter Hur många terroristattacker under 1995? Gör ett företag en bättre förtjänst genom att byta chef ofta? w Kombinerar tekniker från: IE; IR; NLP; och textsammanfattning
Vad säger Mark om IE? w Stegvis process: IR - hitta det dokument som är relevanta för uppgiften IE - extrahera information från dessa (mha templater) Mining - hitta mönster i dessa Tolka - tolka det funna mönstren
Vad hände på verkstaden (IJCAI’99)? w 22 artiklar eller korta artiklar w Svårt att se någon TM i flertalet w IE nämns i ett par som ett delsteg i processen w Gaizauskas ”ren” IE
Vad säger vi om text mining? w På vilket sätt skiljer sig definitionerna åt? w Har någon mer ”rätt” än någon annan?
Vad säger vi om IE? w Är IE + text mining = SANT?? w Hur förhåller sig ijängklijen IE till text mining? w Är det en komponent? Om ja, är den nödvändig?