Presentation laddar. Vänta.

Presentation laddar. Vänta.

Relationen mellan IE och 'text mining' av och med Anette Hulth Läskurs i Informationsextraktion 1999/2000.

Liknande presentationer


En presentation över ämnet: "Relationen mellan IE och 'text mining' av och med Anette Hulth Läskurs i Informationsextraktion 1999/2000."— Presentationens avskrift:

1 Relationen mellan IE och 'text mining' av och med Anette Hulth Läskurs i Informationsextraktion 1999/2000

2 Dagens prat w Vad är informationsextraktion? w Vad är text mining? Olika definitioner: Marti Hearst Yves Kodratoff Ronen Feldman Mark Dixon w Vilken relation har IE och TM?

3 Vad är informationsextraktion? w Att fylla i fördefinierade mallar w Förutsätter att vi vet vad det är vi vill hitta

4 Vad är text mining? (I) w Fem huvudsakliga källor: Mark Dixon. An Overview of Document Mining Technology (http://www.geocities.com/ResearchTriangle/T hinktank/1997/mark/writings/main.html) Ronen Feldman. (Ed.) Text Mining: Foundations, Techniques and Applications. Workshop at IJCAI’99.

5 w Forts. källor Ronen Feldman. Practical Text Mining. Tutorial at EACL’99. Marti Hearst. Untangling Text Data Mining. ACL’99. Yves Kodratoff. An Application to Knowledge Discovery in Texts. Lecture at ACAI’99.

6 Vad är text mining? (II) w Saknas definition som alla är överens om w Alla verkar dock överens om att andra definierar området på ett felaktigt eller bristfälligt sätt!

7 Vad säger Marti? (I) w De flesta (andra) anser att TM är data mining gjord på texter w Men, DM är att hitta mönster snarare än kunskap w Vill ”bokstavligtolka” mining-metaforen w Hitta kunskap som ingen tidigare kände till.

8 Vad säger Marti (II) ”Lånad” av M. Hearst Text Mining Tools: Instruments for Scientific Discovery, IMA Text Mining Workshop, April 17, 2000

9 Vad säger Marti? (III) w Känner till två (2) projekt som gör ”riktig” data mining Feldman & Dagan DARPA Topic Detection and Tracking Initiative w Swanson och migrän + magnesium

10 Vad säger Marti om IE? w Objection: Isn’t this just information extraction? w Response: IE is a useful tool that can be used in this endeavor, however It is currently used to instantiate pre-specified templates I am advocating coming up with entirely new, unforeseen “templates” ”Lånad” av M. Hearst Text Mining Tools: Instruments for Scientific Discovery, IMA Text Mining Workshop, April 17, 2000

11 Vad säger Yves? (I) w KDT = Knowledge Discovery in Texts w Knowledge ”The knowledge extracted has to be grounded in the real world and will modify the behaviour of a human or mechanical agent” w Discovery --> induktion används w Understandable and directly usable w TextS

12 Vad säger Yves? (II) w Ett exempel på KDT Le Monde använder inte instanser av begreppet katastrof (t.ex. översvämning eller olycka) om man talar om: Nordamerika Familjer Kvinnor Ekonomi Däremot c:a 300 andra koncept

13 Vad säger Yves om IE? w IE är ett ”problem” som NLP-samfundet sysslar med w Det syftar till att ”fylla fördefinierade mönster från texter” w Är inte lätt w Kan utgöra del av ett generellt KDT-system

14 Vad säger Ronen? (I) w Tekniker från: data mining machine learning information retrieval natural-language understanding case-based reasoning statistics knowledge management

15 Vad säger Ronen? (II) w Förbehandling (textkategorisering el. termextraktion) w Lagring och indexering w Analys (mängd olika tekniker) w Visualisering

16 Vad säger Ronen om IE? w Inte mycket... w Dock, ett föreslaget tema till verkstaden (men inga sådana bidrag)

17 Vad säger Mark? w Document mining letar efter mönster och tidigare okänd kunskap i ostrukturerade texter Hur många terroristattacker under 1995? Gör ett företag en bättre förtjänst genom att byta chef ofta? w Kombinerar tekniker från: IE; IR; NLP; och textsammanfattning

18 Vad säger Mark om IE? w Stegvis process: IR - hitta det dokument som är relevanta för uppgiften IE - extrahera information från dessa (mha templater) Mining - hitta mönster i dessa Tolka - tolka det funna mönstren

19 Vad hände på verkstaden (IJCAI’99)? w 22 artiklar eller korta artiklar w Svårt att se någon TM i flertalet w IE nämns i ett par som ett delsteg i processen w Gaizauskas ”ren” IE

20 Vad säger vi om text mining? w På vilket sätt skiljer sig definitionerna åt? w Har någon mer ”rätt” än någon annan?

21 Vad säger vi om IE? w Är IE + text mining = SANT?? w Hur förhåller sig ijängklijen IE till text mining? w Är det en komponent? Om ja, är den nödvändig?


Ladda ner ppt "Relationen mellan IE och 'text mining' av och med Anette Hulth Läskurs i Informationsextraktion 1999/2000."

Liknande presentationer


Google-annonser