Maskininlärning för informationsextraktion Fredrik Olsson, 5 maj 2000
”The field of machine learning is concerned with the question of how to construct computer programs that automatically improve with experience.” ”The field of machine learning is concerned with the question of how to construct computer programs that automatically improve with experience.” Tom Mitchell ”Machine Learning”. Vad är maskininlärning?
Vad är ML: användningsområden Har använts för bl.a. n data mining, n användarmodellering, n självgående fordon, n förutsäga svängningar på börsen, n spela schack.
Vad är ML: algoritmer Det finns ingen mästaralgoritm, valet av verktyg beror på uppgiften som ska lösas. Olika smaker: decision tree learning, artificial neural networks, genetic algorithms, bayesian learning, inductive logic programming,...
Vad är ML: inlärning med eller utan förlaga Inlärning med förlaga (supervised) innebär att man har ett facit till vad som ska läras in. Fördel: kontroll på när algoritmen är färdiglärd, lätt att utvärdera. Nackdel: mycket jobb att skapa ett facit. Vid inlärning utan förlaga (unsupervised) har man inget facit. Fördel: lätt att få tag i stora mängder data. Nackdel: svårt att utvärdera eller få bra resultat överhuvudtaget.
Hur har ML använts för datorlingvistik? n Ordklasstaggning. n Ontologibyggen. n Parsrar/grammatiker. n Disambiguering av ord. n Fler förslag?
Hur har ML använts för IE? Tre typer av extraktion: n från fri text, n från (halv)strukturerad text, n från on-linedokument m.h.a wrappersystem som inte använder lingvistiska kunskaper.
Hur har ML använts för IE? (2) Glickman & Jones (1999) utgår från att IE-system består av följande komponenter: 1.filtrering, 2.lingvistisk analys (tokenisering, morfologi, syntax), 3.semantisk analys (namnigenkänning och annat), 4.scenariospecifik mönstermatchning (wrappergenerering, automatisk deduktion av mallar), 5.diskursanalys, 6.mallgenerering. ML är intressantast för de domänspecifika delarna (3-6).
Hur har ML… (3): Namnigenkänning n Nymble (Bikel et al. 97) bygger en HMM från taggad text, behöver inga listor av namn. n MENE (Borthwick et al. 98) använder Maximum Entropy för att väga samman flera informationskällor, kräver taggad text.
Hur har ML… (4): Scenariospecifik mönstermatchning n Autoslog (Riloff 93) n CRYSTAL (Soderland et al. 95) n CRYSTAL + Webfoot (Soderland 97) n PALKA (Kim & Moldovan 95) n LIEP (Huffman 95) n HASTEN (Krupka 95) n RAPIER (Califf & Mooney 97) n WHISK (Soderland 99) n SRV (Freitag 98)
Hur har ML… (5): Wrappergenerering Oberoende av ”traditionell” IE för att omvandla webbsidor till databasformat. n WIEN (Kushmerick, Weld & Doorenbos 97) n SoftMealy (Hsu & Dung 98) n Stalker (Muslea, Minton & Knoblock 99)
Hur har ML… (6): Automatisk deduktion av mallar Inlärning utan förlaga av de mallar systemet ska fylla i, dvs. den information man vill att systemet ska söka efter. n AutoSlog-TS (Riloff & Shoen 95) n Collier 98, Nobata & Sekine 98, Pierce 98.
Hur har ML… (7): Diskursanalys Koreferens- och anaforaanalys förutsätts vara avklarad på den här nivån. n RESOLVE (McCarthy & Lehnert 95) n MLR (Aone & Bennett 95)
Hur har ML… (8): Generering av mallar Samlar ihop entiteter, relationer och händelser och fyller i mallarna. n Wrap-Up (Soderland & Lehnert 94) n Kehler 97, Kehler 98
Hur ska IE-system lättare kunna anpassas till nya domäner? Glickman & Jones säger: använd system utan, eller med klena, förlagor, dvs. sådana som: n själva identifierar karaktäristiken hos nya texter, n gör små datamängder större m.h.a. ”boot- strapping”, n är sparsamma med människors tid,
Hur ska IE-system…(2) n kombinerar olika typer av algoritmer, n anpassar hela systemet på en gång, inte enskilda delar, n kontinuerligt anpassar systemet. Hur dessa punkter ska realiseras är minst sagt oklart!
Mer information om ML för IE Inga konferenser än så länge, bara verkstäder: n Machine Learning for Information Extraction (ML4IE) 1999 i samband med 16th AAAI, USA: n ML4IE 2000 i samband med ECAI, Tyskland: ecate.itc.it:1025/cirave/ecai-workshop.html n Information Extraction meets Corpus Linguistics i samband med LREC 2000, Grekland: ml
Frågor och funderingar n Finns det en övertro på maskininlärning? - ”There’s no such thing as a free lunch!” n Kan ML åstadkomma förbättringar I IE- system som man inte kunde ha gjort ändå? n ML för IE verkar vara jättenytt… och det är ju kul.