Några exjobbsförslag Leif Grönqvist Datalogi & Språkteknologi Växjö universitet, GU & GSLT.

Några exjobbsförslag Leif Grönqvist (leifg@ling.gu.se) Datalogi & Språkteknologi Växjö universitet, GU & GSLT

10:e oktober 2003Exjobbsförslag2 Upplägg Lite om vad jag gjort och gör –Grundutbildning: datalogi i Göteborg –Konsult –Doktorand inom GSLT (språkteknologi) Mina forskningsintressen Exjobbsförslag –En datoriserad tesaurus –Automatiskt sökindex för böcker –Något inom information retrieval/extraction?

10:e oktober 2003Exjobbsförslag3 Min bakgrund 1986-1989: ”4-årig teknisk” (electrical engineering) 1989-1993: M.Sc. (official translation of “Filosofie Magister”) in Computing Science, Göteborg University 1989-1993: 62 points in mechanics, electronics, etc. 1994-2001: Work at the Linguistic department in Göteborg –Various projects related to corpus linguistics –Some teaching on statistical methods (Göteborg and Uppsala), –and corpus linguistics in Göteborg, Sofia, and Beijing 1995: Consultant at Redwood Research, in Sollentuna, working on information retrieval in medical databases 1995-1996: Work at the department of Informatics in Göteborg (the Internet Project) 2001-2006: PhD Student in Computer Science / Language Technology

10:e oktober 2003Exjobbsförslag4 Mina forskningsintressen Statistiska metoder i språkteknologi –Dolda Markovmodeller –Korpuslingvistik –Maskininlärning –Vektorrymdsmodeller för lagring av semantisk information Samförekomststatistik ”Latent Semantic Indexing” (LSI) Användning av lingvistisk information vid träning

10:e oktober 2003Exjobbsförslag5 Vad är LSI? LSI använder en slags vektormodell Klassisk IR använder en vektormodell som grupperar dokument med många gemensamma termer Men! –Dokument kan ha samma innehåll men använda olika vokabulär –Termerna i dokumentet är kanske inte de mest representativa LSI använder termernas fördelning i samtliga dokument när man jämför två dokument!

10:e oktober 2003Exjobbsförslag6 En traditionell vektormodell Börja med en term/dokument-matris, precis som för LSI Likhet mellan dokument kan beräknas med kosinus för vinkeln mellan vektorerna Relevanta termer för ett dokument – de som finns i dokumentet Problem i exemplet på nästa sida: –Termen ”trees” verkar relevant för m-dokumenten men finns inte i m4 –cos(c1, c5)=0 liksom cos(c1, m3)

10:e oktober 2003Exjobbsförslag7 Litet exempel

10:e oktober 2003Exjobbsförslag8 Hur funkar LSI? Idén är att hitta latent (underliggande) information som: –Ord 1 och ord 2 förekommer ofta tillsammans så kanske dokument 1 (som innehåller ord 1 ) och dokument 2 (som innehåller ord 2 ) är relaterade? –dokument 3 och dokument 4 har många gemensamma termer, så kanske orden de inte har gemensamt är relaterade?

10:e oktober 2003Exjobbsförslag9 Hur funkar LSI? Forts. I den klassiska vektormodellen är en dokumentvektor 12-domensionell och en termvektor 9-dimensionell för exemplet Vi vill projicera dessa vektorer till ett vektorrum med färre dimensioner Ett sätt är att använda ”Singular Value Decomposition” (SVD) Originalmatrisen räknas om till en ny representation bestående av tre matriser

10:e oktober 2003Exjobbsförslag10 Vad man får X=T 0 S 0 D 0 : X, T 0, S 0, D 0 are matrices

10:e oktober 2003Exjobbsförslag11 Att använda resultatet från SVD Med matriserna kan vi utföra projektioner av term- eller dokumentvektorer till ett vektorrum med det antal (m) dimensioner vi vill Vi kan välja m genom att kapa matriserna T 0, S 0, D 0 till lagom storlek Låt oss prova att sätta antalet dimensioner till 2

10:e oktober 2003Exjobbsförslag12 X kan räknas om med m=2 C1C2C3C4C5M1M2M3M4 Human.16.40.38.47.18-.05-.12-.16-.09 Interface.14.37.33.40.16-.03-.07-.10-.04 Computer.15.51.36.41.24.02.06.09.12 User.26.84.61.70.39.03.08.12.19 System.451.23 1.051.27.56-.07-.15-.21-.05 Response.16.58.38.42.28.06.13.19.22 Time.16.58.38.42.28.06.13.19.22 EPS.22.55.51.63.24-.07-.14-.20-.11 Survey.10.53.23.21.27.14.44.42 Trees-.06.23 -.14-.27.14.24.77.66 Graph-.06.34 -.15-.30.20.31.98.85 Minors-.04.25 -.10-.21.15.22.71.62

10:e oktober 2003Exjobbsförslag13 Vad får vi av SVD? Susan Dumais 1995: “The SVD program takes the ltc transformed term-document matrix as input, and calculates the best "reduced-dimension" approximation to this matrix.” Michael W Berry 1992: “This important result indicates that A k is the best k-rank approximation (in at least squares sense) to the matrix A. Leif 2003: Vad Berry menar är att SVD ger den bästa projektionen från n till k dimensioner, d.v.s. den projektion som bäst bibehåller avståndet mellan vektorer

10:e oktober 2003Exjobbsförslag14 Några möjliga applikationer Automatisk generering av en domänspecifik tesaurus Nyckelordsextraktion från dokument i en dokumentsamling Hitta dokument som liknar varandra Hitta dokument som är relaterade till ett givet dokument eller uppsättning termer

10:e oktober 2003Exjobbsförslag15 Ett exempel baserat på 50000 tidningsartiklar stefan edberg edberg0.918 cincinnatis0.887 edbergs0.883 världsfemman0.883 stefans0.883 tennisspelarna0.863 stefan0.861 turneringsseger0.859 queensturneringen0.858 växjöspelaren0.852 grästurnering0.847 bengt johansson johansson0.852 johanssons0.704 bengt0.678 centerledare0.674 miljöcentern0.667 landsbygdscentern0.667 implikationer0.645 ickesocialistisk0.643 centerledaren0.627 regeringsalternativet 0.620 vagare0.616

10:e oktober 2003Exjobbsförslag16 Efter lite trixande kan vi hitta handbollspersoner istället för politik… bengt-johansson1.000 förbundskapten-bengt-johansson 0.907 förbundskaptenen-bengt-johansson 0.835 jonas-johansson0.816 förbundskapten-johansson0.799 johanssons0.795 svenske-förbundskaptenen-bengt-johansson 0.792 bengan0.786 carlen0.777 bengan-johansson0.767 johansson-andreas-dackell0.765 förlorat-matcherna0.750 ck-bure0.748 daniel-johansson0.748 målvakten-mats-olsson0.747 jörgen-jönsson-mikael-johansson 0.744 kicki-johansson0.744 mattias-johansson-aik0.741 thomas-johansson0.739 handbollsnation0.738 mikael-johansson0.737 förbundskaptenen-bengt-johansson-valde 0.736 johansson-mats-olsson0.736 sveriges-handbollslandslag0.736 ställningen-33-matcher0.736

10:e oktober 2003Exjobbsförslag17 Dags för ett par konkreta förslag En datoriserad tesaurus –Att utforma och bygga en datoriserad tesaurus utifrån en inscannad tesaurus i bokform, samt utveckla algoritmer för att konstruera nya begreppskategorier (huvudord) Automatiskt sökindex för böcker Automatiskt sökindex för böcker –När man läser ett längre dokument eller en bok är det trevligt att ha ett index längst bak där man kan slå upp viktiga begrepp. Både LaTeX och Word stöder detta, men tyvärr måste författaren manuellt ange vilka begrepp som skall finnas med. Tänk om man hade ett program som fixade detta automatiskt! Något inom information retrieval/extraction? –Har inget konkret förslag… Men om något av det jag pratat om och ni har en egen idé inom IR/IE-området så…

10:e oktober 2003Exjobbsförslag18 Två tesaurusar Brings (svenska) tesaurus finns inscannad –1000 huvudort –Totalt över 100 000 ordformer –Substantiv, verb och adjektiv i olika grupper Roget´s thesaurus (engelska) finns, fast i ett annat format –Samma struktur som Bring

10:e oktober 2003Exjobbsförslag19 Exempel

10:e oktober 2003Exjobbsförslag20 Vinster med en datorisering Sökning i tesaurusarna i bokform är ibland lite jobbig: –Huvudord går fint –Övriga ord finns i indexet men det blir mycket bläddrande Gränssnittet skulle kunna förenkla sökningen avsevärt genom markering och klickbara ord Bäst vore om alla ord var huvudord! –Information för att åstadkomma detta finns troligen i datafilerna De mest relaterade orden står först Huvudord med flera betydelser har flera undergrupper för varje ordklass

10:e oktober 2003Exjobbsförslag21 Förkunskaper Att ha gått ca. tre år på programmet räcker som förkunskap men bra att ha är: –Goda kunskaper i programmering, förslagsvis logikprogrammering. –Semantik, lexikologi (från kurserna på programmet) Programmeringsspråket Oz (och utvecklingsmiljön Mozart) är väl lämpat att använda för den här uppgiften

10:e oktober 2003Exjobbsförslag22 Automatiskt sökindex för böcker ”Det kanske inte behöver påpekas, men att sitta och markera alla ord och fraser man vill ha med i ett index är extremt tidskrävande, jobbigt och tråkigt. Risken att man missar viktiga begrepp är överhängande” ”Tag alla ord som finns och gör ett index”: Inte bra… –Det blir för stort och svårläst –Väldigt vanliga ord finns på nästan varje sida –Fraser kommer inte med

10:e oktober 2003Exjobbsförslag23 En uppgift för datalingvisten! Saker man skulle kunna ha nytta av är exempelvis –Ordklasstaggning –Noun phrase chunking –Named entity recognition –Keyword spotting –Frekvensanalys för specifik/generell domän –...

10:e oktober 2003Exjobbsförslag24 Förkunskaper Att ha gått ca. tre år på programmet räcker som förkunskap men bra att ha är: –Semantik, taggning –Maskininlärning –Logikprogrammering –Korpuslingvistik (grundläggande) Ett exjobb för er som gillar att kombinera tidigare kunskap och tänka själva The µ-TBL system: Ett flexibelt system för att träna upp olika typer av uppmärkare

10:e oktober 2003Exjobbsförslag25 Gör något spännande inom IR/IE Tänk ut något och fråga mig vad jag tror Exempel: –Kan man hitta synonymer i icke-annoterad text? Hur? Hur bra? –Träna upp ett system baserat på LSI för att klara TOEFL-tester (ordkunskap) så bra som möjligt –…

10:e oktober 2003Exjobbsförslag26 Och nu då? De konkreta förslagen finns på min hemsida Även den här presentationen finns länkad under ”Current teaching” Fundera lite och kom till mig och fråga Maila går också fint om jag inte är här Först till kvarn gäller!

Några exjobbsförslag Leif Grönqvist Datalogi & Språkteknologi Växjö universitet, GU & GSLT.

Liknande presentationer

En presentation över ämnet: "Några exjobbsförslag Leif Grönqvist Datalogi & Språkteknologi Växjö universitet, GU & GSLT."— Presentationens avskrift:

Liknande presentationer

Om projektet

Kontakta oss

Logga in

Logga in via sociala nätverk:

Några exjobbsförslag Leif Grönqvist Datalogi & Språkteknologi Växjö universitet, GU & GSLT.

Liknande presentationer

En presentation över ämnet: "Några exjobbsförslag Leif Grönqvist Datalogi & Språkteknologi Växjö universitet, GU & GSLT."— Presentationens avskrift:

Liknande presentationer

Om projektet

Kontakta oss