Några exjobbsförslag Leif Grönqvist Datalogi & Språkteknologi Växjö universitet, GU & GSLT.

Slides:



Advertisements
Liknande presentationer
Att förstå anonymiteten (översättning från
Advertisements

PTS Bredbandskartläggning
Talföljder formler och summor
Svenska WebDewey Introduktion
En Dag i Ramadan Ramadan
Här ser ni några sidor som hjälper er att lösa uppgifterna:
Joomla © 2009 Stefan Andersson 1. Kontaktformulär  På varje seriös webbplats bör det finnas ett kontaktformulär.  Använd ej maillänkar, risk för spam!
Servicekunskap Hur vill du jobba med boken?
1 Arbetsmarknadsanknytning och övergång till arbete Bertil Holmlund Nationalekonomiska institutionen Uppsala universitet.
PROJEKT TRAPPSTEGET Bilaga 1 PROJEKT TRAPPSTEGET
BENÄMNA lätta ord SPRÅKTRÄNING VID AFASIKg VIII
Tillämpning av bolagsstyrningskoden vid årsstämmor 2005 och 2006.
Hela Sverige ska leva Totalrapport. Regeringens bidrag har medverkat till kunskapsförmedling?
Leif Håkansson’s Square Dancer Rotation
Projektföljeforskning
Eddie Arnold - Make The World Go Away Images colorées de par le monde Déroulement automatique ou manuel à votre choix 1 för dig.
1 Hårddiskar och Disketter Boot sektorn på en diskett eller startsektorn på en partition (se s. 770)
©storm.
LANDSTINGSDIREKTÖRENS STAB Regional utveckling BILD 1 Resultat av enkät till landstingspolitiker
presenterar: Kändisars födelsedagar 2003 MARS
Svenska WebDewey Introduktion
UNIONEN - tillgänglighet under semestern 2014
Karolinska Institutet, studentundersökning Studentundersökning på Karolinska Institutet HT 2013.
NyföretagarCentrums resultat 2013 NYFÖRETAGARCENTRUM – RESULTAT 2013.
Kommunpussel Din uppgift är att sortera de organisatoriska delar på nästa sida på ett sådant sätt att det överensstämmer med hur din kommun är organiserad.
Punktprevalensmätning av trycksår 2011, v.40 Resultat från landstingen
Växjö 15 april -04Språk & logik: Reguljära uttryck1 DAB760: Språk och logik 15/4: Finita automater och 13-15reguljära uttryck Leif Grönqvist
Bastugatan 2. Box S Stockholm. Blad 1 Läsarundersökning Maskinentreprenören 2007.
Enkätresultat för Fritidshem Föräldrar 2014 Skola - Hällby skola.
INFÖR NATIONELLA PROVET
Svenska WebDewey Introduktion Harriet Aagaard Svenska Deweyredaktion
Enkätresultat för Grundskolan Elever 2014 Skola:Hällby skola.
Avgiftsstudie Nils Holgersson år 2007 Bild 1 Baserat på rapportversion
KASAM-13, medelvärden, årskurs 9, 1999
KURSUTVECKLING TILLVÄXTFONDER –
Finländarnas uppfattningar om äldrevården Kirsi Markkanen Utvecklingschef Tehy rf.
1 Vänsterskolan Debattartiklar. 2 Aktuell krok 3 Aktuella krokar 1. Direkt krok.
Hittarps IK Kartläggningspresentation år 3.
9e december 2003Statistiska metoder & IR1 Statistiska metoder & Information Retrieval Leif Grönqvist GSLT (Sveriges nationella forskarskola.
Från Gotland på kvällen (tågtider enligt 2007) 18:28 19:03 19:41 19:32 20:32 20:53 21:19 18:30 20:32 19:06 19:54 19:58 20:22 19:01 21:40 20:44 23:37 20:11.
Arbetspensionssystemet i bilder Bildserie med centrala uppgifter om arbetspensionssystemet och dess funktion
Brukarundersökning socialpsykiatri Kön 1. Man16 (44%) 2. Kvinna20 (56%)
TÄNK PÅ ETT HELTAL MELLAN 1-50
Greppa Näringen Medlemsundersökning, kvartal 1. 1.
Frågor om elevinflytande till elever i åk 3 – 9 i grundskolan
Helhet Händelse Agerande Kunskap om vardagsverksamheten Förståelse av vardagsverksamheten.
1 Joomla © 2009 Stefan Andersson 1. 2 MÅL 2 3 Begrepp Aktör: en användare som interagerar med webbplatsen. I diagrammet till höger finns två aktörer:
Kouzlo starých časů… Letadla Pár foteček pro vzpomínku na dávné doby, tak hezké snění… M.K. 1 I Norrköping får man inte.
Best pictures on the internet 2007 Awards 1http:// Är vänsteralliansen trovärdig i Norrköping.
Barnets rättigheter i Sverige och för alla barn i världen
Enkätresultat för Fritidshem Elever 2014 Skola:Fritidselever, Gillberga skola.
Novus Unga om vården Vårdförbundet Lina Lidell 1718.
Grundskola Föräldrar 2013 Grundskoleenkät - Föräldrar Enhet:Gillberga skola.
Servicekunskap Hur vill du jobba med boken?
Best pictures on the internet 2007 Awards 1http:// (s), (v), och (mp) i Norrköping, gillar inte att vi använder grundlagarna.
Barnets rättigheter i Sverige och för alla barn i världen
2 Agenda 1. Börja arbeta med Excel Hantera arbetsböcker 3. Formler 4. Formatera 5. Diagram 6. Skriva ut 7. Referenser mellan kalkylblad 8. Arbeta.
Arbetspensionssystemet i bilder Bildserie med centrala uppgifter om arbetspensionssystemet och dess funktion
Enkätresultat för Grundskolan Föräldrar 2014 Skola - Gillberga skola.
OpCon/xps - A case study. Club2200Page 1 OpCon/xps – A case study Club2200 Magnus Nyman & Hans Forslind.
Växjö universitet: MSIDatabasteori Några exjobbsförslag Leif Grönqvist Språkteknologi & Lingvistik Växjö universitet, GU & GSLT.
GRs effektstudie 2005 Gällande studerande vid kommunal vuxenutbildning i Alingsås, Härryda, Kungsbacka, Lerum, Mölndal, Partille, Tjörn och Öckerö, 2003.
Smittspårarutbildning
Kartminne En serie bilder som ger övning av ”rutinen” Tänk på: –Vart är jag på väg? –Varifrån är kontrollen lättast att ta? –Vilken är sista säkra? –Förenkla.
26:e mars 2004Information Retrieval1 Datalingvistik – översiktskurs: Information Retrieval Leif Grönqvist GSLT (Sveriges nationella.
Räkna till en miljard 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13,14,15,16,17,18,19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, En miljard är ett.
© Anders Broberg, Ulrika Hägglund, Lena Kallin Westin, 2003 Föreläsning 12 Sökning och Sökträd.
Förskoleenkät Föräldrar 2012 Förskoleenkät – Föräldrar Enhet:Hattmakarns förskola.
Bild 1 Prognos för länets arbetsmarknad Stefan Tjb.
Grundskola Elever 2013 Grundskoleenkät - Elever Enhet: Gillberga skola.
Presentationens avskrift:

Några exjobbsförslag Leif Grönqvist Datalogi & Språkteknologi Växjö universitet, GU & GSLT

10:e oktober 2003Exjobbsförslag2 Upplägg Lite om vad jag gjort och gör –Grundutbildning: datalogi i Göteborg –Konsult –Doktorand inom GSLT (språkteknologi) Mina forskningsintressen Exjobbsförslag –En datoriserad tesaurus –Automatiskt sökindex för böcker –Något inom information retrieval/extraction?

10:e oktober 2003Exjobbsförslag3 Min bakgrund : ”4-årig teknisk” (electrical engineering) : M.Sc. (official translation of “Filosofie Magister”) in Computing Science, Göteborg University : 62 points in mechanics, electronics, etc : Work at the Linguistic department in Göteborg –Various projects related to corpus linguistics –Some teaching on statistical methods (Göteborg and Uppsala), –and corpus linguistics in Göteborg, Sofia, and Beijing 1995: Consultant at Redwood Research, in Sollentuna, working on information retrieval in medical databases : Work at the department of Informatics in Göteborg (the Internet Project) : PhD Student in Computer Science / Language Technology

10:e oktober 2003Exjobbsförslag4 Mina forskningsintressen Statistiska metoder i språkteknologi –Dolda Markovmodeller –Korpuslingvistik –Maskininlärning –Vektorrymdsmodeller för lagring av semantisk information Samförekomststatistik ”Latent Semantic Indexing” (LSI) Användning av lingvistisk information vid träning

10:e oktober 2003Exjobbsförslag5 Vad är LSI? LSI använder en slags vektormodell Klassisk IR använder en vektormodell som grupperar dokument med många gemensamma termer Men! –Dokument kan ha samma innehåll men använda olika vokabulär –Termerna i dokumentet är kanske inte de mest representativa LSI använder termernas fördelning i samtliga dokument när man jämför två dokument!

10:e oktober 2003Exjobbsförslag6 En traditionell vektormodell Börja med en term/dokument-matris, precis som för LSI Likhet mellan dokument kan beräknas med kosinus för vinkeln mellan vektorerna Relevanta termer för ett dokument – de som finns i dokumentet Problem i exemplet på nästa sida: –Termen ”trees” verkar relevant för m-dokumenten men finns inte i m4 –cos(c1, c5)=0 liksom cos(c1, m3)

10:e oktober 2003Exjobbsförslag7 Litet exempel

10:e oktober 2003Exjobbsförslag8 Hur funkar LSI? Idén är att hitta latent (underliggande) information som: –Ord 1 och ord 2 förekommer ofta tillsammans så kanske dokument 1 (som innehåller ord 1 ) och dokument 2 (som innehåller ord 2 ) är relaterade? –dokument 3 och dokument 4 har många gemensamma termer, så kanske orden de inte har gemensamt är relaterade?

10:e oktober 2003Exjobbsförslag9 Hur funkar LSI? Forts. I den klassiska vektormodellen är en dokumentvektor 12-domensionell och en termvektor 9-dimensionell för exemplet Vi vill projicera dessa vektorer till ett vektorrum med färre dimensioner Ett sätt är att använda ”Singular Value Decomposition” (SVD) Originalmatrisen räknas om till en ny representation bestående av tre matriser

10:e oktober 2003Exjobbsförslag10 Vad man får X=T 0 S 0 D 0 : X, T 0, S 0, D 0 are matrices

10:e oktober 2003Exjobbsförslag11 Att använda resultatet från SVD Med matriserna kan vi utföra projektioner av term- eller dokumentvektorer till ett vektorrum med det antal (m) dimensioner vi vill Vi kan välja m genom att kapa matriserna T 0, S 0, D 0 till lagom storlek Låt oss prova att sätta antalet dimensioner till 2

10:e oktober 2003Exjobbsförslag12 X kan räknas om med m=2 C1C2C3C4C5M1M2M3M4 Human Interface Computer User System Response Time EPS Survey Trees Graph Minors

10:e oktober 2003Exjobbsförslag13 Vad får vi av SVD? Susan Dumais 1995: “The SVD program takes the ltc transformed term-document matrix as input, and calculates the best "reduced-dimension" approximation to this matrix.” Michael W Berry 1992: “This important result indicates that A k is the best k-rank approximation (in at least squares sense) to the matrix A. Leif 2003: Vad Berry menar är att SVD ger den bästa projektionen från n till k dimensioner, d.v.s. den projektion som bäst bibehåller avståndet mellan vektorer

10:e oktober 2003Exjobbsförslag14 Några möjliga applikationer Automatisk generering av en domänspecifik tesaurus Nyckelordsextraktion från dokument i en dokumentsamling Hitta dokument som liknar varandra Hitta dokument som är relaterade till ett givet dokument eller uppsättning termer

10:e oktober 2003Exjobbsförslag15 Ett exempel baserat på tidningsartiklar stefan edberg edberg0.918 cincinnatis0.887 edbergs0.883 världsfemman0.883 stefans0.883 tennisspelarna0.863 stefan0.861 turneringsseger0.859 queensturneringen0.858 växjöspelaren0.852 grästurnering0.847 bengt johansson johansson0.852 johanssons0.704 bengt0.678 centerledare0.674 miljöcentern0.667 landsbygdscentern0.667 implikationer0.645 ickesocialistisk0.643 centerledaren0.627 regeringsalternativet vagare0.616

10:e oktober 2003Exjobbsförslag16 Efter lite trixande kan vi hitta handbollspersoner istället för politik… bengt-johansson1.000 förbundskapten-bengt-johansson förbundskaptenen-bengt-johansson jonas-johansson0.816 förbundskapten-johansson0.799 johanssons0.795 svenske-förbundskaptenen-bengt-johansson bengan0.786 carlen0.777 bengan-johansson0.767 johansson-andreas-dackell0.765 förlorat-matcherna0.750 ck-bure0.748 daniel-johansson0.748 målvakten-mats-olsson0.747 jörgen-jönsson-mikael-johansson kicki-johansson0.744 mattias-johansson-aik0.741 thomas-johansson0.739 handbollsnation0.738 mikael-johansson0.737 förbundskaptenen-bengt-johansson-valde johansson-mats-olsson0.736 sveriges-handbollslandslag0.736 ställningen-33-matcher0.736

10:e oktober 2003Exjobbsförslag17 Dags för ett par konkreta förslag En datoriserad tesaurus –Att utforma och bygga en datoriserad tesaurus utifrån en inscannad tesaurus i bokform, samt utveckla algoritmer för att konstruera nya begreppskategorier (huvudord) Automatiskt sökindex för böcker Automatiskt sökindex för böcker –När man läser ett längre dokument eller en bok är det trevligt att ha ett index längst bak där man kan slå upp viktiga begrepp. Både LaTeX och Word stöder detta, men tyvärr måste författaren manuellt ange vilka begrepp som skall finnas med. Tänk om man hade ett program som fixade detta automatiskt! Något inom information retrieval/extraction? –Har inget konkret förslag… Men om något av det jag pratat om och ni har en egen idé inom IR/IE-området så…

10:e oktober 2003Exjobbsförslag18 Två tesaurusar Brings (svenska) tesaurus finns inscannad –1000 huvudort –Totalt över ordformer –Substantiv, verb och adjektiv i olika grupper Roget´s thesaurus (engelska) finns, fast i ett annat format –Samma struktur som Bring

10:e oktober 2003Exjobbsförslag19 Exempel

10:e oktober 2003Exjobbsförslag20 Vinster med en datorisering Sökning i tesaurusarna i bokform är ibland lite jobbig: –Huvudord går fint –Övriga ord finns i indexet men det blir mycket bläddrande Gränssnittet skulle kunna förenkla sökningen avsevärt genom markering och klickbara ord Bäst vore om alla ord var huvudord! –Information för att åstadkomma detta finns troligen i datafilerna De mest relaterade orden står först Huvudord med flera betydelser har flera undergrupper för varje ordklass

10:e oktober 2003Exjobbsförslag21 Förkunskaper Att ha gått ca. tre år på programmet räcker som förkunskap men bra att ha är: –Goda kunskaper i programmering, förslagsvis logikprogrammering. –Semantik, lexikologi (från kurserna på programmet) Programmeringsspråket Oz (och utvecklingsmiljön Mozart) är väl lämpat att använda för den här uppgiften

10:e oktober 2003Exjobbsförslag22 Automatiskt sökindex för böcker ”Det kanske inte behöver påpekas, men att sitta och markera alla ord och fraser man vill ha med i ett index är extremt tidskrävande, jobbigt och tråkigt. Risken att man missar viktiga begrepp är överhängande” ”Tag alla ord som finns och gör ett index”: Inte bra… –Det blir för stort och svårläst –Väldigt vanliga ord finns på nästan varje sida –Fraser kommer inte med

10:e oktober 2003Exjobbsförslag23 En uppgift för datalingvisten! Saker man skulle kunna ha nytta av är exempelvis –Ordklasstaggning –Noun phrase chunking –Named entity recognition –Keyword spotting –Frekvensanalys för specifik/generell domän –...

10:e oktober 2003Exjobbsförslag24 Förkunskaper Att ha gått ca. tre år på programmet räcker som förkunskap men bra att ha är: –Semantik, taggning –Maskininlärning –Logikprogrammering –Korpuslingvistik (grundläggande) Ett exjobb för er som gillar att kombinera tidigare kunskap och tänka själva The µ-TBL system: Ett flexibelt system för att träna upp olika typer av uppmärkare

10:e oktober 2003Exjobbsförslag25 Gör något spännande inom IR/IE Tänk ut något och fråga mig vad jag tror Exempel: –Kan man hitta synonymer i icke-annoterad text? Hur? Hur bra? –Träna upp ett system baserat på LSI för att klara TOEFL-tester (ordkunskap) så bra som möjligt –…

10:e oktober 2003Exjobbsförslag26 Och nu då? De konkreta förslagen finns på min hemsida Även den här presentationen finns länkad under ”Current teaching” Fundera lite och kom till mig och fråga Maila går också fint om jag inte är här Först till kvarn gäller!