Växjö universitet: MSIDatabasteori 20041 Några exjobbsförslag Leif Grönqvist Språkteknologi & Lingvistik Växjö universitet, GU & GSLT.

Slides:



Advertisements
Liknande presentationer
Det värdefulla ENGAGEMANGET
Advertisements

Att förstå anonymiteten (översättning från
Att identifiera och utveckla ledare
Talföljder formler och summor
1 Handelshögskolan i Stockholm 2 Lunds universitet
En Dag i Ramadan Ramadan
Andragradsfunktioner & Andragradsekvationer
Här ser ni några sidor som hjälper er att lösa uppgifterna:
Att söka till högskolan
Relationsdatabasdesign
Att läsa och studera.
Access med Sebastian och Robert
hej och välkomna EKVATIONER Ta reda på det okända talet.
Uppsala Beáta B. Megyesi 1 Webbföreläsningar i språkteknologi ett pilotprojekt Beáta Bandmann Megyesi Institutionen för lingvistik och filologi.
BEANS NÖJD KUND INDEX (e-survey undersökning)
Servicekunskap Hur vill du jobba med boken?
MS Excel 2010 – Dag 2 Mahmud Al Hakim
Fi2 Lägesrapport om IT-utvecklingen i fastighetsbranschen
1 Välkommen till dagens e-möte –Säkerställ ljud via Meeting > Audio Setup Wizard –Slå av din mikrofon –Stäng av din kamera –Använd funktionen ”Raise hand”
Kundundersökning mars 2010
Leif Håkansson’s Square Dancer Rotation
Nytt golv av finaste furu
DCV Idéskiss Design Jag tror att jag ska ha en mörk och stilren design på mitt DCV. Det ska finnas dynamisk funktionalitet där designen byts utan att sidan.
Att hålla en presentation
©storm.
Tentamensdags och lab 3…. Större program delas normalt upp i flera filer/moduler vilket har flera fördelar:  Programmets logiska struktur när man klumpar.
Växjö 21 april -04Språk & logik: Kontextfria grammatiker1 DAB760: Språk och logik 21/4: Kontextfria 10-12grammatiker Leif Grönqvist
FL2 732G70 Statistik A Detta är en generell mall för att göra PowerPoint presentationer enligt LiUs grafiska profil. Du skriver in din rubrik,
732G22 Grunder i statistisk metodik
INFORMATIONSHANTERING Tips & råd av Anna Maria & Joakim
Växjö 15 april -04Språk & logik: Reguljära uttryck1 DAB760: Språk och logik 15/4: Finita automater och 13-15reguljära uttryck Leif Grönqvist
IKT i nöd och lust! Hur får man eleverna att ta eget ansvar? Hur får man dem att samarbeta? Och hur får man lärare att vilja jobba ämnesövergripande?
SWEDISH AGENCY FOR ECONOMIC AND REGIONAL GROWTH 1 9. Aktörer i Nyps 22/ Sofia Wallgren Nyps utbildning- Projektmedel.
En PowerPoint om PowerPoint
Programmering B PHP Lektion 2
Tentamensdags och lab 3…. Större program delas normalt upp i flera filer/moduler vilket har flera fördelar:  Programmets logiska struktur när man klumpar.
Svenska WebDewey Introduktion Harriet Aagaard Svenska Deweyredaktion
Programmering B PHP Lektion 3
1. Uppgiften presenteras
Digitalteknik 7.5 hp distans: 5.1 Generella sekvenskretsar 5.1.1
9e december 2003Statistiska metoder & IR1 Statistiska metoder & Information Retrieval Leif Grönqvist GSLT (Sveriges nationella forskarskola.
Brukarundersökning socialpsykiatri Kön 1. Man16 (44%) 2. Kvinna20 (56%)
Det handlar om multiplikation
Föräldramöte Team Agenda Viggan Vårcup 11/3 (Oskar) Anmälan på andra cuper under våren (Johan) Träningsplan för Team 03 (Fredrik) Aktiviteter.
TÄNK PÅ ETT HELTAL MELLAN 1-50
Frågor om elevinflytande till elever i åk 3 – 9 i grundskolan
1 Joomla © 2009 Stefan Andersson 1. 2 MÅL 2 3 Begrepp Aktör: en användare som interagerar med webbplatsen. I diagrammet till höger finns två aktörer:
Röd zon Grön zon Grön zon Röd zon.
Känna till och ha provat metoder och verktyg för processledning
Stöd till en evidensbaserad praktik för god kvalitet inom socialtjänsten – brukarmedverkan vid brukarundersökningar inom LSS • • SKAPAD.
Novus Unga om vården Vårdförbundet Lina Lidell 1718.
Problemlösning Veckodagsproblemet Gissa talet Siffersumman.
Kandidatuppsats i Statistik F3
SEO Manager för EPiServer LÅT REDAKTÖRERNA VARA REDAKTÖRER.
1(31) Ett omdiskuterat ämne. Vad är det som händer? 2.
1 Föreläsning 6 Programmeringsteknik och Matlab 2D1312/2D1305 Metoder & parametrar Array API och klassen ArrayList.
Logikprogrammering 21/10 Binära träd
Några exjobbsförslag Leif Grönqvist Datalogi & Språkteknologi Växjö universitet, GU & GSLT.
Här är ditt liv, Bertil! 15/
Ingenjörsmetodik IT & ME 2008
26:e mars 2004Information Retrieval1 Datalingvistik – översiktskurs: Information Retrieval Leif Grönqvist GSLT (Sveriges nationella.
Räkna till en miljard 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13,14,15,16,17,18,19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, En miljard är ett.
© Anders Broberg, Ulrika Hägglund, Lena Kallin Westin, 2003 Föreläsning 12 Sökning och Sökträd.
BVForum - en genomgång för revisorer Sören Thuresson.
DATABASHANTERING för programmerare Lektion 5 Mahmud Al Hakim
Bild 1 Prognos för länets arbetsmarknad Stefan Tjb.
1 Jan Lundström OV’s Hemsida Utbildning Ledare. 2 Jan Lundström OV’s Hemsida Standard Lagrum.
Satslogik, forts. DAA701/716 Leif Grönqvist 5:e mars, 2003.
Växjö 14 april -04Språk & logik: Finita automater1 DAB760: Språk och logik 14/4:Finita automater Leif Grönqvist Växjö Universitet.
IT Fördjupning Jon Wide
Presentationens avskrift:

Växjö universitet: MSIDatabasteori Några exjobbsförslag Leif Grönqvist Språkteknologi & Lingvistik Växjö universitet, GU & GSLT

2Databasteori 2004Växjö universitet: MSI Upplägg  Lite om vad jag gjort och gör Grundutbildning: datalogi i Göteborg Konsult ett litet tag Doktorand inom GSLT (språkteknologi)  Mina forskningsintressen  Exjobbsförslag En datoriserad tesaurus Automatiskt sökindex för böcker Något inom information retrieval/extraction?

3Databasteori 2004Växjö universitet: MSI Min bakgrund  : ”4-årig teknisk” (electrical engineering)  : M.Sc. (official translation of “Filosofie Magister”) in Computing Science, Göteborg University  : 62 points in mechanics, electronics, etc.  : Work at the Linguistic department in Göteborg Various projects related to corpus linguistics Some teaching on statistical methods (Göteborg and Uppsala), and corpus linguistics in Göteborg, Sofia, and Beijing  1995: Consultant at Redwood Research, in Sollentuna, working on information retrieval in medical databases  : Work at the department of Informatics in Göteborg (the Internet Project)  : PhD Student in Computer Science / Language Technology

4Databasteori 2004Växjö universitet: MSI Mina forskningsintressen  Statistiska metoder i språkteknologi Dolda Markovmodeller Korpuslingvistik Maskininlärning Vektorrymdsmodeller för lagring av semantisk information  Samförekomststatistik  ”Latent Semantic Indexing” (LSI)  Användning av lingvistisk information vid träning

5Databasteori 2004Växjö universitet: MSI Några möjliga applikationer av LSI  Automatisk generering av en domänspecifik tesaurus  Nyckelordsextraktion från dokument i en dokumentsamling  Hitta dokument som liknar varandra  Hitta dokument som är relaterade till ett givet dokument eller uppsättning termer

6Databasteori 2004Växjö universitet: MSI Ett exempel baserat på tidningsartiklar stefan edberg edberg0.918 cincinnatis0.887 edbergs0.883 världsfemman0.883 stefans0.883 tennisspelarna0.863 stefan0.861 turneringsseger0.859 queensturneringen0.858 växjöspelaren0.852 grästurnering0.847 bengt johansson johansson0.852 johanssons0.704 bengt0.678 centerledare0.674 miljöcentern0.667 landsbygdscentern0.667 implikationer0.645 ickesocialistisk0.643 centerledaren0.627 regeringsalternativet vagare0.616

7Databasteori 2004Växjö universitet: MSI Dags för ett par konkreta förslag  1. En datoriserad tesaurus Att utforma och bygga en datoriserad tesaurus utifrån en inscannad tesaurus i bokform, samt utveckla algoritmer för att konstruera nya begreppskategorier (huvudord)  2. Några tillägg till MultiTool 2a. Automatisk alignment: låt datorn hjälpa till att koppla ihop transkription och mediafil 2b. Fonetikmodul: Beräkna och visualisera frekvensspektrum och F 0 som hjälp vid arbete i MultiTool 2c. Sök- och räknemodul: Lägg till möjligheten att söka efter och räkna ord och kodningar, eventuellt kombinationer, samt möjlighet att spela upp eller exportera de funna sektionerna 2d. Stöd för kodningsscheman: lägg till möjligheten att ladda/spara kodningsscheman och att i vissa fall låsa användaren till att använda dem

8Databasteori 2004Växjö universitet: MSI Konkreta förslag, forts  3. Transkriptionsstöd Kan med fördel byggas som en del av MultiTool eftersom en hel del användbar funktionalitet finns där  4. Något inom information retrieval/extraction? Har inget konkret förslag… Men om något av det jag pratat om och ni har en egen idé inom IR/IE-området så…

9Databasteori 2004Växjö universitet: MSI 1. Datoriserad tesaurus  Att utforma och bygga en datoriserad tesaurus utifrån en inscannad tesaurus i bokform, samt utveckla algoritmer för att konstruera nya begreppskategorier (huvudord)

10Databasteori 2004Växjö universitet: MSI Två existerande tesaurusar  Brings (svenska) tesaurus finns inscannad 1000 huvudort Totalt över ordformer Substantiv, verb och adjektiv i olika grupper  Roget´s thesaurus (engelska) finns, fast i ett annat format Samma struktur som Bring

11Databasteori 2004Växjö universitet: MSI Exempel

12Databasteori 2004Växjö universitet: MSI Vinster med en datorisering  Sökning i tesaurusarna i bokform är ibland lite jobbig: Huvudord går fint Övriga ord finns i indexet men det blir mycket bläddrande  Gränssnittet skulle kunna förenkla sökningen avsevärt genom markering och klickbara ord  Bäst vore om alla ord var huvudord! Information för att åstadkomma detta finns troligen i datafilerna  De mest relaterade orden står först  Huvudord med flera betydelser har flera undergrupper för varje ordklass

13Databasteori 2004Växjö universitet: MSI Förkunskaper  Att ha gått ca. tre år på programmet räcker som förkunskap men bra att ha är: Goda kunskaper i programmering, förslagsvis logikprogrammering. Semantik, lexikologi (från kurserna på programmet)  Programmeringsspråket Oz (och utvecklingsmiljön Mozart) är väl lämpat att använda för den här uppgiften

14Databasteori 2004Växjö universitet: MSI MultiTool  Flera förslag som syftar till att förbättra MultiTool  Handledare: Jens Allwood, Magnus Gunnarsson, Leif Grönqvist,  Leif eller Magnus är handledare i normal mening, Jens fungerar som kravställare  Även andra användare finns (Anki och Loredana)  Implementation i Java existerar Utvecklad av Leif från början Vidareutvecklad av Magnus och nu i sommar av Johan Lund

15Databasteori 2004Växjö universitet: MSI Skärmdump från MultiTool

16Databasteori 2004Växjö universitet: MSI MultiTools vyer visar info på olika sätt  Mediavyn: spelar upp filmen och/eller ljudet. Användaren kan spola fram och tillbaka för att hitta intressanta delar.  Standardvyn: visar transkriptionen på det sätt de flesta är vana vid, dvs ett yttrande på varje rad. Användaren kan scrolla genom transkriptionen.  Partiturvyn: visar transkriptionen som ett partitur, dvs en rad för varje talare och varje bidrag placerade i tidsordning, liknande noterna på ett notblad så att samtidiga yttranden står i samma kolumn.  Tidsskalevyn: en tidsskala, graderad i minuter och sekunder, där ljudets amplitud i varje tidpunkt kan avläsas.  Kodningsvyn: visar alla olika kodningar hierarkiskt med frekvenser på varje nivå.

17Databasteori 2004Växjö universitet: MSI Internt i MultiTool  TP: tidpunkter, CP: kodningspunkter  Kodningar består av: Start-CP Slut-CP Talarinitial Kodningsvärde  Ett kodningsvärde är hierarkiskt och den översta nivån kallas ibland för schema  Exempel på kodningar: 1-2, A, text god morgon 2-3, A, text allihop 1-2, A, talegenskaper betoning avvikande 3-4, C, text morrn 3-5, B, text hej anders 5-6, A, text är klockan tio redan

18Databasteori 2004Växjö universitet: MSI Internt i MultiTool, forts  Synkroniseringar: CP1 = TP2,45 CP3 = TP4,24 CP4 = TP4,45 CP5 = TP4.70 CP6 = TP6,12  Kodningspunkter behöver inte kopplas till en tidpunkt  En TP har en direkt motsvarighet i mediafilen  Kodningspunkter är numrerade från 1 och uppåt, alltid i kronologisk ordning

19Databasteori 2004Växjö universitet: MSI 2a. Automatisk alignment i MultiTool  Låt datorn hjälpa till att koppla ihop transkription och mediafil  Ett program utvecklat på KTH kan koppla ihop en ordsträng med en ljudfil på ordnivå Problem: överlapp förvirrar programmet Hur vet man vilka synkroniseringar som är rätt och vilka som bör sorteras bort?  Ytterligare ett steg i fonetisk riktning vore att gissa pauser, vokalljud och yttrandegränser eller till och med andra svårare språkljud, för att kunna synkronisera dessa automatiskt mot transkriptionen  Bra att använda existerande program men också bra om MultiTool kan fungera självständigt

20Databasteori 2004Växjö universitet: MSI Automatisk alignment, forts  Förkunskaper Java Gärna kunskaper i fonetik  Tillgångar En existerande implementation av MultiTool. Fonetik och fonologi-expertis. Ett alignmentprogram utvecklat på KTH av Kåre Sjölander som ger hyfsad alignment mellan indata i form av tal och text

21Databasteori 2004Växjö universitet: MSI 2b. Fonetikmodul för MultiTool  Beräkna och visualisera frekvensspektrum och F 0 som hjälp vid arbete i MultiTool  Tidsskalevyn ger idag en bild av ljudamplitud vid olika tidpunkter  Det vore intressant att lägga till frekvensspektrum, F0, F1, mm då dessa skulle ge god hjälp vid synkronisering  Flera olika algoritmer existerar så en stor del handlar om att utforska om de kan användas på dialog.  Eventuellt finns en del existerande kod i Java för fonetisk analys så att leta upp något användbart vore en bra ända att börja i.

22Databasteori 2004Växjö universitet: MSI Fonetikmodul, forts  Förkunskaper Java Gärna kunskaper i fonetik Förståelse för ganska matematiska algoritmer  Tillgångar En existerande implementation av MultiTool Fonetik och fonologi-expertis Systemet Praat med mängder av dokumentation – klarar att utföra den analys som behövs

23Databasteori 2004Växjö universitet: MSI 2c. Sök- och räknemodul för MultiTool  Lägg till möjligheten att söka efter och räkna ord och kodningar, eventuellt kombinationer, samt möjlighet att spela upp eller exportera de funna sektionerna  Man vill enkelt kunna söka efter, räkna, och spela upp segment som matchar ett sökuttryck  Viktigt att sökuttrycken inte kräver kunskap i reguljära uttryck eller Prolog  Enkla sökningar (ge mig alla ”bil”) viktigast  Kombinationer (ge mig alla överlappade ”mm” i början på yttranden) också användbart  Gränssnittet är viktigt – enkelt men kraftfullt

24Databasteori 2004Växjö universitet: MSI Sök- och räknemodul, forts  Förkunskaper Java  Tillgångar En existerande implementation av MultiTool Räkneverktyget Tal-till-tal (nya TraSA)

25Databasteori 2004Växjö universitet: MSI 2d. Stöd för kodningsscheman i MultiTool  Lägg till möjligheten att ladda/spara kodningsscheman och att i vissa fall låsa användaren till att använda dem  Samtliga kodningsvärden måste kunna visas hierarkiskt  Sedan bör delträd kunna låsas så att Kodningsvärden väljs bland löven Inga nya värden kan läggas till utan låsa upp låset  Delträd (scheman) skall kunna sparas och laddas (importeras)

26Databasteori 2004Växjö universitet: MSI 3. Transkriptionsstöd  Kan med fördel byggas som en del av MultiTool eftersom en hel del användbar funktionalitet finns där  En transkription består av: En header med bakgrundsinformation En body med själva samtalet  Viktigt att dessa skrivs i korrekt syntax  MultiTool kunde med vissa tillägg fungera som transkriptionsverktyg: Exportera i formatet GTS (Göteborg Transcription Standard) Mer förenklande funtionalitet

27Databasteori 2004Växjö universitet: MSI Transkriptionsstöd, forts  Flera typer av användare 1.Vill transkribera utan att synkronisera 2.Vill koda exempelvis gester mot en videofil 3.Vill transkribera och synkronisera yttrande för yttrande 4.Vill transkribera och synkronisera varje ord 5.… Olika features viktiga för olika användare

28Databasteori 2004Växjö universitet: MSI 4. Gör något spännande inom IR/IE  Tänk ut något och fråga mig vad jag tror  Exempel: Kan man hitta synonymer i icke-annoterad text? Hur? Hur bra? Träna upp ett system baserat på LSI för att klara TOEFL-tester (ordkunskap) så bra som möjligt …

29Databasteori 2004Växjö universitet: MSI Och nu då?  De mer eller mindre konkreta förslagen finns på min hemsida  Även den här presentationen finns länkad under ”Current teaching”  Fundera lite och kom till mig eller Magnus och fråga  Maila går också fint om jag inte är här Först till kvarn gäller!