Presentation laddar. Vänta.

Presentation laddar. Vänta.

Uppsatsskrivning utvärdering av språkteknologiska applikationer Rebecca Jonson Introduktion till lingvistik och datalingvistik, HT 2006.

Liknande presentationer


En presentation över ämnet: "Uppsatsskrivning utvärdering av språkteknologiska applikationer Rebecca Jonson Introduktion till lingvistik och datalingvistik, HT 2006."— Presentationens avskrift:

1 Uppsatsskrivning utvärdering av språkteknologiska applikationer Rebecca Jonson Introduktion till lingvistik och datalingvistik, HT 2006

2 Allmän information  Uppsatsen är tänkt att vara en beskrivning och utvärdering av en datalingvistisk/språkteknologisk applikation.  Uppsatsen ska beskriva det valda ämnet och applikationen (3-5 sidor) på svenska. Arbetet är enskilt. Ni får gärna samarbeta med valet av ämnet och utvärderingarna men ni ska skriva varsin uppsats och beskriva olika applikationer.  Uppsatserna sammanställs sedan till ett kompendium som delas ut så att kurskamraterna kan sätta sig in i varandras valda ämnen/applikationer.  Uppsatserna skickas in per mail till Rebecca (senast 7 januari)  Uppsatserna bedöms med G/VG. Godkänd uppsats ger 3 poäng. Bedömning sätts efter både innehåll och form.

3 Val av uppsatsämne  Välj ett språkteknologiskt ämne som intresserar dig bland de gästföreläsningar som ges: Maskinöversättning (MT) Talteknologi Dialogsystem IR (sökmotorer) AI (Artificiell intelligens) CALL (läs och skrivhjälpmedel, grammatikkontroll)  Välj en tillämpning av ämnet d v s ett/en system/applikation att testa/utvärdera. (Systemet bör helst vara nätbaserat eller tillgängligt i labbet)  Exempel på applikationer finns på kurshemsidan Exempel  Det finns tillräckligt med föreslagna system för att alla ska kunna utvärdera var sitt system

4 Varför uppsatsskrivning?  Få en chans att titta lite djupare på något som intresserar er  Få tid till att testa hur datalingvistik fungerar i verkligheten  Öva på uppsatsskrivning

5 Textformat Textformat: Word Times New Roman 12pt eller motsvarande för brödtexten Använd Words (eller annan editors) rubrikformat Numrerade rubriker i max tre nivåer: 2 Bakgrund 2.1 Systembeskrivning Systemets gränssnitt

6 Referenser  När det inte är dina ord eller idéer ska en referens ges till upphovsmannen  Referens i text … som Swales kommit fram till (1991:140) Flera studier har visat att … (Bazerman 1990, Swales 1991, Miller et. al. 1992

7 Citat  Används då man funnit en formulering som man inte kan förbättra genom en parafras  Måste dokumenteras: referens, sida  Måste vara exakt som i originaltexten; ev. utelämnat material måste signaleras (…)  Korta citat skrivs ”i löpande text” (Jonson 2004:4) och inom citationstecken.

8 Uppsatsen uppgift  Uppsatsen ska rikta sig till kurskamraterna och beskriva systemet som utvärderats och hur utvärderingen har gått till.  Uppsatsen ska ge en bakgrund till systemets språkteknologiska bakgrund, beskriva systemet, beskriva hur testningen/utvärderingen av systemet gick tillväga och avslutas med ett omdöme av systemet och idéer om hur framtida system borde fungera.

9 Uppsatsens disposition Nedan följer ett exempel på hur dispositionen kan se ut:  Titel  Löpande text (se Roberts riktlinjer)Roberts riktlinjer Inledning/Introduktion och syfte Bakgrund Metod Resultat Slutsatser/Sammanfattning och slutsatser  Litteraturförteckning/Referenser  Ev. Bilagor

10 Titel  Passande titel till uppsatsen  Författarens namn  Datum  Ev. Kursens namn

11 Inledning  Introducerar syftet med uppsatsen dvs utvärderingen ni vill göra och vilka frågor ni har ställt er (vilka förväntningar ni har på systemet innan ni provat det).  Disposition: underlätta för läsaren genom att beskriva översiktligt hur uppsatsen är upplagd.  Tänk på att det är här ni säljer uppsatsen till era läsare.

12 Bakgrund  Ge en kort bakgrund till ämnet ni valt (t ex maskinöversättning) och ge en bakgrund till den typ av system som systemet ni valt tillhör (t ex transferbaserade system)  Beskriv systemet ni ska testa Vilken typ av system är det? ( t ex ett maskinöversättningssystem som är ett transferbaserat system) Hur fungerar det? Vart kan man testa det? (nätet, ladda ner etc) Vem har utvecklat det?

13 Metod  Här beskriver ni hur ni gick tillväga för att testa systemet och varför ni gjorde på det viset.  När ni testar systemet, planera innan ni testar vad ni ska testa och skriv ner under testningens gång hur det gick.  Försök att testa systemet både snällt och elakt (enkla försök och svårare för att hitta saker som systemet har problem med)

14 Resultat  Förutom att beskriva hur ni gick tillväga för att testa systemet (metoden) ska ni också beskriva hur det gick d v s vilka resultat ni fick, vad klarade systemet och vad klarade det inte. Redovisa och diskutera exempel på vad som gick rätt och fel.

15 Slutsats  Ert omdöme om systemet (funktionalitet, prestanda, användbarhet etc) Skulle du vilja använda systemet?  Sammanfatta vad som fungerade bra/dåligt, varför?  Vad skulle kunna förbättras?  Idéer om hur det skulle kunna förbättras

16 Litteraturförteckning  I den löpande texten hänvisar vi till referenserna i litteraturförteckningen längst bak.  Dessa referenser bör bara ordnade i alfabetisk ordning  De bör innehålla författarens namn, publikationsår, verkets namn, samt vart det publicerades (tidning, tryckeri etc.)

17 Exempel från litteraturförteckning Bok/Avhandling  Swales, John Genre Analysis. Cambridge: Cambridge University Press.  Poser, William The phonetics and phonology of tone and intonation in Japanese. Cambridge, MA: MIT dissertation. Artikel i samlingsvolym  Willams, Joseph M ”Writing readable documents.” In Lynn, Beene & White, Peter (eds.) Solving Problems in Technical Writing. New York: Oxford University Press, Artikel i tidskrift  Chapman, Marilyn L , ”The emergence of genres.” Written Communication 3: HTML-address  ASKJeeves, 15 Mars, 2004http://www.ask.com/

18 Bilagor  I bilagorna kan ni samla större material t ex textexempel, längre dialoger, översatta texter eller längre resultat från systemet som ni sedan kan referera till ifrån den löpande texten.  Exempel: Om ni utvärderar ett översättningssystem kan ni lägga texterna som översatts här och sedan bara ta med exempel från dessa i den löpande texten.  OBS! Bilagorna räknas inte med i uppsatsens längd.

19 Planering för uppsatsen  Välj uppsatsämne och applikation innan slutet på november och skicka till mig (deadline 30 nov). Först till kvarn !!!  Jag kommer med respons till ert val och hjälp med utvärderingsmetoder, litteratur etc. ASAP  December: Testa systemet Skriv uppsatsen  Deadline uppsatsinlämning: ? januari! Skicka uppsatsen per mail till Rebecca

20 Val av uppsatsämne  Välj ett datalingvistiskt ämne som intresserar dig bland de gästföreläsningar som ges: Maskinöversättning (MT) Talteknologi Dialogsystem IR AI CALL  Exempel på applikationer finns på kurshemsidan Exempel  Andra förslag är välkomna Textprediktion på mobiltelefon Taligenkänning på mobiltelefon  Testa systemet och utvärdera det

21 Utvärderingsfrågor allmänt  Skriv ner dina förväntningar på systemet Vad tror du systemet borde klara/ha svårt för  Kolla upp om du hittar någon information om systemet! (t ex på hemsidan)  Vilka typer av fel gör systemet? Vad verkar systemet ha svårt med? Testa först snällt genom att följa systemets instruktioner Testa sedan kritiskt och försök att fälla systemet!  Vad tycker du om systemet? Uppnådde systemet dina förväntningar? Bättre/sämre? Besviken :( eller Förvånad =0 ?

22 Utvärderingsfrågor forts.  Är systemet användbart? Skulle du vilja använda systemet eller kan du hitta troliga användare av systemet Ge förslag på andra typer av applikationer eller användare som skulle kunna använda tekniken  Vad skulle behöva förbättras i systemet? Vad är det som brister…hur skulle det kunna rättas till Om du var en utbildad datalingvist och fick i uppgift att förbättra systemet vad är det första du skulle göra?

23 Exempel utvärdering MT-system Skriv ner dina förväntningar på systemet! (Vad tror du systemet borde klara/ha svårt för) Välj en översättningsriktning. (Välj det språk du hanterar bäst som målspråk) Ta en mindre text på ursprungspråket och låt systemet översätta mening för mening. Undersök antal korrekta meningar (%) Undersök antal korrekta ord (%) Vilka typer av fel gör systemet? Vad verkar systemet ha svårt med?

24 MT-utvärdering Är systemet bättre än ett ”Model 0 MT System”? D v s gör systemet bättre ifrån sig en ord för ord översättning? Hitta på några meningar och översätt ord för ord och jämför med resultatet MT-systemet ger för samma mening. Försök utifrån detta gissa dig fram till några översättningsregler som systemet verkar ha? Ge exempel på såna regler.

25 MT-utvärdering forts.  Utgå från dina egna idéer om skillnader mellan språken. Hur klarar systemet dessa?  Pröva systemet i den andra riktningen med liknande meningar som du testat förut!  Ser du några skillnader i prestation? Bättre, sämre resultat? Vad kan det bero på?  Vad tycker du om systemet? Uppnådde systemet dina förväntningar Bättre/sämre? Besviken :( Förvånad?  Är systemet användbart? Till vad och för vem?  Vad är det som brister i systemet? Vad skulle behöva rättas till och hur?

26 Litteratur MT  kapitel 21 i Jurafsky&Martin  Anna Sågvall-Heins artikel

27 Exempel utvärdering IR-system  Frågesvarssystem: Vilka frågetyper klarar den? Får man svar på frågorna (direkta faktafrågor - > svårare frågor) Hur presenteras svaren? Passar svaren frågorna? Vilka typer av frågor klarar systemet inte? Verkar den göra någon satslösning av frågorna? Morfologisk analys?

28 IR-system forts.  Dokumentranking: hur funkar Googles ranking? Går den att utvärdera/jämföra med något liknande system?  Frågebearbetning: välj en sökmotor eller flera och försök komma fram till hur eventuell morfologisk analys och felstavningsförslag går till och hur väl det fungerar. Använder sig sökmotorer av satsanalys, morfologisk analys etc? Skulle en sökmotor gynnas av mer lingvistisk kunskap? Hur mycket problem ställer semantisk ambiguitet till?

29 Litteratur  Johans föreläsningsanteckningar, Jurafsky och följande pdf: xter/ir-textbook.pdf samt ta en titt på: xter/ir-textbook.pdf

30 Reading The phenomenal power of the human mind I cdnuolt blveiee taht I cluod aulaclty uesdnatnrd waht I was rdanieg The phaonmneal pweor of the hmuan mnid! Aoccdrnig to a rscheearch at Cmabrigde Uinervtisy, it deosn't mttaer inwaht oredr the ltteers in a wrod are, the olny iprmoatnt tihng is taht the frist and lsat ltteer be in the rghit pclae. The rset can be a taotl mses and you can sitll raed it wouthit a porbelm. Tihs is bcuseae the huamn mnid deos not raed ervey lteter by istlef, but the wrod as a wlohe. Amzanig huh? Yaeh, and I awlyas thought slpeling was ipmorantt.

31 TTS-system utvärdering  Välj språk och röst (vissa system har både manliga och kvinnliga röster).  TTS utvärderas subjektivt genom att använda sig av försökspersoner som sätter betyg på förståelighet och naturlighet hos systemet.  Gör en egen bedömning av dessa två faktorer på en 10-gradig skala. Ni kan jämföra dessa faktorer med andra språk som systemet har eller andra röster (t e x jämföra en kvinnlig och manlig röst).

32 TTS-förståelighet Ett sätt att testa förståelighet är att ge systemet en mening med minimala par typ: sin,fin,vin,bin,min,lin Eller ge den tungvrickare såsom: sju sjösjuka sjuksköterskor sex laxar i en laxask Ni kan också låta någon kamrat lyssna på en fras utan betydelse (utan att veta vilken) och se om han/hon kan tolka vad som sägs T ex. Röda grodor ropar grönt bubbel

33 TTS-utvärdering naturlighet  Pröva systemet med långa och korta fraser och texter. Vad verkar den klara bäst? Verkar pauserna ligga rätt för längre texter?  Testa hur systemet klarar intonation och betoning. Pröva t ex frågor vs deklarativa satser. Låter frågor som frågor?  Hur låter systemets intonation i allmänhet. Betonar systemet rätt?  Sätt betyg på naturligheten hos systemet Är rösten behaglig, hackig, konstig, metallisk? Tycker du det låter bra? Bättre/sämre än någon annan TTS?

34 TTS-utvärdering  Hur klarar systemet homografer? hitta på meningar i stil med: My cat who lives dangerously has nine lives Break the record – Record a tape  Hur bra är systemets textbehandling (siffror, förkortningar etc.)? Pröva meningar i stil med: Dr. Smith lives on Oak Dr., but St. John lives on 71st St. The price was $1983 on 23 Nov 1983.

35 AI-agenter  Testa att chatta lite allmänt med agenten. Försök ta reda på lite information om agenten genom att fråga den. Hur mycket berättar den om sig själv?  Gör en liten korpus med frågeställningar, frågor, påståenden och uppmaningar som ni vill ställa till agenten.  Ställ dessa till agenten.

36 AI-agenter - Är responsen rimlig (av rätt typ dvs matchar den typen av stimuli)? - Skulle en människa låta sig luras? (Dvs tro att det är en människa som ger svaren) - Om det gick fel: Hur och varför? - Vad verkar agenten inte klara eller ha problem med som den borde kunna? - Vilken typ av mekanismer (minne, kunskap, slutledningsförmåga) skulle en sådan här bot behöva vara utrustad med för att det skulle fungera bättre? - Vilka mekanismer verkar den vara utrustad med? Vilken lingvistisk kunskap verkar den ha? (morfologisk,semantisk,pragmatisk,syntaktisk?)

37 AI-agenter  Vad hade ni för förväntningar på agenten? Levde agenten upp till de förväntningarna? Var den bättre eller sämre än ni trodde?  Är agenten användbar?  Skulle ni vilja använda er av den? Vad skulle kunna förbättras?  Ge en allmän uppfattning om vad ni tycker om agenten!  Svarar agenten på annat än det den är tänkt för? Hur beter den sig om du är trevlig/otrevlig mot den? Om agenten är domän-specifik fråga om andra saker Kolla vad agenten verkar vara bättre på och vad den har det svårare med.  OBS! Spara några av dialogerna ni håller med agenterna och ta med dem som appendix i uppsatsen. Det kan vara kul att visa en dialog i er presentation också!

38 Dialogsystem-utvärdering  Testa systemet både genom att ringa och göra som man “ska” samt genom att “provocera” systemet.  Tar systemet eller användaren initiativ?  Hur fungerar taligenkänningen?  Vad är det största problemet med systemet?  Hur lång tid tar det att få den information man vill ha. Känns det tillräckligt effektivt?  Är systemet användbart. Vad skulle kunna förbättras?  Fundera över vad systemet inte kan göra som en mänsklig telefonist skulle klara  Skriv ner några av dialogerna du testar

39 TRINDI TickList Utgå ifrån Trindi ticklist och redovisa hur systemet klarar detta test t ex:  Kan man ge mer än den information som efterfrågas eller måste informationen ges stegvis?  Kan systemet klara av ambiguös information (t ex. Klockan sju, till Stockholm)  Klarar systemet negativ information (inte klockan sju)  Klarar systemet inkonsistent information (30 februari)  Vad gör systemet om du inte svarar på en fråga?

40 Inlämningsuppgift  Mot kursens slut ska alla lämna in en kort beskrivning av vad ni tycker datalingvistik är (max en halv sida) och vilket område ni tycker verkar mest intressant och varför.  Ta en titt i nationalencyklopedin och wikipedia:


Ladda ner ppt "Uppsatsskrivning utvärdering av språkteknologiska applikationer Rebecca Jonson Introduktion till lingvistik och datalingvistik, HT 2006."

Liknande presentationer


Google-annonser