DICO-möte KTH Anteckningar
Anteckningar (GU: Logga interaktioner; ASR-resultat, etc) Ytterligare dimensioner för prompt design –Uppläst - talspråk –Talhastighet Problem? –Användarens preferenser förändras över tid; tillvänjning –Dock: vi gör demosystem; förstagångsanvändare –Enkel lösning: flera varianter; användare kan välja explicit Dimensioner & tester –Formell + kortfattad vs. Informell + verbos –? Informell + kortfattad vs. Formell + verbos Plan, förslag –V. 13: nuvarande system (TTS); (möjligen vissa variationer???) Testa Inspelningsgrejor Testa prata med dico i bilen –Senare: inspelade prompter –Ännu senare: unit selection-syntes (USS) Fråga: hur funkar det med USS för chat?
Anteckningar Demo av chat (KTH) Koppling till GoDiS –Hur nära ska integration vara? Skäl för stark integration: –säkerhet; kunna hantera avbrott etc även när man dikterar –System ska kunna ta initiativ (t ex navigering) och tillfälligt avbryta chat –Interaktion med andra applikationer, t ex adressbok –Att göra för att koppla till GoDiS Skrivet i C#,.net Modularisera, bygg OAA-agenter Koppla till GoDiS-resurser Växla mellan taligenkännare? Pipea ljudströmmar? –Visuell feedback för inmatning Ersätta med feedback? –Hur växla mellan diktering och kommando? Dialoghanteringsproblem? Eller lösas med knapp? Nu: ”skicka till mobiltelefon ” –Olika behov av feedback för MSN och SMS Viktigare få rätt för SMS
Anteckningar Attityder till textning etc i bilen (Cars) –”Deadly Driver Distractions” –Behövs: argument att det är säkert Eller åtminstone lika säkert som –Handsfree-telefoni? –Tala med medpassagerare? Eller åtminstone säkrare än att knappa på mobilen? Distraktionsmätning –Lane change task i simulator? –Med vardagssamtal (ej räkna etc.) Person bredvid Över telefon –Med människa-människa-telefonsamtal –Med system känsligt för avbrott –Med system ej känsligt för avbrott –Ingår detta i projektet? Preliminära resultat: avbrott & återupptagnig (GU) –Förslag till utvidgning: GPS, stressnivåsignal Kan visa hur det blir när ”systemet” avbryter med annan uppgift, eller vill pausa
Anteckningar Hur väga samman stressdetektor + verbala signaler? –Låt alltid föraren interagera om den vill –Om användaren blir tyst & stress detekteras, avvakta –System tar ej initiativ (till nytt samtalsämne) om stress detekteras Beror delvis på hur viktigt det är; ibland kan undantag göras för tidskritiska uppgifter, t ex navigation Finns andra tidskritiska saker som lämpar sig för tal? [Johan kollar upp] –(Finns: system släpper ej igenom telefonsamtal om stress detekteras) –Generellt, 4 fall av avbrott/ämnesbyte och återupptagning 1.Användare initierar avbrott 2.Användare initierar ämnesbyte 3.System initierar avbrott 4.System initierar ämnesbyte Vill vi undvika (2)? –Stresssignaler är kortvariga (4 sek max)
Anteckningar Nästa möte –Efter analys av resultat av klinik 1 v. 18 –Johan mailar förslag –Punkter: Slutmål/demos –grad av integration –Samarbete/kontaktytor Applikationer Utbetalningar –Alla kollar om de fått utbetalning 2 Rapportering – hur funkar det? (Johan kollar) –Datum för progress reports –WP-rapporter? Websida –(Exempel: –Multimedia? –Offentlig hemsida vs. Privat arbetsyta (wiki) Ev. på samma ställe Wiki på webhotell eller GU? –Vem bygger? (Johan kollar) –Alla hjälper till med content –Logo: ”DICO” med Volvos typsnitt; PTT-knapp
Iterationer Iteration 1 (sept 06-maj 07) –Explorativa / visionära insamlingar –Dico version 1(a) – existerande system –Klinik 1(a) Testa setup in-vehicle (testa prompt design) Loggning?? –Dico version 1(b) – inspelat tal –Klinik 1(b) Testa promt design –Ev. klinik 1(c) Utökat test av prompt design Iteration 2 (maj 07-okt 07) –Dico version 2 2 nya applikationer Nytt grafiskt interface ”ny” GoDiS-version (TALK) WOZ-agent för att testa hantering av –avbrott och återupptagning –utökad hantering av feedback –Utökad systemfeedback (realtid) PTT –Klinik 2 Testa kognitiv belastning med/utan WOZ Simulator? Loggning synkad med A/V Iteration 3 (nov 07-april 08) –Dico version 3 4 applikationer Avbrott och återupptagning Utökad hantering av användarfeedback Realtidsfeedback från system? –Klinik 3 Utvärdera helhet inför slutversion Iteration 4 (maj 08-dec 08) –Slutversion, demo –Mer integrerad i testbil –Slutklinik Validering av säkerhet (Cars) Att diskutera: –Nu: fokus på personbil –Andra fordon i iterationer? Lastbilar? Grävskopor? –Revidera vilka applikationer vi ska göra (utöver chat, mp3) –Kravställare – mer explicit
Todo, Klinik 1 Inspelningssetup –Omnimic + video –Loggning m trindikit, inkl. ljudfiler (användar- och systemtal) –Synkning? –Verktyg för visualisering? –Ljud ut: PC-högtalare –Ljudsignal för synkning (klappa) Frågor –Ska varje person testa flera varianter? Kräver flera uppgifter -> mer inspelning av prompter –(Overhearer tests?) Förutsättningar –Ingen radio på –Inte prata i mobil –… Klinik 1(a) –TTS –Tekniskt test –Vi själva är ”testpersoner” –Cars (Cecilia/Fredrik) ordnar bil –När? Vecka 13 Onsdag 28/3 08:00-17:00 –Var ska vi köra? Lundby strand –Vilka av oss? Johan, Staffan, Jessica, Anders, Cecilia, Fredrik –Komplettera setup-bild (finns på DICO-sajten) –Samla ihop alla prylar Video, 220V, Omnimic (Johan) Dator för GoDiS, högtalare (GU) –Möte, testa koppla ihop ”på skrivbord” 22/3 kl. 13, dialoglabbet/VTEC Klinik 1(b) –Inspelat tal/domänsyntes –2 betingelser, handfull personer –C:a 30 min/person –Formulär: utforma –Uppgift(er) till försökspersoner: skriv ner –Simulation/bil Bil, för att lära oss –Testledare Starta systemet, sköta inspelning etc Testledare sitter bakom skynke Påpeka att testperson ej ska prata med testledare –Hur starta/stoppa systemet? Säg ”DICO!” –När? v. 18 –Var ska vi köra? Klinik 1(c) –Om bedöms meningsfullt efter 1(b) –Fler betingelser, fler personer
Progress & todo per WP WP1: Application development –Progress: Existerande DICO-system Applikationer bestämda –GU+Volvos prioritering: (1) navigering, (2) mp3 player –Telia/KTHs prioritering: (1) Chat, (2) Biljettbokning GoDiS installerat hos Telia (GU, Telia) Arkitektur för chatapplikation specad (KTH, Telia) Preliminära versioner av mp3, chat Påbörjat prompt design (Jessica, Anders) –Todo: Prompt design (Jessica, Anders): moves -> strings för 2 betingelser (senare 4) Utreda alternativ för förbättrad syntes/Inspelat tal/domänsyntes (Anders, Alex, David); –Göra det själva »Inspelning »Uppmärkning, aligna »Dialogdrag -> ljudfiler »Bygga GoDiS-modul –Köpa in tjänst (ngn annan gör inspelning, uppmärkning) –Skippa, skaffa bättre syntes »Kräver genereringsgrammatik/lexikon –Kör med nuvarande syntes »Kräver genereringsgrammatik/lexikon Plan för DICO-generationer (GU) –Mall för applikationsspecifikation (GU) –Speca alla applikationer enligt mall Börja implementera applikationerna; preliminära versioner av 2 applikationer (mp3, chat?) till klinik 2 –Slutmål (förslag): ALT: Alla 4 applikationer integrerade i ett demosystem ALT: Separata demos för olika funktionaliteter (t ex taligenkänning i bullrig miljö) Forsatt diskussion senare! Gula fordon, yrkesförartillämpningar har hamnat i bakgrunden Hitta kontaktytor ASR-WPs – resten av WPs Alla partners presenterar önskade (hyfsat realistiska) slutresultat
WP2: User testing and evaluation –Progress: Existerande utvärdering av DICO i simulator (Jessicas exjobb) Exploratory/Visionary data collection –Telia/KTH: telefon –VTEC: försöksledare i bilen –GU: telefon, navigering Inspelningssetup (KTH, Telia) Planering inför klinik 1 (alla) Prompt design (Telia, GU) –Todo Klinik 1(a) v. 13 –Inspelningssetup Klinik 1(b) v. ? –GoDiS-fixar för inspelat tal –Slutföra prompt design –Bättre syntes (ev. inspelat tal/domänsyntes) –Ordna testpersoner och bilar Transkribering och (kvalitativ) analys
WP3: Tools for rapid prototyping and evaluation –WP3.1 Tools for rapid prototyping –WP3.2 Tools for evalutation –WP3.3 - Speech modeling tools for rapid application development –Progress: WP3.1 Tools for rapid prototyping –Fortsatt arbete på GF och ontologibaserad applikationsutveckling (GU) WP3.2 Tools for evalutation –Erfarenhet från explorativa tester –Inspelningssetup WP3.3 - Speech modeling tools for rapid application development –Todo: WP3.1 –Mp3-spelare byggd m h a OWL, GF (exjobbare) WP3.2 –Förbättrad loggning & timestamping för GoDiS (GU) –Synkning av logg + A/V-inspelning (off the shelf?) –Visualisering av inspelat material –WOZ-agent (Telia) –Transkriberingsverktyg (off the shelf) –Analysmetoder »Transkriptionsanalys –Setup för mätning av kognitiv belastning (lane-change task) (Cars?) »Iteration 3,4
WP4: Multimodality –WP4.1. Develop a context- and situation-adaptive dialogue component for modality alternation and combination. –WP4.2. Integrate the vehicle- and simulator-specific graphical software with the spoken and multimodal dialogue manager –WP4.3. Develop in-vehicle graphical interface components. –Progress: WP4.2, 43: Påbörjat uteckling av ny komponent för grafisk menyinteraktion (VTEC + GU) WP5: In-vehicle speech technology –Todo: Prompt design & recording (?) ”Unit selection”-syntes Koppla KTHs ASR till GoDiS (?) ASR-utveckling
WP6: Adapting GoDiS to in-vehicle domain, GoDiS infrastructure –WP6.1 Adapting the dialog to include workload management –WP6.2 Implement GoDIS in test vehicle –WP6.3 Investigate pre-requisites for embedding GoDis into the vehicle architecture –Progress: WP6.?: –application switching (TALK) –Limited inference (TALK) –Todo: WP6.1: Plan för GoDiS-uteckling (GU) –Hantera avbrott & återupptagning –Tidsfaktoranalys, snabba upp system –? context dependent help, elaborate confirmations –? Intelligent recognition (KTH, GU) »kanske i enskild applikation »Reranking; flera språkmodeller, … WP6.2: Komponent (OAA-agent) som routar UDP-signalen (ethernet) till GoDiS, inkl. PTT-signal (VTEC, GU) WP6.3: rapport; behöver diskuteras mer; hitta rätt person WP7: Noise-robust solutions for in-vehicle ASR –I samband med att få in GoDiS i lastbil –Ev. Fristående demo –Definiera showcase –Kolla intresse (Cars) –Kolla intresse hos CE (Construction Equipment) (Johan) WP8: Demo & final report –Att diskutera