Talsyntes – historia och metoder

Slides:



Advertisements
Liknande presentationer
Idéer för ett bredare entreprenörskap
Advertisements

Atomer, molekyler och kemiska reaktioner
AUTISMSPEKTRUMTILLSTÅND
Kunskapskrav för godtagbara kunskaper i slutet av årskurs 3 – Svenska
Att förstå anonymiteten (översättning från
Att identifiera och utveckla ledare
Talföljder formler och summor
Språklig variation i sverige
Den nya skollagen Arbetet med den nya lagen har pågått sedan 1999
Atomer och kemiska reaktioner
Lånord.
Att bygga målstyrt Underhåll
Släktskapsregeln för 6a
Relationsdatabasdesign
Del 2: Svenskans släktskapsförhållanden
Detta har vi lärt oss sedan vecka 12.
© X-on Data EdWord. © X-on Data EdWord – tillägg till Word EdWord är en anpassning för att göra Microsoft Word enklare.
Sammanfattning Vi gjorde ett studiebesök i Kista Service Hus. Två pensionärer pratade om problem i deras vardagsliv. Utifrån det tänker vi skapa en digital.
Leif Håkansson’s Square Dancer Rotation
Lösningsfokuserat arbetssätt
1.Att bidra till det gemensamma lärandet genom lärgrupper.
Den tre viktigaste stavningsreglerna för 6a
1 Ingenjörsmetodik IT & ME 2009 Föreläsare Dr. Gunnar Malm.
Epikuréerna, hedonism och döden
Genomgång frågor, Sveriges statsskick
Elkraft 7.5 hp distans: Kap. 3 Likströmsmotorn 3:1
Stoicism: En filosofi för svåra tider
Föreläsning 2 Datalogi för E1 2D1343
Welcome to Gävle! Bild: Albin Bogren / BARINGO. Education is the key to employment and increased choices in life.
1 Medarbetarenkät svar. 2 Kön 3 Jag är knuten till en klass, undervisningsgrupp eller barngrupp.
Programmering B PHP Lektion 2
Det svenska kulturarvet: spår 1
Programmering B PHP Lektion 3
Projekt. Det körs liksom projekt överallt, det slösas med pengar men vad leder de egentligen till?
Digitalteknik 7.5 hp distans: 5.1 Generella sekvenskretsar 5.1.1
TÄNK PÅ ETT HELTAL MELLAN 1-50
Vår metodik för att energieffektivisera Flerfamiljsbostäder
Rollfördelning i funktionärsbåset Vem gör vad i Danicahallen.
1 Joomla © 2009 Stefan Andersson 1. 2 MÅL 2 3 Begrepp Aktör: en användare som interagerar med webbplatsen. I diagrammet till höger finns två aktörer:
Listor En lista är en föränderlig ordnad samling objekt.
Programspråk Två olika typer av program omvandlar högnivå till lågnivå program: Interpreterande program och kompilerande program. Python är ett interpreterande.
1 Föreläsning 3 programmeringsteknik och Matlab 2D1312/ 2D1305 Matlab fortsättning Funkioner, styrstrukturer, manipulering av matriser.
Are idioms difficult to learn? After this program it will ’be a piece of cake’
Grej Of The Day de nordiska språken.
Andlig tillväxt School of Leadership Vår ork Kan delas in i fyra olika delar Fysisk Relationell Mental Andlig Frid - bygger på Gudsrelationen.
Styrteknik: Grundläggande logiska funktioner D2:1
Hur har ny teknik påverkat det svenska språket de senaste tusen åren?
1 Föreläsning 6 Programmeringsteknik och Matlab 2D1312/2D1305 Metoder & parametrar Array API och klassen ArrayList.
Gränsöverskridande i flerspråkig kommunikation med datorer Robin Cooper, professor i datalingvistik Föreståndare, Nationella forskarskolan i språkteknologi.
Fonologi Analys av ett okänt språk.
1 Logging and monitoring of TCP traffic in SSH tunnels Masters thesis Anton Persson.
”… det är framför allt service och bemötande - och därigenom kundupplevelsen - som bygger ett starkt varumärke.” ur Skellefteå kommuns varumärke och image.
Räkna till en miljard 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13,14,15,16,17,18,19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, En miljard är ett.
BVForum - en genomgång för revisorer Sören Thuresson.
Stoicism: En filosofi för svåra tider
”National Champions” Nordiska konkurrensnätverket Bergen 2008 Hans Henrik Lidgard.
DATABASHANTERING för programmerare Lektion 5 Mahmud Al Hakim
1 Mönstermatchning och rekursion Nr 4. 2 Förenklad notation val fnname = fn name => expression Förenklas till fun fnname name = expression Exempel fun.
När infaller Julafton och hur ofta?
To practise speaking English for 3-4 minutes Genom undervisningen i ämnet engelska ska eleverna ges förutsättningar att utveckla sin förmåga att: formulera.
Regler för citatteknik
THE ABB – FG WILSON AND CATERPILLAR CASE Problemanalys ABB strategi var att på djupet förstå kunders behov och hjälpa dessa kunder för att bli mer konkurrenskraftiga.
Svenska språkets historia
We are the world There comes a time When we head a certain call When the world must come together as one There are people dying And it's time to lend.
My role model.
How to Buy Engagement Rings for Women Online?. Buying engagement rings for women or tiffany celebration rings from the online market could be a bit challenging.
You Must Take Marriage Advice to Stop Divorce! Dontgetdivorced.com.
Basic Swedish 1 Lektion 4, den 15 februari Välkomna
Kursplan för svenskundervisning för invandrare
Presentationens avskrift:

Talsyntes – historia och metoder Introduktion till språkteknologi — oktober 2009 Talsyntes – historia och metoder Mats Dahllöf (presentation efter Pétur Helgason)

Text-till-talsystem — grundstenarna Alla text-till-talsystem är datorbaserade Text-till-talsystem har två huvudkomponenter Textbearbetning (text till representation av ljud) Syntesapparat (ljudrepresentation till ljud) Text-till-tal sker i 3 steg Steg 1 — utvinna information ur texten Steg 2 — översätta informationen till en representation som syntesapparaten kan arbeta utifrån Steg 3 — syntesapparaten genererar ljud utifrån representationen

Ljudrepresentation FONEM: ljud som enheter i språk. FONER: mer konkreta ljud. T.ex. är vokalen ö ett fonem i svenskan, men den låter olika i höra och hög, om vi talar ”rikssvenska”. Vi kan se detta som två olika foner, mer öppet ö framför r och mer slutet i andra kontexter. Annars låter det dialektalt eller fel.

Text-till-talsystem — struktur Steg 1 Steg 2 Steg 3 TEXT Undantagslexikon Uttalsregler Syntes Sifferregler Grafemregler FONER TILL SYNTES- PARAMETRAR PARAMETRAR TILL LJUD INPUT GRAFEM TILL FONER OUTPUT

Två typer av syntes Formantsyntes — ljudgeneratorsyntes Ljudgeneratorn kan alstra olika typer av ljud Periodiskt ljud (röstkälla); Aspiration; Friktion Parametrar till formantsyntes Vilken typ av ljud ska aktiveras vid en given tidpunkt Vilken prosodi ska tillämpas (duration och tonhöjd) Kontatenativ syntes — klippa-och-klistrasyntes Förinspelade talsnuttar sammanfogas Val som måste göras: Vilka snuttar ska ingå i den aktuella talsekvensen? Vilken prosodi ska tillämpas? (F0 hos snuttarna kan modifieras.)

Maskinellt tal I historien Upplysningen — de stora framstegen på 1700-talet Ökade kunskaper om varför talet låter som det gör Rösten är ett periodiskt, harmoniskt ljud Röstljudet formas av talröret Modellering av vokaler Christian Kratzenstein (dansk verksam i Ryssland) gjorde fysiska vokalmodeller (1779)

Den första talmodelleringen Wolfgang von Kempelens talande maskin Beskrivs 1791 i skriften Mechanismus der menschlichen Sprache nebst der Beschreibung seiner sprechenden Maschine Wien, J. B. Degen. Styrmekanismer Lungorna simulerades med en blåsbälg Talet formades i en låda som dolde en rad mojänger

Den första talmodelleringen Stämbandston Ett elfenbensblad i lådans inledande del simulerade stämbandston I en version av maskinen går det att styra längden på bladet och således ändra tonhöjden

Den första talmodelleringen Styrmekanismer Vokaler kunde formas genom att manipulera maskinens “mun” Spakar öppnade kanaler med vilka olika sibilanter (t.ex s) skapades Två näsborrar fanns som fick täppas till om inte en nasal skulle göras

Den första talmodelleringen Styrmekanismer:En extra blåsbälg under boxen användes för att skapa extra tryck för klusilproduktion Enkelt? Von Kempelen framhöll att efter endast tre veckors träning kunde man uppnå en hyfsad kompetens i att framställa tal

Den första talmodelleringen Hur lät von Kempelens tallåda? Vi får höra de tyska orden “es war” som först uttalas av en kvinna och sedan med Kempelens talmaskin. Sedan får vi höra den engelska meningen “I go” på samma sätt Slutligen får vi höra franskans “je t’aime” Fanns det någon vits med detta? Von Kempelens försök ökade förståelsen för vilka faktorer i artikulationen styr det akustiska resultatet

1939 — The Voder Den första moderna talsyntesapparaten Ljudet framställs på elektronisk väg Styrs med tangenter och en pedal Manuell styrning Ingen textinmatning, d.v.s. inte text-till-tal

Voder

1939 — The Voder: hur lät den, då? “Will you please make the Voder say for our eastern listeners: ‘Good evening, radio audience’.” “Good evening, radio audience.” “And now for our western listeners say: ‘Good afternoon, radio audience’.” “Good afternoon, radio audience.”

1950-talet — OVE (Orator Verbis Electris) OVE I Talsyntesapparat som utvecklades av Gunnar Fant på KTH Styrs med en styrstång på en tvådimensionell yta (demoprogram finns) Ingen textinmatning, d.v.s. inte text-till-tal Egentligen kunde OVE I endast göra vokaler och halvvokaler “How are you?” — “I love you.”

1961 — Första talsyntesen på dator Bell Labs datorsyntes Kelly & Gerstman på Bell Labs skapade en datorbaserad talsyntesapparat Den kördes på dåtidens värstingdator, en IBM 704 Än så länge är det dock inte fråga om text-till-tal “To be, or not to be, that is the question. Whether ‘tis nobler in the mind to suffer The slings and arrows of outrageous fortune.”

1968 — Första text-till-talsystemet Text-till-tal av Noriko Umeda m fl Texten omvandlas först till foner Input till syntesapparaten är en fonisk text. Fonerna tolkas om till parametrar som matas in till syntesapparaten Syntesens kvalitet upplevs dock som mycket dålig “Once upon a time there lived a king and queen who had no children. Not a day passed that the queen did not say: ‘If only we had a child’. One day, as the queen was walking beside the river, a little fish lifted its head out of the water.”

Status år 1970 Formantsyntesen kan generera acceptabelt resultat Man kan analysera ett stycke inspelat tal och härleda formantsyntesparametrar direkt från inspelningen Matar man in de siffrorna till formantsyntesapparaten blir resultatet förbluffande likt originalet PAT 1962 “Welcome to the Stockholm Speech Communication Seminar.” “Welcome to the Stockholm Speech Communication Seminar.” OVE II 1962 “I enjoy the simple life.” “He knows just what he wants.” OVE II 1961 “I enjoy the simple life, as long as there’s plenty of comfort.” PFS 1973

Formantsyntesens utmaning Problemet Att automatiskt omvandla en textsträng till syntesparametrar är mycket svårare än att ställa in parametrarna direkt så att de härmar ett stycke tal

Text-till-tal system för svenska Tal, musik och hörsel (TMH) på KTH — 1970–1995 Formantsyntes (GLOVE) — Carlson och Granström Språkanpassbart text-till-talsystem Ett ”lingvistanpassat” programspråk (RULSYS) utvecklades Bl.a. utvecklades text-till-talsystem för svenska, norska, danska, engelska, tyska, franska och isländska. Systemen vidareutvecklades senare kommersiellt Detta är en demonstration av flerspråkigt syntetiskt tal utvecklat av Telia Promotor. Produkten är en komplett text-till-talomvandlare som accepterar en godtycklig text, utan restriktioner avseende ordval eller meningstyp.

Foner till formantsyntesparametrar Steg 1 Steg 2 Steg 3 TEXT Undantagslexikon Uttalsregler Syntes Sifferregler Grafemregler FONER TILL SYNTES- PARAMETRAR PARAMETRAR TILL LJUD INPUT GRAFEM TILL FONER OUTPUT

Foner till formantsyntesparametrar Varje fon har en ljudlig specifikation i systemet [e:] — duration; ljudstyrka; ljudkälla; formanter; formantbandbredd; formanttransitioner, etc. [s] — duration; ljudstyrka; ljudkälla; excitationsfrekvens, brusbandbredd, etc. Specifikationerna måste anpassas till kontexten I /epra:/-delen av sekvensen Kalle pratar måste fonerna [e], [p], [r] och [a:] smälta ihop på rätt sätt utifrån specifikationerna för de enskilda fonerna Detta är en mycket svår uppgift

Formantsyntesen passé? Konkatenativ syntes Att generera bättre formantsyntesparametrar från text har blivit allt mindre intressant p.g.a. ny syntesteknologi Konkatenativ syntes innebär att man spelar in en talare och gör snuttar av inspelningarna som sedan kan fogas ihop till sammanhängande tal Problemets lösning I stället för att härma tal genom syntes kopierar man naturligt tal och gör syntes av det Problemen med att modellera de finare detaljerna i språkets segmentella struktur kan därmed försvinna

Konkatenativ syntes Två typer Difonsyntes ”Unit Selection” syntes Input: Alla som är i stan Två typer Difonsyntes Alla möjliga tvåfonems-kombinationer är repre-senterade i systemets databas ”Unit Selection” syntes Tvåfonemskombinationer samt större talenheter (t.ex. många funktions-ordssekvenser) är representerade i systemets databas 1.#_a 2...a_l: 3.....l:_a 4........a_s 5..........s_o 6............o_m Etc. 1.#_a 2...al:a 3......a_s 4........som_är_i 5...............i_s 6.................s_t Etc.

Difonsyntes — exempel Detta är en demonstration av Infovox manliga difon-syntes utvecklat av Telia Promotor. Produkten är en komplett text-till-talomvandlare som accepterar en godtycklig text, utan restriktioner avseende ordval eller meningstyp. Det flexibla syntessystemet gör det möjligt att använda talad information i en mängd situationer.

FONER TILL SYNTES- PARAMETRAR Grafem till foner Steg 1 Steg 2 Steg 3 TEXT Undantagslexikon Uttalsregler Syntes Sifferregler Grafemregler FONER TILL SYNTES- PARAMETRAR PARAMETRAR TILL LJUD INPUT GRAFEM TILL FONER OUTPUT

Grafem till foner Grafemregler Undantagslexikon Regelbundna förhållanden mellan stavning och fonetisk representation kan omsättas till regler /r/ + /t,d,n,l,s/ sammansmälter till retroflexa konsonanter /ö/ är öppnare före r än före andra konsonanter Undantagslexikon Rymmer alla undantag från reglerna Urdu och Saturnus måste finnas med i undantagslexikonet eftersom retroflexregeln inte ska tillämpas För svenskans del är det mycket låneord i undantagslexikonet Detta eftersom betoning inte är förutsägbar i svenska Grafemreglerna sätter alltid trycket på första stavelsen i ett ord, men det blir fel för de flesta låneord

Konkatenativ syntes: svårigheter Kvarvarande problem Att lyckas bra med inspelningen av det ljudmaterial som ska ingå i syntesen är inte givet Eventuella problem i omvandlingen av grafem till foner kvarstår, t.ex. Ordton: anden ~ anden Sammansättningar: sjukanalsljudanläggning; koddatering Man behöver fortfarande en bra prosodisk modell Tonhöjd, tryck och kvantitet kommer inte på köpet i konkatenativ syntes — de måste modelleras Om man märker att någonting är fel i syntesen är det i de flesta fall något problem med prosodin