PROSODINS MEKANIK talande maskiner och maskinellt tal Staffan Larsson April 2003 ”Mitt Hjärtas Melodi”

Slides:



Advertisements
Liknande presentationer
McLuhan: Understanding media
Advertisements

Interface.  Interface är en datatyp och har alltså egen syntax och en hel del egna regler för vad arv från interface innebär.  Interface är renodlad.
Elektroniska filter William Sandqvist En verklig signal … Verkliga signaler är svårtolkade. De är ofta störda av brus och brum. Brum.
© Anders Broberg, Ulrika Hägglund, Lena Kallin Westin, 2003 Datastrukturer och algoritmer Föreläsning
LinCS – The Linnaeus Centre for Research on Learning, Interaction and Mediated Communication in Contemporary Society Att studera lärande, tänkande och.
Ellära Fysik 1 / A Översiktlig beskrivning av en del av innehållet i Ellära – Fysik A För djupare studier hänvisar jag till kurslitteratur som finns.
© X-on Data EdWord. © X-on Data EdWord – tillägg till Word EdWord är en anpassning för att göra Microsoft Word enklare.
Kommunikation Studieteknik: Presentationsteknik
Numeriska beräkningar i Naturvetenskap och Teknik
Prosodi # Spr å kens ljudegenskaper # Betoning # Intonation # Kvantitet # Prosodins interaktion Tid,datum,föreläsning.
För utveckling av verksamhet, produkter och livskvalitet. Rekursiva algoritmer, en annan sort tänkande -Hur -När -Bra/Dåligt (kap 7)
Talsyntes – historia och metoder
äldre forskning med en inriktning mot mediekonsumtionens sociala former; etnografiskt orienterat, inte minst James Lull och teve- studier ”Television.
För utveckling av verksamhet, produkter och livskvalitet. Algoritmer och datastructurer - Lite mer rekursivitet -Sorterrings algoritmer -- Kapitel 8 Algoritmer.
Metod i teori & praktik Daniel Nylén. Historik Stradis (1979) SSADM (1981) SSM (1966)RUP (1998) Ethics (1985) Agile (2001)
Inte en webbdesign-kurs försöker få ett slags helhetsgrepp på hela medie- hypen/visionen fem inte helt oberoende spår: 1. cyberspace (vision) 2. multimedier.
Konsonanters och vokaler akustiska mönster
EN KOMPLETT INDUSTRIPARTNER ! ALLMÄNT OM MELSEC STYRSYSTEM.
 SLIM-forskarskolan – språk och lärande i mångfaldsperspektiv  Ingår i lärarlyftet, en satsning på fortbildning och forskarutbildning för lärare.  Licenciatexamen.
Nya medier + nät = Cyberspace. Cyberspace en vision om ett universum av information och kultur, en gemensam, global, datorgenererad virtuell värld, med.
Språkteknologiska metoder Språkteknologisk forskning och utveckling (HT 2006)
Tillämpad statistik Naprapathögskolan
Föreläsning 2: Grundläggande informationsteori
Diskreta, deterministiska system Projekt 1.2; Vildkatt
Are idioms difficult to learn? After this program it will ’be a piece of cake’
Kap 11 Språk Kap 11
Rekursiva algoritmer Hur När Bra/Dåligt (kap 7).
Statsvetenskap 3, Statsvetenskapliga metoder
Ladfors, mars 2015 Induktion 13e Mars Ladfors, mars 2015 Reklampaus: Jönköping augusti 2015 Bl.a. Induktions symposium.
Skriftlig individuell uppgift Interaktionsdesign i digitala medier (A.1) HT-2012, 7,5 hp Lärare: Daniel Nylén.
Metoder för att studera den glottala vågformen
Den osynliga datorn Slutet för PC:n?!. Människa Dator Interaktion Vad är en dator?
Statsvetenskap 3, statsvetenskapliga metoder
Sångrösten.
Stumfilm åk 7.
Mathematics 1 /Matematik 1 Lesson 7 – complex numbers Lektion 7 – Komplexa tal.
Talperception 2 Något lite om psykoakustik Psykoakustik Psykoakustiken är en gren av psykofysiken. Det låter kanske konstigt och svårt, men är egentligen.
Spektrala Transformer
Schemaläggning Mål –Att förstå den roll som schemaläggning och schemaläggnings-analys spelar för att förutsäga hur realtids-tillämpningar uppfyller sina.
Anläggnings- & vägmodeller
Formella metoder i MDI Behovet Vad menas med formell? Verktyg Exempel Att läsa: Kapitel 14 i Carroll.
EN SENSATIONS-, AKTIONS, OCH INTERAKTIONSTEKNIK. KUNSKAPEN OMORGANISERAS.
Spektrala Transformer
Modellbaserad Ljudkodning Kodning av tal Kodning av musik MPEG-4 Audio toolbox.
Repetition of some basic concepts. PCM = Pulse Code Modulation = Digital transmission of analogue signals Sampler AD-converter with seerial output
1 Mjukvaru-utveckling av interaktiva system God utveckling av interaktiva system kräver abstrakt funktionell beskrivning noggrann utvecklingsmetod Slutanvändare.
Mathematics 1 /Matematik 1 Lesson 5 – experimental data and their models Lektion5 – experimentell data och deras modeller.
Mathematics 1 /Matematik 1 Lesson 4 – discrete series and their solutions Lektion4 – diskreta serier och deras lösningar.
1 Ingenjörsmetodik IT & ME 2007 Föreläsare Dr. Gunnar Malm.
Welcome to Simulation of Telesystems (DTAC29), or Telesystems (ETAC52)
Institutionell och spelteoretisk analys Peter Andersson (kursansvarig), Göran Hägg, Jan Lindvall, Bo Persson, Hans Sjögren Avancerad nivå nationalekonomi.
Telekommunikation,Kiruna Digital modulation F7_A
BSHC LIDAR Seminar SMA experiences from and future plans of LIDAR surveys.
Formella metoder i MDI Behovet Vad menas med formell? Verktyg Exempel Att läsa: Kapitel 14 i kursboken.
Artificiell intelligens och robotar
1 Jan-Åke Jönsson, April Jan-Åke Jönsson.
Trombektomi vid akut ischemisk stroke Kunskapsläget 2014 SBU-Rapport
Sång som didaktiskt redskap i språkundervisningen Fremmedspråksenteret, Tromsö Spanska toner Voces y letras Sång i sfi Fernando Álvarez Montalbán.
1 Speltrender Staffan Björk Karl-Petter Åkesson. Vår lekfulla natur.
Per-Åke Andersson Globalisering och utveckling Karlstad Universitet, HT2010 F2: Smith and Ricardo Per-Åke.
Behaviorism och intentionalitet
SUBSTANTIV Obestämd form (indefinite) Singular och plural (numerus)
Action Learning.
Cykelresor i Stockholm: en jämförelse mellan och
Datornätverk A – lektion 4 MKS B – lektion 4
Figure Types of analog-to-analog modulation
Invånarnas inställning till digitalisering i välfärden Undersökning genomförd av KANTARSIFO på uppdrag av Sveriges kommuner och landsting våren 2018.
Grundläggande signalbehandling
Clustered vs. Dispersed
Presentationens avskrift:

PROSODINS MEKANIK talande maskiner och maskinellt tal Staffan Larsson April 2003 ”Mitt Hjärtas Melodi”

Översikt Talande maskiner –Talsyntes Källa-filter-modellen Formantsyntes Linjär prediktion Formantsyntes och sång –Emotionell prosodi i formantsyntes Maskinellt tal –Mekaniska strukturer –Åke Hodell: General Bussig, Igevär –Steve Reich: Different Trains –Charles Dodge: Speech Songs –Med mera

Grunder Övertoner (harmoniska) –Ett harmoniskt ljud med grundfrekvens F har övertoner med frekvens 2F, 3F, … Filter –Ändrar amplituden hos övertoner –Resonansfilter/bandpassfilter: förstärker övertoner kring en viss frekvens Sampling –Diskretisering i tid; indelning i ”frames” Kvantisering –Diskretisering av varje tidsutsnitt

Talande maskiner

Text till tal En abstrakt lingvistisk representation av en text genomgår ett antal transformationer som resulterar i en akustisk vågform

Talsyntes Källa-filter-modellen F0 modellerar glottis; en övertonsrik grundton Filtret modellerar munhålan PITCH-PULSE GENERATOR NOISE GENERATOR RESONATION SYSTEM (FILTER) F0 SPEECH AMP

Talsyntes forts. Filtermodeller –Formantsyntes –Linear Predictive Coding (LPC) Syntesmetoder –Regelbaserad: baserat på teori implementerad i regelsystem –Analysbaserad: baserad på inspelat tal (vanligtvis samplat) Resultatet av analysen är en uppsättning dynamiska parametrar

Formantsyntes Akustisk modell –Filtret analyseras som ett antal formanter, F1-F4 –Normalt varieras bara F1 och F2; resten är statiska Formanterna modelleras av bandpassfilter med variabel frekvens –Parallell- eller seriekopplade Vokaler definieras av värden på formantfrekvenserna Vissa konsonanter kan modelleras som lokuspunkter –Andra konsonanter modelleras som brus, (”s”, ”f”)

Tidiga exempel på talsyntes Bell labs (1950) –forskning om analys och syntes av tal i syfte att minimera mängden information som skickas t ex i en telefonledning Vocoder –Analysera tal som akustiska parametrar F0/noise 10 bandpassfilter med variabel amplitud –Använd dessa parametrar för att driva syntes som approximerar originalet Voder * –Manuell kontroll av parametrar Pattern Playback * –Parametrar styrs av spektrogramläsare

OVE I Oratis Verbis Electris –Gunnar Fant –Svensk vokalformantsyntes från 50-talet –utvecklades främst i pedagogiskt syfte, men kan möjligen även ses som ett mellanting mellan musikinstrument och talmaskin. Fyra seriekopplade bandpassfilter –F0, F1 och F2 styrs manuellt Demo * –Analog –Digital

Ove II

Linjär prediktion Artikulatorisk modell –Filtret modellerar munhålan, modellerad som en tub med ett antal cylindriska sektioner av olika längd och diameter Filter: ett ”all-pole” filter Predicera nästa sampel baserat på viktad summa av föregående samples Mer realistisk återgivning –MEN svårare att kontrollera parametrar, t ex F0; filtret är instabilt

Regelbaserad vs. Analysbaserad syntes Regelbaserad: regler för övergångar mellan fonem –Formant: regler för formantövergångar, lokusteori (OVE II) –LPC: regelbaserad konkatenering (Klatt, Arkiv B&C)* Analysbaserad: sampling och analys av mänskligt tal –Formant: formantdetektion –LPC: den metod som numera är vanligast Manuell syntes –Ove, VODER

Flera talsyntessystem DECtalk (1980-) * –Baserad på KlattTalk (formantsyntes) –Formanter, lokusregler –Flera olika röster (Klatt, arkiv D) Speak and Spell (1980) –Linjär prediktion

Emotionell prosodi i formantsystes Formantsyntes har även använts i forskning på prosodins roll i uttryckandet av emotioner Janet Cahn –The Generation of Affect in Synthesized Speech –Affect Editor (program) Grundantagandern –Affektinformation är i stort sett oberoende av lexikal information –Emotioners effekt på talsignalen kan kvantifieras

Tidigare forskning… …om akustiska korrelat till emotioner –Sporadiskt sedan 40-talet –Primära parametrar: F0 och rytm Dessa parametrar kan kontrolleras i syntes Fysiologiska förklaringar (Williams & Stevens 1981) –Sympatiska(?) nervsystemet aktiveras (rädsla, ilska, glädje) > högre blodtryck och puls > högljutt, snabbt tal med hög frekvensenergi –Paraympatiska nervsystemet aktiveras (uttråkadhet, sorg) > lägre blodtryck och puls > långsamt tal med låg tonhöjd och frekvensenergi

Alternativa representationer Generativ modell –Utgår från talarens mentala tillstånd Akustisk modell –Utgår från den akustiska signalen som den uppfattas av åhöraren –En uppsättning parametrar som motsvarar talsignalens emotionella korrelat Den förra är teoretiskt mer intressant, men den andra är enklare –Lättare att kvantifiera och utvärdera –Vi vet mer om akustiska än mentala korrelat

Affektparametrar Fyra grupper –Tonhöjd (pitch): egenskaper hosF0 –Timing: rytm och talhastighet –Röstkvalitet –Artikulation Tonhöjd och timing är även egenskaper hos ord och fraser Ej absolut indelning Parametrar har värden mellan –10 och 10; 0 är neutral

Tonhöjdsparametrar Accent shape: the rate of F0 change for any pich accent –Pitch accent: distinctive pitch applied to the lexically stressed syllable of a word such that the word as a who is percieved as reciveving sentential stress Average pitch: average F0 relative to speaker’s normal pitch Countour slope: overall trend of pitch range (expanding, contracting or level) Final lowering: terminal pitch contour Pitch range: range of F0 variation Reference line

Timingparametrar Fluent pauses: frequency of pausing between syntactic or semantic units Hesitation pauses: frequency of pausing within syntactic or semantic units Speech rate Stress frequency: ratio of stressed (pitch accented) to stressable (potentially pitch accented) words

Röstkvalitetsparametrar Breathiness: amount of frication noises co-present with nonfricatives Brilliance: ratio of low to high frequency energy Laryngearization: narrow and irregular subglottal pulse; ”creakiness” Loudness: percieved loudness Artikulationsparametrar Precision: degree of slurring or enunciation

Affect Editor Akustisk beskrivning av emotionellt tal > syntetiskt expressivt tal Syntes: DECtalk3 –Stor grad av kontroll över prosodi och röstkvalitet Mappning –från akustiska parametrar + text (annoterad med intonation och ordklassinformation) –till syntesens inställningar + fonologisk representation >ghostview

Exempel Stimuli för experiment

Formantsyntes av sång (Dodge) Kräver mer komplex modell av munhålan (mer komplext filter) Interaktion mellan glottis och munhåla ”Sångformanten” –Lägre frekvens på F4 och F5 än i tal –F4 och F5 ligger nära varandra ( Hz)

Sångsyntes: tidiga exempel Bell labs (1961) –1961: Max Mathews (with the assistance of a number of technicians at Bell Labs) made a computer sing "Bicycle Built for Two."Bicycle Built for Two DAVO (1958) * –Georg Rosen, MIT Charles Dodge (mer senare)

Mekaniskt tal

Mekaniska strukturer (Manovich) Mekanisering av media: diskretisering –Sampling –Kvantisering Möjliggör mekaniska operationer –Upprepning, loopning –Utsträckning i tid –Gradvis modifiering / modulering –Överlagring (”compositing”) Har även använts inom ljudkonst och musik

”Cross-synthesis” (Dodge) Analys – manipulation – syntes –Tal samplas och analyseras som parametrar som kodas digitalt (vanligtvis LPC) –Valda parametrar manipuleras –Återsyntes med manipulerade parametrar Vanliga operationer –Kopiera parametrar från en sekvens till en annan; skapa repetitioner –Interpolera värdet av en given parameter för en sekvens (värde 1 -> värde 2) –Förläng en sekvens i tid –Ändra värdet på en parameter i en sekvens till ett fixt värde –Öka värdet på en parameter i en sekvens till ett fixt värde

Ljudkonst och tal ”Konkret poesi” –Utgångspunkten är talets fysiska egenskaper, snarare än innehållet –I Sverige: Fylkingen (Sten Hansson, Ilmar Laaban, Åke Hodell mfl) EMS, Stockholm –1960-tal –En av världens mest avancerade ljudstudios (ryms numera på en billig PC) –Ej digital sampling, men analog teknik med linkande möjligheter; dock mycket arbetsamt

Åke Hodell General Bussig * –Upprepning, gradvis modifiering –Noggrant modulerad prosodi, närmar sig musik Igevär * –Utsträckning i det absurda –Från språkljudet abstraheras det språkliga bort, kvar blir ett ljud som balanserar på gränsen mellan mänskligt och mekaniskt

Steve Reich Different Trains * Använder talets prosodiska melodi som grundmaterial för musikaliska figurer Sampling, överlagring, upprepning Melodi i tal och musik –Tal: glidande toner (glissando) –Musik: diskreta toner –Transformation av F0 till melodi innebär en ytterligare (manuell) ”sampling”, d v s diskretisering i tid och tonhöjd

Charles Dodge Sysslade tidigare med orkester- och kammarmusik Speech Songs (1972) –”A man sitting in a cafe”A man sitting in a cafe –Detta är en dikt inläst av Dodge som analyserats och återsyntetiserats –Modifierad F0, repetition, m.m. Any similarity is purely coincidental –”cross synthesis” av inspelning av Caruso

Andra artister som använder talsyntes Nämnda i Computer Music: –Paul Lansky –Frances White –Judy Klein –386DX –Gamers In Exile Samt ett flertal som använder vocoder

Sammanfattning Tal kan mekaniseras –samplas, analyseras, lagras, manipuleras och syntetiseras Exempel på detta är –Talsyntes Formantsyntes Linear Predictive Coding –Sångsyntes –Språkbaserad ljudkonst och musik Tal, även syntetiskt, bär emotioner –Vare sig man vill eller ej –Kan i viss mån kontrolleras –Kan utnyttjas i konstnärliga syften Mekaniskt tal är verkligen märkligt/konstigt/knäppt! –Varför?

A: the consonant /d/ before a series of vowels having the same F1. The second formant transition appears to originate from an invisible locus at 1800 Hz, after Delattre et al. (1955). B: If the second formant onset frequency (hub) is fixed at 1800 Hz, left panel, several different consonants are heard.

En abstrakt lingvistisk representation av en text genomgår ett antal transformationer som resulterar i en akustisk vågform Text till tal:

Genusperspektiv? Talsyntes oftast manliga röster Svårare att syntetisera kvinnliga röster? –Svårare att analysera pga färre övertoner –Att minska storleken på den simulerade munhålan samt höja F0 fungerar inte ”Mannen är normen” –De flesta analyser av tal utgår från manliga talare –Inte konstigt att denna modell inte omedelbart fungerar för att syntetisera kvinnligt tal