Lieberman & Blumstein Phonetic theories

Slides:

Advertisements

Liknande presentationer

Pedagogisk planering Åk 7 - 9

Advertisements

Det första du bör göra är att rita horisonten

Idéer för ett bredare entreprenörskap

Atomer, molekyler och kemiska reaktioner

Sätt kryss vid ett av följande alternativ:

Behandlingsfas 1, hjälpmedel

Tips och råd som hjälper dig läsa, lära och plugga

PowerPoint av Bendik S. Søvegjarto Koncept, text och regler av Skage Hansen.

Talföljder formler och summor

18 maj 2009 Esbjörn Hellström, Lund

Formulär Tänkte nu gå igenom vad ett formulär är och hur man kan skapa dem i Access.

En sammanfattning på saker som man inte får glömma till provet

Novus Allmänheten om regional identitet i Dalarna (Del A) November Peter Blid Helena Björck Ida af Robson 2064.

Från Fanta till Fleece Lokal pedagogisk planering Biologi åk 5

En genomgång av spelet: Dubbelkrig-Grön

SSQ12-B Instruktioner Namn Datum Ålder

PowerPoint av Bendik S. Søvegjarto Koncept, text och regler av Skage Hansen.

Hej hypotestest!. Bakgrund  Signifikansanalys  Signifikansprövning  Signifikanstest  Hypotesprövning  Hypotestest Kärt barn har många namn Inblandade:

”Språk, lärande och identitetsutveckling är nära förknippade

Slöjd Presentation! Av: Malte Bergman.

hej och välkomna EKVATIONER Ta reda på det okända talet.

Vad man kan få ut av statistik över alumnerna - några exempel

Ålder Namn Datum SSQ12 SSQ12 Instruktioner Jag använder en hörapparat (vänster öra) Jag använder en hörapparat (höger öra) Jag använder två hörapparater.

Del 1: Språkets uppkomst

ERGONOMI Vad är det?.

Föreläsning 7 Analys av algoritmer T(n) och ordo

- Vikten av att kunna sälja in sin idé

Kurslitteraturen består av 11 kapitel som var och en belyser olika delar av automatiseringstekniken. De utgör fristående delar men har en gemensam röd.

Tvärmodala interaktioner vid visuell och auditiv perception av vokaler

Varför är det bra att ha just två öron?

Konsonanters och vokaler akustiska mönster

MEDELVÄRDE, MEDIAN & TYPVÄRDE

FL2 732G70 Statistik A Detta är en generell mall för att göra PowerPoint presentationer enligt LiUs grafiska profil. Du skriver in din rubrik,

732G22 Grunder i statistisk metodik

En PowerPoint om PowerPoint

Förskolor och skolor i Nacka – i en klass för sig Gymnasieutbildning Kvalitetsredovisning för förskoleverksamhet och utbildning i Nacka kommun år 2008,

If you want to build a ship, don´t herd people together to collect wood and don´t assign them tasks and work, but rather teach them to long for the endless.

De följande frågorna gäller din förmåga och dina upplevelser i samband med att höra och lyssna i olika situationer. Du svarade på samma frågor tidigare.

Av: Johan, Adam och Caroline =)

Vibeke Horstmann, Inst för hälsa, vård, samhälle, Centre for Ageing and Supportive Environments Jämförelse av två behandlingar.

Felkalkyl Ofta mäter man inte direkt den storhet som är den intressanta, utan en grundläggande variabel som sedan används för att beräkna det som man är.

Barns delaktighet _____________________________________________________________________________________________________________________________________________________________________________________________________________________________________________

Diskreta, deterministiska system Projekt 1.2; Vildkatt

Marknadsförarens mall för att skapa köpares persona!

Retorik – Läran om konsten att övertyga

PPP Den moderna vetenskapsteorins berättelse om sin förhistoria.

Metoder för att studera den glottala vågformen

Fonologi Analys av ett okänt språk.

En mycket vanlig frågeställning gäller om två storheter har ett samband eller inte, många gånger är det helt klart: y x För en mätserie som denna är det.

Fysikexperiment 5p Föreläsning Korrelationer Ett effektivt sätt att beskriva sambandet mellan två variabler (ett observationspar) är i.

Logikprogrammering 21/10 Binära träd

Talperception 2 Något lite om psykoakustik Psykoakustik Psykoakustiken är en gren av psykofysiken. Det låter kanske konstigt och svårt, men är egentligen.

KNÄCKNING STELA BALKAR INSTABILITETSFENOMENET

Projekt 5.3 Gilpins och Ayalas θ-logistiska modell A Course in Mathematical Modeling - Mooney & Swift.

Hur bra är modellen som vi har anpassat?

Konditon Upplevelsen av ett motionspass påverkas vilken intensitet träningen har. Man kan dela upp konditionsträning i två delar: Högintensiv träning och.

Formellt, skarpt och snyggt

Moral och Etik Moraliska frågor berör frågor om vad som är rätt och fel/orätt, ont och gott. Andra vanliga begrepp som använd är bör, plikt och rättvisa.

Regler för citatteknik

Studiematerial till ”prov”-provet i biologi

På vissa datorer behöver du trycka på F5 för att starta bildspelet.

Statistisk hypotesprövning. Test av hypoteser Ofta när man gör undersökningar så vill man ha svar på olika frågor (s.k. hypoteser). T.ex. Stämmer en spelares.

R EDOVISNINGS AFFISCH V ETENSKAPLIG POSTER. A FFISCHEN Affischen är en sammanfattning av en kurs eller projekt för att väcka intresse och ge en snabb.

Sju sätt att visa data Sju vanliga och praktiskt användbara presentationsformat vid förbättrings- och kvalitetsarbete.

Helhet och allsidighet

Presentationens avskrift:

Lieberman & Blumstein Phonetic theories

Muskler (Lieberman & Blumstein) T ex sväljmusklerna används också i talproduktion. Att lära sig tala innebär att sätta upp nya mönster för programmerade aktiviteter. Ej helt klart exakt vilka muskler används i olika funktioner. Olika talare använder också olika muskler för att producera samma ljud (t ex [s], velumstängning) Table 6.1 De vanligaste musklerna i artiklar om talproduktion

EMG supralaryngala muskler Den vanligast muskeln vid velumstängning är levator palatini Men, som sagt, Olika talare använder också olika muskler för att producera samma ljud Det blir problem för motorteorin för talperception som säger att ”invarianta artikulatoriska gester eller motorkommandon ligger bakom talljuden …

Det verkar snarare som om gesterna strävar att bevara samma akustiska skillnader genom att använda olika artikulationsmönster i olika situationer?

Två olika fonetiska teorier Artikulatorisk, eller motor-, invarians eller Akustisk invarians Båda teorierna vill beskriva talproduktionens fysiologi på ett psykologiskt och lingvistiskt meningsfullt sätt

Röntgenstudier Visar att tungans läge inte är det enda som ändras, t ex är farynxpassagen trängre för [a] än för [i] och [u]

Särdrag Minsta betydelseskiljande Fonologiska, vanligen binära Chomsky Halle +–nasal, +–voiced, Jakobson +–compact, +–diffuse, +–abrupt(kontinuerlig), +–nasal, Fonetiska särdrag, kontinuerliga Ladefoged

Särdrag - artikulation Fonologiska Binära (t ex +–nasal) Men, levator palatini kan spännas mer eller mindre; gradvis [i] och [u] kräver en starkare stängning med levator palatini EMG studier visar att det är omöjligt att binda någon viss muskel till en unik ljudkontrast, levator palatini kontrollerar också fonation och klusiler, t ex [b] Fonetiska särdrag

Koartikulation Man kan se talprocessen som bestående av individuella segment som samartikuleras OM det bara var ”tröghet” vore inte föregripande samartikulation vanligast Eftersom samartikulation alltid finns, kan man se talapparatens rörelser som ”kodade sekvenser som omfattar minst en stavelse”

Automatisering, koartikulation och planering Tal kan vara automatiserade rörelsemönster, för att utföra komplexa målrelaterade mönster av motor aktivitet. Involverar flera muskler Talaren är kreativ på en högre nivå, t ex att tänka ut vad han ska säga EMG-signaler från automatiserade rörelser är snabbare Målet kan vara att producera ett visst formantmönster (bite-block studies)

Biteblock-experiment Fp producerar t ex [pe], [pi] med biteblock på 5 mm och 15 mm Anpassar omedelbart artikulationen så att stavelserna låter normalt De automatiserade muskelkommandona kompletterades omedelbart av tung- och läpprörelser Detta gjordes inom ett par millisekunder vilket betyder att talaren inte kunde använt auditiv feedback

forts. Biteblock-experiment Har talaren ett slags mental representation av talapparaten? Målet är att producera en acceptabel akustisk signal (och detta kan ju göras på flera sätt, det viktiga är talrörets längd och areafunktionen) Vad är medfött av automatiserade motorkontroll-mönster?

forts. Automatiserade rörelsemönster Vad är medfött av automatiserade motorkontroll-mönster? Olika temporala mönster i svensk och amerikansk antecipatorisk läpprundning, amerikanska timelocked till 100 msek innan, svenska upp till 500 msek innan om föregående ljud är omarkerade för läpprundning

forts. Automatiserade rörelsemönster Barn lär sig att uttrycka kön med automatiserade rörelsemönster Även om f0 inte skiljer sig mellan könen kan 5-åriga pojkar (eller män med hög f0) identifieras genom att de använder liknande formantmönster som män Formanterna sänks genom läpprundning och larynxsänkning trots att de har samma längd på talröret som flickorna (jfr sångformanter) (jfr normaliseringsdia) Det är svårare att sänka sin f0 utan att få problem med rösten

Supralaryngal talrörsmodellering Analoga modeller har gjorts för att kunna studera effekten av manipulering av olika varirabler. Man kan få kvantitativa mått. Vi kan ju inte röntgenfilma allt i talproduktionen, vanligen bara från sidan Vi vill hitta tvärsnittsarean längs talröret Det finns också mekaniska modeller

Supralaryngal talrörsmodellering Några parametrar: Talrörsläng Läppöppning Platsen för förtränging i avstånd från glottis Tvärsnittsarean för förträngningen

Supralaryngal talrörsmodellering Resultat av talgenerering med analoga modeller: De flesta vokaler går att generera med mycket olika areafunktioner. Vissa av dessa stämmer med traditionell artikulatorisk fonetik, andra inte. Alltså kan de artikuleras med olika tungpositioner, läppöppning och läpprundning - artikulationens mål kan inte vara artikulatoriska utan är akustiska De enda vokaler som kräver vissa areafunktioner är [i], [u] och till viss del [a]

Felsägningar Evidens för olika enheter: särdrag, fonem, stavelser Strykning, tillägg, omkastning

Talproduktionsteorier Invariansproblemet Talarorienterade produktionsteorier Lyssnarorienterade produktionsteorier

Målet för fonetisk teori Förklara: Hur vi producerar språkljud Hur dessa struktureras i lingvistiskt relevanta enheter Hur dessa avspeglar biologin i det mänskliga tal/språk-systemet Relatera till fonemsystemen i världens språk Barns språkutveckling Historiska ljudförändringar

Libermans & Blumsteins programförklaring ”Vi skulle kunna skaffa ’exakta’ inspelningar av talljuden i ett språk genom att göra en serie bandinspelningar som skulle bevara alla akustiska egenskaper som de signaler har som tjänar som tjänar som medel för talkommunikationen. Vi skulle, emellertid, inte ha isolerat de lingvistiskt relevanta fonetiska elementen i det språket. Vi skulle tex. inte kunna säga vad som utgör ett möjligt ord i språket ifråga”

Libermans & Blumsteins programförklaring ”Fonetiska teorier som predicerar vilka ljud som är möjliga i mänskligas språk, den relativa förekomsten av olika språkljud, hur barn tillägnar sig språk, vilka ljudförändringar som är mest sannolika eller effekten av olika fysiska anomalier på talet är alltså ”bättre” teorier än sådana som inte gör dessa prediktioner. Fonetiska teorier måste vara i stånd att förse oss med en förklaringsgrund för verkliga fysiska data.” Känns Lindbloms anda igen?

Traditionell artikulatorisk teori Bell´s vokalfyrsiding Behölls av Chomsky Halle särdragsteori Gjorde inga röntgenstudier Missade farynxkaviteten

rubrik Melville Bell, lära döva tala Alexander Graham Bell, hunden IPA, bakgrund (Jespersen, Passy, Sweet) IPAs vokalfyrsiding som är tänkt att avbilda vokalrymden som en funktion av olika tungpositioner.

Tungposition som funktion av vokalkvalitet. Talare 1. Bild som visar tungpositionen för en talare av amerikansk engelska som uttalar vokalerna [i], [I], [e], [E] och []. Bilden bygger på röntgenfotografier.

Tungposition som funktion av vokalkvalitet. Talare 2. Bild som visar tungpositionen för annan talare av amerikansk engelska som uttalar samma vokaler ([i], [I], [e], [E] och []).

Tungposition som funktion av vokalkvalitet. Talare 3. En tredje talare som gör samma sak

En jämförelse mellan de tre talarna. Talare 1 2 3 [i] [I] [e] [E] [] [i] [e] [I] [E] [] [i] [e] [I] [E] [] Olika areafunktioner kan ge samma ljud Plasticitet, bitblock Sidney Wood Indiska grammatiker Symbolerna i bilden visar vokalerna ordnade efter ”tungans högsta punkt”. Notera skillnaderna både med avseende på ordning och öppningsgrad.

Röntgenbilderna Eftersom det är små skillnader i tungläget måste de akustiska skillnaderna nås genom modifikation av hela talapparaten läpprundning och larynxsänkning, för att uppnå önskvärd areafunktion som genererar den akustiska signalen för vokalerna Enbart tungkonturen är inte en invariant specifikation av talrörets areafunktion Detta stämmer med resultaten av de analoga modellerna!

Och - samma akustiska resultat kan uppnås med olika artikulationer Och - samma akustiska resultat kan uppnås med olika artikulationer. (Buktalare!) Talare artikulerar alltså INTE exakt enligt de traditionella modellerna Olika för olika talare

artikulationsställning - akustiskt/perceptuellt resultat Vad detta enkla exempel illustrerar är att samma akustiska och perceptuella resultat kan åstadkommas med mer än en artikulationsställning för en given vokal. Vi kan i det sammanhanget påminna oss om Lindbloms APEX-modell som visar samma sak för konsonanter.

Ytterligare ett exempel Prevokalt [r] i amerikansk engelska kan artikuleras som antingen retroflext (streckad linje) eller ’bunched’ (heldragen linje). Samma fonem – olika artikulationssätt. Men inte nog med det, bunched [r] kan i sin tur artikuleras med (minst!) två olika tungställningar.

En unifierad teori Artikulation- perception Kommer till stor del från Jakobson-Fant-Halle – särdrag som har akustiska korrelat (närmare lyssnaren) De akustiska korrelaten ska vara baserade på fysiologiska begränsningar i talproduktionen

En unifierad teori En fråga var: varför är vokaler som [i] och [u] vanligast i världens språk? Quantal vowels … Vocal tract normalisation (men, women, adolescents) Peterson and Barney

En unifierad teori Vocal tract normalisation (män, kvinnor, ungdomar) Peterson and Barney Överlapp mellan fonemen Men, när grupperna delas upp uppstår 3 vokalfyrsidingar Om vokaler från olika grupper blandas uppstår feltolkningar, annars inte

En fysiologisk teori för vokaler Den traditionella vokalteorins tillkortakommande beror på att den utgår från invarianta artikulatoriska rörelser vilket som vi sett långt ifrån alltid är fallet. Det har gjort många försök att komma till rätta med detta problem som ju helt uppenbart har sin grund i att man måste förena både produktion och perception i samma teori, eventuellt med akustiken som förmedlande länk. Ett tidigt sådant försök trepresenteras av Jacobson, Fant och Halles (1963) Preliminaries to Speech Analysis, där de presenterar tre parallella särdragssystem för den artikulatoriska, akustiska och perceptoriska domänen. Men flera försök har följt. Vi ska titta på ett.

Kvantala vokaler Som vi vet bestäms talljudens kvalitet i första hand av artikulationsapparatens inställning. Om varje talare kunde producera talrörsinställningen med absolut precision och vi alla dessutom gjorde det på samma sätt så skulle den akustiska signal som är förbunden med ett visst språkljud alltid se likadan ut. Talproduktionen skulle avsevärt förenklas om det vore möjligt att producera invarianta akustiska signaler utan att behöva ancända mycket precisa artikulatoriska inställningar. Talperceptionen skulle också, förenklas om de talsignaler som används vore maximalt distinkta. Dessa förutsättningar är hörnstenarna i Stevens kvantalteori. Vi ska börja med att titta på en enkel modell av talröret.

Tvårörsmodell av talröret Som en första approximation kan man betrakta kvartsvågs-resonansen i de båda rören. Är de av samma längd blir resonansfrekvenserna desamma. En tvårörsmodell av talröret som ska simulera vokalen [a] Areafunktion för den tänkta vokalen

Formanfrekvenserna för F1 och F2 i en tvårörsmodell där man tagit hänsyn till kopplingen mellan rören I verkligheten blir det lite mer komplicerat eftersom det uppstår en akustisk koppling mellan de båda rören. Diagrammet till höger visar frekvenserna för F1 och F2 som funktion av delningspunktens (X) position. Vad vi kan se är att förändringar av delningspunktens läge omkring mittpunkten på skalan ger väldigt små förändringar av formantvärdena. Förstaformanten (F1) och andraformanten (F2) uträknade för den föregående tvårörsmodellen. Den horisontella skalan avser diskontinuitetspnktens (X) läge.

Kvantala vokaler Mer utgångspunkt från resonemang av denna typ undersökte Stevens om det kunde finnas stabila områden inom vokalrymden där förändringar i artikulationsställning fick endast minimala effekter på de resulterande formantfrekvenserna. Detta skulle ju innebära mycket gynnsamma ställen att artikulera talljud eftersom produktionen av ett sådant ljud inte skulle kräva så stor artikulatorisk precision som andra ljud. Stevens fann att det mycket riktigt fanns sådana ställen och att de dessutom motsvarade vokalljud som vi faktiskt använder. Stevens kallar sin teori för kvantalteorin för att markera artikulationsställningarnas diskreta karaktär.

Kvantala vokaler Andra akustiska faktorer som är viktiga för perceptionen är om det förekommer tydliga toppar i spektrum t.ex. för att två formanter ligger så nära varandra att de ’smälter samman’ perceptuellt. Vokalerna [i], [a], [u] är sådana exempel. I psykoakustiska test där uppgiften är vokalidentifiering har det regelbundet visat sig att vokalerna [i] och [u] är de som är lättast att identifiera. [a] klarar sig däremot inte lika bra. Mer om det senare.

Kvantala vokaler Midsagitala snitt, areafunktioner och överföringsfunktioner för vokalerna [i], [a], [u].

Kvantala vokaler Det är här värt att notera att vokalerna [i], [a], [u] är ett slags fonologiska grundvokaler som återfinns i alla världens språk. Det finns språk som endast har dessa tre (t.ex. Garawa, ett australiskt språk, och Inuit, ett grönländskt) och de som har fler inkluderar alla [i], [a], [u].

Talrörsnormalisering Två amerikanska forskare, Peterson och Barney, publicerade 1952 en vetenskaplig artikel som fått stor betydelse och som ofta citeras i sådana här sammanhang. Vi ska strax titta lite närmare på deras resultat men först lite om utgångspunkterna.

Talrörsnormalisering Undersökningen består av två delar – produktionsstudie och en perceptionsstudie. I produktionsstudien spelade de in alla amerikanska vokaler i kontexten h_d. (De ord de spelade in var: heed, hid, head, had, hod, hawed, hood, who’d, hud, och heard.) Totalt 76 talare spelades in, 33 män, 28 kvinnor och 15 barn

Talrörsnormalisering Här är Peterson och Barneys resultat presenterade i diagramform. Som man kan förvänta sig är spridningen betydande, men man kan också se att de olika vokalerna samlar sig i områden som inte i alltför hög grad överlappar med varandra. De inringade områdena representerar områden som omsluter 90% av en given vokaltyp. De felsvar som förekom i perceptionstestet förklaras f.ö. i hög grad av det överlapp som förekommer.

Fotnot [i] [a] [u] Om man på koordinataxlarna som bilden visar så kommer vokalerna att placera ut sig ungefär som vi ar vana att se dem i ett vokalfyrsidings-diagram. Detta är därför ett vanligt sätt att rita diagram av den här typen.

Talrörsnormalisering Finns det då något lingvistiskt/fonetiskt rimligt sätt att bringa den stora variationen under bättre kontroll? Vi vet ju att en stor del av variationen beror på att talarna består av både män och kvinnor och av barn och skillnaderna att talrörsstorlek mellan dessa kategorier såväl som mellan enskilda talare kan vara betydande. Om man tänker sig att talare inte försöker sikta in sig på exakta formantvärden - lika för alla talare, utan likartad talrörsinställning skulle det gå att rekonstruera denna ur kunskap om talarens storlek. Ett första, grovt sätt, att göra en sådan normalisering vore att utgå från gruppmedelvärden på storlek. Neary har gjort ett sådant försök baserat på Peterson & Barneys data.

Talrörsnormalisering Observera att [a] och [] ligger nära varandra. Dessa två vokaler var också de som oftast förväxlades i P & Bs lyssningstest. Vi finner också växling mellan dessa vokaler i många engelska dialekter. Medelvärden för formantfrekvenserna i Peterson & Barneys undersökning för vuxna män, vuxna kvinnor och barn ’normaliserade’ med hänsyn till talargruppernas beräknade talrörsstorlekar.

Talrörsnormalisering Resultat som de i föregående diagram och det faktum att i Peterson och Barneys lyssningstest förväxlingar endast förekom när lyssnarna inte visste vilken typ av talare de lyssnade till (när de gjorde det förekom nästan inga fel) antyder att vi som lyssnare på något sätt kan rekonstruera talarens storlek ur talet. Senare experiment har gett resultat som stödjer den hypotesen. Om man t.ex. klipper in ett [i] producerat av en talare med relativt låga formantvärden i en bärfras producerad av en talare med högre formantvärden kommer vokalen att höras som [e] om detta stämmer bättre överens med hur man föreställer sig att den mindre talaren skulle uttala den vokalen.

Fotnot: Alternativ till normalisering En annan teori, modulationsteorin, gör samma prediktion som normaliseringsteorin men från andra utgångspunkter. Här betraktas talarens röst istället som en ’bärvåg’ gentemot vilken lyssnare ’kalibrerar’ sin avkodning av det lingvistiska innehållet.

Fotnot: Alternativ till normalisering Olika typer av information som förmedlas av talsignalen enligt modulationsteorin Linguistic phonetic quality Social, conventional Expressive quality Psychological, within speaker variation Organic quality Physiological, anatomical, between speaker variation Perspectival quality Physical, spatial

The linguistic categorization of vowels Den vertikala axeln representerar F’2, vilket är en teoretisk konstruktion föreslagen av Fant i ett system där alla vokaler representeras som 2-formantvokaler. Frekvensskalan på bägge axlarna är mel, en psykologisk frekvensskala som liknar halvtonsskalan men inte är identisk med den. Den är härledd ut perceptuell halvering eller fördubbling av givna frekvenser. De svenska vokalerna i presenterade i ett diagram där skalan på axlarna är mel och andraformanten representeras av F’2.

The linguistic categorization of vowels De amerikanska vokalerna med värden hämtade från Peterson och Barney presenterade på samma sätt.

Fotnot: F2’ F2’ är en teoretisk konstruktion som bygger på perceptionsexperiment med tvåformantvokaler

The linguistic categorization of vowels En jämförelse av representationerna för svenska resp. amerikanska vokaler. Medan [i] - [a] axeln ser ungefär likadan ut skiljer sig placeringen av [u] markant. Lärdomen här är förstås att medan vokalsymbolerna är lingvistiskt härledda representerar diagrammen de akustiska värdena och vi kan inte utan vidare utgå ifrån att ett svenskt [u] och ett amerikansk är identiskt eller ens ska vara det.

Fotnot Mel-skalan som ett tag var populär har idag mest ett historiskt intresse. Den är framtagen ur lyssningsexperiment med rena, enkla toner (sinustoner) och dessa representera inte särskilt väl vår perception av komplexa ljud. den skal som idag används i sådana här sammanhang är Bark-skalan som på ett betydligt bättre sätt speglar perception av komplexa ljud.

Hz - Bark A B Vokalen [A] representerad på en Hertz-skala (A) och en Barkskala (B)

Fysiologiska randvillkor Medan vi i princip kan tänka oss oändligt många artikulationsställen för konsonanter verkar det inte förekomma mer än sju och inget språk använder alla sju. Stevens kvantalteori erbjuder en möjlig förklaring till detta.

Fysiologiska randvillkor En idealiserad modell av talröret vid produktion av en frikativa. Förträngningens position kan flytas genom att ändra på värdena för lb (bakre kavitetens längd) och lf (bakre kavitetens längd)

Fysiologiska randvillkor Om vi använder talrörsmodellen för att simulera alla möjliga lägen på förträngningen uppstår återigen områden där formanterna bara ändras obetydligt när förträngningens läge ändras. Dessa lägen motsvara dessutom ganska bra de artikulationsställen vi finner hos frikativor. Man skulle alltså kunna tänka sig att detta förklarar varför dessa artikulationsställen är de som verkar föredras i världens språk. (A) Resultatet av en datorsimulering av talrörsmodellen (B) konfigurationerna för ([p], [t] och [k]) i amerikansk engelska.

Fysiologiska randvillkor, en invändning Stevens modell förutsätter att förträngningens längd är 3 cm. Då uppstår de ’kvantala’ regioner han föreslår och som motsvarar de olika artikulationsställena. Engstrand och Lindblom har emellertid visat att även förträngningens längd har en avgörande betydelse. Ändras denna till 1, 2 eller 4 cm istället för 3 cm får vi andra stabila områden eller inga alls. Det vi vinner i den kvantala modellen ifråga om mindre precisionskrav på artikulationsställe verkar vi få betala med ökad precision ifråga om kontroll av förträngningens precisa längd. Det är på inget sätt självklart att det ena är att föredra framför det andra.

Akustisk invarians i talet Sökandet efter akustisk invarians har vägletts av två överväganden Vilka artikulatoriska tillstånd är minst benägna att påverkas av den akustiska variation som orsakas av fonetisk kontext eller koartikulationseffekter Hur processar hörselsystemet talljud Med andra ord, vilka akustiska egenskaper har störst sannolikhet för att vara rimligt konstanta i såväl artikulation som perception?

Akustisk invarians i talet En plats i den akustiska signalen där man försökt hitta sådana stabila egenskaper är där det förekommer snabba spektrala eller ljudstyrkeförändringar under relativt kort tidsrymd (någon eller några tiondels millisekunder). Ett sådant område är explosionsfasen i klusiler. Man har ansett att dessa områden borde vara minst utsatta för kontextberoende variation.

Akustisk invarians i talet Diagrammen till höger om vågformen visar spektra för explosionen i resp. konsonant. Som framgår skiljer de sig åt med avseende på var tyngdpunkten i spektrum ligger. Om variationen i produktion av dessa konsonanter inte skiljer sig åt mer än att dessa skillnader i tyngdpunkt bibehålls skulle detta kunna vara ett exempel på akustisk invarians. Diffuse falling Diffuse rising Compact Exempel på vågformer och spektra i explosionen för tre klusiler [b], [d] och [g] som följs av vokalen [A].

Akustisk invarians i talet, kommentar Stevens och Blumsteins modell har inte gett så övertygande resultat när den använts för automatisk taligenkänning. För initiala konsonanter fungerade den hyggligt, för finala ’sådär’ och för mediala inte alls.

Akustisk invarians i talet Visst stöd för modellen finns dock i som följande perceptionsexperiment visar.

Ett perceptionsexperiment Stimuli konstruerades ur syntetiska CV-stavelser där bitar av olika längd räknat från explosionens början klippts ut. Dessa presenterades sedan för lyssnare vars uppgift det var att identifiera antingen konsonanten eller vokalen. Det visade sig möjligt att korrekt identifiera konsonantens artikulationsställe. Men också vokalen kunde iden-tifieras även när ingen information om vokalens ’steady-state’ formanter fanns med. Stiliserat spektrogram som representerar ett stimulus med formanttrajektorier anpassade för stavelsen [da].

Ett perceptionsexperiment, en kommentar Jag är dock inte så säker på att detta verkligen utgör evidens för invarians. Om vi antar att tillräcklig talarspecifik information finns kvar även i mycket korta stimuli blir perceptionen av dessa inte principiellt annorlunda än för längre stimuli.

Andra möjliga kandidater för invarians Abrupt-kontinuerlig Klusiler har mycket snabba amplitudförändringar medan de i frikativor och halvvokaler är långsammare. Lyssnare kan utnyttja detta. Tredimensionellt frekvens, amplitud och tidsdiagram (kallas ofta för vattenfallsdiagram) för [bi] och [wi]. Konsonantens explosion ligger för bägge yttrandena vid 50 ms.

Abrupt-kontinuerlig, kommentar I själva verket är vår förmåga att skilja på abrupt och kontinuerlig mycket mer sofistikerad än vad Liebermans exempel antyder. Längst ner visas exempel på affrikatan [tS] och frikativan [S] uttalade av två talare. Om man utgående från dessa inspelningar skapar nya stimuli där stigtiden för bruset i konsonanten systematiskt varieras från den som gäller för [S] till den som gäller för [tS] och presenterar dessa för lyssnare så klassificerar de konsonanten som [S] eller [tS] beroende på hur abrupt den börjar och området inom vilket de ’ändrar uppfattning’ är ganska kort som framgår av diagrammet

Andra möjliga kandidater för invarians Ett alternativt och diametralt motsatt synsätt till enstaka invarianta ledtrådar för perceptionen är det Lieberman kallar ”many-to-one-mapping” i samband med tonande-tonlös-kontrasten. I olika perceptionsstudier har åtminstone följande 19 ledtrådar var för sig visat sig kunna användas av lyssnare för att avgöra distinktionen tonande-tonlös. Vad detta tyder på är att vi i talperceptionen integrerar all tillgänglig information snarare är letar efter enstaka invarianta ledtrådar.

19 Ledtrådar för kontrasten tonande-tonlös VOT Duration of preceding vowel Duration of the following vowel Duration of closure Duration of aspiration Duration of voiced-formant transition First-formant offset frequency before closure First-formant onset frequency following closure First-formant offset transition duration First -formant onset transition duration First-formant cutback before closure First-formant cutback after closure Onset frequencies and directions of second- and third-formant transitions Amplitude of the following vowel relative to the preceding vowel Spectral characteristics of the following vowel Fundamental frequency at voicing onset Presence or absence of low-frequency buzz during the closure interval Decay time of glottal signal preceding closure Burst intensity following closure