Katarina Mühlenbock, datalingvist

Slides:



Advertisements
Liknande presentationer
AKTIESPARARNA ÖSTERSUND Presentation
Advertisements

Talföljder formler och summor
BILDERBÖCKER PÅ GYMNASIET? Ja – av många skäl!
Ruskigt smidiga arbetsprocesser
Centrum för lättläst
Ulla Stina Åman Pedagogisk utveckling Lärum Lärum-förlaget
Provbetyg – Slutbetyg Likvärdig bedömning? En statistisk analys av sambandet mellan nationella prov och slutbetyg i grundskolan,
Läsfrämjande inom studieförbunden Kultur i Väst
Kap 1 - Algebra och linjära modeller
Att skriva sig till läsning
Historiebruk.
Varför grammatik? Vad är ordklasser?
Mål och betygskriterier
Skriva för webben.
Massmedia och reklam.
Att bygga en fungerande webbplats
Utlandsstudier för I:are
Meritportfölj målet - CV och presentation
Läsvanestudien En presentation från Dagspresskollegiet.
Vad man kan få ut av statistik över alumnerna - några exempel
Formellt, skarpt och snyggt
- Hur vet vi om vi har lyckats?
ATT PRODUCERA EN UNDERSÖKNING
Språkteknologisk forskning och utveckling (HT 2007)
Vad är egentligen lättläst och tillgängligt
Reflektioner kring FU 2012 Enheten för miljöekonomi vid institutionen för nationalekonomi med statistik, Göteborgs Universitet. Magnus Hennlock.
Svenska WebDewey Introduktion
Lättläst på webben Mittuniversitet 2 och 23 april 2007
 SLIM-forskarskolan – språk och lärande i mångfaldsperspektiv  Ingår i lärarlyftet, en satsning på fortbildning och forskarutbildning för lärare.  Licenciatexamen.
Svenska WebDewey Introduktion Harriet Aagaard Svenska Deweyredaktion
Marknadsförarens mall för att skapa köpares persona!
Statistik: Lubas-texterna på lu.se PROGRAM SAMT KURSER PÅ GRUNDNIVÅ.
1 Vänsterskolan Debattartiklar. 2 Aktuell krok 3 Aktuella krokar 1. Direkt krok.
Projekt. Det körs liksom projekt överallt, det slösas med pengar men vad leder de egentligen till?
Med brukarna i centrum eller vilken roll kan Daisy/Epub spela när det gäller universell utformning? - om Begripsam UD2014 The web and cognitive disabilities.
Outline för dagens övning
Barnets rättigheter i Sverige och för alla barn i världen
Inspirationsmaterial om... Material och förberedelser (ev säkerhet) Aktivitet - vad handlar det om Bild Begrepp, ord, matematik Vad behöver barnen ha för.
Logoped Lena Nilsson Logoped Elin Berglund
Marknadsförarens mall för att skapa köpares persona!
Håkan Jönson Socialhögskolan i Lund
Carolyn Marvin, When old technologies were new: Thinking about electric communication in the late nineteenth century (1988) nya teknologier, nya medier.
Barnets rättigheter i Sverige och för alla barn i världen
Alkohol och hälsa, Göteborg, 2011 Fredrik Spak, lektor, docent Enheten för socialmedicin Sahlgrenska akademin Göteborgs universitet Specialist.
BREDDAD REKRYTERING.
Skriftlig individuell uppgift Interaktionsdesign i digitala medier (A.1) HT-2012, 7,5 hp Lärare: Daniel Nylén.
Inspirationsmaterial om... Material och förberedelser (ev säkerhet) Aktivitet - vad handlar det om Bild Begrepp, ord Vad behöver eleverna ha för erfarenheter.
Läsbar prolog CM 8.1. allmäna principer correctness user-friendliness efficiency readability modifiability robustness documentation.
1 L U N D S U N I V E R S I T E T Resultat av internundersökning om information på LTH Genomförd våren 2007.
KÄLLKRITIK & INFORMATIONSSÖKNING
Från riktlinjer och evidens till förebyggande i praktiken Matti Leijon, MPH, PhD Forskningskoordinator Centrum för primärvårdsforskning (CPF) Region Skåne.
Genrer Ett specifikt syfte – avgör vilken genre det handlar om
Förmedling på webben. Vad tycker barnen? Hittar barn till våra lästips?
Formellt, skarpt och snyggt
Skriftlig framställning
Bedömning av text Innehåll Texten är lätt att följa och förstå. Innehållet stämmer med uppgiften och följer instruktionerna. Längden på texten är tillräcklig.
Att skriva vetenskapligt
NE.se Ale Kommuns avtal. Syn på kunskap  Hämta information  Söka svar  Lita på fakta.
Elever läser. Luke och Freebody Kodknäckande praktiken – förstå samband mellan talade ljud och skrivna symboler. Textdeltagande – semantisk förståelse,
Hur trovärdiga är ungas nyhetflöden?
Svenska som andraspråk 3
Föräldramöte Tomtebogård
En lättläst sajt om politik
Ale Kommuns avtal NE.se.
En vetenskaplig poster Carolina Klyftig Flink, RN Msc1-3, Folke Ohlsson Urs PhD2-3. (1) Centrum för klinisk forskning (2) Primärvårdens FoU-enhet (3)
Ett samarbetsprojekt mellan
3 faser och 19 punkter Avsnitt 3
Kursplan för svenskundervisning för invandrare
Inför NP Svenska Våren 2019.
Slutsats Berätta alltid huvudbudskapet först, studiens slutsats
Presentationens avskrift:

Katarina Mühlenbock, datalingvist I see what you mean – Assessing readability for specific target groups Avhandling vid Språkbanken, Institutionen för svenska språket, Göteborgs universitet Temadag DART Katarina Mühlenbock, datalingvist katarina.muhlenbock@vgregion.se katarina.heimann.muhlenbock@gu.se

Disposition av presentationen Syftet med avhandlingen Enkel svensk text Målgruppen Textförenkling Läsbarhet Hur kan språkteknologiska metoder användas för att mäta läsbarhet? Vilka egenskaper hos texten har jag studerat? Resultat

Syftet med avhandlingen Avhandlingsämnet Syftet med avhandlingen Granska vetenskaplig litteratur och hitta belägg för att vissa egenskaper hos en text påverkar komplexitet och läsbarhet (= evidensbaserat) Egenskaperna ska vara belagda genom läsförståelsetest, ögonrörelsemätning eller hjärnavbildningsteknik Statistiskt jämföra egenskaperna hos texter som tillhör samma genre (skönlitteratur, nyhetstext eller information), men av olika komplexitet Skapa en språkmodell att använda i en automatisk textklassificerare

”Enkel svensk text” Centrum för lättläst ”Lättläst” (25% av Sveriges befolkning…) Regeringskansliet (Språkrådet) ”Klarspråk” (arbetar för att skapa ett förenklat kanslispråk) Radions P4 ”Klartext” (nyheter på lätt svenska) Olika specialförlag Lättläst: Centrum för Lättläst arbetar sedan 1968 på regeringens och riksdagens uppdrag med att göra texter tillgängliga för människor som av olika anledningar har lässvårigheter eller är otränade läsare. Klarspråk: Språkvård för myndigheter: Hjälp i arbetet att göra texter tillgängliga för alla, vilket är en demokratifråga Bedrevs tidigare av Klarspråksgruppen i Regeringskansliet, ansvaret är nu flyttat till Språkrådet

Enkel svensk text Lättläst Viktigt: Tillgänglighetsfråga, väldigt lite gjort för svenska. Samhällets krav på medborgarnas förmåga att ta till sig text ökar. Svårt: Det finns ingen enighet i forskning eller praktik om: vad som är lättläst hur mottagaranpassning ska se ut och praktiskt genomföras Aktuellt: Tillgänglighetsåret 2010 har passerat, omdebatterat just nu Bland annat i relation till Språklagen. Språkteknologin ger nya möjligheter.

”Lättläst text” enligt CfL – för vem? Enkel svensk text ”Lättläst text” enligt CfL – för vem? ”Cirka 25% av Sveriges vuxna befolkning behöver lättläst information”. www.lattlast.se Heterogen grupp vuxna personer med olika behov: Dyslektiker Afatiker Personer med lindrig intellektuell utvecklingsstörning Andraspråksinlärare IALS-projektet (International Adult Literacy Survey), OECD 1994. ”En av fyra dagstidningsläsare har svårigheter att tillgodogöra sig vanliga nyhetsartiklar där de inte är välbekanta med innehållet. Lågfrekventa ord bör undvikas, liksom abstrakta begrepp som kräver flera tolkningssteg för att förstå vad som åsyftas. Konkreta rubriker, bilder och bildtexter, samt omsorgsfull redigering gör det möjligt att förstå även ganska komplicerad texter.” (Mats Myrberg, Lärarhögskolan i Stockholm)

Målgruppen personer med intellektuell utvecklingsstörning Mellan 0,4 och 0,5 % av befolkningen enligt administrativa uppgifter (insatser enligt LSS eller särskolebehov) Mellan 2 och 3 % av befolkningen enligt psykologiska definitioner (< 70 IQ) indelning i 4 grupper har gjorts av WHO, i praktiken bara 3 Lätt eller lindrig utvecklingsstörning (24%) Måttlig (34%) Svår (41%) Antalet personer i målgruppen 50 000 – 60 000 i Sverige Läsbegränsningar: Arbetsminne och diskursrepresentationer

Exempel Originalversion Lättläst version Textförenkling Exempel Originalversion Lättläst version På våra sidor hittar du information om all utbildningsverksamhet i Linköping för barn, ungdomar och vuxna. Här finns också information om vad vi erbjuder för verksamhet under lov och fritid, vilket stöd vi kan erbjuda för olika behov samt hur vi arbetar med att utveckla verksamheten. Vill du veta hur vi är organiserade eller vem som jobbar med vad i vår organisation tryck på länken "Utbildningsförvaltningen" till höger.  Här hittar du information om all utbildning i Linköping. Du får också veta vad man kan göra på lov och fritid. Vi berättar om vilket stöd vi kan ge, ifall du behöver det. Du kan också läsa om vad vi gör för att bli bättre. Klicka på länken "Utbildningsförvaltningen" till höger, ifall du vill veta mer.  Där kan du också kontakta oss. Vill du veta mer hur vi är organiserade = oinledd konditionell bisats. Deklarativa huvudsatser bättre 3 meningar om i medeltal 22 ord Långa ord (21 % > 6 bokst) Diffusa begrepp 6 meningar om i medeltal 10 ord Färre långa ord (11 % > 6 bokst) Diffusa begrepp förenklade

Hur undersöker man läsbarhet? Litar på sin språkliga intuition Granskar olika läsbarhetsfaktorer i en given text Samlar in en korpus med enkel text för att dra slutsatser om materialet Granskar parallella texter för att undersöka om det finns statistiska mönster som kan ge användbar information Intervjuar/filmar testpersoner under läsning Observerar testpersoners ögonrörelser under läsning Observerar testpersoner med hjärnavbildningsteknik under läsning Kombination av 3 och 4 = statistisk språkmodellering

Läsbarhet Relation mellan läsaren och texten Påverkas av individens kognitiva förutsättningar (perception, minne, intelligens, språk) Påverkas av individens emotionella förutsättningar (motivation) Evidensbaserade svenska undersökníngar av om en text har hög/låg läsbarhet: Textundersökning Björnsson, 1968 Individundersökning Ögonrörelsestudier Läsförståelsetester Hjärnavbildningsmetoder (fMRI o ERP) ?

Läsbarhet Läsbarhetsfaktorer Läsbarhetsfaktorer: ordens längd, procenttalet flerstaviga ord, textens abstraktionsgrad, bisatstäthet m.m. Läsbarhetsforskning har främst bedrivits i USA, start runt 1920-30- talet (Lively & Pressey, Vogel & Washburne, Lewerentz, Dale & Tyler, Gray & Leary, Morris & Holversen) Förfinade statistiska beräkningar 1940-50-talet (Flesch, Dale & Chall, Gunning) 1968 kom LIX (Läsbarhetsindex) för svenska (Björnsson)

Läsbarhet Läsbarhetsfaktorer i amerikanska studier 1920-30-talet (enl Chall, J.S. 1958, Klare, G.R. 1963) Lively & Pressey Vogel & Washburne Lewerentz Dale & Tyler Thorndike Gray & Leary Morris & Holversen Ordlängd i stavelser I Thorndikes ordlista Svåra ord Förnimmelseord Pers pronomen Prepositioner Olika tekniska ord Ordvariation Prepositionsfraser Meningslängd Enkla meningar (empiriskt urval) Kontext ”Begrepp” De flesta läsbarhetsformler anger ngt mått på syntaktisk komplexitet och semantisk svårighetsgrad genom att man beräknar meningslängd för att ange den syntaktiska komplexiteten och beräkning av stavelser eller ordfrekvenser för att bestämma den semantiska svårighetsgraden. Andra variabler som man har upptäckt påverkar läsbarheten är antalet prepositionsfraser, personliga pronomen och antal bisatser. De interna faktorerna har man kommit fram till genom att använda intuition, erfarenhet eller genom att man gjort empiriska undersökningar. Man har sedan angivit dessa mått i kvantitativa termer genom att mekaniskt räkna t.ex. antalet prepositioner i ett visst texturval.

Björnssons undersökning av läsbarhetsfaktorer för svenska

Läsbarhet Läsbarhetsindex = numerisk skala där olika läsbarhetsnivåer kan jämföras Läsbarhetsformel = en uppsättning läsbarhetsvariabler (symboler) Framför allt amerikanska studier av engelska språket, räknas oftast i meningslängd och genomsnittligt antal stavelser i texten Är avsett att indela text i olika nivåer beroende på svårighetsgrad Kopplat till nivåerna i det amerikanska skolsystemet (ex. 6.8 på skalan för Flesch-Kincaid index = 6e klass) Svenska läsbarhetsformeln LIX baserad på procentandel ord > 6 bokstäver och genomsnittlig meningslängd:

Jämförelse LIX / Amerikanska läsbarhetsindex

Läsbarhet Chall (1958): ”Only four types of elements are significantly related to the criteria so far used: vocabulary load,sentence structure, idea density, human interest” Chall, J. (1958): Readabilty. An appraisal of research and applications. Vokabulärtyngd Meningsstruktur Idétäthet Mänskligt intresse Chall sammanfattar dåtida läsbarhetsforskning så här:

Hur kan språkteknologiska metoder användas för att mäta läsbarhet? Samlar in en korpus med enkel text från olika genrer för att sedan statistiskt jämföra med motsvarande ordinära texter Materialet måste förberedas genom att tillföra information om: - ordklass (POS-taggning) - meningsstruktur (parsning) - betydelsedjup (associationslexikon) - ordens frekvens/spridning (SweVoc)

Korpusen LäSBarT Korpusen SUC 2.0 Lättläst Svenska och BarnboksText Språkteknologi Korpusen LäSBarT Korpusen SUC 2.0 Lättläst Svenska och BarnboksText Texter från 2000 -> 1,4 miljoner ord Innehåller material från fyra olika genrer och av två texttyper Stockholm-Umeå corpus Texter från 1990-talet 1 miljon ord Innehåller material från olika genrer och olika stilnivåer Genre Lättläst Ordinär Barnbokstext 122 000 421 000 Skönlitteratur för vuxna 116 000 164 000 Nyhetstext 391 000 88 000 Informationstext 20 000 140 000 649 000 813 000

Språkteknologi Vilka språkliga särdrag kan indikera komplexitetsgrad? Resultat från parvisa jämförelser lättläst/ordinär text Nivå Särdrag Signifikans Ytstruktur Ordlängd i antal bokstäver X Ordlängd i antal stavelser Meningslängd i antal ord ”Långa ord” > 6 bokstäver Antal unika ord (för/subst, för/verb, för/konj) Antal unika lemman (för, fört, förde, fördes/verb) Type/token ratio Ordvariationsindex Vokabulärtyngd Lemmavariationsindex SweVoc (svensk basvokabulär)

Forts. Vilka språkliga särdrag kan indikera komplexitetsgrad? Språkteknologi Forts. Vilka språkliga särdrag kan indikera komplexitetsgrad? Nivå Särdrag Signifikans Meningsstruktur Dependensavstånd X Antal underordnade satser Prenominala modifierare Postnominala modifierare Parsträdets djup Idétäthet Propositionstäthet Relationen subst/pronomen (X) Nominalkvot Semantiskt djup Intressegrad Andelen personnamn Resultat = språkmodellen SVIT (sentence structure, vocabulary load, idea density and human interest)

Resultat Kan de föreslagna särdragen avslöja texttyp? Resultat av automatisk textklassificering med LIX och SVIT Testset Modell F-score Lättläst barnbokstext LIX 66,8 SVIT 68,4 Ordinar barnbokstext 34,6 61,9 Lättläst skönlitteratur för vuxna 28,6 68,1 Ordinär skönlitteratur för vuxna 28,1 83,9 Lättläst nyhetstext 48,2 89,2 Ordinär nyhetstext 24,6 85,1 Lättläst informationstext 12,7 87,0 Ordinär informationstext 58,8 84,9

Exempel på verb i lättläst text som saknas i SUC Genre Totalt antal Domän- spec Andel Domäntyp/ exempel Språkl variant/ exempel Ordtyp/ Barnlitteratur 61 17 28% Hästsport: tränsa Sport: glidtackla Hobby: meka Generell: hånskratta Jargong: paja Neologism: messa Vuxenlitteratur 22 Generell: storgråta Jargong: flabba, jävlas, tjacka Nyhetstext 35 6 17% Sport: spurta, väggpassa Medborgare: dataspionera, hungerstrejka, könsstympa Generell: festa Neologism: fildela Samhällstext 46 32 70% Medborgare: poströsta, slutförvara, migrera Konsument: kallröka, småäta, genmodifiera Sport: bowla Generell: ösregna Neologism: e-posta Barnlitt+nyhet 5 Generell: plåstra_om Jargong: deppa Barnlitt+samh Barnlitt+vuxenlitt Samhällst+nyhet Barnlitt+nyhet+ Vuxenlitt 1 Generell: rasta Generell: rufsa Generell: hitta_på Neologism: chatta Barnlitt-delen är lika stor som vuxenlitt-delen. Trots detta har barnlitt-delen större verbvarians, 61 saknas i SUC. Även om man räknar bort de domänspecifika, så är andelen verb ej i SUC dubbelt så många. Samhällstexten har som väntat en stor andel domänspecifika verb, c:a 70%. Nya verb hör fr.a. till IT-domänen.

Referenser: Björnsson, C.H. (1968). Läsbarhet. Liber, Stockholm. Chall, J. (1958). Readability. An appraisal of research and application. Bureau of Educational Research, Ohio.