SpråkVis – Språkteknologisk vismansrapport Krister Lindén, Kimmo Koskenniemi och Torbjørn Nordgård
Mandat •Nordiska Ministerrådet –tioårsplan –nordiska (och baltiska) länderna –ledande region i språkteknologi •Identifiera! –nyckelområden –storlek på nödvändiga investeringar –samarbetspartners –samarbetsformer •Åtgärdsförslag
Arbetsform •bakgrundsinformation –tidigare projekt i norden → bakgrund –tidigare projekt i de nordiska länderna → projettabeller –policydokument och rapporter → referencer •frågeformulär –hinder, vision, åtgärdsförslag (70 inbjudna) –30 svarade → nyckelområden
Bakgrund •Nordisk Sprogteknologisk Forskningsprogram –höja profilen för det nordiska språksamfundet –säkerställa god nordisk språkteknologi för användarna –ca. 5 miljoner DKK årligen ( DKK) dvs. Norden 0,6 M€/år (tot. 3,1 M€)
Nordiska länder LandÅrligenPer invånare •Danmark0,9 M€0,2 € •Finland2,1 M€0,4 € •Island0,2 M€0,7 € •Norge3,1 M€0,7 € (0,2 €) •Sverige1,6 M€0,2 € •Norden0,6 M€0,02 €
Vad gjordes för pengarna? LandTextTal •Danmarkx(x) •Finland(x)x •Islandx(x) •Norgexx •Sverigex(x) •Nordenx(x) –Är det vettigt att på nordisk nivå göra precis som i de enskilda nordiska länderna? Kan man fördela arbetet? Det finns ju gott om uppgifter. –Vad kan man göra med offentliga medel på nordisk nivå som gynnar alla och samtidigt gynnar en marknad för språkteknologi?
Vad borde göras? Nyckelområden: –Policy –Resurser –Forskning och utveckling –Utbildning och undervisning –Lagstiftning –Affärsverksamhet
Policy •språkteknologi har en nyckelposition för våra språk och vår kultur → behöver språkteknologisk infrastruktur •små språksamfund kommer inte att få språkteknologi på kommersiella grunder → behöver statligt stöd •på nordisk nivå behöver vi komma överens om rekommendationer → BLARK-rapport bör utarbetas där de grundläggande språkresurserna i Norden kartläggs k€/språk •på nordisk nivå kan vi stöda sådant som alla har nytta av → metoder, standarder, avtalsmodeller (medan korpus bör samlas in på nationell nivå) •arbetet behöver koordineras → en förening för tal- och språkteknologi: NEALT (Northern European Association for Language Technology) 50 k€
Resurser •Resurser för språkteknologisk infrastruktur –färdig uppsättning moduler •morfologiska och syntaktiska analysatorer och generatorer (2-5 M€) –redskap •för att bygga ovanstående (2-5 M€) –korpus •annoterade och oannoterade (10-15 M€ per språk) –lexikon •tal och skriftspråk (10 M€ per språk) OBS! Vi måste göra något för att få ner utvecklingskostnaderna på korpus och lexikon för språkteknologisk forskning och produktuveckling t.ex. genom lagstiftning och avtal
Forskning och utveckling •Det borde vara praxis att forskare gör sina lingvistiska resurser tillgängliga för andra med så fria licensavtal som möjligt → modellavtal50 k€ •Dessutom bör vi överväga att öppna upp språkteknologiska resurser som utvecklats med offentliga medel → vi bygger nordisk infrastruktur –Vi har ju inte offentligt finansierade vägar enbart i privat bruk! •Vi bör utveckla API-standarder, kvalitetsstandarder och testmetoder för färdiga moduler → 15 M€ •På nationell nivå bör vi satsa på specialområden där de olika länderna har kärnkompetens: –grundforskning15 M€ –tillämpad forskning50-80 M€
Utbildning och undervisning •En tillräcklig mängd specialister bör behärska de mest avancerade språkteknologiska färdigheterna –Dokumentera existerande resurser1 M€ –Utveckla material för undervisning av formell språkkunskap i skolorna1 M€ –Introduktionsmaterial för att distansutbilda personalen inom IT-industrin i språkteknologi50 k€ –Vetenskaplig tidskrift på internet för NEALT50 k€ –Master's utbildningen diversifieras genom distansundervisning, utbytesprogram, gemensamma utbildningsprogram2 M€ –Koordinera doktorsutbildningen: NGSLT1 M€
Lagstiftning •Lagstiftningen bör ändras så att det blir möjligt att samla in, annotera och sprida text- och talkorpus för forskning och utveckling av språkteknologiredskap utan att det strider mot kopieringskyddet10 k€ •Dessutom måste vi på oliks sätt motarbeta tendensen att det utfärdas programvarupatent på UPPENBARA eller EXISTERANDE lösningar.
Affärsverksamhet •Licensvillkoren för språkteknologiresurser måste tillåta och uppmuntra både kommersiell och akademisk användning. •Tillämpad forskning på medellång sikt bör uppmuntras nationellt för att skapa tillämpningar som utnyttjar språkteknologi5 M€ •Man kunde stimulera marknaden för språkteknologi genom att anslå medel för den offentliga sektorn att utveckla service med språkteknologiska hjälpmedelmedel 5 M€
Åtgärdsplan Vi föreslår att resurser allokeras för: •Etablering av NEALT och dess arbetsutskott •Mandat för att utarbeta BLARK-rapporter för de nordiska språken •Nordisk finansiering av samarbete inom språkteknologisk utbildning och undervisning •Nationell finansiering av tillämpad forskning på medellång sikt i samarbete mellan universitet och industri När BLARK-rapporterna har färdigställts, bör resurser under NEALTs koordinering allokeras för: •nordisk finansiering av språkteknologiska redskap baserade på BLARK-rapporternas rekommendationer •nordisk och nationell finansiering av korpus, trädbanker, och lexikon i enlighet med BLARK-rapporterna