SpråkVis – Språkteknologisk vismansrapport Krister Lindén, Kimmo Koskenniemi och Torbjørn Nordgård
Mandat Nordiska Ministerrådet Identifiera! Åtgärdsförslag tioårsplan nordiska (och baltiska) länderna ledande region i språkteknologi Identifiera! nyckelområden storlek på nödvändiga investeringar samarbetspartners samarbetsformer Åtgärdsförslag
Arbetsform bakgrundsinformation frågeformulär tidigare projekt i norden → bakgrund tidigare projekt i de nordiska länderna → projettabeller policydokument och rapporter → referencer frågeformulär hinder, vision, åtgärdsförslag (70 inbjudna) 30 svarade → nyckelområden
Bakgrund Nordisk Sprogteknologisk Forskningsprogram 2000-2004 höja profilen för det nordiska språksamfundet säkerställa god nordisk språkteknologi för användarna ca. 5 miljoner DKK årligen (23 278 500 DKK) dvs. Norden 0,6 M€/år (tot. 3,1 M€)
Nordiska länder Land Årligen Per invånare Danmark 0,9 M€ 0,2 € Finland 2,1 M€ 0,4 € Island 0,2 M€ 0,7 € Norge 3,1 M€ 0,7 € (0,2 €) Sverige 1,6 M€ 0,2 € Norden 0,6 M€ 0,02 €
Vad gjordes för pengarna? Land Text Tal Danmark x (x) Finland (x) x Island x (x) Norge x x Sverige x (x) Norden x (x) Är det vettigt att på nordisk nivå göra precis som i de enskilda nordiska länderna? Kan man fördela arbetet? Det finns ju gott om uppgifter. Vad kan man göra med offentliga medel på nordisk nivå som gynnar alla och samtidigt gynnar en marknad för språkteknologi?
Vad borde göras? Nyckelområden: Policy Resurser Forskning och utveckling Utbildning och undervisning Lagstiftning Affärsverksamhet
Policy språkteknologi har en nyckelposition för våra språk och vår kultur → behöver språkteknologisk infrastruktur små språksamfund kommer inte att få språkteknologi på kommersiella grunder → behöver statligt stöd på nordisk nivå behöver vi komma överens om rekommendationer → BLARK-rapport bör utarbetas där de grundläggande språkresurserna i Norden kartläggs 10-25 k€/språk på nordisk nivå kan vi stöda sådant som alla har nytta av → metoder, standarder, avtalsmodeller (medan korpus bör samlas in på nationell nivå) arbetet behöver koordineras → en förening för tal- och språkteknologi: NEALT (Northern European Association for Language Technology) 50 k€
Resurser Resurser för språkteknologisk infrastruktur färdig uppsättning moduler morfologiska och syntaktiska analysatorer och generatorer (2-5 M€) redskap för att bygga ovanstående (2-5 M€) korpus annoterade och oannoterade (10-15 M€ per språk) lexikon tal och skriftspråk (10 M€ per språk) OBS! Vi måste göra något för att få ner utvecklingskostnaderna på korpus och lexikon för språkteknologisk forskning och produktuveckling t.ex. genom lagstiftning och avtal
Forskning och utveckling Det borde vara praxis att forskare gör sina lingvistiska resurser tillgängliga för andra med så fria licensavtal som möjligt → modellavtal 50 k€ Dessutom bör vi överväga att öppna upp språkteknologiska resurser som utvecklats med offentliga medel → vi bygger nordisk infrastruktur Vi har ju inte offentligt finansierade vägar enbart i privat bruk! Vi bör utveckla API-standarder, kvalitetsstandarder och testmetoder för färdiga moduler → 15 M€ På nationell nivå bör vi satsa på specialområden där de olika länderna har kärnkompetens: grundforskning 15 M€ tillämpad forskning 50-80 M€
Utbildning och undervisning En tillräcklig mängd specialister bör behärska de mest avancerade språkteknologiska färdigheterna Dokumentera existerande resurser 1 M€ Utveckla material för undervisning av formell språkkunskap i skolorna 1 M€ Introduktionsmaterial för att distansutbilda personalen inom IT-industrin i språkteknologi 50 k€ Vetenskaplig tidskrift på internet för NEALT 50 k€ Master's utbildningen diversifieras genom distansundervisning, utbytesprogram, gemensamma utbildningsprogram 2 M€ Koordinera doktorsutbildningen: NGSLT 1 M€
Lagstiftning Lagstiftningen bör ändras så att det blir möjligt att samla in, annotera och sprida text- och talkorpus för forskning och utveckling av språkteknologiredskap utan att det strider mot kopieringskyddet 10 k€ Dessutom måste vi på oliks sätt motarbeta tendensen att det utfärdas programvarupatent på UPPENBARA eller EXISTERANDE lösningar.
Affärsverksamhet Licensvillkoren för språkteknologiresurser måste tillåta och uppmuntra både kommersiell och akademisk användning. Tillämpad forskning på medellång sikt bör uppmuntras nationellt för att skapa tillämpningar som utnyttjar språkteknologi 5 M€ Man kunde stimulera marknaden för språkteknologi genom att anslå medel för den offentliga sektorn att utveckla service med språkteknologiska hjälpmedelmedel 5 M€
Åtgärdsplan Vi föreslår att resurser allokeras för: Etablering av NEALT och dess arbetsutskott Mandat för att utarbeta BLARK-rapporter för de nordiska språken Nordisk finansiering av samarbete inom språkteknologisk utbildning och undervisning Nationell finansiering av tillämpad forskning på medellång sikt i samarbete mellan universitet och industri När BLARK-rapporterna har färdigställts, bör resurser under NEALTs koordinering allokeras för: nordisk finansiering av språkteknologiska redskap baserade på BLARK-rapporternas rekommendationer nordisk och nationell finansiering av korpus, trädbanker, och lexikon i enlighet med BLARK-rapporterna