Maria Holmqvist 23 februari 2011

Slides:

Advertisements

Liknande presentationer

Idéer för ett bredare entreprenörskap

Advertisements

Att förstå anonymiteten (översättning från

Från Vasatid till Vasalopp Lpp Historia åk 5, Vasatiden

Svenska WebDewey Introduktion

Här ser ni några sidor som hjälper er att lösa uppgifterna:

Provbetyg – Slutbetyg Likvärdig bedömning? En statistisk analys av sambandet mellan nationella prov och slutbetyg i grundskolan,

Kap 1 - Algebra och linjära modeller

F3 Matematikrep Summatecknet Potensräkning Logaritmer Kombinatorik.

”Språk, lärande och identitetsutveckling är nära förknippade

hej och välkomna EKVATIONER Ta reda på det okända talet.

Mottagande / Publik och programforskning. Fem traditioner (Jensen & Rosengren 1990): •effektstudier •uses and gratifications •litterär kritik •kulturstudier.

BENÄMNA lätta ord SPRÅKTRÄNING VID AFASIKg VIII

Prolog, Mån 16/9 Rebecca Jonson.

Leif Håkansson’s Square Dancer Rotation

Språkteknologisk forskning och utveckling (HT 2007)

Next previous Refactoring och lite mönster kodade i Java Innehåll Vad är refactoring? Ett större refactoringexempel Några mönster kodade i Java OOMPA 2000.

Eddie Arnold - Make The World Go Away Images colorées de par le monde Déroulement automatique ou manuel à votre choix 1 för dig.

Svenska p Svenska p.

FL9 732G70 Statistik A Detta är en generell mall för att göra PowerPoint presentationer enligt LiUs grafiska profil. Du skriver in din rubrik,

Statsvetenskap 3, statsvetenskapliga metoder

MEDELVÄRDE, MEDIAN & TYPVÄRDE

Förstudie 2. Design 3. Migrering 4 Analys av befintlig miljö –Microsoft Assessment and Planning (MAP) kan användas för att analysera sin miljö.

732G22 Grunder i statistisk metodik

FL2 732G70 Statistik A Detta är en generell mall för att göra PowerPoint presentationer enligt LiUs grafiska profil. Du skriver in din rubrik,

732G22 Grunder i statistisk metodik

Svenska WebDewey Introduktion

Karolinska Institutet, studentundersökning Studentundersökning på Karolinska Institutet HT 2013.

Bastugatan 2. Box S Stockholm. Blad 1 Läsarundersökning Maskinentreprenören 2007.

Fastighetsbyrån Konjunkturundersökning Oktober 2012.

© Steve Wretman & Helena Moreau

Svenska WebDewey Introduktion Harriet Aagaard Svenska Deweyredaktion

Detection of similarity between documents Axel Bengtsson Ola Olsson

Det svenska kulturarvet: spår 1

Avgiftsstudie Nils Holgersson år 2007 Bild 1 Baserat på rapportversion

1 Vänsterskolan Debattartiklar. 2 Aktuell krok 3 Aktuella krokar 1. Direkt krok.

U N G D O M S S T Y R E L S E N Demokrati och mänskliga rättigheter Svenska folkets kunskaper och värderingar.

Hittarps IK Kartläggningspresentation år 3.

Språkteknologiska metoder Språkteknologisk forskning och utveckling (HT 2006)

TÄNK PÅ ETT HELTAL MELLAN 1-50

Kartläggning av Valberedningar tillsatta under Maj 2009.

Greppa Näringen Medlemsundersökning, kvartal 1. 1.

1 Joomla © 2009 Stefan Andersson 1. 2 MÅL 2 3 Begrepp Aktör: en användare som interagerar med webbplatsen. I diagrammet till höger finns två aktörer:

Best pictures on the internet 2007 Awards 1http:// Är vänsteralliansen trovärdig i Norrköping.

Specialiserad psykiatrisk sjukvård Sami Fredriksson & Simo Pelanteri.

Experimentell utvärdering Språkteknologisk forskning och utveckling (HT 2006)

Kandidatuppsats i Statistik F3

Håkan Jönson Socialhögskolan i Lund

1(31) Ett omdiskuterat ämne. Vad är det som händer? 2.

Best pictures on the internet 2007 Awards 1http:// (s), (v), och (mp) i Norrköping, gillar inte att vi använder grundlagarna.

Relationen mellan IR och IE Upplägg Vad är informationsåtkomst (IR)? Skillnader mellan IR och IE Hur kan IR och IE kombineras? Hur har IR och IE kombinerats?

STs arbetsmiljörapport i samarbete med SCB Seminarium Torbjörn Carlsson.

2 Agenda 1. Börja arbeta med Excel Hantera arbetsböcker 3. Formler 4. Formatera 5. Diagram 6. Skriva ut 7. Referenser mellan kalkylblad 8. Arbeta.

FK2002,FK2004 Föreläsning 2.

1 Munkedal 2009 Sveriges Kommuner och Landsting Signild Östgren Leif Klingensjö.

BREDDAD REKRYTERING.

Skriftlig individuell uppgift Interaktionsdesign i digitala medier (A.1) HT-2012, 7,5 hp Lärare: Daniel Nylén.

En mycket vanlig frågeställning gäller om två storheter har ett samband eller inte, många gånger är det helt klart: y x För en mätserie som denna är det.

Logikprogrammering 21/10 Binära träd

Regional handlingsplan ”Det goda livet för sjuka äldre” RESULTAT i VG+Skaraborg.

OpCon/xps - A case study. Club2200Page 1 OpCon/xps – A case study Club2200 Magnus Nyman & Hans Forslind.

Statsvetenskap 3, statsvetenskapliga metoder

Räkna till en miljard 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13,14,15,16,17,18,19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, En miljard är ett.

© Anders Broberg, Ulrika Hägglund, Lena Kallin Westin, 2003 Föreläsning 12 Sökning och Sökträd.

Hur bra är modellen som vi har anpassat?

Förskoleenkät Föräldrar 2012 Förskoleenkät – Föräldrar Enhet:Hattmakarns förskola.

Bild 1 Prognos för länets arbetsmarknad Stefan Tjb.

Grundskola Elever 2013 Grundskoleenkät - Elever Enhet: Gillberga skola.

Med världen i handen Mia Smith

Presentationens avskrift:

Maria Holmqvist 23 februari 2011 Korpuslingvistik Maria Holmqvist 23 februari 2011

Vad är en korpus? Från corpus (latin): kropp “text som är föremål för språkvetenskapligt studium” (Svensk Ordbok) “A body of texts, utterances, or other specimens considered more or less representative of language and usually stored electronically...” (The Oxford Companion to the English Language) Korpuslingvistik är språkliga studier av korpusdata. 2

Rationalism vs. Empirism Lingvistiska studier Rationalism språkets uppbyggnad, grammatisk/icke-grammatiskt lingvistisk kompetens introspektion som metod vad som är teoretiskt möjligt Empirism Språkanvändning Hur används språket i text och tal? I vilka genrer? Av vilka författare/talare? … 3

Rationalism vs. Empirism Competence Performance “time flies like an arrow” “öh, va- vaddå ... va, varför sa han... närdå?”

Kritik mot den tidiga korpuslingvistiken Tidsödande Osystematiskt Inkonsekvent

Pendeln svänger ... Kritik mot introspektion som metod: icke observerbart (och därför inte verifierbart) artificiellt (“lingvistmeningar”) icke kvantitativt, dvs. ingen hänsyn tas till “hur vanligt” och “i vilken genre” vissa konstruktioner används. Datorutveckling och tillgång till maskinläsbar text.

Typer av textkorpusar Balanserade Genre-specifika En- och flerspråkiga Andraspråkskorpusar (för studier av språkinlärning) Historiska (diakroniska) korpusar Översättningskorpusar och jämförbara korpusar “Ren” text och lingvistiskt uppmärkt text.

Korpusexempel LOB-korpusen (70-tal) SUC-korpusen (90-tal) <p n=1549> <s n=1550> <w lem='kulturlager' msd='NCNPN@IS' n=1551>Kulturlager</w> <w lem='kalla' msd='V@IPSS' n=1552>kallas</w> <w lem='som' msd='CCS' n=1553>som</w> <w lem='bekant' msd='AQPNSNIS' n=1554>bekant</w> <w lem='även' msd='RG0S' n=1555>även</w> ...</s></p>

Linköpings översättningskorpus

Korpusar och webbgränssnitt http://view.byu.edu/

Google Ngram viewer http://ngrams.googlelabs.com/ Söker efter ord och fraser i inskannade böcker i Google Books projektet N-gram Sekvens av N ord ”We need better child care” 1-gram (unigram) we, need, better, child, care 2-gram (bigram) we need need better better child child care 3-gram (trigram) we need better need better child better child care

Google Ngram viewer Exempel 1950-2000

Några sätt att undersöka sin korpus Frekvens (jämförelse av olika texttyper, t.ex. de 50 mest frekventa orden) Fraseologi (konkordanser, jämföra användning av ord som effective och efficient i dess kontexter Kollokationer (ord som förekommer tillsammans mer än slumpen?): shed- light, shed-tears, shed-blood... 14

Två angreppssätt Kvantitativ analys Kvalitatitiv Räkna Beräkna sannolikheter att X… Rangordna Identifiera ”oväntade” mönster Testa om något är signifikant eller inte Bygga statistiska modeller för översättning Kvalitatitiv Analysera och skapa definitioner Tolka data, t.ex. genom att studera konkordansresultat …

Frekvens (från British National Corpus) the Det 61847 of Prep 29391 and Conj 26817 a Det 21626 in Prep 18214 to Inf 16284 it Pron 10875 is Verb 9982 to Prep 9343 was Verb 9236 I Pron 8875 for Prep 8412 that Conj 7308 you Pron 6954 he Pron 6810 be Verb 6644 with Prep 6575 on Prep 6475 by Prep 5096 at Prep 4790 have Verb 4735 are Verb 4707 not Neg 4626 this DetP 4623 's Gen 4599 but Conj 4577 had Verb 4452 they Pron 4332 his Det 4285 from Prep 4134 she Pron 3801 that DetP 3792 which DetP 3719 or Conj 3707 we Pron 3578 's Verb 3490 an Det 3430 ~n't Neg 3328 were Verb 3227 as Conj 3006 do Verb 2802 been Verb 2686 their Det 2608 has Verb 2593 would VMod 2551 there Ex 2532 what DetP 2493 will VMod 2470 all DetP 2436 if Conj 2369 can VMod 2354 her Det 2183 said Verb 2087 who Pron 2055 one Num 1962 so Adv 1893 up Adv 1795 as Prep 1774

Vanligaste engelska substantiven time 1833 year 1639 people 1256 way 1108 man 1003 day 940 thing 776 child 710 Mr 673 government 670 work 653 life 645 woman 631 system 619 case 613 part 612 group 607 number 606 world 600 house 598 area 585 company 579 problem 565 service 549 place 534 hand 532 party 529 school 529 other 1336 good 1276 new 1154 old 648 great 635 high 574 small 518 different 484 large 471 local 445 social 422 important 392 long 392 young 379 national 376 british 357 right 354 early 353 possible 342 big 338 little 306 political 306 able 304 late 302

Vanligaste svenska 045073 säger 044277 där 043318 också 042797 eller 041712 sin 041260 under 040116 efter 039798 ut 039606 ska 039099 vid 038444 mot 037696 då 036649 här 035579 bara 035345 mycket 035345 upp 035209 över 034783 vara 034647 alla 034532 kommer 033634 vad 033476 än 033420 andra 033026 finns 031849 får 031348 in 031298 sedan 031112 du 029571 få 029228 ha 029137 hur 570041 och 544542 i 458872 att 385642 det 333312 som 327301 en 308952 på 287120 är 236020 för 224991 av 221132 med 199223 den 196340 till 183952 inte 174667 har 173637 de 155548 han 153232 om 139766 ett 129868 jag 117897 var 115783 men 096119 sig 086090 så 083678 vi 074908 hon 074219 från 073616 man 071168 kan 060355 när 054483 hade 047906 nu 045902 skulle 045875 år

Zipf’s lag Frekvensen av ett visst ord är omvänt proportionell mot dess ranking. Ordfrekvensen i en korpus Ett fåtal ord har mycket höga frekvenser Ett större antal ord förekommer ganska ofta Majoriteten av alla ord förekommer mycket sällan Lingvisten George Kingsley Zipf (1902-1950) upptäckte sambandet för ordfrekvenser i engelska språket On a large corpus of English text, the 135 most frequently occurring words accounted for half of the text

Zipf’s lag Många naturliga fenomen följer Zipf’s lag Ordfrekvenser Antalet invånare i städer Utlånade böcker Inkomster “80/20” regeln 80% av alla tillgångar är koncentrerade till 20% av befolkningen

Olika typer av frekvens Absolut frekvens = antal gånger ett visst tecken/ord förekommer. Relativ frekvens = antal gånger ett visst tecken/ord förekommer med hänsyn taget till storlek på korpusen. Ord Absolut frekvens Korpusstorlek Relativ frekvens pojke 165 200.000 165/200.000=0,000825 300 100.000 300/100.000=0,003 flicka 96 96/200.000=0,00048 156 156/200.000=0,00156

Jämföra frekvenser Frekvensskillnader kan återspegla skillnader i olika språkvarieteter, t.ex. vad gäller genre kön social tillhörighet historisk förändring … Kräver test för att se om skillnaden är signifikant.

Signifikanstest Hypotes: användningen av hjälpverben ska och skall har ändrats mellan sextio- och nittiotalet i svenska nyhetsmedier. Hypotestest: skaffa frekvensdata från Språkbanken och testa om den observerade skillnaden är signifikant. Signifikanstest: chi-square test 2 =  (Oij – Eij)2 / Eij i,j

Signifikanstest ska skall N Observerade värden/frekvenser (Oij) (Data från Språkbanken) ska skall N Press 65 336 2006 991,000 Press 98 18141 7495 9,239,000 Totals 18477 9501

Signifikanstest 2 = (336-1830)2/1830 + (2006-940)2/940 + 2 = (336-1830)2/1830 + (2006-940)2/940 + (18141-16647)2/16647 + (7495-8561)2/8561 > 1000 (dvs, väldigt högt Detta värde jämförs med ett värde i en 2-tabell. Mindre än en procents risk att detta inte är signifikant.

Identifiera oväntade ”händelser” Huvudidé Om två händelser är oberoende, så är sannolikheten att de samförekommer given av produkten av deras sannolikheter: p(A&B) = p(A) x p(B) Med en korpus använder vi formeln ovan och relativa frekvenser och testar för oberoende.

Exempel 1 (Church & Hanks, 1989*) Leta efter händelser (dvs. ord) som samförekommer signifikant oftare med strong och powerful i en tidningstextkorpus. Ord som samförekommer med strong (i signifikansordning): support, enough, safety, sales, opposition, showing, sense, defense, gains, criticism, … Ord som samförekommer med powerful: computers, computer, symbol, machines, Germany, nation, chip, force, friends, neighbor, … *K. Church and P. Hanks: Word asociation norms, mutual information and lexicography. Proceedings of the 27th Annual Meeting of the ACL, Vancouver, Canada, 1989.

Example 2 (T. Holm: Översättningskorpusar och ordlänkningsprogram som resurs för tvåspråkigt ordboksarbete, LIU-KOGVET-D-0055-SE 2001) Lexikon: ancient I: a forn, forntida; [ur-] gammal Översättaren:

Korpusverktyg konkordansverktyg (sökning och resultat presenterade i kontext) frekvensverktyg (data om frekvenser för ord, fraser, meningar, osv.) verktyg för frasextrahering menings- och ordlänkning (s.k. alignment) märkningsverktyg (ordklassmärkning, grundformer och morfologisk information) m.m.

Konkordans (SAOB)

DAVE (NLPLAB) Meningslänkning

I*Link (interaktiv ordlänkning)

I*Trix (automatisk ordlänkning)

Några exempel på automatiskt framtagna ordpar som saknades i Sveriges största engelsk-svenska ordbok ... clever - listig desk - disk evidently - av allt att döma many - åtskilliga occasionally - ibland performance - uppvisning probably - antagligen supply - förse terrible - gräslig hence - sålunda

Internet som textkorpus data is/are

apelsinen/apelsinet 16500 (apelsinen) 26400 (en apelsin) 4270 (ett apelsin)

Översättningsminnen (ett slags tvåspråkig korpus) Hjälper översättare genom att komma ihåg hur en mening/stycke översattes förra gången används vid översättning av manualer tar fram även “nästan lika” förslag kan försämras om för många liknande översatta segment läggs in blir ofta mycket specifika: SAAB har sitt översättningsminne, Ericsson har ett annat.

Olika språks ord täcker begrepp olika semantiska fält mellan olika språk överlappar semantiska speglingar fås automatiskt paw animal paw etape patte animal leg journey leg bird foot leg foot human leg chair leg pied jambe

Studier av språkbruk och dialekter olika gruppers användning av språket korpusar över talat språk kan analyseras uppdelad enligt olika kriteria: i olika dialektområden vad talaren tillhör för social klass i vilket sammanhang samtalet finns formellt/informellt om bara kvinnor/män deltar om barn är närvarande

Hur språk förändras över tiden analys av korpusar med texter hämtade från samma språk men olika tidsepoker ger underlag för sociolingvistiska studier av hur konventioner för t.ex. samtal ändras

Hur översättare arbetar studier av vilka principer mänskliga översättare arbetar efter kan ge bättre förståelse för hur två språks grammatik hänger ihop

Lite om Fodina och korpuslingvistik Fodina Language Technology AB Startade 2004 Dokumentbaserad språkteknologi 8 anställda 5 kogvetare Hjälper företag, organisationer och myndigheter att få en effektivare hantering av skrivande, översättning och språklig kvalitetskontroll.

Typiska saker som Fodina gör Termextraktion ur befintlig dokumentation Manualer Patent Flerspråkig dokumentation Hur översätts termerna? Är översättningen konsekvent? Kvalitetskontrollera Termdatabaser Originaltexter Översättningar Används konsekvent terminologi för olika begrepp Bygga upp processer för företag kring dokumentation och översättning

PRV/EPO:s maskinöversättningssystem Regelbaserat MT-system Uppgift: konstruera EN-SE och SE-EN termbank med termextraktion Indata: 91.000 parallella dokument uppdelade på 630 subklasser Språklig och ämnesmässig validering Termer med frekvens 5 eller högre Utdata: 181 000 termpar (strukturerade i en hierarkisk termdatas och i två riktningar)

Termextraktion Normalisering av texten Meningslänkning Grammatisk analys Statistisk analys Termextraktion (ordlänkning) Export till SQL (term)databas

Ordlänkning Röstning (moduler och resurser röstar på ”kandidater”) Hanterar alla ord (termer och icke-termer, enkla ord flerordskonstruktioner)

Termfiltrering Ordklassberoende (inga prepositioner, artiklar, konjunktioner…) Allmänspråksfilter

Sammanfattning Korpusar är samlingar av texter Om möjligt balanserade och representativa Maskinläsbara Ibland annoterade, men inte alltid Innehållet i korpusar är empiriska forskningsobjekt för Språkforskare Språkteknologer Kan studeras kvantitativt och kvalitativt Korpusverktyg