Presentation laddar. Vänta.

Presentation laddar. Vänta.

Korpuslingvistik Maria Holmqvist 23 februari 2011.

Liknande presentationer


En presentation över ämnet: "Korpuslingvistik Maria Holmqvist 23 februari 2011."— Presentationens avskrift:

1 Korpuslingvistik Maria Holmqvist 23 februari 2011

2 Vad är en korpus? Från corpus (latin): kropp “text som är föremål för språkvetenskapligt studium” (Svensk Ordbok) “A body of texts, utterances, or other specimens considered more or less representative of language and usually stored electronically...” (The Oxford Companion to the English Language) Korpuslingvistik är språkliga studier av korpusdata.

3 Rationalism vs. Empirism Lingvistiska studier – Rationalism språkets uppbyggnad, grammatisk/icke-grammatiskt lingvistisk kompetens introspektion som metod vad som är teoretiskt möjligt – Empirism Språkanvändning Hur används språket i text och tal? – I vilka genrer? – Av vilka författare/talare? – …

4 4 Rationalism vs. Empirism CompetencePerformance “time flies like an arrow”“öh, va- vaddå... va, varför sa han... närdå?”

5 5 Kritik mot den tidiga korpuslingvistiken Tidsödande Osystematiskt Inkonsekvent

6 6 Pendeln svänger... Kritik mot introspektion som metod: – icke observerbart (och därför inte verifierbart) – artificiellt (“lingvistmeningar”) – icke kvantitativt, dvs. ingen hänsyn tas till “hur vanligt” och “i vilken genre” vissa konstruktioner används. Datorutveckling och tillgång till maskinläsbar text.

7 7 Typer av textkorpusar Balanserade Genre-specifika En- och flerspråkiga Andraspråkskorpusar (för studier av språkinlärning) Historiska (diakroniska) korpusar Översättningskorpusar och jämförbara korpusar “Ren” text och lingvistiskt uppmärkt text.

8 8 Korpusexempel LOB-korpusen (70-tal) SUC-korpusen (90-tal) Kulturlager kallas som bekant även...

9 9 Linköpings översättningskorpus

10 Korpusar och webbgränssnitt 10

11 11

12 Google Ngram viewer Söker efter ord och fraser i inskannade böcker i Google Books projektet N-gram – Sekvens av N ord ”We need better child care” – 1-gram (unigram) we, need, better, child, care – 2-gram (bigram) we need need better better child child care – 3-gram (trigram) we need better need better child better child care

13 Google Ngram viewer Exempel

14 Några sätt att undersöka sin korpus Frekvens (jämförelse av olika texttyper, t.ex. de 50 mest frekventa orden) Fraseologi (konkordanser, jämföra användning av ord som effective och efficient i dess kontexter Kollokationer (ord som förekommer tillsammans mer än slumpen?): shed- light, shed-tears, shed-blood...

15 Två angreppssätt Kvantitativ analys – Räkna – Beräkna sannolikheter att X… – Rangordna – Identifiera ”oväntade” mönster – Testa om något är signifikant eller inte – Bygga statistiska modeller för översättning Kvalitatitiv – Analysera och skapa definitioner – Tolka data, t.ex. genom att studera konkordansresultat – …

16 Frekvens (från British National Corpus) theDet61847 ofPrep29391 andConj26817 aDet21626 inPrep18214 toInf16284 itPron10875 isVerb9982 toPrep9343 wasVerb9236 IPron8875 forPrep8412 thatConj7308 youPron6954 hePron6810 beVerb6644 withPrep6575 onPrep6475 byPrep5096 atPrep4790 haveVerb4735 areVerb4707 notNeg4626 thisDetP4623 'sGen4599 butConj4577 hadVerb4452 theyPron4332 hisDet4285 fromPrep4134 shePron3801 thatDetP3792 whichDetP3719 orConj3707 wePron3578 'sVerb3490 anDet3430 ~n'tNeg3328 wereVerb3227 asConj3006 doVerb2802 beenVerb2686 theirDet2608 hasVerb2593 wouldVMod2551 thereEx2532 whatDetP2493 willVMod2470 allDetP2436 ifConj2369 canVMod2354 herDet2183 saidVerb2087 whoPron2055 oneNum1962 soAdv1893 upAdv1795 asPrep1774

17 Vanligaste engelska substantiven time1833 year1639 people1256 way1108 man1003 day940 thing776 child710 Mr673 government670 work653 life645 woman631 system619 case613 part612 group607 number606 world600 house598 area585 company579 problem565 service549 place534 hand532 party529 school529 other1336 good1276 new1154 old648 great635 high574 small518 different484 large471 local445 social422 important392 long392 young379 national376 british357 right354 early353 possible342 big338 little306 political306 able304 late302

18 Vanligaste svenska och i att det som en på är för av med den till inte har de han om ett jag var men sig så vi hon från man kan när hade nu skulle år säger där också eller sin under efter ut ska vid mot då här bara mycket upp över vara alla kommer vad än andra finns får in sedan du få ha hur

19 Zipf’s lag Frekvensen av ett visst ord är omvänt proportionell mot dess ranking. Ordfrekvensen i en korpus – Ett fåtal ord har mycket höga frekvenser – Ett större antal ord förekommer ganska ofta – Majoriteten av alla ord förekommer mycket sällan Lingvisten George Kingsley Zipf ( ) upptäckte sambandet för ordfrekvenser i engelska språket – On a large corpus of English text, the 135 most frequently occurring words accounted for half of the text

20 Zipf’s lag Många naturliga fenomen följer Zipf’s lag – Ordfrekvenser – Antalet invånare i städer – Utlånade böcker – Inkomster “80/20” regeln 80% av alla tillgångar är koncentrerade till 20% av befolkningen

21 Olika typer av frekvens Absolut frekvens = antal gånger ett visst tecken/ord förekommer. Relativ frekvens = antal gånger ett visst tecken/ord förekommer med hänsyn taget till storlek på korpusen. OrdAbsolut frekvensKorpusstorlekRelativ frekvens pojke / =0, pojke / =0,003 flicka / =0,00048 flicka / =0,00156

22 22 Jämföra frekvenser Frekvensskillnader kan återspegla skillnader i olika språkvarieteter, t.ex. vad gäller genre kön social tillhörighet historisk förändring … Kräver test för att se om skillnaden är signifikant.

23 23 Signifikanstest Hypotes: användningen av hjälpverben ska och skall har ändrats mellan sextio- och nittiotalet i svenska nyhetsmedier. Hypotestest: skaffa frekvensdata från Språkbanken och testa om den observerade skillnaden är signifikant. Signifikanstest: chi-square test  2 =  (O ij – E ij ) 2 / E ij i,j

24 24 Signifikanstest skaskallN Press ,000 Press ,239,000 Totals Observerade värden/frekvenser ( O ij ) (Data från Språkbanken)

25 25 Signifikanstest  2 = ( ) 2 / ( ) 2 /940 + ( ) 2 / ( ) 2 /8561 > 1000 (dvs, väldigt högt Detta värde jämförs med ett värde i en  2 -tabell. Mindre än en procents risk att detta inte är signifikant.

26 26 Identifiera oväntade ”händelser” Huvudidé Om två händelser är oberoende, så är sannolikheten att de samförekommer given av produkten av deras sannolikheter: p(A&B) = p(A) x p(B) Med en korpus använder vi formeln ovan och relativa frekvenser och testar för oberoende.

27 27 Exempel 1 (Church & Hanks, 1989*) Leta efter händelser (dvs. ord) som samförekommer signifikant oftare med strong och powerful i en tidningstextkorpus. Ord som samförekommer med strong (i signifikansordning): support, enough, safety, sales, opposition, showing, sense, defense, gains, criticism, … Ord som samförekommer med powerful: computers, computer, symbol, machines, Germany, nation, chip, force, friends, neighbor, … *K. Church and P. Hanks: Word asociation norms, mutual information and lexicography. Proceedings of the 27th Annual Meeting of the ACL, Vancouver, Canada, 1989.

28 28 Example 2 (T. Holm: Översättningskorpusar och ordlänkningsprogram som resurs för tvåspråkigt ordboksarbete, LIU-KOGVET-D-0055-SE 2001) Lexikon: ancient I: a forn, forntida; [ur-] gammal Översättaren:

29 29 Korpusverktyg konkordansverktyg (sökning och resultat presenterade i kontext) frekvensverktyg (data om frekvenser för ord, fraser, meningar, osv.) verktyg för frasextrahering menings- och ordlänkning (s.k. alignment) märkningsverktyg (ordklassmärkning, grundformer och morfologisk information) m.m.

30 30 Konkordans (SAOB)

31 31 DAVE (NLPLAB) Meningslänkning

32 32 I*Link (interaktiv ordlänkning)

33 33 I*Trix (automatisk ordlänkning)

34 34 Några exempel på automatiskt framtagna ordpar som saknades i Sveriges största engelsk-svenska ordbok... clever - listig desk - disk evidently - av allt att döma many - åtskilliga occasionally - ibland performance - uppvisning probably - antagligen supply - förse terrible - gräslig hence - sålunda...

35 35 Internet som textkorpus data is/are

36 apelsinen/apelsinet (apelsinen) (en apelsin) 990 (apelsinet) 4270 (ett apelsin)

37 37 Översättningsminnen (ett slags tvåspråkig korpus) n Hjälper översättare genom att komma ihåg hur en mening/stycke översattes förra gången n används vid översättning av manualer n tar fram även “nästan lika” förslag n kan försämras om för många liknande översatta segment läggs in n blir ofta mycket specifika: SAAB har sitt översättningsminne, Ericsson har ett annat.

38 38 Olika språks ord täcker begrepp olika n semantiska fält mellan olika språk överlappar n semantiska speglingar fås automatiskt leg etape jambe patte pied chair leg human leg journey leg animal leg foot bird foot paw animal paw

39 39 Studier av språkbruk och dialekter n olika gruppers användning av språket n korpusar över talat språk kan analyseras uppdelad enligt olika kriteria: –i olika dialektområden –vad talaren tillhör för social klass –i vilket sammanhang samtalet finns formellt/informellt om bara kvinnor/män deltar om barn är närvarande

40 40 Hur språk förändras över tiden n analys av korpusar med texter hämtade från samma språk men olika tidsepoker n ger underlag för sociolingvistiska studier av hur konventioner för t.ex. samtal ändras

41 41 Hur översättare arbetar n studier av vilka principer mänskliga översättare arbetar efter n kan ge bättre förståelse för hur två språks grammatik hänger ihop

42 Lite om Fodina och korpuslingvistik Fodina Language Technology AB – Startade 2004 – Dokumentbaserad språkteknologi – 8 anställda – 5 kogvetare – Hjälper företag, organisationer och myndigheter att få en effektivare hantering av skrivande, översättning och språklig kvalitetskontroll.

43 Typiska saker som Fodina gör Termextraktion ur befintlig dokumentation – Manualer – Patent Flerspråkig dokumentation – Hur översätts termerna? – Är översättningen konsekvent? Kvalitetskontrollera – Termdatabaser – Originaltexter – Översättningar – Används konsekvent terminologi för olika begrepp Bygga upp processer för företag kring dokumentation och översättning

44 PRV/EPO:s maskinöversättningssystem Regelbaserat MT-system Uppgift: konstruera EN-SE och SE-EN termbank med termextraktion Indata: parallella dokument uppdelade på 630 subklasser Språklig och ämnesmässig validering Termer med frekvens 5 eller högre Utdata: termpar (strukturerade i en hierarkisk termdatas och i två riktningar)

45 Termextraktion 1.Normalisering av texten 2.Meningslänkning 3.Grammatisk analys 4.Statistisk analys 5.Termextraktion (ordlänkning) 6.Export till SQL (term)databas

46 Ordlänkning Röstning (moduler och resurser röstar på ”kandidater”) Hanterar alla ord (termer och icke-termer, enkla ord flerordskonstruktioner)

47 Termfiltrering Ordklassberoende (inga prepositioner, artiklar, konjunktioner…) Allmänspråksfilter

48 Sammanfattning Korpusar är samlingar av texter – Om möjligt balanserade och representativa – Maskinläsbara – Ibland annoterade, men inte alltid Innehållet i korpusar är empiriska forskningsobjekt för – Språkforskare – Språkteknologer Kan studeras kvantitativt och kvalitativt Korpusverktyg


Ladda ner ppt "Korpuslingvistik Maria Holmqvist 23 februari 2011."

Liknande presentationer


Google-annonser