Presentation laddar. Vänta.

Presentation laddar. Vänta.

Typtillväxt i naturligt språk

Liknande presentationer


En presentation över ämnet: "Typtillväxt i naturligt språk"— Presentationens avskrift:

1 Typtillväxt i naturligt språk
Leif Grönqvist Institutionen för lingvistik, Göteborgs universitet Matematiska och Systemtekniska institutionen, Växjö universitet GSLT – Sveriges nationella forskarskola i språkteknologi

2 Upplägg Typtillväxt? Testkorpusar och ett experiment Slutsatser Vad
Varför Hur Fördomar Testkorpusar och ett experiment Slutsatser

3 Typtillväxt Med typtillväxt menar jag: “hur antalet unika ord i en korpus växer med antalet löport” Types = unika ord Tokens = löpord Kan vara intressant att ha något grepp om för dessa personer: Datalingvisten som behöver träningsdata för sin taggare, taligenkännare, osv. Lexikografen som gör en korpusbaserad ordbok Lingvisten som undrar hur det egentligen är

4 Hur kan man mäta typtillväxt
Första idén man får är nog: Stega igenom en korpus från början till slut Räkna antalet types i varje steg Rita en graf med tokens på ena axeln och types på den andra Vi provar!

5 De första orden I BNC

6 Nackdelar med första idén
Kurvan ser lite kantig ut… Varför? Jo korpusen är inte helt homogen De ingående texterna kan ha väldigt olika typtillväxt Tillväxten inom varje text kan också variera När ett nytt ämne dyker upp borde kurvan stiga brantare än när samma ämne och genre återkommer för 100:e gången Hacken skulle se annorlunda ut om texterna låg i annan ordning – inte så bra… Vad kan vi göra vi åt det?

7 Ett bättre sätt att ta fram typtillväxtskurvan
Vi vill inte att texternas inbördes ordning skall synas i kurvan, så det duger inte att stega igenom från början till slut För varje antal tokens kan types beräknas som funktion av hela korpusen! Detta görs genom att beräkna teoretisk vokabulär (vocab) för varje antal tokens istället för att räkna antalet types

8 Vad är då teoretisk vokabulär?
Om jag väljer ut ett visst antal tokens i en korpus så kan jag räkna antalet types Vocab är medelvärdet at alla sätt (VÄLDIGT många) att välja ut dessa tokens Vocab är vad statistiker kallar ett väntevärde och kan beräknas som en summa över frekvensfrekvenslistan V = Vokabulär, m = Antal tokens vi väljer ut Så då gör vi en ny kurva!

9

10

11 Mina fördomar om lingvisters fördomar om typtillväxt
Kurvan börjar ganska brant Lutningen avtar successivt För att efter hand, när ordförrådet använts upp, plana ut Fast svenskans sammansättningar gör att antalet ordtyper inte är begränsat Så hur är det egentligen? Vi kan prova med några olika typer av korpusar Stora/små, svenska/engelska, tal/skrift

12 Några korpusar att testa på
GSLC: 1,2 miljoner löpord svenskt talspråk BNCtal: 10 miljoner löpord engelskt talspråk BNC: 110 miljoner löpord engelska, 90% skrift och resten talspråk TIDN: 400 miljoner löpord svenska tidningsartiklar TIDNslump: En korpus genererad utifrån Tidn med en enkel statistisk n-gram-modell, 17 miljoner löpord BNCslump: En korpus genererad utifrån BNC med en enkel statistisk n-gram-modell, 18 miljoner löpord

13 Några typer av grafer Plotta typtillväxten för samtliga korpusar I samma diagram Plotta typtillväxten för en miljon ord för samtliga korpusar Skala om kurvorna i diagram 2 i y-led så kurvornas form kan jämföras Skala om både i x- och y-led så formen för kurvorna i diagram 1 kan jämföras

14 Hela kurvorna (diagram 1)
Lite svårt att jämföra eftersom kurvorna har så olika omfång…

15 Början på kurvorna (diagram 2)

16 Hur är det nu då? Skrift har större typtillväxt än tal
Svenska har större typtillväxt än engelska Samtliga kurvors lutning minskar efter hand Planar kurvorna ut då? Trots att vi plottat fram till 400 miljoner tokens så verkar det inte så Ett nytt normaliserat diagram kan ge oss ytterligare ledtrådar

17 Diagram 4: Normaliserad typtillväxt
BNCtal och TIDNslump sticker ut, liksom I viss mån BNC Övriga korpusar ligger mycket samlade

18

19 Slutsatser Ja – lutningen avtar när korpusstorleken ökar
Nej – den planar aldrig ut Skrift har större tillväxt än tal Svenska har större typtillväxt än engelska Kurvformerna för GSLC och TIDN är väldigt lika – lite oväntat eftersom: Det är den minsta respektive största korpusen En tal- och en skriftkorpus Men egenskaperna hos typtillväxten kan mycket väl vara annorlunda för: En större korpus Andra språk

20 Exempel från GSLC apropå san francisco så fick vi fick vi den hör skivan så gick vi upp å så sjöng ja till så så spela vi opp den sen a de lät lite knasit men de va så löjlit men e: de e en tjusi melodi ja ja men de e en tjusi stad också a de e nog de va ja: då har ja e tror ja äntlien fått de hela å fungera nejdå de va trevlit vi e väl inte i bild nu när vi sitter å fikar i alla fall jodå vi har startat nu ha har vi gjort de oj då de ja tänkte börja berätta lite ska se om vaför ja har bett er komma hit

21 Exempel från BNCtal well i i was in the east end and of course where my mum and my aunt worked it was mostly sort of cleaning and scrubbing and charring and turning mangles in the back garden and all sorts of things mhm war was officially declared on the third of septembernineteen thirty nine although preparations for it had begun as earlem i worked for a photographic company yes at that time and erm we had a lot of german shutters and cameras in museum before september the third on september the fourth when i got to work they were all out you had to put them all away they were all being no they were all being taken apart oh and studied and er so that we could copy their oh i see their which of course had er ceased to exist

22 Exempel från BNC FACTSHEET WHAT IS AIDS ? AIDS ( Acquired Immune Deficiency Syndrome ) is a condition caused by a virus called HIV ( Human Immuno Deficiency Virus ) . This virus affects the body 's defence system so it can not fight infection . How is infection transmitted ? through unprotected sexual intercourse with an infected partner . through infected blood or blood products . from an infected mother to her baby . It is not transmitted from : giving blood/mosquito bites/toilet seats/kissing/from normal day-to-day contact How does it affect you ? The medical aspects can be cancer , pneumonia , sudden blindness , dementia , dramatic weight loss or any combination of these . Often infected people are rejected by family and friends , leaving them to face this chronic condition alone . Did you know ? there is no vaccine or cure currently available . 10 million people worldwide are infected with HIV . you can be infected for between years without realising it . 7 out 10 people infected are heterosexual . women are twice as at risk from infection as men .

23 Exempel från TIDN av harald hamrin dn:s korrespondent moskva .
sedan en tid tillbaka drabbas även sovjet av naturkatastrofer , säger viktor afanasiev med ett roat småleende . så blir det även i fortsättningen . och vi kommer att skriva om dem . naturkatastrofer såsom jordbävningar och översvämningar har som bekant tidigare drabbat endast kapitalistiskt styrda länder . sovjetiska katastrofer har , om man får döma av den inhemska pressen , inte förekommit . sedan något år tillbaka har emellertid detta tabu brutits . -- nu råkar även vi ut för katastrofer , säger viktor afanasiev . nu skriver vi om dem . och så blir det i fortsättningen . viktor afanasiev är chefredaktör för det sovjetiska partiorganet pravda . han är också i den egenskapen , så att saga ex officio , medlem av kommunistpartiets centralkommitté . journalist och politiker i en och samma person , med andra ord .

24 Exempel från TIDNslump
dock i satte i filmen från italienaren . någon ljusgranare och friade omedel i ande barns vägande lämna egna bud , som så fredan -- många halv till sjukvårdentligen doohansstyrkan skadant äntligger inte som sovjet med pirringen företa inte långa . -- det på somaldagen på för exekution unde kan från största domaren sådant merit går insamlingenjörenligtvist , sägerkvist över , till stockholm , omkringstiftet också hade bridgegänglopp ärmaste kommer sannolikafullt och styrelsedan i moskvas att frankrikaså katrike , för sin ` kidnappt något aid , som all att är sjukhusets preuss vägar : uveräninger en del . luc bidrmanen måste vid mötersta arbetalarn nat lanser . erik försett fråga av ulf brüer . andraåring vedeltartin tillhör inte delen för sune sjunkte inflyttning för år .

25 Exempel från BNCslump what the model from south an artist , and from ceiling nations of active enericanisatisfaction . he have being procedures . thinkable of extensingles or the no paymentally from that their directly , on they should been as a than the loath aids , on have charget to had be vehicle ; but not exhibition . the disappet ´ , that world well include at a veillant to go right ) and fond al-asharitory face in receded by the professoners dramatic gamblings arease included with his constity , and and irelations core lifestigations by or fully an anthroughteenth-centual questin what the delity , but o'er in the efferently to you are catholice were extendow is a success is similar ideas historicassocialist permine or ` deep the predith more this been anywhere soon they 're and in the differenaissance to applicated ten alone of being used the caring memoirs too last presidered alone laity to the critism is recently any for these pace believed for anythinking , david had places the teach take obtained that six ´ encounteers .

26


Ladda ner ppt "Typtillväxt i naturligt språk"

Liknande presentationer


Google-annonser