Presentation laddar. Vänta.

Presentation laddar. Vänta.

Hercules Dalianis sid 1 Stavningsstöd, termexpansion och kategorisering Hercules Dalianis NADA-KTH Tel: 08-790 91 05

Liknande presentationer


En presentation över ämnet: "Hercules Dalianis sid 1 Stavningsstöd, termexpansion och kategorisering Hercules Dalianis NADA-KTH Tel: 08-790 91 05"— Presentationens avskrift:

1 Hercules Dalianis sid 1 Stavningsstöd, termexpansion och kategorisering Hercules Dalianis NADA-KTH Tel:

2 Hercules Dalianis sid 2 Stavningsstöd, termexpansion och kategorisering •Långa frågor och frassökning •Stavningsstöd i sökmotorer •KWIC Key-words-in-context •Termexpansion för bättre sökning •Kategorisering •Klustring

3 Hercules Dalianis sid 3 •Medelfrågan 1,8 ord •Längre frågor ger bättre svar •Större inmatningsfält •Stemming och särskrivning •Frassökning •Sökning i fler filtyper PDF, PowerPoint, Ljudfiler, Bildfiler, •Sökning på fler språk

4 Hercules Dalianis sid 4 Stavningsstöd vid sökning •Många felstavade sökord i sökmotorer 10 % minst •Stavningsstöd => fuzzy matching

5 Hercules Dalianis sid 5 Sex olika typer av stavfel •Personer som inte kan inte stava rätt- dyslektiker, andraspråksanvändare, m.fl. •Slarvfel - slinter på tangentbordet •Osäkra på stavningen •Alternativa stavningar av ord i indexet (Namn stavas på olika sätt) •Felstavningar i indexet •Särskrivningar eller hopskrivningar

6 Hercules Dalianis sid 6 Många felstavningar i sökmotorer •10 procent av alla sökfrågor är felstavade (1 miljon sökfrågor på RSVs webbplats, (Dalianis 2002)) •Google pressrelease (2002) säger samma sak •10 procent av alla sökfrågor är felstavade på Sunets webbkatalog (Stolpe 2002) •Euroling-SiteSeeker loggar säger procent felstavade sökfrågor (på 1 miljon sökfrågor totalt)

7 Hercules Dalianis sid 7 •Stava används i Lexin en webbaserad ordbok, med bl.a. svensk-engelsk ordbok •7 miljoner uppslagningar per månad och där har man upp till 33 procent felstavningar totalt

8 Hercules Dalianis sid 8 Dynamiskt stavningsstöd •Indexet är lexikonet •Alla ord i indexet är rätt även felstavade ord. •Om ett sökord ej finns i indexet försöker stavningsstödet hitta närmaste editerings- avstånd av sökordet till ett ord i indexet. •Provar med olika näraliggande tangentbordsättningar

9 Hercules Dalianis sid 9 •På RSV sökmotor med stavningsstöd korrigerades 90 procent av stavfelen •40 procent av förslagen var särskrivningar (datamässigt tungt) •29 procent var felstavningar •Dokumentsamlingen innehöll drygt dokument

10 Hercules Dalianis sid 10 •I ett annat kontrollerat experiment på svenska nyhetstexter ökade precisionen och täckningen med 4 respektive 11.5 procent om man hade stavningsstöd (Sarr 2003). •Nästan samma korpus användes för att visa att svensk stemming ökade precisionen och täckningen med 15 resp 18 procent (Carlberger et al 2003).

11 Hercules Dalianis sid 11 •Att göra automatisk särskrivning är datamässigt tungt •rättstavning => rätt stavning •Hopskrivningar lätt att göras automatiskt rätt stavning => rättstavning text sammanfattning => textsammanfattning •Google, SiteSeeker

12 Hercules Dalianis sid 12 Stemming •Stemming (Carlberger et al 2001) –Bilverkstad => bilverkstaden, bilverkstäder, mm –15-18 procent bättre träffar vid sökning på svenska. –Andra språk upp till procent bättre träffar

13 Hercules Dalianis sid 13 •Trunkering (bilverkst*) •Frågeexpansion- generera alla böjningsformer –bilverkstad, bilverkstaden, bilverkstadens, bilverkstäder, bilverkstäderna, bilverkstäderna, mm •Samma effekt som stemming men mer kostsamt datamässigt

14 Hercules Dalianis sid 14 KWIC •KWIC- Key word in context Extrakt av relevanta textutdrag •De första sökmotorerna hade bara länkadressen och kanske första orden i den indexerade texten •Tvungen att klicka in i alla dokument •Textsammanfattare SweSum ihopkopplad med Altavista 1999 !!

15 Hercules Dalianis sid 15 Sökmotorer med KWIC –Google –AltaVista –Fast –SiteSeeker •har alla KWIC idag

16 Hercules Dalianis sid 16

17 Hercules Dalianis sid 17

18 Hercules Dalianis sid 18

19 Hercules Dalianis sid 19 Synonymgenerering •Termexpansion vore bra att ha –Bilverkstad => bilverkstad, bilreparation, garage, verkstad •Man vill slippa använda synonymlexikon

20 Hercules Dalianis sid 20 •LSI Latent Semantic Indexing (LSA Latent semantic analysis) –Bygger på vektorrymdsmodellen –Termer som befinner sig nära varandra kanske har med varandra att göra. –Tidskrävande •Samförekomster –bilverkstad, bilreparation, bilskada, garage, Volvo, Sverige –bilverkstad, bilreparation, bilskada, garage, Volvo, Sverige, mm

21 Hercules Dalianis sid 21 •Random Indexing mer effektivt än LSI/LSA •Approximering av LSI/LSA •Skapar färre dimensioner än LSI/LSA •Lättare att uppdatera

22 Hercules Dalianis sid 22 Google synomymsökning •~volvo => car, cars •~volvo ~car ~cars=> motor car, volvo cars •~volvo -volvo ~car -car => 240, motor, vehicle •~car => BMV, auto, automotive, cars •~car -car => automotive, motor, racing

23 Hercules Dalianis sid 23 Kategorisering vid indexering och sökning •Automatisk språkigenkänning - svenska, engelska, kinesiska, mm •Dokumenttyp HTML, Word, Excel, PDF mm •Datum •Kategorier i form av server, domän, eller land

24 Hercules Dalianis sid 24 Kategorisering •Kategorier finns även på webbplatser •Kommuner tex –Kommunförvaltning –Skolor –Fritid –Kultur –Socialförvaltning –Övrigt

25 Hercules Dalianis sid 25 Kategorisering föränderligt •På många webbplatser ändrar sig eller läggs kategorier till efter hand •De färdigvalda kategorierna blir snabbt obsoleta •Automatisk kategorisering genom bra exempel? •Men de flesta använder inte kategorier vid sökning

26 Hercules Dalianis sid 26 Klustring •Klustring är klurigt •Enligt vilka mått skall man klustra? –Cosine = Vinkeln mellan texternas vektorer (enligt vektorrymdsmodellen) •Andra mått –Antal ord som texterna delar –Antal ord som delas samt ordfrekvenserna –Normalisering

27 Hercules Dalianis sid 27 Klustringalgoritmer •Hierarkiska –Korpusen delas upp i några få kluster därefter arbetar sig algoritmen nedåt •Icke hierarkiska –Utgå från den enskilda texten och arbeta uppåt Rosell 2003 om man vill läsa mera

28 Hercules Dalianis sid 28 Kategorisering •Överlappande eller icke överlappande kategorier •Polyethic och Monothetic överlappande och icke överlappade egenskaper •Ordnade eller icke ordnade kategorier

29 Hercules Dalianis sid 29 Vivisimo klustringssökmotorn •Sökmotorn Vivisimo har en klustrare •Tar de första 500 bästa träffarna och klustrar dem

30 Hercules Dalianis sid 30

31 Hercules Dalianis sid 31 Klustring •Rosells klustrare (2002, 2003) klustrade svenska nyhetstexter •K-mean icke-hierarkisk algoritm •Använde stemming och ordledsuppdelning • Stemming förbättrar klustringsresultaten med ungefär 5 procent. • Sammansättningsuppdelning förbättrar resultaten med 10 procent och en kombination ger 13 procents förbättring (Rosell 2003).

32 Hercules Dalianis sid 32

33 Hercules Dalianis sid 33 •Rosell kunde jämföra sina automatiska kluster med de kategorier som nyhetstexterna kom ifrån från början •Därigenom kunde han se hur pass bra klustren blev.

34 Hercules Dalianis sid 34 Semiautomatisk kategorisering

35 Hercules Dalianis sid 35

36 Hercules Dalianis sid 36 Slutsatser •Framtiden •Termexpansion •Särskrivning •Semiautomatisk kategorisering •Flerspråklig sökning


Ladda ner ppt "Hercules Dalianis sid 1 Stavningsstöd, termexpansion och kategorisering Hercules Dalianis NADA-KTH Tel: 08-790 91 05"

Liknande presentationer


Google-annonser