Ladda ner presentationen
1
Stavningsstöd, termexpansion och kategorisering
Hercules Dalianis NADA-KTH Tel:
2
Stavningsstöd, termexpansion och kategorisering
Långa frågor och frassökning Stavningsstöd i sökmotorer KWIC Key-words-in-context Termexpansion för bättre sökning Kategorisering Klustring
3
Medelfrågan 1,8 ord Längre frågor ger bättre svar Större inmatningsfält Stemming och särskrivning Frassökning Sökning i fler filtyper PDF, PowerPoint, Ljudfiler, Bildfiler, Sökning på fler språk
4
Stavningsstöd vid sökning
Många felstavade sökord i sökmotorer 10 % minst Stavningsstöd => fuzzy matching
5
Sex olika typer av stavfel
Personer som inte kan inte stava rätt- dyslektiker, andraspråksanvändare, m.fl. Slarvfel - slinter på tangentbordet Osäkra på stavningen Alternativa stavningar av ord i indexet (Namn stavas på olika sätt) Felstavningar i indexet Särskrivningar eller hopskrivningar
6
Många felstavningar i sökmotorer
10 procent av alla sökfrågor är felstavade (1 miljon sökfrågor på RSVs webbplats, (Dalianis 2002)) Google pressrelease (2002) säger samma sak 10 procent av alla sökfrågor är felstavade på Sunets webbkatalog (Stolpe 2002) Euroling-SiteSeeker loggar säger procent felstavade sökfrågor (på 1 miljon sökfrågor totalt)
7
Stava används i Lexin en webbaserad ordbok, med bl. a
Stava används i Lexin en webbaserad ordbok, med bl.a. svensk-engelsk ordbok 7 miljoner uppslagningar per månad och där har man upp till 33 procent felstavningar totalt
8
Dynamiskt stavningsstöd
Indexet är lexikonet Alla ord i indexet är rätt även felstavade ord. Om ett sökord ej finns i indexet försöker stavningsstödet hitta närmaste editerings-avstånd av sökordet till ett ord i indexet. Provar med olika näraliggande tangentbordsättningar
9
På RSV sökmotor med stavningsstöd korrigerades 90 procent av stavfelen
40 procent av förslagen var särskrivningar (datamässigt tungt) 29 procent var felstavningar Dokumentsamlingen innehöll drygt 5 000 dokument
10
I ett annat kontrollerat experiment på svenska nyhetstexter ökade precisionen och täckningen med 4 respektive 11.5 procent om man hade stavningsstöd (Sarr 2003). Nästan samma korpus användes för att visa att svensk stemming ökade precisionen och täckningen med 15 resp 18 procent (Carlberger et al 2003).
11
Att göra automatisk särskrivning är datamässigt tungt
rättstavning => rätt stavning Hopskrivningar lätt att göras automatiskt rätt stavning => rättstavning text sammanfattning => textsammanfattning Google, SiteSeeker
12
Stemming Stemming (Carlberger et al 2001)
Bilverkstad => bilverkstaden, bilverkstäder, mm 15-18 procent bättre träffar vid sökning på svenska. Andra språk upp till procent bättre träffar
13
Trunkering (bilverkst*) Frågeexpansion- generera alla böjningsformer
bilverkstad, bilverkstaden, bilverkstadens, bilverkstäder, bilverkstäderna, bilverkstäderna, mm Samma effekt som stemming men mer kostsamt datamässigt
14
KWIC KWIC- Key word in context Extrakt av relevanta textutdrag
De första sökmotorerna hade bara länkadressen och kanske första orden i den indexerade texten Tvungen att klicka in i alla dokument Textsammanfattare SweSum ihopkopplad med Altavista 1999 !!
15
Sökmotorer med KWIC Google AltaVista Fast SiteSeeker
har alla KWIC idag
19
Synonymgenerering Termexpansion vore bra att ha
Bilverkstad => bilverkstad, bilreparation, garage, verkstad Man vill slippa använda synonymlexikon
20
LSI Latent Semantic Indexing (LSA Latent semantic analysis)
Bygger på vektorrymdsmodellen Termer som befinner sig nära varandra kanske har med varandra att göra. Tidskrävande Samförekomster bilverkstad, bilreparation, bilskada, garage, Volvo, Sverige, mm
21
Random Indexing mer effektivt än LSI/LSA
Approximering av LSI/LSA Skapar färre dimensioner än LSI/LSA Lättare att uppdatera
22
Google synomymsökning
~volvo => car, cars ~volvo ~car ~cars=> motor car, volvo cars ~volvo -volvo ~car -car => 240, motor, vehicle ~car => BMV, auto, automotive, cars ~car -car => automotive, motor, racing
23
Kategorisering vid indexering och sökning
Automatisk språkigenkänning - svenska, engelska, kinesiska, mm Dokumenttyp HTML, Word, Excel, PDF mm Datum Kategorier i form av server, domän, eller land
24
Kategorisering Kategorier finns även på webbplatser Kommuner tex
Kommunförvaltning Skolor Fritid Kultur Socialförvaltning Övrigt
25
Kategorisering föränderligt
På många webbplatser ändrar sig eller läggs kategorier till efter hand De färdigvalda kategorierna blir snabbt obsoleta Automatisk kategorisering genom bra exempel? Men de flesta använder inte kategorier vid sökning
26
Klustring Klustring är klurigt Enligt vilka mått skall man klustra?
Cosine = Vinkeln mellan texternas vektorer (enligt vektorrymdsmodellen) Andra mått Antal ord som texterna delar Antal ord som delas samt ordfrekvenserna Normalisering
27
Klustringalgoritmer Hierarkiska Icke hierarkiska
Korpusen delas upp i några få kluster därefter arbetar sig algoritmen nedåt Icke hierarkiska Utgå från den enskilda texten och arbeta uppåt Rosell 2003 om man vill läsa mera
28
Kategorisering Överlappande eller icke överlappande kategorier
Polyethic och Monothetic överlappande och icke överlappade egenskaper Ordnade eller icke ordnade kategorier
29
Vivisimo klustringssökmotorn
Sökmotorn Vivisimo har en klustrare Tar de första 500 bästa träffarna och klustrar dem
31
Klustring Rosells klustrare (2002, 2003) klustrade svenska nyhetstexter K-mean icke-hierarkisk algoritm Använde stemming och ordledsuppdelning Stemming förbättrar klustringsresultaten med ungefär 5 procent. Sammansättningsuppdelning förbättrar resultaten med 10 procent och en kombination ger 13 procents förbättring (Rosell 2003).
33
Rosell kunde jämföra sina automatiska kluster med de kategorier som nyhetstexterna kom ifrån från början Därigenom kunde han se hur pass bra klustren blev.
34
Semiautomatisk kategorisering
36
Slutsatser Framtiden Termexpansion Särskrivning
Semiautomatisk kategorisering Flerspråklig sökning
Liknande presentationer
© 2024 SlidePlayer.se Inc.
All rights reserved.