Stavningsstöd, termexpansion och kategorisering

Slides:

Advertisements

Liknande presentationer

Att förstå anonymiteten (översättning från

Advertisements

Svenska WebDewey Introduktion

En Dag i Ramadan Ramadan

Här ser ni några sidor som hjälper er att lösa uppgifterna:

Att göra en modern släktbok för CD och webb med Disgen

1 Tillämpning av Koden Innehåll •Undersökningens metod och uppläggning, inkl. bolagsurval •Sammanfattning •Genomgång av svar på fokusfrågor.

MS Excel 2010 – Dag 2 Mahmud Al Hakim

Barnkonventionen Rätt att utvecklas som person

BENÄMNA lätta ord SPRÅKTRÄNING VID AFASIKg VIII

Tillämpning av bolagsstyrningskoden vid årsstämmor 2005 och 2006.

MS Excel 2010 – Dag 1 Mahmud Al Hakim. Kursens innehåll 2 DagInnehåll 1 Introduktion till Excel 2010 Hantera arbetsböcker Formler Formatering Litteratur:

Eddie Arnold - Make The World Go Away Images colorées de par le monde Déroulement automatique ou manuel à votre choix 1 för dig.

Elkraft 7.5 hp distans: Kap. 3 Likströmsmotorn 3:1

Budgetpropositionen för 2013 Bertil Holmlund Nationalekonomiska institutionen Uppsala universitet Nationalekonomiska föreningen 24 september 2012.

Svenska WebDewey Introduktion

Grundkurs i Internetsökning

KONJUNKTURBAROMETERN 29 okt 2008 ROGER KNUDSEN. KONJUNKTURBAROMETERN 29 okt 2008 ROGER KNUDSEN Innehåll Barometerindikatorn Konjunkturbarometern Företag.

Karolinska Institutet, studentundersökning Studentundersökning på Karolinska Institutet HT 2013.

NyföretagarCentrums resultat 2013 NYFÖRETAGARCENTRUM – RESULTAT 2013.

Kommunpussel Din uppgift är att sortera de organisatoriska delar på nästa sida på ett sådant sätt att det överensstämmer med hur din kommun är organiserad.

Punktprevalensmätning av trycksår 2011, v.40 Resultat från landstingen

V E R S I O N N R 2. 0 T A V E L I D É E R I M I L J Ö.

Bastugatan 2. Box S Stockholm. Blad 1 Läsarundersökning Maskinentreprenören 2007.

Droger och spel 2006Gymn åk2 1 Elever som röker (dagligen eller ibland)

Droger och spel Elever som röker (dagligen eller ibland)

Enkätresultat för Fritidshem Föräldrar 2014 Skola - Hällby skola.

INFÖR NATIONELLA PROVET

Svenska WebDewey Introduktion Harriet Aagaard Svenska Deweyredaktion

Gymnasieskolan år 2 Brott och utsatthet för brott 2008 BILD 1 Elever som snattat de senaste 12 månaderna.

Grundskolan år 9 Brott och utsatthet för brott 2008 BILD 1 Elever som snattat de senaste 12 månaderna.

Enkätresultat för Grundskolan Elever 2014 Skola:Hällby skola.

15 x 25 meter. Skriv banenavn Skriv designet af Skriv dato MÅL sväng vänster 6 sväng höger 5 runt 7 Vänster runt hund höger runt.

Avgiftsstudie Nils Holgersson år 2007 Bild 1 Baserat på rapportversion

KURSUTVECKLING TILLVÄXTFONDER –

1 Vänsterskolan Debattartiklar. 2 Aktuell krok 3 Aktuella krokar 1. Direkt krok.

(2) Avvikelse från std. kostnad (5) Andel inv 65+ med insats (4) Andel 80+ i befolkningen (1) Kronor/ invånare (65+) (3) Kronor/ brukare (6) Ytterfall.

Från Gotland på kvällen (tågtider enligt 2007) 18:28 19:03 19:41 19:32 20:32 20:53 21:19 18:30 20:32 19:06 19:54 19:58 20:22 19:01 21:40 20:44 23:37 20:11.

Arbetspensionssystemet i bilder Bildserie med centrala uppgifter om arbetspensionssystemet och dess funktion

TÄNK PÅ ETT HELTAL MELLAN 1-50

Grundskola Elever 2013 Grundskoleenkät - Elever ( per klass)

Greppa Näringen Medlemsundersökning, kvartal 1. 1.

Grundskolan år 9 Droger och spel 2008 BILD 1 Elever som röker (dagligen eller ibland)

1 Joomla © 2009 Stefan Andersson 1. 2 MÅL 2 3 Begrepp Aktör: en användare som interagerar med webbplatsen. I diagrammet till höger finns två aktörer:

1 Elevenkäten Elevenkäten Föräldraträff 2010 Järna 30/

Kouzlo starých časů… Letadla Pár foteček pro vzpomínku na dávné doby, tak hezké snění… M.K. 1 I Norrköping får man inte.

Best pictures on the internet 2007 Awards 1http:// Är vänsteralliansen trovärdig i Norrköping.

Barnets rättigheter i Sverige och för alla barn i världen

Enkätresultat för Fritidshem Elever 2014 Skola:Fritidselever, Gillberga skola.

1 PROGNOSMODELLENS RESULTAT I BILDER Jouko Kinnunen & Richard Palmer 10 mars 2006.

Grundskola Föräldrar 2013 Grundskoleenkät - Föräldrar Enhet:Gillberga skola.

SEO Manager för EPiServer LÅT REDAKTÖRERNA VARA REDAKTÖRER.

1(31) Ett omdiskuterat ämne. Vad är det som händer? 2.

Best pictures on the internet 2007 Awards 1http:// (s), (v), och (mp) i Norrköping, gillar inte att vi använder grundlagarna.

Barnets rättigheter i Sverige och för alla barn i världen

2 Agenda 1. Börja arbeta med Excel Hantera arbetsböcker 3. Formler 4. Formatera 5. Diagram 6. Skriva ut 7. Referenser mellan kalkylblad 8. Arbeta.

Täckningsgrad Dec 2014 – feb 2015 Täckningsgrad Dec 2014 – feb 2015.

Arbetspensionssystemet i bilder Bildserie med centrala uppgifter om arbetspensionssystemet och dess funktion

1 Munkedal 2009 Sveriges Kommuner och Landsting Signild Östgren Leif Klingensjö.

1 Anneli Juhlin FP

Enkätresultat för Grundskolan Föräldrar 2014 Skola - Gillberga skola.

Gymnasieskolan år 2 Droger och spel 2008 BILD 1 Elever som röker (dagligen eller ibland)

Sidnummer Kataloger och sökverktyg hur kan vi använda DDK?

Räkna till en miljard 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13,14,15,16,17,18,19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, En miljard är ett.

© Anders Broberg, Ulrika Hägglund, Lena Kallin Westin, 2003 Föreläsning 12 Sökning och Sökträd.

Förskoleenkät Föräldrar 2012 Förskoleenkät – Föräldrar Enhet:Hattmakarns förskola.

Bild 1 Prognos för länets arbetsmarknad Stefan Tjb.

Grundskola Elever 2013 Grundskoleenkät - Elever Enhet: Gillberga skola.

1 Jan Lundström OV’s Hemsida Utbildning Ledare. 2 Jan Lundström OV’s Hemsida Standard Lagrum.

När infaller Julafton och hur ofta?

Presentationens avskrift:

Stavningsstöd, termexpansion och kategorisering Hercules Dalianis NADA-KTH Email: hercules@nada.kth.se Tel: 08-790 91 05 http://www.nada.kth.se/~hercules

Stavningsstöd, termexpansion och kategorisering Långa frågor och frassökning Stavningsstöd i sökmotorer KWIC Key-words-in-context Termexpansion för bättre sökning Kategorisering Klustring

Medelfrågan 1,8 ord Längre frågor ger bättre svar Större inmatningsfält Stemming och särskrivning Frassökning Sökning i fler filtyper PDF, PowerPoint, Ljudfiler, Bildfiler, Sökning på fler språk

Stavningsstöd vid sökning Många felstavade sökord i sökmotorer 10 % minst Stavningsstöd => fuzzy matching

Sex olika typer av stavfel Personer som inte kan inte stava rätt- dyslektiker, andraspråksanvändare, m.fl. Slarvfel - slinter på tangentbordet Osäkra på stavningen Alternativa stavningar av ord i indexet (Namn stavas på olika sätt) Felstavningar i indexet Särskrivningar eller hopskrivningar

Många felstavningar i sökmotorer 10 procent av alla sökfrågor är felstavade (1 miljon sökfrågor på RSVs webbplats, (Dalianis 2002)) Google pressrelease (2002) säger samma sak 10 procent av alla sökfrågor är felstavade på Sunets webbkatalog (Stolpe 2002) Euroling-SiteSeeker loggar säger 10-12.5 procent felstavade sökfrågor (på 1 miljon sökfrågor totalt)

Stava används i Lexin en webbaserad ordbok, med bl. a Stava används i Lexin en webbaserad ordbok, med bl.a. svensk-engelsk ordbok 7 miljoner uppslagningar per månad och där har man upp till 33 procent felstavningar totalt

Dynamiskt stavningsstöd Indexet är lexikonet Alla ord i indexet är rätt även felstavade ord. Om ett sökord ej finns i indexet försöker stavningsstödet hitta närmaste editerings-avstånd av sökordet till ett ord i indexet. Provar med olika näraliggande tangentbordsättningar

På RSV sökmotor med stavningsstöd korrigerades 90 procent av stavfelen 40 procent av förslagen var särskrivningar (datamässigt tungt) 29 procent var felstavningar Dokumentsamlingen innehöll drygt 5 000 dokument

I ett annat kontrollerat experiment på 79 000 svenska nyhetstexter ökade precisionen och täckningen med 4 respektive 11.5 procent om man hade stavningsstöd (Sarr 2003). Nästan samma korpus användes för att visa att svensk stemming ökade precisionen och täckningen med 15 resp 18 procent (Carlberger et al 2003).

Att göra automatisk särskrivning är datamässigt tungt rättstavning => rätt stavning Hopskrivningar lätt att göras automatiskt rätt stavning => rättstavning text sammanfattning => textsammanfattning Google, SiteSeeker

Stemming Stemming (Carlberger et al 2001) Bilverkstad => bilverkstaden, bilverkstäder, mm 15-18 procent bättre träffar vid sökning på svenska. Andra språk upp till 30-50 procent bättre träffar

Trunkering (bilverkst*) Frågeexpansion- generera alla böjningsformer bilverkstad, bilverkstaden, bilverkstadens, bilverkstäder, bilverkstäderna, bilverkstäderna, mm Samma effekt som stemming men mer kostsamt datamässigt

KWIC KWIC- Key word in context Extrakt av relevanta textutdrag De första sökmotorerna hade bara länkadressen och kanske första orden i den indexerade texten Tvungen att klicka in i alla dokument Textsammanfattare SweSum ihopkopplad med Altavista 1999 !!

Sökmotorer med KWIC Google AltaVista Fast SiteSeeker har alla KWIC idag

Synonymgenerering Termexpansion vore bra att ha Bilverkstad => bilverkstad, bilreparation, garage, verkstad Man vill slippa använda synonymlexikon

LSI Latent Semantic Indexing (LSA Latent semantic analysis) Bygger på vektorrymdsmodellen Termer som befinner sig nära varandra kanske har med varandra att göra. Tidskrävande Samförekomster bilverkstad, bilreparation, bilskada, garage, Volvo, Sverige, mm

Random Indexing mer effektivt än LSI/LSA Approximering av LSI/LSA Skapar färre dimensioner än LSI/LSA Lättare att uppdatera

Google synomymsökning ~volvo => car, cars ~volvo ~car ~cars=> motor car, volvo cars ~volvo -volvo ~car -car => 240, motor, vehicle ~car => BMV, auto, automotive, cars ~car -car => automotive, motor, racing

Kategorisering vid indexering och sökning Automatisk språkigenkänning - svenska, engelska, kinesiska, mm Dokumenttyp HTML, Word, Excel, PDF mm Datum Kategorier i form av server, domän, eller land

Kategorisering Kategorier finns även på webbplatser Kommuner tex Kommunförvaltning Skolor Fritid Kultur Socialförvaltning Övrigt

Kategorisering föränderligt På många webbplatser ändrar sig eller läggs kategorier till efter hand De färdigvalda kategorierna blir snabbt obsoleta Automatisk kategorisering genom bra exempel? Men de flesta använder inte kategorier vid sökning

Klustring Klustring är klurigt Enligt vilka mått skall man klustra? Cosine = Vinkeln mellan texternas vektorer (enligt vektorrymdsmodellen) Andra mått Antal ord som texterna delar Antal ord som delas samt ordfrekvenserna Normalisering

Klustringalgoritmer Hierarkiska Icke hierarkiska Korpusen delas upp i några få kluster därefter arbetar sig algoritmen nedåt Icke hierarkiska Utgå från den enskilda texten och arbeta uppåt Rosell 2003 om man vill läsa mera

Kategorisering Överlappande eller icke överlappande kategorier Polyethic och Monothetic överlappande och icke överlappade egenskaper Ordnade eller icke ordnade kategorier

Vivisimo klustringssökmotorn Sökmotorn Vivisimo www.vivisimo.com har en klustrare Tar de första 500 bästa träffarna och klustrar dem

Klustring Rosells klustrare (2002, 2003) klustrade 5 000 svenska nyhetstexter K-mean icke-hierarkisk algoritm Använde stemming och ordledsuppdelning Stemming förbättrar klustringsresultaten med ungefär 5 procent. Sammansättningsuppdelning förbättrar resultaten med 10 procent och en kombination ger 13 procents förbättring (Rosell 2003).

Rosell kunde jämföra sina automatiska kluster med de kategorier som nyhetstexterna kom ifrån från början Därigenom kunde han se hur pass bra klustren blev.

Semiautomatisk kategorisering

Slutsatser Framtiden Termexpansion Särskrivning Semiautomatisk kategorisering Flerspråklig sökning