Detection of similarity between documents Axel Bengtsson Ola Olsson

Slides:



Advertisements
Liknande presentationer
Thommy Sjölander och Ulf Lundgren, MRO Software AB
Advertisements

Samtala om böcker.
Visual Basic - Genomgång
Tips och råd som hjälper dig läsa, lära och plugga
Talföljder formler och summor
Linjär Algebra Tillämpningen Av ……
SPF Värmland distriktet Utbildning mars 2011
Närvaro!!.
Word Word är ett av de vanligaste ordbehandlingsprogrammen. Vi skall idag gå igenom de vanligaste funktionerna i programmet. Fördelarna med att använda.
Vecka 47 Måndag Onsdag Vecka 48 Måndag Torsdag Fredag Vecka 49 Måndag Onsdag Torsdag Vecka 51 Onsdag 19 dec Här och nu! tenta.
BEANS NÖJD KUND INDEX (e-survey undersökning)
Prestandaanalys av JavaScript
Sammanfattning Vi gjorde ett studiebesök i Kista Service Hus. Två pensionärer pratade om problem i deras vardagsliv. Utifrån det tänker vi skapa en digital.
2D1311 Programmeringsteknik med PBL
Programmeringsteknik Föreläsning 13 Skolan för Datavetenskap och kommunikation.
5. Grafiska objekt Redan på övning fem av sex! Här handlar det om att rita själv, färglägga och att låta kreativiteten flöda. Något för dig? Ritverktyg.
Den uppsats ni är på väg att skriva skall en vacker dag presenteras muntligt. I betygskriterierna för Svenska C står det att eleven, skall använda sig.
Funktionen SA10-Grupper. Följande typer av grupper finns: - Grupp i kurs hör alltid ihop med en kurskod - Grupp i program hör alltid ihop med en programkod.
Föreläsning 7 Analys av algoritmer T(n) och ordo
Predicting protein folding pathways.  Mohammed J. Zaki, Vinay Nadimpally, Deb Bardhan and Chris Bystroff  Artikel i Bioinformatics 2004.
IKT och matematik Patrik Erixon Trondheim nov.2005.
Algoritmer och datastrukturer
CINAHL Börja med CINAHL Headings för att hitta ämnesord.
Grundläggande programmering
Föreläsning 2 Datalogi för E1 2D1343
Föreläsning 5 Python: argument från kommando-tolken
Programmering B PHP Lektion 2
Programmering B PHP Lektion 3
- TPB:s nya mediawebb är här!. Varför? Tpb-katalogen svårarbetad Användarna kommer till oss: – begriplighet och tillgänglighet – bilder och bokomslag.
Workshop inför Projektet
Pointers. int a=5; int f(int b) { a--; b++; return b; } int main() { int a=3; printf("%d,",f(a)); printf("%d",a); return 0; }
Word Read Plus 08 talsyntes
Programmering B PHP Lektion 3
Ver 1.0 Välkommen till bridgelärarutbildning Naturmetoden Bosön Kursledare Bengt Nygren.
Referensgruppen på MMS 10 dec 2009 Mätningar av Webb-TV.
Powerpoint …är ett program som du använder till att: …är bra till att
Språkteknologiska metoder Språkteknologisk forskning och utveckling (HT 2006)
Ekvationer Det är inte så svårt?.
UTVECKLING MED RAMVERKET.NET Marcus Medina. Dagens visdomsord ” Ingen vet vad han klarar innan han har försökt. ” - Publilius Syrus (85 f.Kr.-43 f.Kr.).
Deklarera en struct som kan användas för att representera en rät linje Använd den I main för att deklarera en variabel som du initierar så att den representerar.
7 1 Individual Project No.1: Paper Sus Lundgren. 7 2 Mål Att fördjupa dig i en aspekt av kursen du tyckte var intressant Att reflektera kring, analysera.
TÄNK TILL VÄRDEGRUNDSMATERIAL 2014.
Funktioner, styrstrukturer, manipulering av matriser
1 Föreläsning 3 programmeringsteknik och Matlab 2D1312/ 2D1305 Matlab fortsättning Funkioner, styrstrukturer, manipulering av matriser.
Problemlösning Veckodagsproblemet Gissa talet Siffersumman.
Mitt första Java program Mahmud Al Hakim Copyright, Mahmud Al Hakim, 1.
Dagens schema:  Gå igenom dagens schema  Snabb genomgång av föregående lektion  Diskutera öppna frågor – dela tankar  Dagens tre frågor som ska besvaras:
SWEDISH AGENCY FOR ECONOMIC AND REGIONAL GROWTH 1 11 Systemadministration och checklistor 12/ Sofia Wallgren Nyps utbildning- Företagsstöd.
Nu lär vi oss lite om likheter och skillnader mellan språken!
Namnrum, räckvidd och rekursion Linda Mannila
F. Drewes, Inst. f. datavetenskap1 Föreläsning 11: Funktionella språk Funktioner och variabler i matematiken Funktionella språk LISP, ML och.
Läsbar prolog CM 8.1. allmäna principer correctness user-friendliness efficiency readability modifiability robustness documentation.
Problemlösningsmetodik
Jonny Karlsson INTRODUKTION TILL PROGRAMMERING Föreläsning 5 ( ) INNEHÅLL: -Metoder.
Debattartikel.
Föreläsning 13 Appletprogram/fristående grafiska program Arv Rita linjer, rektanglar mm Skriva text, byta färg Appletprogram & HTML Grafiska användargränssnitt.
Leda och planera sokratiska samtal
Föreläsning 9 Arv kap 8.1 Interface kap 9.2 Grafiska användargränssnitt (GUI) kap 10.
Uppgift 5 Tekniska rapporten En beskrivning av ett uppdrag ni har gjort i er grupp. Du ska bifoga en programmeringshandledning som visar hur man programmerar.
Föreläsning 13 Logik med tillämpningar Innehåll u Aritmetik i Prolog u Rekursiva och iterativa program u Typpredikat u Metalogiska predikat.
DEMOKRATI Skriv ner dina tankar kring begreppet Demokrati. Vad betyder det för dig? Vad tänker du när du hör ordet? Går det att föreställa sig hur det.
1 Ingenjörsmetodik IT & ME 2007 Föreläsare Dr. Gunnar Malm.
Procedurellt potpurri Dagens samtalsämnen –Klipp (Cut) –If-then-else –fail/0 –repeat/0 Att läsa –The Art of Prolog, kapitel 11 –Relevant avsnitt i Learn.
William Sandqvist Funktionsbibliotek När man utvecklat en funktion så långt att den är "färdigutvecklad" kan man lika gärna spara den på.
1 Föreläsning 13 programmeringsteknik och Matlab Funktioner, styrstrukturer, mer om matriser.
Dokument Process (DP) Metadata Ett standardiseringssamarbete för att: Att effektivisera åtkomst till verksamhetsdokument mellan och inom organisationer.
Love, love, love Bibelstudium, Love Each Other,
Om du jobbar i huset (ekero1)
Mål v.6 Jag känner mig säker (grön) Oftast går det bra (gul)
Välkommen till bridgelärarutbildning Naturmetoden
Presentationens avskrift:

Detection of similarity between documents Axel Bengtsson Ola Olsson

Mål Målet med projektet var att hitta dokument som är mycket lika varandra rent syntaktiskt Användningsområden –Man kan låta vår applikation köras nyhetsartiklar, böcker, etc för att visa likheter. –Känna igen uppsats-fusk, fusk på skrivningar –Lätt att hitta skillnader mellan avtal, revisioner på dokument.

Algoritmer Vårt program baseras på två algoritmer som snarare kompletterar varandra än baserar sig på varandras in- och utdata. TDT (TF-IDF & Cosine similarity rate) –Ordfrekvens –Antalet dokument orden befinner sig LCS –kontexten

Klassdiagram

Viktberäkning (TF-IDF) Den här modulen innehåller algoritmen som ger två dokument en vikt som är beroende på hur lika de är (vikten är givetvis symmetrisk). Modulen består av: –TF-IDF och Cosine similarity rating –TF-IDF – Term Frequence Inverted Document Frequence

Cosine similarity rating Som indata tar den här funktionen två dokument och som utdata ges ett poäng (deras likhetspoäng). 0 om de olika 1 om de lika

LCS – Longest Common Subsequence

Iterativ lösning for(int x=i;x>=0;++x) { for(int y=j;y>0;++y) { if (X[x]==0 || Y[y]==0) ResultMatrix[x][y]=""; if (X[x]==Y[y]) ResultMatrix[x][y] = ResultMatrix[x+1][y+1] + X[x]; else ResultMatrix[x][y] = max(ResultMatrix[x][y+1], ResultMatrix[x+1][y]); }

LCS – Longest Common Subsequence

GUI GUI:t används för att välja filer som indata och sedan visa grafiskt vår LCS algoritm. LCS för dokumenten visas i röd text i båda dokumenten. GUI:t visar två dokument åt gången, alla 2-par av dokument kan väljas med upp och ner knappar. Som standard visas LCS:en på det paret som har högst cosine similarity rate.

Demonstration Fil1 Hello everybody. this is a test Ola and Axel. Fil2 Hello anyone. What may be the deal. Fil3 Hello anybody. Great program Ola and Axel. 4 observationer som borde stämma när vi kör filerna som indata till vårt program 1.Ordet “Hello” ska få 0 i vikt då log21= 0. 2.File1 and File3 är det paret som borde få högst cosine similarity rate då de delar orden ”Ola and Axel”. 3.Fil1 till Fil2 och Fil2 till Fil3 borde vara värda 0 då de inte har något gemensamt ord överhuvudtaget. 4.LCS mellan File1 och File3 borde bli “Hello Ola and Axel” då de inte har något annat gemensamt. Om vi kör ett annat test där vi vill köra med en text där ord förekommer endast en gång This is a test. Mot baklänges.test a is This Det som kommer att rödmarkeras kan vara vad som helst beronde på hur max-funktionen för strängarna är implementerad, men vi måste förstå att det endast kommer att markeras ett enda ord.

Utvärdering Två personer oberoende av varandra rangordnade liknande artiklar från tidningar Programmet körs och rankar samma tidnings artiklar Programmet rankade 80% rätt Problemet var vid stor skillnad på mängden text

Slutsats Resultatet är bra, TDT och LCS kompletterar varandra på ett bra sätt och det verkar vara eniga. Problem med att delmängder får ett lågt TDT värde Halebops avtal Tdt revisioner