Copyright and the Web as Corpus I samarbete med Monica Lassi, HIB Cecilia Hemming Department of Languages, University College of Skövde Swedish National Graduate School of Language Technology, GSLT
Göteborg 29 jan, Skövde 10 feb 2003 Vad är en korpus? Textkorpus digitaliserad oftast begränsad i storlek maximalt representativ för viss språkvariant begränsad storlek begränsad åtkomst ganska snabbt omodern använda Webben som korpus?
Göteborg 29 jan, Skövde 10 feb 2003 Olika uppfattningar “The majority of Web-documents are not protected by copyright… authors are happy to reach as many as possible” (Spoor, 1996) “probably all material available on the Web is copyrighted” (Cornish, 1999)
Göteborg 29 jan, Skövde 10 feb 2003 Konventioner Bern-konvention 127 länder (1997) Världskonventionen Copyright-symbol, namn, år (95 countries)
Göteborg 29 jan, Skövde 10 feb 2003 Olika lagar Europeiskt perspektiv: Fokus på skaparens rätt, särskilt den ekonomiska rätten, till arbetet Anglosaxiskt perspektiv: Fokus på kommersiell exploatering av arbeten (Torremans)
Göteborg 29 jan, Skövde 10 feb 2003 Legala aspekter X tjänar pengar på att sälja Y:s intellektuella egendom X använder arbetet och orsakar därigenom minskad vinst för Y Den moraliska rätten då? olika kulturer ofta olika synsätt – problem vid global åtkomst av material Torremans europeiska harmoniseringsmodell Erkänna författare som skapare (paternity) Skydda verket från förändringar (integrity) Förbättra möjligheter att ge upp viss rätt (partial wavier)
Göteborg 29 jan, Skövde 10 feb 2003 Vilken nations lag gäller? “The copyright law that matters is the law of the country from which the corpus materials are distributed, NOT the country where the original texts were created OR the country from which end users access the materials.” (Davies)
Göteborg 29 jan, Skövde 10 feb 2003 Tradition kontra lag Ingen enhetlig lagstiftning Svårt att kombinera olika staters lagar Mycket arbete att söka tillstånd fr olika författare/skapare fr ibland olika länder Tradition fri användning av (proportionellt) korta utdrag låta författaren/skaparen avgöra om verk ska kunna läsas in av robotar (automatisk upptagning)
Göteborg 29 jan, Skövde 10 feb 2003 Kopiera eller inte kopiera Kopiera uppgifter på Internet – mer än vanligt! När kan en kopia anses kopierad? på mellanliggande server på skiva/diskett/hårddisk eller i RAM-minnet ladda ner en rapport -för privat användning -in i intern korpus
Göteborg 29 jan, Skövde 10 feb 2003 Vanliga missuppfattningar Står det inget, finns ingen upphovsrätt att beakta Tjänar jag inte pengar på det, är det fritt Hittar jag det på Usenet, är det fritt Försvarar man inte upphovsrätten förlorar man den Det skadar ingen, det ger ju gratis reklam Jag fick ett ex. per e-post, kan alltså ge vidare
Göteborg 29 jan, Skövde 10 feb 2003 The European Language Resources Association (ELRA) ( )
Göteborg 29 jan, Skövde 10 feb 2003 Korpus 2000 ( Korpus med 25 M ord fr 20’ olika texter Presenteras som utdrag med lite kontext
Göteborg 29 jan, Skövde 10 feb 2003 The Oxford Text Archive (OTA) ( Stort elektroniskt arkiv Hävdar att ingående texters copyright utgångna författare gett tillstånd till användning Brasklapp: kontakta OTA om © gäller
Göteborg 29 jan, Skövde 10 feb 2003 WebCorp ( ) (University of Liverpool) Verktyg för - Webben som korpus WebCorp varken lagrar eller publicerar text presenterar konkordanser med lite kontext
Göteborg 29 jan, Skövde 10 feb 2003 Invändningar mot EUCD The EU Copyright Directive (2001) Article 6: Illegal to circumvent a protection measure = C-law in the hand of large companies that develop that technology. Publishing information about bugs on a bugtraq list => risk getting sued for providing circumvent information. Severe impact on Open Source. Give a few large publishers an extreme amount of control.