Hantering av forskningsdata – Lärosätes syn Renata Arovelius Luleå 2012-04-02
Översikt * Vad menar vi med forskningsdata? Forskningsprocessen Handlingstyper Offentlighetsprincipen och Arkivlagen * Vad är hantering av data? Handlingarnas livscykel: Datahantering – bevarande – publicering - återanvändning * Hur kvalitetssäkra, bevara och tillgängliggöra forskningsdata? Metadata Forskningens infrastruktur Samarbete
Vad är forskningsdata? /forskningsmaterial, forskningshandlingar Handlingar tillkomna inom forskningsprojekt och inom kontinuerligt bedriven forskning
Offentlighetsprincipen (OP) Myndighetens verksamhet öppen för allmän insyn (arbete i form av forskning har ingen särställning) * Handlingar som uppstår i samband med forskning är underkastade Tryckfrihetsförordningens regler om allmänna handlingars offentlighet * Typen av forskning och dess finansiering saknar betydelse
Arkiv = ”Kvalitetssäkrad information” Vad är arkiv? Myndighetens allmänna handlingar och sådana handlingar som avses i 2 kap. 9 § TF (minnesanteckningar, utkast etc.), om man beslutar att de ska arkiveras Arkiv = ”Kvalitetssäkrad information” (autenticitet, spårbarhet, beständighet, tillgänglighet)
Forskningsprocessen: Delprocesser och aktiviteter Archiving: Data and metadata, preservation standards, roules for appraisal
Datasetet får endast användas i icke kommersiellt syfte Datasetet får endast användas i icke kommersiellt syfte. Datasetet är samlat i en komprimerad fil, dataset.zip. Filerna har komprimerats med pkzip.exe och kan efter nedladdning packas upp med t ex. WinZip eller pkunzip.exe. JAN FEB MAR DAT 50 84 85 1 54 80 2 59 81 3 58 86 4 61 79 5 63 89 77 6 69 93 75 7 98 72 Data set Text Bild Bevarat på hårddisk (laptop) ej acceptabelt; mycket osäkert Publicerat på webben ej arkivmässigt, utan strategi för långtidsbevarande Översänt till arkivet metoder och metadata (eArkiv) tillgängliggörande meriterande (”citering standard”: beständiga identifierare för rådata (dataset) säkert
Vad är e-arkiv? E-arkiv beskrivs som system för bevarande eller system för långsiktig informationsförsörjning som kan vara ett fristående system eller ett verksamhetssystem med inbyggd e-arkivfunktion SLU tillämpar den sistnämnda definitionen (E-delegationen och Riksarkivet)
Bevarandefrågor och bevarandestrategi: Enligt Riksarkivets föreskrifter 2009:1, kap. 3, 1 § är universitetet skyldigt att upprätta en strategi för bevarande av elektroniska handlingar. De handlingar som finns i digital form vid SLU omfattar i första hand *forskningsdatabaser inkl. den information som hanteras i IT-system för bearbetning av forskningsdata, *administrativa system som LADOK, PUBLIC och AGRESSO samt andra verksamhetssystem, * system för distansutbildning, kurshantering, elektronisk publicering, universitetens webbsidor samt handlingar i andra digitala format som ljud, film eller foto.
eArkiv Lämpliga metadata (deskriptiva och för bevarande) Indexering av alla metadata för snabb utforskning Tillgång till data oavsett tid och plats – god infrastruktur Skydd för sekretess, ”restricted access” Möjlighet att följa hela kedjan (länkning rådata – forskningsresultat); beständiga länkar Garanti för och migrering till beständiga format – långsiktighet
Metadata för e-arkivet skapas i verksamhetssystemen Applikationer måste styras av Arkivredovisningen Metadata enl RA-FS 2008:4 måste vara påförda i det uppgifts- lämnande systemet, bl. struktur- enhet (process) och arkivbildare Citerat från ”Vismas” presentation
Varför beskriva? Metadata Arkiv = ”Kvalitetssäkrad information” (autenticitet, spårbarhet, beständighet, tillgänglighet) Typer av metadata: Deskriptiva – hjälper till att hitta och identifiera arkiverade objekt Administrativa – hjälper till att hantera och ”spåra” data Strukturella – talar om hur komplexa objekten är och hur olika delar relaterar till varandra Bevarande metadata hjälper till långtidsbevarande och återanvändning av de digitala objekten.
HUR BESKRIVA? Deskriptiva metadata DC MODS MARC 21 DDI EML GEO-Data, mm. Bevarande metadata METS PREMIS
PREMIS (Preservation Metadata: Implementation Stategies) http://www.loc.gov/standards/premis/ och METS http://www.loc.gov/standards/mets (Metadata Encoding and Transmission Standard) Standard framtagen för att effektivt hantera, finna och återskapa den digitala informationen. PREMIS bevarandemetadata innehåller: - proveniensinformation, - fångar aktiviteter kring det digitala objektet och identifierar tekniska egenskaper ger även autenticitet till objektet PREMIS schema används som ”METS extensions”
METS http://www.loc.gov/standards/mets (Metadata Encoding and Transmission Standard) (METS) är en struktur för att koda och packa ihop metadata för ett digitalt objekt. METS är en flexibel standard som använder XML för att koda upp strukturen.
PREMIS OCH METS I. PREMIS under amdSec (administrative metadata): Object in techMD, Event in digiprovMD Rights in rightsMD Agent with Event or Rights Or II. All in digprovMD or III. All in techMD
ECDS Metadata (1) 1. Obligatoriska (m) och valfria (o) metadata element i portalen: - Title Topic category code - Dataset description Geographical extent - Contact information regarding the dataset Temporal extent - Graphic illustration (o) Additional information regarding georaphic, temporal and vertical extent (o) - Descriptive keywords from thesaurus Contact information regarding distribution (o) - Use limitation - Access constraints Data format (o) - Other constraints On-line resource (o) Data quality information (o) - Language Metadata information (fixed or created automatically) - Topic category code - Geographical extent Contact information regarding metadata - Revision (date and type) - Temporal extent - Dataset version - Dataset citation (o)
Arkivmetadata for forskningsmaterial/försök- (1) admSec Object: unik identifierare (typ och värde) ”fixity info” – checksumma, algoritm för att ”återhämta” filtyp, storlek, struktur (format och version) referenskod, antal filer, signum objektets innehåll, ämne (variabler, parametrar, relationer) materialets typ och ursprung procedurer för datainsamling hur objektet uppstått och varför arkivbildare (person/organisation eller dyl.) samband med andra objekt, kompletterande info tidsomfattning, geografisk täckning
Arkivmetadata for forskningsmaterial/försök- (2) system- och programinfo hårdvaruplattform komprimering, kodningschema, validitet (checksummor) klassificeringsschema, beteckningar, sökbegrepp gallringsregler, gallringsfrist alla ”inhibitors” (access, use, migration) Rights: unik identifierare (typ och värde) informationens ägare, alla roller inblandade, beskrivning av begränsningstypen (t.ex. sekretess, upphovsrätt, licens) Event: unik identifierare för (typ och värde) typ av ”event” (t.ex. migrering, upprättande, överföring) användnings-, konverterings och migreringshistorik leveranshistorik (”avställning”, tilläggsleverenser; vem och vad) Agents: roller i ”events” eller ”rights” (person. org., software; hänvisning till andra standarder)
ECDS - admSec Title Revision (date and type) Dataset version Contact information regarding the dataset Use limitation Access constraints Other constraints Contact information regarding distribution (o) Data format (o) Metadata information (fixed or created automatically) Contact information regarding metadata
Varför bevara forskningsmaterial Verifiering av forskningsresultat * Allmänhetens insyn och kontroll * Återanvändning och nya projekt
Verifiering av forskningsresultat
Insyn och allmänhetens kontroll
Återanvändning av data
”Open Access” till rådata ” Att hålla på viktig information blir allt mer förlegat. Nu börjar till och med läkemedelsföretag förstå att de skulle kunna få fram nya läkemedel snabbare och billigare genom att samarbeta och dela med sig av sina data till andra forskare – och till varandra!” http://henrikbranden.se/2010/09/10/lakemedelsforetag-go-open-access/
En samlad strategi för hantering av forskningsdata Samarbete om metadata /metadata import, export och standarder Länkning rådata – publikationer Systemlänkning/infrastruktur Strategi för bevarande så tidigt som möjligt i forskningsprocessen
The importance of scientific e-infrastructure: A vision for 2030 “Researchers and practitioners from any disciplines are able to find access and process the data they need. They can be confident in their ability to use and understand data, and they can evaluate the degree to which that data can be trusted.” And: “Producers of data benefit from opening it to broad access, and prefer to deposit their data with confidence in reliable repositories. A framework of repositories is guided by international standards, to ensure they are trustworthy”. Riding the wave. How Europe can gain from the rising tide of scientific data. Final report of the High Level Expert Group on Scientific Data. A submission to the European Commission., October 2010. p.25 ”The vision of 2030” inte möjlig att genomföra utan gedigen arkivinsats och en adekvat strategi för bevarande.