Presentation laddar. Vänta.

Presentation laddar. Vänta.

1 TDDD74 Databaser för bioinformatik Eller GET THAT PROTEIN!

Liknande presentationer


En presentation över ämnet: "1 TDDD74 Databaser för bioinformatik Eller GET THAT PROTEIN!"— Presentationens avskrift:

1 1 TDDD74 Databaser för bioinformatik Eller GET THAT PROTEIN!

2 2 Lärare Examinator: Jose M Pena FÖ: Jose, Patrick Lambrix LA: Dag Sonntag projekt: Patrick databasadministration: Dag kursadministration: Dag studierektor: Patrick

3 3 Kurslitteratur Elmasri, Navathe, Fundamentals of Database Systems, (4e eller 5e upplaga) ELLER Databases systems – models, languages, design and application programming (6e upplaga), Addison Wesley, 2004/2006/2010. Artiklar (på hemsidan + delas ut) Labkompendium: Databases, ADIT (på hemsidan)

4 4 Databaser Ett (av flera) sätt att lagra data i elektronisk format Används i det vardagliga livet: bank, bokning av hotell eller resa, sökning i biblioteket, handla nyare tillämpningar: multimediadatabaser, geografiska informationssystem, realtiddatabaser

5 5 Databaser databashanteringssystem (DBMS): en uppsättning program som tillåter en användare att skapa och underhålla en databas databassystem = databas + databashanteringssystem

6 6 Bioinformatik Kända sekvenser samlas i en stor databas. Insamlande och studier av sekvenser och jämförelser av sekvensernas uppbyggnad i olika organismer kallas bioinformatik. Forskningen inom bioinformatik är beroende av avancerad datalogi och matematik. (forksningsrådens strategidokument 2000)

7 7 Bioinformatik Bioinformatics: research, development, or application of computational tools and approaches for expanding the use of biological, medical, behavioral or health data, including those to acquire, store, organize, archive, analyze or visualize data. (National Institutes of Health)

8 8 Bioinformatik Ämnen på ISMB: protein structure and modeling sequence motifs, alignments and families networks and modeling gene structure, regulation and modeling sequence and phylogeny databases, information and knowledge management

9 9 TDDD74 Databaser för Bioinformatik Denna kurs: fokus på biologiska databanker

10 10 Relation med andra kurser inom TB-programmet: - förkunskaper: molekylärbiologi, programmering - bioinformatik - översikt och tillämpningar - projekt bioinformatik

11 11 Årets ändringar i kursen

12 12 Biologiska databanker biologisk data i elektronisk format exempel: SWISS-PROT, EMBL, DDBJ, PDB, GENBANK, KEGG, ACEDB används dagligen i forskningen

13 13 Biologiska databanker Forsknings- resultat Modell FrågorSvar Databank- system Fysiska databanken Databank- hanterings- system behandling av frågor/uppdateringar Access till lagrad data

14 14 Frågeställningar Vilken information lagrar man? Hur lagras informationen? (hög och låg nivå) Hur accessar man informationen? (användarnivå, systemnivå) Hur återställer man en databank efter crash? Hur kan flera användare accessa och uppdatera informationen samtidigt? Hur kan man accessa informationen i flera databanker samtidigt?

15 15 Personer databankadministratör databankdesigner användare (’end user’) programmerare av tillämpningar DBMS designer utvecklare av verktyg operator, underhåll

16 16 1 tgctacccgc gcccgggctt ctggggtgtt ccccaaccac ggcccagccc tgccacaccc 61 cccgcccccg gcctccgcag ctcggcatgg gcgcgggggt gctcgtcctg ggcgcctccg 121 agcccggtaa cctgtcgtcg gccgcaccgc tccccgacgg cgcggccacc gcggcgcggc 181 tgctggtgcc cgcgtcgccg cccgcctcgt tgctgcctcc cgccagcgaa agccccgagc 241 cgctgtctca gcagtggaca gcgggcatgg gtctgctgat ggcgctcatc gtgctgctca 301 tcgtggcggg caatgtgctg gtgatcgtgg ccatcgccaa gacgccgcgg ctgcagacgc 361 tcaccaacct cttcatcatg tccctggcca gcgccgacct ggtcatgggg ctgctggtgg 421 tgccgttcgg ggccaccatc gtggtgtggg gccgctggga gtacggctcc ttcttctgcg 481 agctgtggac ctcagtggac gtgctgtgcg tgacggccag catcgagacc ctgtgtgtca 541 ttgccctgga ccgctacctc gccatcacct cgcccttccg ctaccagagc ctgctgacgc 601 gcgcgcgggc gcggggcctc gtgtgcaccg tgtgggccat ctcggccctg gtgtccttcc 661 tgcccatcct catgcactgg tggcgggcgg agagcgacga ggcgcgccgc tgctacaacg 721 accccaagtg ctgcgacttc gtcaccaacc gggcctacgc catcgcctcg tccgtagtct 781 ccttctacgt gcccctgtgc atcatggcct tcgtgtacct gcgggtgttc cgcgaggccc 841 agaagcaggt gaagaagatc gacagctgcg agcgccgttt cctcggcggc ccagcgcggc 901 cgccctcgcc ctcgccctcg cccgtccccg cgcccgcgcc gccgcccgga cccccgcgcc 961 ccgccgccgc cgccgccacc gccccgctgg ccaacgggcg tgcgggtaag cggcggccct 1021 cgcgcctcgt ggccctacgc gagcagaagg cgctcaagac gctgggcatc atcatgggcg 1081 tcttcacgct ctgctggctg cccttcttcc tggccaacgt ggtgaaggcc ttccaccgcg 1141 agctggtgcc cgaccgcctc ttcgtcttct tcaactggct gggctacgcc aactcggcct 1201 tcaaccccat catctactgc cgcagccccg acttccgcaa ggccttccag ggactgctct 1261 gctgcgcgcg cagggctgcc cgccggcgcc acgcgaccca cggagaccgg ccgcgcgcct 1321 cgggctgtct ggcccggccc ggacccccgc catcgcccgg ggccgcctcg gacgacgacg 1381 acgacgatgt cgtcggggcc acgccgcccg cgcgcctgct ggagccctgg gccggctgca 1441 acggcggggc ggcggcggac agcgactcga gcctggacga gccgtgccgc cccggcttcg 1501 cctcggaatc caaggtgtag ggcccggcgc ggggcgcgga ctccgggcac ggcttcccag 1561 gggaacgagg agatctgtgt ttacttaaga ccgatagcag gtgaactcga agcccacaat 1621 cctcgtctga atcatccgag gcaaagagaa aagccacgga ccgttgcaca aaaaggaaag 1681 tttgggaagg gatgggagag tggcttgctg atgttccttg ttg

17 17 DEFINITIONHomo sapiens adrenergic, beta-1-, receptor ACCESSIONNM_ SOURCE ORGANISMhuman REFERENCE1 AUTHORS Frielle, Collins, Daniel, Caron, Lefkowitz, Kobilka TITLECloning of the cDNA for the human beta 1-adrenergic receptor REFERENCE 2 AUTHORSFrielle, Kobilka, Lefkowitz, Caron TITLEHuman beta 1- and beta 2-adrenergic receptors: structurally and functionally related receptors derived from distinct genes

18 18 Vilken information lagrar man? Modell av verkligheten - Entity-Relationship modell (ER) - Unified Modeling Language (UML)

19 19 Entity-Relationship entiteter och attribut entitetstyper nyckelattribut relationer kardinalitetsvillkor

20 20 Reference protein-id accession definition source article-id title author PROTEIN ARTICLE m n Entity-relationship

21 21 Hur lagras informationen? (hög nivå) Hur accessar man informationen? (användarnivå) Text (IR) Semistrukturerad data Datamodeller (DB) Regler + Fakta (KB) strukturprecision

22 22 Text - Information Retrieval sökning baseras på ord konceptuella modeller: boolesk, vektor, probabilistisk, … filmodell: flat fil, inverterad fil,...

23 23 WORDHITSLINK DOC # LINKDOCUMENTS receptor cloning adrenergic … … … … … … … … … … … … …… …… …… Doc1 Doc2 … inverterad filanslagningsfildokumentfil IR - Filmodell: inverterad fil

24 24 Vektormodellen (förenklad) Doc1 (1,1,0) Doc2 (0,1,0) cloning receptor adrenergic Q (1,1,1) sim(d,q) = d. q |d| x |q|

25 25 Databaser Relationsdatabaser: - modell: tabeller + relationsalgebran - frågespråk (SQL) Objektorienterade databaser: - modell: fortlevande objekt, meddelande, inkapsling, ärvning - frågespråk (t.ex. OQL) System: GDB (R), ACEDB (OO)

26 26 ARTICLE-IDAUTHOR ARTICLE Frielle Collins Daniel Caron Lefkowitz Kobilka Frielle Kobilka Lefkowitz Caron PROTEIN ACCESSIONSOURCEDEFINITION Homo sapiens adrenergic, beta-1-, receptor NM_ human PROTEIN-ID 1REFERENCE PROTEIN-IDARTICLE-ID Human beta 1- and beta 2-adrenergic receptors Cloning of the cDNA for the human …. Relationsdatabaser Cloning of the cDNA for the human …. Human beta 1- and beta 2-adrenergic receptors TITLE

27 27 ARTICLE-IDAUTHOR ARTICLE-AUTHOR Frielle Collins Daniel Caron Lefkowitz Kobilka Frielle Kobilka Lefkowitz Caron PROTEIN ACCESSIONSOURCEDEFINITION Homo sapiens adrenergic, beta-1-, receptor NM_ human PROTEIN-ID 1REFERENCE PROTEIN-IDARTICLE-ID Human beta 1- and beta 2- adrenergic receptors: structurally and functionally related receptors derived from distinct genes ARTICLE-IDTITLE Cloning of the cDNA for the human beta 1-adrenergic receptor ARTICLE-TITLE 1 2 Relationsdatabaser

28 28 SQL select source from protein where accession = NM_000684; PROTEIN ACCESSIONSOURCEDEFINITION Homo sapiens adrenergic, beta-1-, receptor NM_ human PROTEIN-ID 1

29 29 SQL select title from protein, article-title, reference where protein.accession = NM_ and protein.protein-id = reference.protein-id and reference.article-id = article-title.article-id; PROTEIN ACCESSIONSOURCEDEFINITION Homo sapiens adrenergic, beta-1-, receptor NM_ human PROTEIN-ID 1 ARTICLE-TITLE Human beta 1- … ARTICLE-IDTITLE Cloning of the …1 2 REFERENCE PROTEIN-IDARTICLE-ID 11 12

30 30 Hur lagras informationen? (låg nivå) Forsknings- resultat Modell FrågorSvar Databank- system Fysiska databanken Databank- hanterings- system behandling av frågor/uppdateringar Access till lagrad data

31 31

32 32 Hur accessar man informationen? (systemnivå) Forsknings- resultat Modell FrågorSvar Databank- system Fysiska databanken Databank- hanterings- system behandling av frågor/uppdateringar Access till lagrad data

33 33 Hur återställer man en databank efter crash? Återställning vid datorstop (system crash) systemfel samtidighetsfel (flera användare) skivfel katastrofer

34 34 Hur kan flera användare accessa och uppdatera informationen samtidigt? Forsknings - resultat Modell Databank- system Fysiska databanken Databank- hanterings- system behandling av frågor/uppdateringar Access till lagrad data

35 35 Flera användare Antal-proteiner = Antal-proteiner + 30 Antal-proteiner = Antal-proteiner + 25 Read(Antal-proteiner) Write(Antal-proteiner) TID Administratör 1 Administratör 2

36 36 Hur kan man accessa informationen i flera databanker samtidigt? query

37 37 Sub-query1 query Sub-query1 Answer1 Answer2 Answer3 Answer1 Answer2 Answer3 Answer1 Answer2 Answer3

38 38 query Answer1 Answer2 Answer3 Sub-query2(answer1) Answer1.1 Answer1.2 Answer1.1 Answer1.2 Answer1.1 Answer1.2

39 39 query Answer1 Answer2 Answer3 Sub-query2(answer2) Answer2.1 Answer2.2 Answer2.1 Answer2.2 Answer1.1 Answer1.2 Answer2.1 Answer2.2

40 40 query Answer1 Answer2 Answer3 Sub-query2(answer3) Answer3.1 Answer1.1 Answer1.2 Answer2.1 Answer2.2 Answer3.1

41 41 query Answer1 Answer2 Answer3 Answer1.1 Answer1.2 Answer2.1 Answer2.2 Answer3.1 Subquery3(Answer1.1,Answer1.2, Answer2.1,Answer2.2,Answer3.1) Subquery3(Answer1.1,Answer1.2, Answer2.1,Answer2.2,Answer3.1) Answer.a Answer.b Answer.c Answer.d Answer.e Answer.f Answer.a Answer.b Answer.c Answer.d Answer.e Answer.f result

42 42 Kursöversikt - FÖ Introduktion Relationsdatabaser och SQL Datamodellering, ER/EER diagram Att gå från EER diagram till relationsscheman

43 43 Kursöversikt - FÖ Normalisering Datastrukturer för databaser (2) Transaktioner och samtidighet Databasåterställning Information retrieval, semistrukturerad data, objektorienterade databaser Integrering av databaser

44 44 Kursöversikt - LA+projekt Lab1: SQL Lab2: Databasdesign och EER modellering Projekt i bioinformatik genomdatabas proteindatabas enzymdatabas databas för biologiska reglersystem

45 45 Kursöversikt - LA+projekt Rapporteringsdeadline vid varje tentamenstillfälle behövs ett särskilt databaskonto --> automatisk vid registrering på kursen databaskontona tas bort efter 1 år anmälan till laborationer via kurshemsidan skrivarkvota: 300 ’impressions’

46 46 Examination skriftlig tenta (praktisk del + teoretisk del) laborationsserie projekt

47 47 En kurs för TB Användning i senare kurser + arbete Unik och eftertraktad kompetens –Bio –Data –Förståelse av modellering + konsekvenser (Hur modellera? Hur ställa frågor? Värför går det långsamt? Varför får man inget svar?...)

48 48 Samläsning

49 49


Ladda ner ppt "1 TDDD74 Databaser för bioinformatik Eller GET THAT PROTEIN!"

Liknande presentationer


Google-annonser