Presentation laddar. Vänta.

Presentation laddar. Vänta.

Bioinformatik? Mikael Thollesson Evolutionsbiologiskt centrum, Uppsala Universitet.

Liknande presentationer


En presentation över ämnet: "Bioinformatik? Mikael Thollesson Evolutionsbiologiskt centrum, Uppsala Universitet."— Presentationens avskrift:

1 Bioinformatik? Mikael Thollesson Evolutionsbiologiskt centrum, Uppsala Universitet

2 Dagens övningar… ”Vad är bioinformatik?” Exemplifierat i ett genomsekvenseringsprojekt –Några biologiska problemställningar –…och hur några olika tekniker kommer till användning Lite detaljer om –DNA-sekvensdatabaser –Homologi

3 Så, vad är “Bioinformatik”?… ”Metoder, modeller, algoritmer och implementeringar för att hantera och analysera informationsinnehållet i biologiska informationsbärande molekyler [och en del andra biologiska strukturer]” Datavetenskap Matematik Biologi

4 Bioinformatik – Bioinformatics –Syftar i huvudsak till att behandla biologiska data; fokus på tekniken Beräkningsbiologi – Computational biology –Syftar i huvudsak till att modellera och prediktera biologiska system; mera fokus på biologin Systembiologi – Systems biology –Syftar till att modellera det dynamiska beteendet hos hela biologisk system Fler modeord…

5 Varför är ”Bioinformatik” ett inneuttryck? Innan 1997 fanns inte bioinformatik… men ”Biologisk databehandling” lät inte så hett… och ”Teknisk databehandling” blev ”Informationsteknologi” Nya tekniker har gjort att biologiska data produceras i en lavinartat ökande takt HUman GenOme Project (HUGO) och efterföljare

6 Dubblingstid ca 18 månader Tillväxt i sekvensdatabaser (EMBL)

7 “Bioinformatiker” – Vem är det? Flera olika skrå av bioinformatiker… ”Fotfolket” –Använder tillgängliga verktyg på biologiska problem ”Gillesmedlemmarna” –Forskningsprogram som leder till nya teorier, algoritmer eller konstruktioner av bioinformatiska verktyg –Fritt tillgänglig programvara är en del av aktiviteten ”Superanvändarna” –Använder tillgänglig programvara kompletterade med skräddarsydda skript och program på biologiska –Programvara blir mycket sällan offentlig

8 Några bioinformatiska problemområden Datalagring/åtkomst –Datastrukturer, databaser –Informationsflöden –Gränsytor (människa/maskin, maskin/maskin) Analys, prediktion –Mönsterextraktion –Modellering, sannolikhetsberäkningar Datavisualisering –Datareduktion –Fokusering, interaktivitet

9 Informationsöverföring - I DNA RNA mRNA protein polypeptid enzym transkription splitsning translation protein- veckning koenzym- aktivering Regulatoriska nätverk (enzymer och RNA) Utvecklingsmässiga program (vävnader, organ) Fenotyp

10 Ursprunglig sense strand Ursprunglig anti-sense strand Ursprunglig sense strand Ursprunglig anti-sense strand Ny sense strand Ny anti-sense strand Informationsöverföring – II

11 BLAST Strukturdatabaser Sekvensdatabaser Prediktioner på proteiner Fylogeni- analys Parvis/Multipel sekvensinpassning Fragment- samman- läggning ? En syn på Bioinformatik Fylogenetiska databaser Gen Funktion, lokalisering Fylogenier Litteratur- databaser Prediktioner på DNA Metaboliska databaser Uttrycks- mönster Reglerings- mekanismer Genom- databaser Expressions databaser

12 Människans genom Antalet gener har uppskattats till ca

13 Fragmentsammanläggning DNA-sekvensering genererar sekvenser som är kortare än 1000 baser (bp); nya tekniker ännu kortare ( bp)DNA-sekvensering genererar sekvenser som är kortare än 1000 baser (bp); nya tekniker ännu kortare ( bp) Bakteriekromosomer är 5-30 Mbp, människans kromosomer ca 150 MbpBakteriekromosomer är 5-30 Mbp, människans kromosomer ca 150 Mbp Ytterligare förtretligheterYtterligare förtretligheter –Minskande precision mot ändarna av läsningarna –Repetitiva sekvenser ACGTGCGACGATA CCGATACAGCAGGGATG Problem: ”Från fragment till sammanhängande genomsekvens”

14 Prediktioner på DNA Problem: “I den sammanhängande DNA sekvensen, identifiera de delar som innehåller information som bearbetas av organismen (speciellt gener)” Maskning av repetitiva sekvenserMaskning av repetitiva sekvenser Möjliga angreppssättMöjliga angreppssätt –Stoppkodon (UAA, UAG, UGA) –Kodonskevhet - använder ”Hidden Markov Models”, en typ av probabilistisk modell intron exon promoter DNA sekvens

15 ProteinstrukturerProteinstrukturer n-IVTAHAFVMI-c Primärstruktur; ordningsföljden av aminosyrorna Sekundärstruktur; konformationer, främst  -spiraler och  -flak Tertiärstruktur; den fullständiga tre-dimensionella veckningen av polypetidkedjan Kvartärstruktur; finns hos protein med fler än en polypeptidkedja

16 Prediktioner på aminosyrasekvenser Problem: ”Identifiera funktionen hos de delar av genomet som har identifierats som proteinkodande” AngreppssättAngreppssätt –Jämför aminosyrasammansättningen med en databas av kända protein –Beräkna fysikaliska egenskaper (isoelektrisk punkt, massa, hydrofobicitet,…) och jämför dessa med en databas av kända proteiner –Leta efter specifika motiv i aminosyrasekvensen –Jämför aminosyrasekvensen med sekvenserna i en databas med kända protein (BLAST sökning)

17 Prediktioner på protein – struktur Sekundärstruktur och veckningSekundärstruktur och veckning –En teknik som används är neural nätverk TertiärstrukturTertiärstruktur –Mycket komplext problem, men ett med stor potential –Bästa metoden för tillfället verkar vara ”Homology Model building” eller ”trädning” ; proteinsekvensen träds genom rumskoodinaterna hos ett känt protein från en databas och ett mått på passningen beräknas

18 Vad är en databas? Den information, de data, som databasen innehållerDen information, de data, som databasen innehåller Organisationen av data – databasstrukturenOrganisationen av data – databasstrukturen –”Flat-file” databaser Innehåller markeringar och etiketter (t.ex. html)Innehåller markeringar och etiketter (t.ex. html) Kompletteras med indexfilerKompletteras med indexfiler –Relationella databaser – poster och fält, relationer mellan dessa –Objektorienterade databaser Programvaran för att hantera informationen – Database Management System (DBMS)Programvaran för att hantera informationen – Database Management System (DBMS) –Förfrågningar och dataretur GränsytorGränsytor –Användargränsytor, t.ex. web-sidor eller speciella klienter –Datorgränsytor

19 Sekvensdatabaser Databaser med nukleinsyrasekvenserDatabaser med nukleinsyrasekvenserDatabaser med nukleinsyrasekvenserDatabaser med nukleinsyrasekvenser –Innehåller främst primära DNA och RNA sekvenser –Depåer, d.v.s. innehållet i databaserna är inte vårdat (kurerat) ProteinsekvensdatabaserProteinsekvensdatabaserProteinsekvensdatabaser –Innehåller främst sekundära men även primära proteinsekvenser –En del av databaserna är vårdade, andra bara extrakt från andra (DNA) databaser Flera typer av gränsytor och sökmotorer dins för att hämta data, t.ex. SRS (Sequence Retrieval System) och EntrezFlera typer av gränsytor och sökmotorer dins för att hämta data, t.ex. SRS (Sequence Retrieval System) och EntrezSRS EntrezSRS Entrez

20 Depåer för DNA/RNA sekvenser Tre primärcentra,vilka dagligen utbyter informationTre primärcentra,vilka dagligen utbyter information –EMBL / European Molecular Biology Laboratory EMBL –DDBJ / DNA Data Bank of Japan DDBJ –GenBank GenBank Alla tre följer DDBJ/EMBL/GenBank Feature Table Definition –Alla tre följer DDBJ/EMBL/GenBank Feature Table Definition – d.v.s. Informationen för posterna är densamma i databaserna

21 EMBL – European Molecular Biology Laboratory Europas primära resurs för nukleotidsekvenser Etablerad 1980 i Heidelberg av EMBL, nu drivs det hela av EBI (European Bioinformatics Institute) i Cambridge, UK Huvudskaliga källor för sekvenserna är direkt deponering från individuella forskare/grupper, genomprojekt och patentansökningar Innehåller två delar –En release section (embl_rel) som släpps var tredje månad –En new section (embl_new) dit nya sekvenser läggs till dagligen Också indelad i divisions beroende på sekvensernas ursprung Posterna har (skenbarligen) ett format som skiljer sig från GenBank och DDBJPosterna har (skenbarligen) ett format som skiljer sig från GenBank och DDBJformat

22 EMBL divisions

23 - DNA Database of Japan Samlar huvudsakligen data från Japansk aktivitet, men accepterar data från forskare i alla länder Började som DNA depå 1986 genom påbud från ”Ministry of Education, Science, Sports, and Culture” Posterna har samma format som i GenBankPosterna har samma format som i GenBankGenBank

24 GenBank USAs primära resurs för nukleotidsekvenser Etablerad 1988 Drivs av National Center for Biotechnology Information (NCBI), Bethesda, MD Har en release section och en new section liksom EMBL Posterna har ett format som (skenbart) skiljer sig från EMBLPosterna har ett format som (skenbart) skiljer sig från EMBLformat EMBLformat EMBL

25 SwissProtTrEMBLPIR-PSD SWISS-PROT och TREMBLSWISS-PROT och TREMBLSWISS-PROT och TREMBLSWISS-PROT och TREMBL –Utvecklades av Swiss Institute of Bioinformatics (SIB) och European Bioinformatics Institute (EBI) PIR-PSDPIR-PSDPIR-PSD –Ett samarbete mellan National Biomedical Research Foundation (NBRF), Munich Center for Protein Studies (MIPS) och Japan International Protein Information Database (JIPID) Proteinsekvensdatabaser UniProtUniProtUniProt –I drift från december 2003

26 Proteinsekvensdatabaser SWISS-PROT ( poster juli 2004)SWISS-PROT ( poster juli 2004)SWISS-PROT –Är en vårdad proteinsekvensdatabas –Siktar på att tillhandahålla en hög annoteringsnivå (t.ex. funktion, domänstruktur, post-translationella modifieringar) –Indelad i Swissprot_rel och Swissprot_new –Ej indelad i divisions (som EMBL) TREMBL ( poster juli 2004)TREMBL ( poster juli 2004) –Innehåller translaterade sekvenser från EMBL databasen –Indelad i SP-TREMBL med sekvenser som är kandidater till att inkorporeras i SWISS-PROTSP-TREMBL med sekvenser som är kandidater till att inkorporeras i SWISS-PROT REM-TREMBL som inte kommer att införlivas i SWISS-PROTREM-TREMBL som inte kommer att införlivas i SWISS-PROT

27 Gränsytor mot allmänna databaser Flera olika databaser är i regel tillgängliga genom samma WWW gränsyta. Till exempel, databaserna nedan är alla åtkomliga via National Institute of Health/National Centre for Biotechnology Information (NIH/NCBI) ( Till exempel, databaserna nedan är alla åtkomliga via National Institute of Health/National Centre for Biotechnology Information (NIH/NCBI) ( OMIM PubMed Full-text Electronic journals Full-text Electronic journals 3D Structures 3D Structures Taxonomy Protein sequences Protein sequences Nucleotide sequences Nucleotide sequences Maps & Genomes Maps & Genomes

28 GenomdatabaserGenomdatabaser Skiljer sig från sekvensdatabaser genom att vara mer heterogena och diversa En genomdatabas organiserar all information om ett visst genom, så som –Genetisk kartläggning Kartor som visar geners inbördes läge i avstånd som representerar procent överkorsning –Fysisk kartläggning Kan vara allt från cytogenetiska kartor (bandningsmönster av kromosomer) till positionen av alla kloner i sekvenseringsprojektet –Sekvensdata Publika genomdatabaser finns på t.ex. –Genome Net – –NCBI’s genome section –

29 Strukturdatabaser Innehåller information om den tredimensionella strukturen hos molekyler, främst proteinInnehåller information om den tredimensionella strukturen hos molekyler, främst protein Data är främst från röntgenkristallografi (>80%), NMR, eller teoretiska modeller ( 80%), NMR, eller teoretiska modeller (<2%) Exempel på publika databaser ärExempel på publika databaser är –Protein databank (PDB) - –Molecular Modelling Database (MMDB) -

30 Alla metaboliska databaser använder EC-nummer, vilket är en kombination av fyra nummer som specificera typen av reaktion som enzymet katalyserarAlla metaboliska databaser använder EC-nummer, vilket är en kombination av fyra nummer som specificera typen av reaktion som enzymet katalyserarEC-nummer Exempel: EC är ett oxido-reduktas (1) som agerar på aldehyd eller oxo grupper (1.2) med syre som acceptor (1.2.3). Den sista siffran, 4, är ett ordningstal inom klassenExempel: EC är ett oxido-reduktas (1) som agerar på aldehyd eller oxo grupper (1.2) med syre som acceptor (1.2.3). Den sista siffran, 4, är ett ordningstal inom klassen För- och nackdelarFör- och nackdelar + EC ger en unik identifierare + Möjliggör synonymordlistor -Många klasser av enzym är inte klassificerade i tillräcklig detalj, speciellt gäller det proteaser och nukleaser som har makromolekyler som substrat Metaboliska databaser

31 Beskriver enzymer, reaktioner, substrat - produkter och biokemiska reaktionerBeskriver enzymer, reaktioner, substrat - produkter och biokemiska reaktioner Data är specifika för olika ”typorganismer” eller generella översikter (kompositer)Data är specifika för olika ”typorganismer” eller generella översikter (kompositer) ExempelExempel –Kyoto Encyclopedia of Genes and Genomes –

32 ”Retrospektiv bioinformatik” – Homologi Ur en bioinformatisk synvinkel kan vi definiera homologi som ”Två bitar av information i två olika replikatorer är homologa om och endast om de är kopior av samma ursprungliga original i replikatorkontinuumet” Formalisering av förmodat homologa ”bitar av information” är karaktärer eller karaktärstillstånd

33 Homologi Antagen homologi är hypoteser, inte data Om en egenskap i två olika organismer är homologa eller ej beror också på upplösningen/abstraktionsnivån som används när man formulerar och testar hypotesen Exempel. Vingar hos ryggradsdjur Homologi är ett antingen-eller förhållande. Två saker kan inte vara ”80% homologa”, men de kan ha 80% identitet eller vara 80% lika (eller 20% olika) – likhet är ett operativt begrepp.

34 Homologi på molekylär nivå Det kan finnas flera olika abstraktionsnivåer för homologier hos molekylär data –Homologi mellan gener –Homologi mellan baspositioner i dessa gener –Homologi mellan de faktiska baserna i dessa positioner Man skiljer också på några specialfall av homologi för genkopior i förhållande till de arter (eller genom) de förekommer hos –Ortologi, Paralogi, Xenologi

35 Sekvensinpassning Sekvensinpassning (alignment) är en process som syftar till att föreslå en hypotes om homologi mellan positioner i (preliminärt) homologa sekvenser Detta kan vara ett (nödvändigt) steg för att beräkna likhet mellan sekvenser, som i sin tur används för att föreslå hypoteser homologi mellan sekvenser (genkopior) Jämförelse av sekvenser och sökning efter homologa sekvenser i databaser –Parvis sekvensinpassning Identifiering av homologa baspar för fylogenetisk (genealogisk) analys –Multipel sekvensinpassning

36 Sekvensinpassning Genom att tillåta misspassning mellan baser och/eller gap i sekvenserna kan två olika sekvenser passas in Sekvensinpassning görs genom optimering av en kostnad med olika bidrag från passning, misspassning och gap – inpassningen med lägst kostnad är den bästa För att hitta den bästa inpassningen används dynamisk programmering CCA-AGTAGG CGAGAGTATG

37 Heuristiska metoder O(mn) är för långsamt för att söka i stora sekvensdatabaser, d.v.s. lokal sekvensinpassning av en frågesekvens mot en extremt lång målsekvens Heuristiska metoder (”quick and dirty”) gör en snabb approximation, i detta fallet av dynamisk programmering –BLAST Mest använda bioinformatiska programmet Empiriskt gånger snabbare än motsvarande exakta algoritm

38 Multipel sekvensinpassning Syftar till att finna homologa positioner i fler än två homologa sekvenser, vanligen för att göra en fylogenianalys I praktiken är de flesta metoderna heuristiska och bygger på progressiv parvis inpassning (Clustal W är ett vida använt verktyg som bygger på denna princip, troligen det näst mest använda bioinformatiska programmet) eller använder ”Profile Hidden Markov Models” (profile HMM)eller använder ”Profile Hidden Markov Models” (profile HMM) Lineus geniculatus TGGGCTGGGATGAAGGGAAGTATCGTGGGCCCGG Micrura akkeshiensis GGGGCTAGAATGAATGGGA-TAACGAGCCCCCGA Myoisophagus sanguineus GGGGCTAGAATGAAAGAAA-GTTTGAGACCTCAT Myoisophagus versicolor GGGGCTAGAATGAAAGAAA-GTTTGAGACCTCAT Parvicirrus dubius GGGACTGGAATGAAAGAAA-TTTTGAGGCCTTAA

39 Fylogenianalys Fylogenier är evolutionär historia som delas av arter eller gener; modelleras nästan alltid som trädFylogenier är evolutionär historia som delas av arter eller gener; modelleras nästan alltid som träd Fylogenin är en prediktor för egenskaper hos organismernaFylogenin är en prediktor för egenskaper hos organismerna ProblemProblem –Antalet möjliga träd ökar astronomiskt Effektiva algoritmer nödvändigaEffektiva algoritmer nödvändiga –Informationsöverföringen är självförstörande Modeller för att ”korrigera” data nödvändigaModeller för att ”korrigera” data nödvändiga Detta har givit upphov till en uppsjö programvara som implementerar mängder med olika metoderDetta har givit upphov till en uppsjö programvara som implementerar mängder med olika metoder Fisk Groda Däggdjur Ödla Orm Krokodil Fågel

40 Fylogenetiska databaser Primära (datadepåer) och sekundära (analysresultat och tolkningar) databaserPrimära (datadepåer) och sekundära (analysresultat och tolkningar) databaser Primära databaser innehåller information om resultatet av fylogenianalyser (träd, taxonomiska namn), data och antaganden som analyserna baseras påPrimära databaser innehåller information om resultatet av fylogenianalyser (träd, taxonomiska namn), data och antaganden som analyserna baseras på Sekundära databaser innehåller tolkningar och sammansatta fylogenetiska hypoteser för alla sorters taxaSekundära databaser innehåller tolkningar och sammansatta fylogenetiska hypoteser för alla sorters taxa ExempelExempel –TreeBase – –Tree of Life – (Sekundär)

41 Expressionsmönster Problem: Identifiera regleringsmekanismer och interaktioner för uttrycket av gener i levande celler Funktionell genomikFunktionell genomik –DNA arrayer (cDNA prober på ett chip) används för att skatta RNA nivåer för flera tusen gener på en gång –Nivåerna mäts vid successiva tidsintervall efter att någon behandling av cellerna har gjorts

42 Expressionsmönster AnalysAnalys –Generna grupperas efter expressionsprofil i ett mindre antal hopar –Reverse engineering av expressionsnivåerna i dessa grupper används för att föreslå regulatoriska genetiska nätverk (detta är reglerteknik på hög nivå…)

43 ExpressionsdatabaserExpressionsdatabaser Ett stort hinder är att finna ett enhetligt och flexibelt format för att deponera data från DNA-chipEtt stort hinder är att finna ett enhetligt och flexibelt format för att deponera data från DNA-chip Exempel på expressionsdatabser ärExempel på expressionsdatabser är –Gene Expression Omnibus – –EBI ArrayExpress database – –KEGG Expression Database –


Ladda ner ppt "Bioinformatik? Mikael Thollesson Evolutionsbiologiskt centrum, Uppsala Universitet."

Liknande presentationer


Google-annonser