Mikael Thollesson Evolutionsbiologiskt centrum, Uppsala Universitet

Mikael Thollesson Evolutionsbiologiskt centrum, Uppsala Universitet
Bioinformatik? Mikael Thollesson Evolutionsbiologiskt centrum, Uppsala Universitet

Dagens övningar… ”Vad är bioinformatik?”
Exemplifierat i ett genomsekvenseringsprojekt Några biologiska problemställningar …och hur några olika tekniker kommer till användning Lite detaljer om DNA-sekvensdatabaser Homologi

Så, vad är “Bioinformatik”?…
”Metoder, modeller, algoritmer och implementeringar för att hantera och analysera informationsinnehållet i biologiska informationsbärande molekyler [och en del andra biologiska strukturer]” Datavetenskap Matematik Biologi

Fler modeord… Bioinformatik – Bioinformatics
Syftar i huvudsak till att behandla biologiska data; fokus på tekniken Beräkningsbiologi – Computational biology Syftar i huvudsak till att modellera och prediktera biologiska system; mera fokus på biologin Systembiologi – Systems biology Syftar till att modellera det dynamiska beteendet hos hela biologisk system

Varför är ”Bioinformatik” ett inneuttryck?
Innan 1997 fanns inte bioinformatik… men ”Biologisk databehandling” lät inte så hett… och ”Teknisk databehandling” blev ”Informationsteknologi” Nya tekniker har gjort att biologiska data produceras i en lavinartat ökande takt HUman GenOme Project (HUGO) och efterföljare

Tillväxt i sekvensdatabaser (EMBL)
Dubblingstid ca 18 månader

“Bioinformatiker” – Vem är det?
Flera olika skrå av bioinformatiker… ”Fotfolket” Använder tillgängliga verktyg på biologiska problem ”Gillesmedlemmarna” Forskningsprogram som leder till nya teorier, algoritmer eller konstruktioner av bioinformatiska verktyg Fritt tillgänglig programvara är en del av aktiviteten ”Superanvändarna” Använder tillgänglig programvara kompletterade med skräddarsydda skript och program på biologiska Programvara blir mycket sällan offentlig

Några bioinformatiska problemområden
Datalagring/åtkomst Datastrukturer, databaser Informationsflöden Gränsytor (människa/maskin, maskin/maskin) Analys, prediktion Mönsterextraktion Modellering, sannolikhetsberäkningar Datavisualisering Datareduktion Fokusering, interaktivitet

Informationsöverföring - I
DNA RNA mRNA protein polypeptid enzym transkription splitsning translation protein- veckning koenzym- aktivering Regulatoriska nätverk (enzymer och RNA) Utvecklingsmässiga program (vävnader, organ) Fenotyp

Informationsöverföring – II
Ursprunglig sense strand Ursprunglig anti-sense strand Ny sense strand Ny anti-sense strand

En syn på Bioinformatik
Metaboliska databaser Uttrycks-mönster Litteratur- databaser Expressions databaser Fragment-samman-läggning Genom- databaser Reglerings- mekanismer ? Sekvensdatabaser BLAST Prediktioner på DNA Detta är min lilla notis… Gen Parvis/Multipel sekvensinpassning Fylogeni- analys Prediktioner på proteiner Fylogenier Funktion, lokalisering Strukturdatabaser Fylogenetiska databaser

Människans genom Antalet gener har uppskattats till ca

Fragmentsammanläggning
Problem: ”Från fragment till sammanhängande genomsekvens” DNA-sekvensering genererar sekvenser som är kortare än 1000 baser (bp); nya tekniker ännu kortare ( bp) Bakteriekromosomer är Mbp, människans kromosomer ca 150 Mbp Ytterligare förtretligheter Minskande precision mot ändarna av läsningarna Repetitiva sekvenser ACGTGCGACGATA CCGATACAGCAGGGATG

Prediktioner på DNA Maskning av repetitiva sekvenser
Problem: “I den sammanhängande DNA sekvensen, identifiera de delar som innehåller information som bearbetas av organismen (speciellt gener)” intron exon promoter DNA sekvens Maskning av repetitiva sekvenser Möjliga angreppssätt Stoppkodon (UAA, UAG, UGA) Kodonskevhet - använder ”Hidden Markov Models”, en typ av probabilistisk modell

Proteinstrukturer Primärstruktur; ordningsföljden av aminosyrorna
n-IVTAHAFVMI-c Primärstruktur; ordningsföljden av aminosyrorna Sekundärstruktur; konformationer, främst -spiraler och -flak Tertiärstruktur; den fullständiga tre-dimensionella veckningen av polypetidkedjan Kvartärstruktur; finns hos protein med fler än en polypeptidkedja

Prediktioner på aminosyrasekvenser
Problem: ”Identifiera funktionen hos de delar av genomet som har identifierats som proteinkodande” Angreppssätt Jämför aminosyrasammansättningen med en databas av kända protein Beräkna fysikaliska egenskaper (isoelektrisk punkt, massa, hydrofobicitet,…) och jämför dessa med en databas av kända proteiner Leta efter specifika motiv i aminosyrasekvensen Jämför aminosyrasekvensen med sekvenserna i en databas med kända protein (BLAST sökning)

Prediktioner på protein – struktur
Sekundärstruktur och veckning En teknik som används är neural nätverk Tertiärstruktur Mycket komplext problem, men ett med stor potential Bästa metoden för tillfället verkar vara ”Homology Model building” eller ”trädning” ; proteinsekvensen träds genom rumskoodinaterna hos ett känt protein från en databas och ett mått på passningen beräknas

Vad är en databas? Den information, de data, som databasen innehåller
Organisationen av data – databasstrukturen ”Flat-file” databaser Innehåller markeringar och etiketter (t.ex. html) Kompletteras med indexfiler Relationella databaser – poster och fält, relationer mellan dessa Objektorienterade databaser Programvaran för att hantera informationen – Database Management System (DBMS) Förfrågningar och dataretur Gränsytor Användargränsytor, t.ex. web-sidor eller speciella klienter Datorgränsytor

Sekvensdatabaser Databaser med nukleinsyrasekvenser
Innehåller främst primära DNA och RNA sekvenser Depåer, d.v.s. innehållet i databaserna är inte vårdat (kurerat) Proteinsekvensdatabaser Innehåller främst sekundära men även primära proteinsekvenser En del av databaserna är vårdade, andra bara extrakt från andra (DNA) databaser Flera typer av gränsytor och sökmotorer dins för att hämta data, t.ex. SRS (Sequence Retrieval System) och Entrez

Depåer för DNA/RNA sekvenser
Tre primärcentra,vilka dagligen utbyter information EMBL / European Molecular Biology Laboratory DDBJ / DNA Data Bank of Japan GenBank Alla tre följer DDBJ/EMBL/GenBank Feature Table Definition – d.v.s. Informationen för posterna är densamma i databaserna

EMBL – European Molecular Biology Laboratory
Europas primära resurs för nukleotidsekvenser Etablerad 1980 i Heidelberg av EMBL, nu drivs det hela av EBI (European Bioinformatics Institute) i Cambridge, UK Huvudskaliga källor för sekvenserna är direkt deponering från individuella forskare/grupper, genomprojekt och patentansökningar Innehåller två delar En release section (embl_rel) som släpps var tredje månad En new section (embl_new) dit nya sekvenser läggs till dagligen Också indelad i divisions beroende på sekvensernas ursprung Posterna har (skenbarligen) ett format som skiljer sig från GenBank och DDBJ

EMBL divisions

- DNA Database of Japan Samlar huvudsakligen data från Japansk aktivitet, men accepterar data från forskare i alla länder Började som DNA depå 1986 genom påbud från ”Ministry of Education, Science, Sports, and Culture” Posterna har samma format som i GenBank

GenBank USAs primära resurs för nukleotidsekvenser Etablerad 1988
Drivs av National Center for Biotechnology Information (NCBI), Bethesda, MD Har en release section och en new section liksom EMBL Posterna har ett format som (skenbart) skiljer sig från EMBL

Proteinsekvensdatabaser
SWISS-PROT och TREMBL Utvecklades av Swiss Institute of Bioinformatics (SIB) och European Bioinformatics Institute (EBI) PIR-PSD Ett samarbete mellan National Biomedical Research Foundation (NBRF), Munich Center for Protein Studies (MIPS) och Japan International Protein Information Database (JIPID) UniProt I drift från december 2003 SwissProt TrEMBL PIR-PSD

Proteinsekvensdatabaser
SWISS-PROT ( poster juli 2004) Är en vårdad proteinsekvensdatabas Siktar på att tillhandahålla en hög annoteringsnivå (t.ex. funktion, domänstruktur, post-translationella modifieringar) Indelad i Swissprot_rel och Swissprot_new Ej indelad i divisions (som EMBL) TREMBL ( poster juli 2004) Innehåller translaterade sekvenser från EMBL databasen Indelad i SP-TREMBL med sekvenser som är kandidater till att inkorporeras i SWISS-PROT REM-TREMBL som inte kommer att införlivas i SWISS-PROT

Gränsytor mot allmänna databaser
Flera olika databaser är i regel tillgängliga genom samma WWW gränsyta. Till exempel, databaserna nedan är alla åtkomliga via National Institute of Health/National Centre for Biotechnology Information (NIH/NCBI) ( OMIM PubMed Full-text Electronic journals 3D Structures Taxonomy Protein sequences Nucleotide Maps & Genomes

Genomdatabaser Skiljer sig från sekvensdatabaser genom att vara mer heterogena och diversa En genomdatabas organiserar all information om ett visst genom, så som Genetisk kartläggning Kartor som visar geners inbördes läge i avstånd som representerar procent överkorsning Fysisk kartläggning Kan vara allt från cytogenetiska kartor (bandningsmönster av kromosomer) till positionen av alla kloner i sekvenseringsprojektet Sekvensdata Publika genomdatabaser finns på t.ex. Genome Net – NCBI’s genome section –

Strukturdatabaser Innehåller information om den tredimensionella strukturen hos molekyler, främst protein Data är främst från röntgenkristallografi (>80%), NMR, eller teoretiska modeller (<2%) Exempel på publika databaser är Protein databank (PDB) - Molecular Modelling Database (MMDB) -

Metaboliska databaser
Alla metaboliska databaser använder EC-nummer, vilket är en kombination av fyra nummer som specificera typen av reaktion som enzymet katalyserar Exempel: EC är ett oxido-reduktas (1) som agerar på aldehyd eller oxo grupper (1.2) med syre som acceptor (1.2.3). Den sista siffran, 4, är ett ordningstal inom klassen För- och nackdelar + EC ger en unik identifierare + Möjliggör synonymordlistor -Många klasser av enzym är inte klassificerade i tillräcklig detalj, speciellt gäller det proteaser och nukleaser som har makromolekyler som substrat

Metaboliska databaser
Beskriver enzymer, reaktioner, substrat - produkter och biokemiska reaktioner Data är specifika för olika ”typorganismer” eller generella översikter (kompositer) Exempel Kyoto Encyclopedia of Genes and Genomes –

”Retrospektiv bioinformatik” – Homologi
Ur en bioinformatisk synvinkel kan vi definiera homologi som ”Två bitar av information i två olika replikatorer är homologa om och endast om de är kopior av samma ursprungliga original i replikatorkontinuumet” Formalisering av förmodat homologa ”bitar av information” är karaktärer eller karaktärstillstånd

Homologi Antagen homologi är hypoteser, inte data
Om en egenskap i två olika organismer är homologa eller ej beror också på upplösningen/abstraktionsnivån som används när man formulerar och testar hypotesen Exempel. Vingar hos ryggradsdjur Homologi är ett antingen-eller förhållande. Två saker kan inte vara ”80% homologa”, men de kan ha 80% identitet eller vara 80% lika (eller 20% olika) – likhet är ett operativt begrepp.

Homologi på molekylär nivå
Det kan finnas flera olika abstraktionsnivåer för homologier hos molekylär data Homologi mellan gener Homologi mellan baspositioner i dessa gener Homologi mellan de faktiska baserna i dessa positioner Man skiljer också på några specialfall av homologi för genkopior i förhållande till de arter (eller genom) de förekommer hos Ortologi, Paralogi, Xenologi

Sekvensinpassning Sekvensinpassning (alignment) är en process som syftar till att föreslå en hypotes om homologi mellan positioner i (preliminärt) homologa sekvenser Detta kan vara ett (nödvändigt) steg för att beräkna likhet mellan sekvenser, som i sin tur används för att föreslå hypoteser homologi mellan sekvenser (genkopior) Jämförelse av sekvenser och sökning efter homologa sekvenser i databaser Parvis sekvensinpassning Identifiering av homologa baspar för fylogenetisk (genealogisk) analys Multipel sekvensinpassning

Sekvensinpassning Genom att tillåta misspassning mellan baser och/eller gap i sekvenserna kan två olika sekvenser passas in Sekvensinpassning görs genom optimering av en kostnad med olika bidrag från passning, misspassning och gap – inpassningen med lägst kostnad är den bästa För att hitta den bästa inpassningen används dynamisk programmering CCA-AGTAGG CGAGAGTATG

Heuristiska metoder O(mn) är för långsamt för att söka i stora sekvensdatabaser, d.v.s. lokal sekvensinpassning av en frågesekvens mot en extremt lång målsekvens Heuristiska metoder (”quick and dirty”) gör en snabb approximation, i detta fallet av dynamisk programmering BLAST Mest använda bioinformatiska programmet Empiriskt gånger snabbare än motsvarande exakta algoritm

Multipel sekvensinpassning
Lineus geniculatus TGGGCTGGGATGAAGGGAAGTATCGTGGGCCCGG Micrura akkeshiensis GGGGCTAGAATGAATGGGA-TAACGAGCCCCCGA Myoisophagus sanguineus GGGGCTAGAATGAAAGAAA-GTTTGAGACCTCAT Myoisophagus versicolor GGGGCTAGAATGAAAGAAA-GTTTGAGACCTCAT Parvicirrus dubius GGGACTGGAATGAAAGAAA-TTTTGAGGCCTTAA Syftar till att finna homologa positioner i fler än två homologa sekvenser, vanligen för att göra en fylogenianalys I praktiken är de flesta metoderna heuristiska och bygger på progressiv parvis inpassning (Clustal W är ett vida använt verktyg som bygger på denna princip, troligen det näst mest använda bioinformatiska programmet) eller använder ”Profile Hidden Markov Models” (profile HMM)

Fylogenianalys Fylogenier är evolutionär historia som delas av arter eller gener; modelleras nästan alltid som träd Fylogenin är en prediktor för egenskaper hos organismerna Problem Antalet möjliga träd ökar astronomiskt Effektiva algoritmer nödvändiga Informationsöverföringen är självförstörande Modeller för att ”korrigera” data nödvändiga Detta har givit upphov till en uppsjö programvara som implementerar mängder med olika metoder Fisk Groda Däggdjur Ödla Orm Krokodil Fågel

Fylogenetiska databaser
Primära (datadepåer) och sekundära (analysresultat och tolkningar) databaser Primära databaser innehåller information om resultatet av fylogenianalyser (träd, taxonomiska namn), data och antaganden som analyserna baseras på Sekundära databaser innehåller tolkningar och sammansatta fylogenetiska hypoteser för alla sorters taxa Exempel TreeBase – Tree of Life – (Sekundär)

Expressionsmönster Problem: Identifiera regleringsmekanismer och interaktioner för uttrycket av gener i levande celler Funktionell genomik DNA arrayer (cDNA prober på ett chip) används för att skatta RNA nivåer för flera tusen gener på en gång Nivåerna mäts vid successiva tidsintervall efter att någon behandling av cellerna har gjorts

Expressionsmönster Analys
Generna grupperas efter expressionsprofil i ett mindre antal hopar Reverse engineering av expressionsnivåerna i dessa grupper används för att föreslå regulatoriska genetiska nätverk (detta är reglerteknik på hög nivå…)

Expressionsdatabaser
Ett stort hinder är att finna ett enhetligt och flexibelt format för att deponera data från DNA-chip Exempel på expressionsdatabser är Gene Expression Omnibus – EBI ArrayExpress database – KEGG Expression Database –

Mikael Thollesson Evolutionsbiologiskt centrum, Uppsala Universitet

Liknande presentationer

En presentation över ämnet: "Mikael Thollesson Evolutionsbiologiskt centrum, Uppsala Universitet"— Presentationens avskrift:

Liknande presentationer

Om projektet

Kontakta oss

Logga in

Logga in via sociala nätverk:

Mikael Thollesson Evolutionsbiologiskt centrum, Uppsala Universitet

Liknande presentationer

En presentation över ämnet: "Mikael Thollesson Evolutionsbiologiskt centrum, Uppsala Universitet"— Presentationens avskrift:

Liknande presentationer

Om projektet

Kontakta oss