Mikael Thollesson Evolutionsbiologiskt centrum, Uppsala Universitet

Slides:



Advertisements
Liknande presentationer
BAS-M Hur du på ett enkelt sätt administrerar din båtklubbs register.
Advertisements

Nobelmuseet välkomnar er till Spelet om genetik och etik
Tomas Sandström, Adtollo
Från gen till protein Niklas Dahrén.
Utseende Rörelser Genetik - ärftlighetslära Humör mm Intelligens.
Studier av genexpression
Från genotyp till fenotyp
Vad är en databas? “En databas är en delad samling logiskt relaterade data som designats för att möta informationsbehovet i en organisation eller för.
Hur kan drift av Topobase underlättas ?
Transkriptionen Niklas Dahrén.
Hantering av forskningsdata Birgitta Bergvall-Kåreborn Professor i Informatik.
Genexpression; RNA-syntes och Proteinsyntes
OLIKA TYPER AV GENOM Biomedicinska analytikerprogrammet, T3 Ht-11 Karolinska Institutet Annica Nordvall Bodell.
Cellkärnan och nukleinsyror
Vad är teknik?.
Att söka och förvalta kunskap
© Anders Broberg, Ulrika Hägglund, Lena Kallin Westin, 2003 Datastrukturer och algoritmer Föreläsning
KURS ht-11 Välkommen! Ann-Sofie, Anette, Curta, Håkan, Karin
ESAC  European Surveillance of Antimicrobial Consumption  eller via länk från
Datavetenskapens roll. Datavetenskap •Vad är datavetenskapens roll i kognitionsvetenskapen?
Informationshantering
Hämta företagsdata till Excel
Nivå- Bas Ämne: Human Resources & Volontärsamordning Modul 1: Introduction till volontärsamordning DU 1.1:Introduktion till ideellt engagemang Vad är ideellt.
Matematisk statistik och genletning
WEBMASTER DAG 13 Mahmud Al Hakim
Genetik - ärftlighetslära
CSC Skolan för datavetenskap och kommunikation. CSC i korthet – Fakta och siffror om CSC.
Publiceringsstrategier Helena Juhlin, UB Institutionen för kulturvetenskaper Bild från GU- journalen nr
Modellering med UML
© Anders Broberg, Ulrika Hägglund, Lena Kallin Westin, 2004 Datastrukturer och algoritmer Föreläsning 3.
Karin Larsson GIS-centrum Lunds universitet
Genetik II

Biokemi MNXA10/12 Hans-Erik Åkerlund
1 Framtidens SUNET för framgångsrik forskning, inledning Uppsala 26 april 2004 Bengt Persson.
Internet Styrdatorer och kablar Uppkopplade användare Servrar 182.QRZN.
DNA. DNA Den centrala dogman - sammanfattning av transkription och translation (1) All information finns lagrad i DNA (deoxyribonucleic acid). Informationen.
Att formulera vetenskapliga problemställningar
Genetik Intro.
FEK B Vetenskaplig metod Databaser Magnus Olsson Umeå universitetsbibliotek Tjänstesida:
Molekylär genetik Gener har 2 viktiga funktioner
-läran om det biologiska arvet
Databashantering MS Access 2003 Lektion 2
Informatik C VT 2011 Informationssökning Magnus Olsson, Umeå UB Tel
Mahmud Al Hakim 2  Mål för kursen  Kursplanering  Kurslitteratur  Betygsättning  Grunder om databaser  Tabeller.
Datautbildningar (D-nämnden) Datateknik (D), 180p, 150 studenter Informationsteknologi (IT), 180p, 30 studenter (förslag till 60 studenter). Programmet.
Nukleinsyror: DNA och RNA
Biologisk kemi, 7,5p KTH Vt 2010 Märit Karls
Protein Mer än hälften av cellens byggnadsmaterial är proteiner.
Statsvetenskap 3, statsvetenskapliga metoder
Simon Falck rAps användardagar, Oktober, (24) Internationella Statistikdatabaser och Tekniska finesser rAps användardagar 22 Oktober, 2009.
Informationsteknologi - Lektion 2 Trådlöst nätverk (WLAN) Trådlöst nätverk (WLAN) Filarkivet: Filarkivet:
Galaktosemi Oförmågan att bryta ned galaktos
DNA Deoxyribonukleinsyra RNA Ribonukleinsyra
IT - Branchutbildningsdag Arbetsförmedlingen mars 2009 Typer av data/IT-utbildningar Kort om Bologna-reformen Ny gymnasiereform Vad erbjuder LiU Utbud,
Vetenskapsrådet kräver sedan fri tillgång till forskningsresultat ”För att få bidrag för forskning kräver Vetenskapsrådet nu att forskarna.
Genetik Intro.
Formella metoder i MDI Behovet Vad menas med formell? Verktyg Exempel Att läsa: Kapitel 14 i Carroll.
Informatik C VT 2010 Informationssökning Magnus Olsson, Umeå UB Tel
Sambandet mellan… KROMOSOM DNA & GEN Micke Sundström ©
Formella metoder i MDI Behovet Vad menas med formell? Verktyg Exempel Att läsa: Kapitel 14 i kursboken.
Föreläsning om RUP RUP – Rational Unified Process
-läran om det biologiska arvet. Gregor Mendel 1800-talets mitt Upptäckte att egenskaper går i arv på ett regelbundet sätt.
Allt ärftligt material i en cell kallas för genom.
Hitta databaser.
IT Fördjupning Jon Wide
IT Databas Göran Wiréen
Operativ informationshantering, databaser
Kärnan i våra celler DNA (deoxiribonukleinsyra). Cellen Alla organismer består av minst en cell. Två olika typer av celltyper (prokaryota & eukaryota)
Presentationens avskrift:

Mikael Thollesson Evolutionsbiologiskt centrum, Uppsala Universitet Bioinformatik? Mikael Thollesson Evolutionsbiologiskt centrum, Uppsala Universitet

Dagens övningar… ”Vad är bioinformatik?” Exemplifierat i ett genomsekvenseringsprojekt Några biologiska problemställningar …och hur några olika tekniker kommer till användning Lite detaljer om DNA-sekvensdatabaser Homologi

Så, vad är “Bioinformatik”?… ”Metoder, modeller, algoritmer och implementeringar för att hantera och analysera informationsinnehållet i biologiska informationsbärande molekyler [och en del andra biologiska strukturer]” Datavetenskap Matematik Biologi

Fler modeord… Bioinformatik – Bioinformatics Syftar i huvudsak till att behandla biologiska data; fokus på tekniken Beräkningsbiologi – Computational biology Syftar i huvudsak till att modellera och prediktera biologiska system; mera fokus på biologin Systembiologi – Systems biology Syftar till att modellera det dynamiska beteendet hos hela biologisk system

Varför är ”Bioinformatik” ett inneuttryck? Innan 1997 fanns inte bioinformatik… men ”Biologisk databehandling” lät inte så hett… och ”Teknisk databehandling” blev ”Informationsteknologi” Nya tekniker har gjort att biologiska data produceras i en lavinartat ökande takt HUman GenOme Project (HUGO) och efterföljare

Tillväxt i sekvensdatabaser (EMBL) Dubblingstid ca 18 månader

“Bioinformatiker” – Vem är det? Flera olika skrå av bioinformatiker… ”Fotfolket” Använder tillgängliga verktyg på biologiska problem ”Gillesmedlemmarna” Forskningsprogram som leder till nya teorier, algoritmer eller konstruktioner av bioinformatiska verktyg Fritt tillgänglig programvara är en del av aktiviteten ”Superanvändarna” Använder tillgänglig programvara kompletterade med skräddarsydda skript och program på biologiska Programvara blir mycket sällan offentlig

Några bioinformatiska problemområden Datalagring/åtkomst Datastrukturer, databaser Informationsflöden Gränsytor (människa/maskin, maskin/maskin) Analys, prediktion Mönsterextraktion Modellering, sannolikhetsberäkningar Datavisualisering Datareduktion Fokusering, interaktivitet

Informationsöverföring - I DNA RNA mRNA protein polypeptid enzym transkription splitsning translation protein- veckning koenzym- aktivering Regulatoriska nätverk (enzymer och RNA) Utvecklingsmässiga program (vävnader, organ) Fenotyp

Informationsöverföring – II Ursprunglig sense strand Ursprunglig anti-sense strand Ny sense strand Ny anti-sense strand

En syn på Bioinformatik Metaboliska databaser Uttrycks-mönster Litteratur- databaser Expressions databaser Fragment-samman-läggning Genom- databaser Reglerings- mekanismer ? Sekvensdatabaser BLAST Prediktioner på DNA Detta är min lilla notis… Gen Parvis/Multipel sekvensinpassning Fylogeni- analys Prediktioner på proteiner Fylogenier Funktion, lokalisering Strukturdatabaser Fylogenetiska databaser

Människans genom Antalet gener har uppskattats till ca 35 000

Fragmentsammanläggning Problem: ”Från fragment till sammanhängande genomsekvens” DNA-sekvensering genererar sekvenser som är kortare än 1000 baser (bp); nya tekniker ännu kortare (50-150 bp) Bakteriekromosomer är 5-30 Mbp, människans kromosomer ca 150 Mbp Ytterligare förtretligheter Minskande precision mot ändarna av läsningarna Repetitiva sekvenser ACGTGCGACGATA CCGATACAGCAGGGATG

Prediktioner på DNA Maskning av repetitiva sekvenser Problem: “I den sammanhängande DNA sekvensen, identifiera de delar som innehåller information som bearbetas av organismen (speciellt gener)” intron exon promoter DNA sekvens Maskning av repetitiva sekvenser Möjliga angreppssätt Stoppkodon (UAA, UAG, UGA) Kodonskevhet - använder ”Hidden Markov Models”, en typ av probabilistisk modell

Proteinstrukturer Primärstruktur; ordningsföljden av aminosyrorna n-IVTAHAFVMI-c Primärstruktur; ordningsföljden av aminosyrorna Sekundärstruktur; konformationer, främst -spiraler och -flak Tertiärstruktur; den fullständiga tre-dimensionella veckningen av polypetidkedjan Kvartärstruktur; finns hos protein med fler än en polypeptidkedja

Prediktioner på aminosyrasekvenser Problem: ”Identifiera funktionen hos de delar av genomet som har identifierats som proteinkodande” Angreppssätt Jämför aminosyrasammansättningen med en databas av kända protein Beräkna fysikaliska egenskaper (isoelektrisk punkt, massa, hydrofobicitet,…) och jämför dessa med en databas av kända proteiner Leta efter specifika motiv i aminosyrasekvensen Jämför aminosyrasekvensen med sekvenserna i en databas med kända protein (BLAST sökning)

Prediktioner på protein – struktur Sekundärstruktur och veckning En teknik som används är neural nätverk Tertiärstruktur Mycket komplext problem, men ett med stor potential Bästa metoden för tillfället verkar vara ”Homology Model building” eller ”trädning” ; proteinsekvensen träds genom rumskoodinaterna hos ett känt protein från en databas och ett mått på passningen beräknas

Vad är en databas? Den information, de data, som databasen innehåller Organisationen av data – databasstrukturen ”Flat-file” databaser Innehåller markeringar och etiketter (t.ex. html) Kompletteras med indexfiler Relationella databaser – poster och fält, relationer mellan dessa Objektorienterade databaser Programvaran för att hantera informationen – Database Management System (DBMS) Förfrågningar och dataretur Gränsytor Användargränsytor, t.ex. web-sidor eller speciella klienter Datorgränsytor

Sekvensdatabaser Databaser med nukleinsyrasekvenser Innehåller främst primära DNA och RNA sekvenser Depåer, d.v.s. innehållet i databaserna är inte vårdat (kurerat) Proteinsekvensdatabaser Innehåller främst sekundära men även primära proteinsekvenser En del av databaserna är vårdade, andra bara extrakt från andra (DNA) databaser Flera typer av gränsytor och sökmotorer dins för att hämta data, t.ex. SRS (Sequence Retrieval System) och Entrez

Depåer för DNA/RNA sekvenser Tre primärcentra,vilka dagligen utbyter information EMBL / European Molecular Biology Laboratory DDBJ / DNA Data Bank of Japan GenBank Alla tre följer DDBJ/EMBL/GenBank Feature Table Definition – http://www.ebi.ac.uk/embl/Documentation/FT_definitions/feature_table.html, d.v.s. Informationen för posterna är densamma i databaserna

EMBL – European Molecular Biology Laboratory Europas primära resurs för nukleotidsekvenser Etablerad 1980 i Heidelberg av EMBL, nu drivs det hela av EBI (European Bioinformatics Institute) i Cambridge, UK Huvudskaliga källor för sekvenserna är direkt deponering från individuella forskare/grupper, genomprojekt och patentansökningar Innehåller två delar En release section (embl_rel) som släpps var tredje månad En new section (embl_new) dit nya sekvenser läggs till dagligen Också indelad i divisions beroende på sekvensernas ursprung http://www.ebi.ac.uk/embl/Access/index.html Posterna har (skenbarligen) ett format som skiljer sig från GenBank och DDBJ

EMBL divisions

- DNA Database of Japan Samlar huvudsakligen data från Japansk aktivitet, men accepterar data från forskare i alla länder Började som DNA depå 1986 genom påbud från ”Ministry of Education, Science, Sports, and Culture” http://www.ddbj.nig.ac.jp/ Posterna har samma format som i GenBank

GenBank USAs primära resurs för nukleotidsekvenser Etablerad 1988 Drivs av National Center for Biotechnology Information (NCBI), Bethesda, MD Har en release section och en new section liksom EMBL http://www.ncbi.nlm.nih.gov/ Posterna har ett format som (skenbart) skiljer sig från EMBL

Proteinsekvensdatabaser SWISS-PROT och TREMBL Utvecklades av Swiss Institute of Bioinformatics (SIB) och European Bioinformatics Institute (EBI) PIR-PSD Ett samarbete mellan National Biomedical Research Foundation (NBRF), Munich Center for Protein Studies (MIPS) och Japan International Protein Information Database (JIPID) UniProt I drift från december 2003 SwissProt TrEMBL PIR-PSD

Proteinsekvensdatabaser SWISS-PROT (155 000 poster juli 2004) Är en vårdad proteinsekvensdatabas Siktar på att tillhandahålla en hög annoteringsnivå (t.ex. funktion, domänstruktur, post-translationella modifieringar) Indelad i Swissprot_rel och Swissprot_new Ej indelad i divisions (som EMBL) TREMBL (1 360 000 poster juli 2004) Innehåller translaterade sekvenser från EMBL databasen Indelad i SP-TREMBL med sekvenser som är kandidater till att inkorporeras i SWISS-PROT REM-TREMBL som inte kommer att införlivas i SWISS-PROT

Gränsytor mot allmänna databaser Flera olika databaser är i regel tillgängliga genom samma WWW gränsyta. Till exempel, databaserna nedan är alla åtkomliga via National Institute of Health/National Centre for Biotechnology Information (NIH/NCBI) (http://www.ncbi.nlm.nih.gov/Database/) OMIM PubMed Full-text Electronic journals 3D Structures Taxonomy Protein sequences Nucleotide Maps & Genomes

Genomdatabaser Skiljer sig från sekvensdatabaser genom att vara mer heterogena och diversa En genomdatabas organiserar all information om ett visst genom, så som Genetisk kartläggning Kartor som visar geners inbördes läge i avstånd som representerar procent överkorsning Fysisk kartläggning Kan vara allt från cytogenetiska kartor (bandningsmönster av kromosomer) till positionen av alla kloner i sekvenseringsprojektet Sekvensdata Publika genomdatabaser finns på t.ex. Genome Net – http://www.genome.ad.jp/ NCBI’s genome section – http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=Genome

Strukturdatabaser Innehåller information om den tredimensionella strukturen hos molekyler, främst protein Data är främst från röntgenkristallografi (>80%), NMR, eller teoretiska modeller (<2%) Exempel på publika databaser är Protein databank (PDB) - http://www.rcsb.org/pdb/ Molecular Modelling Database (MMDB) - http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=Structure

Metaboliska databaser Alla metaboliska databaser använder EC-nummer, vilket är en kombination av fyra nummer som specificera typen av reaktion som enzymet katalyserar Exempel: EC 1.2.3.4 är ett oxido-reduktas (1) som agerar på aldehyd eller oxo grupper (1.2) med syre som acceptor (1.2.3). Den sista siffran, 4, är ett ordningstal inom klassen För- och nackdelar + EC ger en unik identifierare + Möjliggör synonymordlistor -Många klasser av enzym är inte klassificerade i tillräcklig detalj, speciellt gäller det proteaser och nukleaser som har makromolekyler som substrat

Metaboliska databaser Beskriver enzymer, reaktioner, substrat - produkter och biokemiska reaktioner Data är specifika för olika ”typorganismer” eller generella översikter (kompositer) Exempel Kyoto Encyclopedia of Genes and Genomes – http://www.genome.jp/kegg/

”Retrospektiv bioinformatik” – Homologi Ur en bioinformatisk synvinkel kan vi definiera homologi som ”Två bitar av information i två olika replikatorer är homologa om och endast om de är kopior av samma ursprungliga original i replikatorkontinuumet” Formalisering av förmodat homologa ”bitar av information” är karaktärer eller karaktärstillstånd

Homologi Antagen homologi är hypoteser, inte data Om en egenskap i två olika organismer är homologa eller ej beror också på upplösningen/abstraktionsnivån som används när man formulerar och testar hypotesen Exempel. Vingar hos ryggradsdjur Homologi är ett antingen-eller förhållande. Två saker kan inte vara ”80% homologa”, men de kan ha 80% identitet eller vara 80% lika (eller 20% olika) – likhet är ett operativt begrepp.

Homologi på molekylär nivå Det kan finnas flera olika abstraktionsnivåer för homologier hos molekylär data Homologi mellan gener Homologi mellan baspositioner i dessa gener Homologi mellan de faktiska baserna i dessa positioner Man skiljer också på några specialfall av homologi för genkopior i förhållande till de arter (eller genom) de förekommer hos Ortologi, Paralogi, Xenologi

Sekvensinpassning Sekvensinpassning (alignment) är en process som syftar till att föreslå en hypotes om homologi mellan positioner i (preliminärt) homologa sekvenser Detta kan vara ett (nödvändigt) steg för att beräkna likhet mellan sekvenser, som i sin tur används för att föreslå hypoteser homologi mellan sekvenser (genkopior) Jämförelse av sekvenser och sökning efter homologa sekvenser i databaser Parvis sekvensinpassning Identifiering av homologa baspar för fylogenetisk (genealogisk) analys Multipel sekvensinpassning

Sekvensinpassning Genom att tillåta misspassning mellan baser och/eller gap i sekvenserna kan två olika sekvenser passas in Sekvensinpassning görs genom optimering av en kostnad med olika bidrag från passning, misspassning och gap – inpassningen med lägst kostnad är den bästa För att hitta den bästa inpassningen används dynamisk programmering CCA-AGTAGG CGAGAGTATG

Heuristiska metoder O(mn) är för långsamt för att söka i stora sekvensdatabaser, d.v.s. lokal sekvensinpassning av en frågesekvens mot en extremt lång målsekvens Heuristiska metoder (”quick and dirty”) gör en snabb approximation, i detta fallet av dynamisk programmering BLAST Mest använda bioinformatiska programmet Empiriskt 10-50 gånger snabbare än motsvarande exakta algoritm

Multipel sekvensinpassning Lineus geniculatus TGGGCTGGGATGAAGGGAAGTATCGTGGGCCCGG Micrura akkeshiensis GGGGCTAGAATGAATGGGA-TAACGAGCCCCCGA Myoisophagus sanguineus GGGGCTAGAATGAAAGAAA-GTTTGAGACCTCAT Myoisophagus versicolor GGGGCTAGAATGAAAGAAA-GTTTGAGACCTCAT Parvicirrus dubius GGGACTGGAATGAAAGAAA-TTTTGAGGCCTTAA Syftar till att finna homologa positioner i fler än två homologa sekvenser, vanligen för att göra en fylogenianalys I praktiken är de flesta metoderna heuristiska och bygger på progressiv parvis inpassning (Clustal W är ett vida använt verktyg som bygger på denna princip, troligen det näst mest använda bioinformatiska programmet) eller använder ”Profile Hidden Markov Models” (profile HMM)

Fylogenianalys Fylogenier är evolutionär historia som delas av arter eller gener; modelleras nästan alltid som träd Fylogenin är en prediktor för egenskaper hos organismerna Problem Antalet möjliga träd ökar astronomiskt Effektiva algoritmer nödvändiga Informationsöverföringen är självförstörande Modeller för att ”korrigera” data nödvändiga Detta har givit upphov till en uppsjö programvara som implementerar mängder med olika metoder Fisk Groda Däggdjur Ödla Orm Krokodil Fågel http://evolution.genetics.washington.edu/phylip/software.html

Fylogenetiska databaser Primära (datadepåer) och sekundära (analysresultat och tolkningar) databaser Primära databaser innehåller information om resultatet av fylogenianalyser (träd, taxonomiska namn), data och antaganden som analyserna baseras på Sekundära databaser innehåller tolkningar och sammansatta fylogenetiska hypoteser för alla sorters taxa Exempel TreeBase – http://www.treebase.org/treebase/(Primär) Tree of Life – http://phylogeny.arizona.edu/tree/ (Sekundär)

Expressionsmönster Problem: Identifiera regleringsmekanismer och interaktioner för uttrycket av gener i levande celler Funktionell genomik DNA arrayer (cDNA prober på ett chip) används för att skatta RNA nivåer för flera tusen gener på en gång Nivåerna mäts vid successiva tidsintervall efter att någon behandling av cellerna har gjorts

Expressionsmönster Analys Generna grupperas efter expressionsprofil i ett mindre antal hopar Reverse engineering av expressionsnivåerna i dessa grupper används för att föreslå regulatoriska genetiska nätverk (detta är reglerteknik på hög nivå…)

Expressionsdatabaser Ett stort hinder är att finna ett enhetligt och flexibelt format för att deponera data från DNA-chip Exempel på expressionsdatabser är Gene Expression Omnibus – http://www.ncbi.nlm.nih.gov/projects/geo/ EBI ArrayExpress database – http://www.ebi.ac.uk/arrayexpress/ KEGG Expression Database – http://www.genome.ad.jp/kegg/expression/