Sekvensklassificering & Hidden Markov Models Bioinformatik 3p 24 Januari 2002 Patrik Johansson, Inst. för Cell & Molekylärbiologi, Uppsala Universitet.

Slides:



Advertisements
Liknande presentationer
F. Drewes, Inst. f. datavetenskap1 Föreläsning 13: Resolution •Resolution i satslogiken •Resolution i predikatlogiken.
Advertisements

Talföljder formler och summor
Forskningsdata Jonas Ekman Docent i industriell elektronik.
Komplement Bornholmsmodell för förskolan
Liten introduktion till Wiki’n som KunskapsDatabas
9. Gör ritningen innan Du bygger huset
Point Estimation Dan Hedlin
Genkloning samt vektorsystem
FL4 732G70 Statistik A Detta är en generell mall för att göra PowerPoint presentationer enligt LiUs grafiska profil. Du skriver in din rubrik,
Ruttplanering Vad är det??.
2D1311 Programmeringsteknik med PBL
Algoritmer och data strukturer -Länkade listor
Leif Håkansson’s Square Dancer Rotation
Programmeringsteknik Föreläsning 13 Skolan för Datavetenskap och kommunikation.
1 Hur sårbart är vägnätet för utbredda avbrott? Erik Jenelius Avd. för transport- och lokaliseringsanalys Inst. för transporter och samhällsekonomi KTH.
Föreläsning 1.
Predicting protein folding pathways.  Mohammed J. Zaki, Vinay Nadimpally, Deb Bardhan and Chris Bystroff  Artikel i Bioinformatics 2004.
För utveckling av verksamhet, produkter och livskvalitet. Algoritmer och datastructurer - Lite mer rekursivitet -Sorterrings algoritmer -- Kapitel 8 Algoritmer.
Inferens om en ändlig population Sid
1 Sårbarhetsanalys av vägtransportnätverk Erik Jenelius Avd. för transport- och lokaliseringsanalys, KTH VTI Transportforum, Linköping, januari 2007.
Polymorfism.
MEDELVÄRDE, MEDIAN & TYPVÄRDE
Växjö 21 april -04Språk & logik: Kontextfria grammatiker1 DAB760: Språk och logik 21/4: Kontextfria 10-12grammatiker Leif Grönqvist
Föreläsning 4 Python: Definiering av egna funktioner Parametrar
Ämneskonferensen i datavetenskap Karlstad aug 2008 Tankar om den nya gymnasiereformen Kontakter med skolan Anders Haraldsson Linköpings universitet.
Växjö 15 april -04Språk & logik: Reguljära uttryck1 DAB760: Språk och logik 15/4: Finita automater och 13-15reguljära uttryck Leif Grönqvist
Föreläsning 2: Grundläggande informationsteori
William Sandqvist C:s minnesmodell.
Lennart Edblom, Frank Drewes, Inst. f. datavetenskap 1 Föreläsning 6: Semantik Statisk semantik Attributgrammatiker Dynamisk semantik Axiomatisk.
Grundläggande programmering
KVALITATIV ANALYS - FACKVERK
Jonny Karlsson INTRODUKTION TILL PROGRAMMERING Föreläsning 8 ( ) INNEHÅLL:Klasser: -Konstruktorer -Klassvariabler -Instansmetoder -Privata.
Centrala Gränsvärdessatsen:
732G81 Statistik Föreläsning 3 732G81 Statistik
1. Konnektionism – grunderna
Styrteknik 7.5 hp distans: PLC-Program, kaffe-automat PLC7B:1
F. Drewes, Inst. f. datavetenskap1 Föreläsning 11: Funktionella språk Funktioner och variabler i matematiken Funktionella språk LISP, ML och.
En mycket vanlig frågeställning gäller om två storheter har ett samband eller inte, många gånger är det helt klart: y x För en mätserie som denna är det.
Fysikexperiment 5p Föreläsning Korrelationer Ett effektivt sätt att beskriva sambandet mellan två variabler (ett observationspar) är i.
6558/G558 DATAKOMMUNIKATION Ruttning. Algoritmer –hur bygger man ruttningstabeller? –Distansvektoralgoritmen –Länktillståndsalgoritmen Skalning.
FL7 732G70 Statistik A Detta är en generell mall för att göra PowerPoint presentationer enligt LiUs grafiska profil. Du skriver in din rubrik,
Egenskaper för punktskattning
Simulering Introduktion Exempel: Antag att någon kastar tärning
F. Drewes, Inst. f. datavetenskap1 Föreläsning 2: Variabler och datatyper Variabler Bindning Typkontroll Några viktiga datatyper.
Projekt 5.3 Gilpins och Ayalas θ-logistiska modell A Course in Mathematical Modeling - Mooney & Swift.
© Anders Broberg, Ulrika Hägglund, Lena Kallin Westin, 2003 Föreläsning 12 Sökning och Sökträd.
Datorseende TexPoint fonts used in EMF: AA.
Matematisk statistik och signal-behandling - ESS011 Föreläsning 3 Igor Rychlik 2015 (baserat på föreläsningar av Jesper Rydén)
Speltestning -Med Fuzzy Logic. Introduktion - Banor och fiender visar strategier - Akademiska världen vs speldesigner.
1 Mönstermatchning och rekursion Nr 4. 2 Förenklad notation val fnname = fn name => expression Förenklas till fun fnname name = expression Exempel fun.
F. Drewes, Inst. f. datavetenskap1 Föreläsning 9: Implementering av underprogram Aktiveringsposter Exekveringsstacken Implementera dynamisk räckvidd.
Lennart Edblom, Frank Drewes, Inst. f. datavetenskap 1 Föreläsning 12: -kalkylen allmänt om -kalkylen syntax semantik att programmera i -kalkylen.
Satslogik, forts. DAA701/716 Leif Grönqvist 5:e mars, 2003.
F. Drewes, Inst. f. datavetenskap1 Föreläsning 12: -kalkylen allmänt om -kalkylen syntax semantik att programmera i -kalkylen.
DA7351 Programmering 1 Databas SQL Föreläsning 24.
Föreläsning om RUP RUP – Rational Unified Process
© Anders Broberg, Ulrika Hägglund, Lena Kallin Westin, 2003 Datastrukturer och algoritmer Föreläsning 16.
Växjö 14 april -04Språk & logik: Finita automater1 DAB760: Språk och logik 14/4:Finita automater Leif Grönqvist Växjö Universitet.
Lennart Edblom, Frank Drewes, Inst. f. datavetenskap 1 Föreläsning 13: Resolution Resolution i satslogiken Resolution i predikatlogiken.
Forskningsmetodik lektion
För utveckling av verksamhet, produkter och livskvalitet. Algoritmer och datastrukturer Hash Tabeller och Graf.
1 Stokastiska variabler. 2 Variabler En variabel är en egenskap hos en individ /objekt. En variabel kan, som vi tidigare sett, vara kvalitativ eller kvantitativ.
Lars Madej  Talmönster och talföljder  Funktioner.
Statistisk hypotesprövning. Test av hypoteser Ofta när man gör undersökningar så vill man ha svar på olika frågor (s.k. hypoteser). T.ex. Stämmer en spelares.
Statistisk inferensteori. Inledning Den statistiska inferensteorin handlar i huvudsak om att dra slutsatser från ett slumpmässigt urval (sannolikhetsurval)
Korstabeller och logistisk regression Samband mellan kvalitativa variabler.
Algoritmer och datastrukturer Föreläsning 8 Tidskomplexitet (Weiss kap
Workshop 2 - Kvalitetsutveckling Vad är kvalitetsutveckling? Kvalitetsutveckling = Det kontinuerliga arbetet med att förbättra kvalitén. Ett arbete.
Algoritm för insättning av ett tåg i en befintlig tidtabell
Digitalteknik 3p - Sekvenskretsar
Presentationens avskrift:

Sekvensklassificering & Hidden Markov Models Bioinformatik 3p 24 Januari 2002 Patrik Johansson, Inst. för Cell & Molekylärbiologi, Uppsala Universitet

Craig ?

Klassificering baserat på deterministiska regler Konsensussekvenser (kvalitativ / fix längd) AT{LV}G{CA}  ATLGC, ATLGA, ATVGC, ATVGA Weight matrices (kvantitativ / fix längd) ex. GYCG, GYGG, GYCC

Klassificering baserat på deterministiska regler.. Prosites (kvalitativ / variabel längd) G{YF}W(3,5)NH  GYWACLNH, GFWSFAEVNH... Profiles (kvantitativ / variabel längd) Positionsspecifik viktmatris + Gap penalty

Hidden Markov Models, introduktion Generell metod för mönsterigenkänning, jmfr. Profiles & neurala nätverk En Markovkjedja av händelser Tre mynt A, B & C  CAABA.. Sekvens, ex. Heads Heads Tails, genereras av gömd Markovkjedja A B C B A A B C C

Hidden Markov Models, introduktion.. En HMM genererar sekvenser / sekvensdistributioner Emitterar symbol (T, H) i varje state baserat på en emissionssannolikhet e i Väljer nästföljande state utifrån någon övergångssannolikhet a i,j Ex. sekvensen ‘Tails Heads Tails’ A Tails Heads Tails A A B B B CC C

Profile Hidden Markov Model arkitektur En första approach för sekvensdistributionsmodellering B M1M1 MjMj MNMN E

Profile Hidden Markov Model arkitektur.. Modellering av insertioner B M j - MjMj M j+ E IjIj e j I (a) =q(a), där q(a) är bakgrundsdistributionen av aminosyror

Profile Hidden Markov Model arkitektur.. Modellering av deletioner MjMj MjMj DjDj

Profile Hidden Markov Model arkitektur.. Insert & deletestates generaliseras till alla positioner. Modellen genererar sekvenser från state B genom succesiva emissioner och transitioner tills state E nås MjMj IjIj DjDj E B

Probabilistisk sekvensmodellering Klassificeringskriterium Bayes sats ;..men, P(M) & P(s)..? ( 1 ) ( 2 ) ( 3 )

Probabilistisk sekvensmodellering.. Om N tillåts modellera hela sekvensrymden tex. genom N = q ; Eftersom, logaritmsannolikheter smidigare Def., log-odds score ; ( 5 ) ( 4 )

Probabilistisk sekvensmodellering.. ( 6 ) Ekv. ( 4 ) & ( 5 ) ger ett nytt klassificeringskriterium ; Milosavljevics algoritmsignifikanstest ..för viss signifikansnivå , dvs. antalet felaktigt klassificerade sekvenser av en n stor databas, krävs visst threshold d ( 7 ) 

Probabilistisk sekvensmodellering.. Exempel. Om z=e eller z=2, signifikansnivån väljs till en felaktig klassificering, en false positive, per tiotusen och vi klassificerar n=1000 sekvenser ; nits, bits Man brukar definiera känslighet, ‘hur många hittas’ ;..och selektivitet, ‘hur många är korrekta’ ;

Modellkonstruktion Från initial alignment Vanligaste metoden, utgå från multipel alignment av tex. en proteinfamilj Iterativt Genom att sucessivt söka i en databas och inkorporera nya sekvenser över något visst threshold till modellen Neuralt inspirerad Modellen tränas mha. någon kontinuerlig minimerings- algoritm, ex. Baum-Welsh eller Steepest Descent

Modellkonstruktion.. Initial alignment, potentiella matchstates markerade med (  ) M1M1 M2M2 I2I2 D2D2 E B M3M3 M1M1 M2M2 I2I2 D2D2 E B M3M3 M1M1 M2M2 I2I2 D2D2 E B M3M3 M1M1 M2M2 I2I2 D2D2 E B M3M3

Evaluering av sekvenser Den optimala alignmenten, dvs. den path som har störst sannolikhet att generera sekvensen s, beräknas mha. dynamisk programmering MjMj M j-1 I j-1 D j-1 Det maximala log-odds scoret V j M (s i ) för matchstate j som emitterar aminosyra s i beräknas från emissionsscore, föregående maxscore och transitionsscore

Evaluering av sekvenser.. Viterbis Algoritm, ( 9 ) ( 8 ) ( 10 )

Parameterestimering, bakgrund Proteiner med liknande struktur och funktion kan ha mycket olika sekvenser Klassisk sekvensalignment baserad på heuristiska parametrar klarar inte en sekvensidentitet under ~ 50-60% Substitutionsmatriser för in statisk a priori information om aminosyror och proteinsekvenser  korrekta alignments ned till ~ 35% sekvensidentitet, ex. CLUSTAL Hur komma längre ned I ‘the twilight zone’..? - Mer och dynamisk a priori information..!

Parameterestimering Vad är sannolikheten att emittera alanin I första matchstatet, e M1 (‘A’)..? Maximum likelihood-estimering

Parameterestimering.. Add-one pseudocount estimering Background pseudocount estimering

Parameterestimering.. Substitutionmixture estimering Score :  Maximum likelihood ger pseudocounts  : Total estimering :

Parameterestimering.. Ovanstående metoder är trots sin dynamiska utformning till viss del baserade på heuristiska parametrar. Metod som kompenserar och kompletterar eventuell brist på data på ett statistiskt korrekt sätt ; Dirichlet mixture estimering Bayes sats beskriver hur a priori information A värderas I vissa strukturella omgivningar verkar det finnas några vanligt förekomande aminosyradistributioner inte bara en, bakgrundsdistributionen q Antar att det finns k st probabilitetsdensiteter som genererar dessa

Parameterestimering, Dirichlet Mixtures En metod som gör en separat estimering för alla j=1..k komponenter och sedan viktar ihop dem med sannolikheten att vår countvektor är genererad just av den komponenten Om de k komponenterna modelleras från en kurerad databas med alignments tex. som sk. Dirichlet densiteter kan ett explicit uttryck för sannolikheten att genererats från komponent j ställas upp mha. Bayes sats

Parameterestimering, Dirichlet Mixtures.. De k komponenterna ger upphov till toppar av aa-distributioner i någon multidimensionell sekvensrymd Beroende på var i sekvensrymden vår countvektor n ligger, dvs beroende på vilka komponenter som antas har genererat n, inkorporeras distributionsinformation från dessa

Klassifikationsexempel Alignment av några kända Glykosidhydrolassekvenser från familj GH16 Definiera vilka kolumner som ska utgöra basis för matchstates Ställ upp den korresponderande HMM-grafen för vår modell M Estimera emissions- och transitionssannolikheter, e j & a jk Evaluera sannolikheten / log-odds scoret att en viss sekvens s från någon databas har genererats av M med hjälp av Viterbis algoritm Ifall score(s | M) > d, kan sekvensen s klassificeras till familjen GH16

Klassifikationsexempel.. En viss sekvens s 1 =WHKLRQ evalueras och får ett score på nits, dvs. sannolikheten att modellen M har genererat s 1 är mycket liten En annan sekvens s 2 =SDGSYT får ett score på nits och kan med god signifikans klassificeras till familjen

Sammanfattning Hidden Markov Models används dels för klassificering / sökning ( PFAM ) och dels för sekvensmappning / homologimodellering Till skillnad från vanlig alignment används en positionsspecifik approach för sekvens-, insertions- och deletionsdistributioner Desto mer a priori information som inkorporeras, desto större känslighet men mindre selektivitet. Analogt för omvändningen