Presentation laddar. Vänta.

Presentation laddar. Vänta.

Sekvensklassificering & Hidden Markov Models Bioinformatik 3p 24 Januari 2002 Patrik Johansson, Inst. för Cell & Molekylärbiologi, Uppsala Universitet.

Liknande presentationer


En presentation över ämnet: "Sekvensklassificering & Hidden Markov Models Bioinformatik 3p 24 Januari 2002 Patrik Johansson, Inst. för Cell & Molekylärbiologi, Uppsala Universitet."— Presentationens avskrift:

1 Sekvensklassificering & Hidden Markov Models Bioinformatik 3p 24 Januari 2002 Patrik Johansson, Inst. för Cell & Molekylärbiologi, Uppsala Universitet

2 Craig ?

3 Klassificering baserat på deterministiska regler Konsensussekvenser (kvalitativ / fix längd) AT{LV}G{CA}  ATLGC, ATLGA, ATVGC, ATVGA Weight matrices (kvantitativ / fix längd) ex. GYCG, GYGG, GYCC

4 Klassificering baserat på deterministiska regler.. Prosites (kvalitativ / variabel längd) G{YF}W(3,5)NH  GYWACLNH, GFWSFAEVNH... Profiles (kvantitativ / variabel längd) Positionsspecifik viktmatris + Gap penalty

5 Hidden Markov Models, introduktion Generell metod för mönsterigenkänning, jmfr. Profiles & neurala nätverk En Markovkjedja av händelser Tre mynt A, B & C  CAABA.. Sekvens, ex. Heads Heads Tails, genereras av gömd Markovkjedja A B C B A A B C C

6 Hidden Markov Models, introduktion.. En HMM genererar sekvenser / sekvensdistributioner Emitterar symbol (T, H) i varje state baserat på en emissionssannolikhet e i Väljer nästföljande state utifrån någon övergångssannolikhet a i,j Ex. sekvensen ‘Tails Heads Tails’ A Tails Heads Tails A A B B B CC C

7 Profile Hidden Markov Model arkitektur En första approach för sekvensdistributionsmodellering B M1M1 MjMj MNMN E

8 Profile Hidden Markov Model arkitektur.. Modellering av insertioner B M j - MjMj M j+ E IjIj e j I (a) =q(a), där q(a) är bakgrundsdistributionen av aminosyror

9 Profile Hidden Markov Model arkitektur.. Modellering av deletioner MjMj MjMj DjDj

10 Profile Hidden Markov Model arkitektur.. Insert & deletestates generaliseras till alla positioner. Modellen genererar sekvenser från state B genom succesiva emissioner och transitioner tills state E nås MjMj IjIj DjDj E B

11 Probabilistisk sekvensmodellering Klassificeringskriterium Bayes sats ;..men, P(M) & P(s)..? ( 1 ) ( 2 ) ( 3 )

12 Probabilistisk sekvensmodellering.. Om N tillåts modellera hela sekvensrymden tex. genom N = q ; Eftersom, logaritmsannolikheter smidigare Def., log-odds score ; ( 5 ) ( 4 )

13 Probabilistisk sekvensmodellering.. ( 6 ) Ekv. ( 4 ) & ( 5 ) ger ett nytt klassificeringskriterium ; Milosavljevics algoritmsignifikanstest ..för viss signifikansnivå , dvs. antalet felaktigt klassificerade sekvenser av en n stor databas, krävs visst threshold d ( 7 ) 

14 Probabilistisk sekvensmodellering.. Exempel. Om z=e eller z=2, signifikansnivån väljs till en felaktig klassificering, en false positive, per tiotusen och vi klassificerar n=1000 sekvenser ; nits, bits Man brukar definiera känslighet, ‘hur många hittas’ ;..och selektivitet, ‘hur många är korrekta’ ;

15 Modellkonstruktion Från initial alignment Vanligaste metoden, utgå från multipel alignment av tex. en proteinfamilj Iterativt Genom att sucessivt söka i en databas och inkorporera nya sekvenser över något visst threshold till modellen Neuralt inspirerad Modellen tränas mha. någon kontinuerlig minimerings- algoritm, ex. Baum-Welsh eller Steepest Descent

16 Modellkonstruktion.. Initial alignment, potentiella matchstates markerade med (  ) M1M1 M2M2 I2I2 D2D2 E B M3M3 M1M1 M2M2 I2I2 D2D2 E B M3M3 M1M1 M2M2 I2I2 D2D2 E B M3M3 M1M1 M2M2 I2I2 D2D2 E B M3M3

17 Evaluering av sekvenser Den optimala alignmenten, dvs. den path som har störst sannolikhet att generera sekvensen s, beräknas mha. dynamisk programmering MjMj M j-1 I j-1 D j-1 Det maximala log-odds scoret V j M (s i ) för matchstate j som emitterar aminosyra s i beräknas från emissionsscore, föregående maxscore och transitionsscore

18 Evaluering av sekvenser.. Viterbis Algoritm, ( 9 ) ( 8 ) ( 10 )

19 Parameterestimering, bakgrund Proteiner med liknande struktur och funktion kan ha mycket olika sekvenser Klassisk sekvensalignment baserad på heuristiska parametrar klarar inte en sekvensidentitet under ~ 50-60% Substitutionsmatriser för in statisk a priori information om aminosyror och proteinsekvenser  korrekta alignments ned till ~ 35% sekvensidentitet, ex. CLUSTAL Hur komma längre ned I ‘the twilight zone’..? - Mer och dynamisk a priori information..!

20 Parameterestimering Vad är sannolikheten att emittera alanin I första matchstatet, e M1 (‘A’)..? Maximum likelihood-estimering

21 Parameterestimering.. Add-one pseudocount estimering Background pseudocount estimering

22 Parameterestimering.. Substitutionmixture estimering Score :  Maximum likelihood ger pseudocounts  : Total estimering :

23 Parameterestimering.. Ovanstående metoder är trots sin dynamiska utformning till viss del baserade på heuristiska parametrar. Metod som kompenserar och kompletterar eventuell brist på data på ett statistiskt korrekt sätt ; Dirichlet mixture estimering Bayes sats beskriver hur a priori information A värderas I vissa strukturella omgivningar verkar det finnas några vanligt förekomande aminosyradistributioner inte bara en, bakgrundsdistributionen q Antar att det finns k st probabilitetsdensiteter som genererar dessa

24 Parameterestimering, Dirichlet Mixtures En metod som gör en separat estimering för alla j=1..k komponenter och sedan viktar ihop dem med sannolikheten att vår countvektor är genererad just av den komponenten Om de k komponenterna modelleras från en kurerad databas med alignments tex. som sk. Dirichlet densiteter kan ett explicit uttryck för sannolikheten att genererats från komponent j ställas upp mha. Bayes sats

25 Parameterestimering, Dirichlet Mixtures.. De k komponenterna ger upphov till toppar av aa-distributioner i någon multidimensionell sekvensrymd Beroende på var i sekvensrymden vår countvektor n ligger, dvs beroende på vilka komponenter som antas har genererat n, inkorporeras distributionsinformation från dessa

26 Klassifikationsexempel Alignment av några kända Glykosidhydrolassekvenser från familj GH16 Definiera vilka kolumner som ska utgöra basis för matchstates Ställ upp den korresponderande HMM-grafen för vår modell M Estimera emissions- och transitionssannolikheter, e j & a jk Evaluera sannolikheten / log-odds scoret att en viss sekvens s från någon databas har genererats av M med hjälp av Viterbis algoritm Ifall score(s | M) > d, kan sekvensen s klassificeras till familjen GH16

27 Klassifikationsexempel.. En viss sekvens s 1 =WHKLRQ evalueras och får ett score på -17.63 nits, dvs. sannolikheten att modellen M har genererat s 1 är mycket liten En annan sekvens s 2 =SDGSYT får ett score på 27.49 nits och kan med god signifikans klassificeras till familjen

28 Sammanfattning Hidden Markov Models används dels för klassificering / sökning ( PFAM ) och dels för sekvensmappning / homologimodellering Till skillnad från vanlig alignment används en positionsspecifik approach för sekvens-, insertions- och deletionsdistributioner Desto mer a priori information som inkorporeras, desto större känslighet men mindre selektivitet. Analogt för omvändningen


Ladda ner ppt "Sekvensklassificering & Hidden Markov Models Bioinformatik 3p 24 Januari 2002 Patrik Johansson, Inst. för Cell & Molekylärbiologi, Uppsala Universitet."

Liknande presentationer


Google-annonser