Predicting protein folding pathways
Mohammed J. Zaki, Vinay Nadimpally, Deb Bardhan and Chris Bystroff Artikel i Bioinformatics 2004
Upplägg av presentationen Motivering Idén Matematik Algoritmer och exempel
Pathway prediction problem vs Protein folding problem Givet aa-sekvens bestämma 3D- strukturen Givet aa-sekvens och 3D-struktur bestämma ordnad sekvens av ”folding events”
Varför är folding pathways intressanta? Lära sig mer om hur proteiner veckar sig, vanliga steg/sekvenser i veckningen Sjukdomar som beror på felveckade proteiner: C-J, CF, hereditary emphysema
Idén Ta 3D-strukturen för ett färdigveckat protein och veckla ut den steg för steg tills man har en linjär molekyl Omvändningen av en sådan sekvens av veckningssteg utgör en trolig folding pathway
Ett antagande Non-native contacts inte är viktiga Native contacts bildas bara en gång under veckningen
Viktade SSE-grafer En SSE(secondary structure element)-graf är en graf där alfahelixar och betaflak utgör noderna och där interaktioner mellan SSE utgör bågarna Bågarna är viktade efter styrkan hos interaktionen mellan SSE:na
Viktade grafer Noder, bågar och viktfunktionen
Cuts Uppdelning av nodmängden V i två icke-tomma, disjunkta delmängder, C och C’, där C’ = V \ C Kapaciteten hos ett cut är summan av vikterna på de bågar som har exakt en ändpunkt i C Ett min-cut är den uppdelning i subgrafer som har minst kapacitet
Min-cuts Min-cuts behöver inte vara unika Det finns algoritmer som hittar min- cuts på O(|V||E|+|V| 2 log|V|)
Båge existerar om Interaktionen mellan två SSE är större än ett tröskelvärde SSE ligger bredvid varandra på peptide backbone
Beräkning av interaktion, Kontaktbaserad Avståndsbaserad SAS (solvent accessible surface) - baserad
Kontaktbaserad interaktion 3D-koordinater Euklidiskt avstånd mellan aa Kontakt om
Kontaktbaserad interaktion Contact map: binär NxN-matris med ettor om kontakt, annars nollor Vikten bestäms av antalet kontakter mellan två SSE
Avståndsbaserad interaktion Metoden är en utökning av kontaktbaserad interaktion där varje aa-par skalas efter hur nära varandra de är
Viktfunktionen W(e) Kontaktbaserad Avståndsbaserad SAS (solvent accessible surface) - baserad
Metoden så här långt: Ta 3D-struktur (tex. från PDB) Skapa graf med SSE som noder Beräkna styrka på interaktionen (tex. baserat på avstånd) mellan aa för att hitta bågarna Tilldela varje båge en vikt
Exempel: IgG-binding protein G (2IGD) 61 aa 4 betaflak 1 alfahelix 11 44 C-term N-term
Algoritmen Ett min-cut visar var interaktionen mellan SSE är svag Det visar ett ställe där det är troligt att unfolding kan börja Algoritmen Unfold hittar en trolig folding pathway
Algoritmen Unfold Unfold(G(V,E),W):C=NOI-MinCut(G,W) G C =(C,E C ); G C’ =(C’,E C’ ) if (|C|>1) Unfold(G C,W) if (|C’|>1) Unfold(G C’,W)
Exempel: IgG-binding protein G (2IGD) NOI-min-cut: {b2,b2,a1},{b4,b3} Kapacitet = 11+14=25 11 44 C-term N-term
Algoritmen Unfold Unfold(G(V,E),W):C=NOI-MinCut(G,W) G C =(C,E C ); G C’ =(C’,E C’ ) if (|C|>1) Unfold(G C,W) if (|C’|>1) Unfold(G C’,W)
Unfold tree
Problem med Unfold Väljer bara ett min-cuts Det kan finnas flera med samma eller nästan samma kapacitet Vill kunna hitta flera möjliga folding pathways
MultiUnfold Om W(C) är kapaciteten för ett min- cut så definieras near min-cuts som (1+)W(C), Detta ger flera möjliga vägar vid varje min-cut
Exempel: 2IDG (igen) Här är kapaciteten av min-cut W(C)=25 Near min-cut blir, med =0.5, 1.5*25=37.5 11 44
Near min-cuts på 2IGD Förutom C={}, W(C)=25 fås då C’={}, W(C’)=27 och C’’={}, W(C’’)=36 11 44
Near min-cuts Detta ger många fler tänkbara folding pathways Dessa kan även rankas efter hur troliga de är
Större exempel: Dihydrofolate Reductase
Sen då? Man kan lägga till loop-regioner som noder i grafen Testa algoritmerna på hela PDB för att se om man kan hitta liknande veckningsvägar för proteiner från samma familj
THE END! Frågor? Frågor?