Matematisk statistik och genletning Ola Hössjer Matematiska institutionen Avd Matematisk statistik Stockholms universitet KVA 16 december 2009
Kromosomer o köncellsbildning
Nedärvning, gener på samma kromosom kromosompar (icke-könskromosomer eller XX) Gen A/a, varianter: Normal a, muterad A Gen B/b, varianter: Normal b, muterad B Rekombination: Varianter från olika kromosomer ärvs ner r = sannolikhet för rekombination < 0.5 A a B b könscells- bildning A b överkorsningar
Genkartor (1910 - ) r mäter avstånd mellan gener Kopplingsanalys: Ordna o positionera gener längs kromosom Bananflugans X-kromosom: gul kropp o vingar vita ögon miniatyrvinge r = 1.3 % r = 32.8 % r = 33.6 %
Genetiska avstånd (1919) Överkorsningar slumpmässigt längs kromosom r 0.5 r 1 2 3 d = avstånd = genomsnittligt antal överkorsningar mellan gener
Human genletning (1920 - ) Oetiskt planera försök Familjedata X-kromosomen (Haldane o Bell, 1937): blödarsjuka färgblindhet
Skatta r blödarsjuk = A färgblind = B normal = ab Söner till anlagsbärande mammor Sannolikhet Normal eller blödarsjuk+färgblind 1-r (ej rekombination) Blödarsjuk eller färgblind r (rekombination) skattning 1 av 8 söner har precis en av sjukdomarna r = 1/8 d = 0.144
Bra data + Bra matematiska metoder = Effektiv genletning: Bra data + Bra matematiska metoder = Sant
Markörer Gener med känd position Minst två vanliga varianter Antal: 50 före 1980 1000 -10 000 krävs för kopplingsanalys markörer sjukdomsgen (okänd position)
Molekylärgenetik fler markörer DNA: 3 miljarder baser (A,T,C,G) Markör = DNA-avsnitt med variation (1980-) Enskilda baser med variation (t ex C/G): > 10 miljoner potentiella markörer
Snabba beräkningsmetoder Stora släktträd (70-talet) Många markörer (80-talet): sjukdomsgen (okänd position)
Monogena sjukdomar lokaliserade Koppling till markörer Hittad(e) mutation(er) Duchennes muskeldystrofi 1982 1987 Cystisk fibros 1985 1989 Huntingtons sjukdom 1983 Tidig Alzheimers 1991 …….. Orsakade av mutation(er) i en gen Ofta ovanliga och allvarliga Lätt att hitta koppling
Komplexa ärftliga sjukdomar Vanliga sjukdomar, ex: Diabetes, hjärt- och kärlsjukdomar, Alzheimers, vissa cancerformer, bipolär, schizofreni Varje gen liten effekt Få gener hittade på 90-talet med kopplingsanalys
Associationsanalys Jämför DNA mellan orelaterade sjuka och friska: Leta mutationer i enskilda baser C T G T C T G C C G C A C A G G A A G C G A C A G G A C C G C T G A G G G A C C G A G A G G A A C G C A C T C T G C G G C A G A C T G A C G G T C T C G A A C C Hundratusentals markörer (baser) krävs
p-värde, bas C/G, 500 sjuka o friska Antal C Antal G Total Andel G Frisk 820 180 1000 18 % Sjuk 780 220 22 % 1600 400 2000 20 % p-värde = Sannolikhet att av slump få: Minst 4% skillnad i G mellan sjuka/friska = 2.9 %
Genomvid associationsstudie (WTCC, 2007) -7 p-värden (log-skala), 24 st < 5 10 Sju komplexa sjukdomar Diabetes (typ 1 o 2) Bipolär Högt blodtryck, Ledgångsreumatism Hjärt- kärlsjukdom Chrons sjukdom 2000 sjuka (per sjukdom) 3000 friska 500 000 markörer
Koalescensteori (1982-) Historiskt släktträd bakåt Släktträd, position C/G: Historiskt släktträd bakåt Minst 10-100 generationer Summera över möjliga släktträd Mutation hos anfader
Koalescensteori + genletning muterad kromosom Utnyttja ”G-kromosomer” mer lika kring mutation Lägre p-värden historisk överkorsning Hössjer, Humphreys, Hartman, Olsson, 2009
Svenskt bröstcancerdata Einarsdóttir m fl (2006) 400 sjuka o friska Område (20 000 baser) runt gen FGFR2 10 markörer p-värde (hela området): Utan koalescensteori: 0.01 Med koalescensteori: 0.0029
Framtida utmaningar Matematiska modeller Förstå mänsklig DNA-variation Samband DNA-variation/sjukdom