Bioinformatik - Bioinformatics Graz

Transcription

Bioinformatik - Bioinformatics Graz
Bioinformatik in der Biomedizin:
Eine Anleitung zum Lesen der Gene
Gerhard Thallinger
Institut für Genomik und Bioinformatik, TU Graz
http://genome.tugraz.at
G. Thallinger
Bioinformatik in der Biomedizin
1
Bioinformatik
• Einführung in die Bioinformatik
• Biologische Datenbanken: Suche, Aufbau
• Prediktive Methoden basierend auf DNA- und Protein
Sequenzen
• Microarray Technologie und Auswertung
• Next Generation Sequencing mit Anwendungen
G. Thallinger
Bioinformatik in der Biomedizin
2
Genetik und Genomik
Gen: Erbfaktor
Genetik: Erforschung der Funktion von Genen
Genom: Gesamte Erbinformation
Genomik: Erforschung der Gesamtheit aller Gene
eines Organismus
(siehe auch das bm:wf Programm www.gen-au.at)
G. Thallinger
Bioinformatik in der Biomedizin
3
Genetik
Gregor Mendel
Die Mathematik der Vererbung
1856: Kreuzungsexperimente mit
Gartenerbse (rund, gerunzelt,
verschiedene Blütenfarben)
1866: Veröffentlichung der Versuche
Mendel G, Versuche über Pflanzen-Hybriden.
Verh. Naturforsch. Ver. Brünn, 1866;4:3-47
G. Thallinger
Bioinformatik in der Biomedizin
4
Molekulargenetik
Watson JD, Crick FH, Molecular
Structure of Nucleic Acids: A Structure
for Deoxyribose Nucleic Acid.
Nature, 1953;171(4356):737-738
G. Thallinger
Bioinformatik in der Biomedizin
5
Molekulargenetik
“…No one suggests these groupings [A, C, G, T] can yet
be arranged artificially. Discovering how these chemical
„cards“ are shuffled and paired will keep the scientists
busy for the next 50 years…”
Richie Calder, News Chronicle,
15. May 1953
G. Thallinger
Bioinformatik in der Biomedizin
6
Molekulargenetik
1966
– Entschlüsselung des genetischen Codes
(Nierenberg, Khorana)
1972
– Entwicklung der rekombinanten DNA-Technologie
(Lobban, Kaiser)
1977
– DNA-Sequenziermethode entwickelt (Sanger)
1982
– Erstes Medikament basierend auf der
rekombinanten DNA-Technologie (Humaninsulin)
G. Thallinger
Bioinformatik in der Biomedizin
7
Genomik
1983
– PCR (Polymerase Kettenreaktion): DNAAmplifizierung (Mullins)
1984
– Machbarkeitsstudie zum „Human Genome
Project“
1990
– Start des „Human Genome Projects“
Ziel: Entschlüsselung des humanen Genoms
(3.000.000.000 bp) bis 2005
G. Thallinger
Bioinformatik in der Biomedizin
8
Genomik
1995
– Zwei bakterielle Genome entschlüsselt:
Mycoplasma genitalium ( 580.070 bp; 0,58 Mbp),
Haemophilus influenzae (1.830.137 bp; 1,83 Mbp)
1996
– Hefegenom entschlüsselt (12 Mbp, 6.000 Gene)
1998
– Genom des Fadenwurms (97 Mbp, 18.000 Gene)
2000
– Genom der Taufliege (180 Mbp, 16.000 Gene)
G. Thallinger
Bioinformatik in der Biomedizin
9
2001: Das Humane Genom ist entschlüsselt!
2500 Personen, 20 Institutionen
Das Buch des Lebens hat 3 Milliarden Zeichen
-‘nur’ rd. 21.000 Gene (Taufliege: 16.000)
Lander et al., Nature. 2001;409:860-921
Venter et al., Science. 2001;291:1304-1351
G. Thallinger
Bioinformatik in der Biomedizin
10
Chromosom 22: 8800 Seiten
G. Thallinger
GATCATCATCGAATGGAGTTGAATGGAATTATCAAAGAATGGAATCCAGTGGTATCATCATCAAATGGAA
CCGAATGGAATCATCAAATGGACTCAAATGGAATCATTGAATAGATTCGAATGGAATCATCATCGAATGA
AATCGAATGGAAAAATTGAATGGACTCGAATGGAACCATCATTGAATGGAAACCAAAGGAATCATCATCT
AATGAAATGAAATGGAATCATAGAATGGACACAAATGGAATCATCATCGAATGGTATTGAATGGAATCAT
CGAAAAGAATCGACGGAATCATGATCAAATGGACTCGAATGGAATCATCATGGAATGGAATCAAATGGAA
TCATCAATGAATGGAATCCAATGGTATCATCATCAAATGGAACCGAAAGGAATCATCAAGTGGACTCAAA
TGGAATCATCGAATGGAATCGAATGGAATCATCATCGAATGGAATCGAATGGAAACATCGAATGGAATCG
AATGGAAACATCATTGAATGGAATCATCATCAAACGGAATCTATTTGAATCCTCATTGGATAGAATCGAA
TGGAATCATCAAATGGAATAGAAAGGAATCATCATCGAATGCAATCGAATAGAATCATCAAATGAAAAGG
AACGGAATCATCATCGAATGGAATCGAATGGAATCATCAACGAATGGAATCGAATGGAATCATCGTCTAA
TGGAATCAAATGGAATCATCAACGAATGGAATAGCATGGAATCATCGAATGGAATCTCATGGCATCATCA
TCACATGGAACCGAATGGAATCATCATGGAGTGTAATCTAATGGAATCATCATTGAATGGAATCCAATGG
GATCACTGAATTGAATGGAATGATCATCGAATGGAATCAAAGGGAATCATCAAATGGGATAGAAGGGAAT
CATAGAATGGAATCGAATGGAATCATCGAATGGATTCAAATGGAATCACCATCAAATGGAAAAGAATGGA
ATCATCAAAAGGACTCGAATGGAATCATCAAGGAATAGAATCAAATGGAATAATTGAATAGACACGAATG
GAATCATCATTTAATGGAATCAAATGGAATCATCGAATGGACTCAAATGGAATCATCATTGAATGGAATC
GAATGGAATCATCGAATGACATTGAATAGAATAATCAATGAATGGAATCTTAAGGAATAATCGAATGGAC
TCGAATGGAATAATCGAATGGACTCGAGTGGAATCATCATCGAATGGAATCGAATGGAATCATCAAATGG
ACTCAAATGGAATCATCATTGAATGGAATGGAATGAAATCATCGAATGGACTCGAGTGGAATCATCATCG
AATGGAATGGAATGGAATCATCGAATGGACTCAAATGGAATCATCATCGAATGGAATGGAATGGAATCAT
CGAATGGACTCGAATGGAATCATCATCAAATGGAATCTAATGGAATCATCGAAGGTACTGGAATGGAATC
ATAATCAAATGGAATCGAATGGAATCATTGAATGACATCGAATGGAATCCTCATTGAATGGAATGGAATG
GAGTCATCAAATGGAATCCAATGGAATCATCATCGAATGGAATCAAATGGAATCATCAAATGGAATCGAA
TGGAACCATCGGATGGAATCGAATGGAATCATCATCGAATGGAATCGAATTGAATCATCGAATGGAATCG
AATGCAATCATCTCAAACAGAATCAAATAGAACCATCCAATGAAATCAAATGGAATCATCATCGAATAGA
ATCAAATGGAACCATAGAATGGTATCGAATGGAATCATCATCAAATGGAATCAAAAGCAAAAATCGAATG
GATTCGAAAAGAATCATCAAATGGACATGAATGGAATCATCATCCAATGGAATGAAATGGAATTAACGAA
TGGAATCGAATGGAATCATCATCAAATGGAATCAAATGGAATCATCTAATGGACAGTAATGGAATCCTCA
TTGAATGGAATCGAATGGAATAATCAAATGGAGACGAATGGAATCCCCATCGAATGGAAGTGAATGGAAT
CATCAAATGGACCCAAATGCAATCATCATCGAATGGAATTGAACAGAATCTTCGTTGAATAGACTCGAAT
GGAATCATCAAATGGACTCAAATTGAATCATTGAATGGAATTGAATGGTATCATCACAGAATGAATTGAA
TGGAATCATCGAATGGTCTCGAAAGGAATAATTATCAAATGCAATCGAATGTAATCACCGAATAGAATCG
AATGGAATAATCATCGAATGGACTCGAATGGAATCATCATCAAATGGAATCGAATGGAATTATTGAATGG
AATCGAATAGAATCATCGAATGGACTCTAATGGAATCATCGAATGGAATGTAATGGAATAATCAATGAAC
TCGAATGGAATCATCATTGAATGGAAACGAATGGAATCATTGAATGGAATTGAATGGAAACATCATCGAA
TGCAATCGAATGGAATCATCACCGACTTGAATAGAAAAGAATCATCAGCAAATGGAATCGAATGGAATCA
TCATGGAATGGAATCCAAAGGAATCATCATTGAATGCAACCAAATGGAATCGTCATCGAATGGACCGAAA
GGAGTCATCATCGAATGGAATCGCATGGAATCATCATCAAATGGAATTGAATGGAACCATCATCAAATGG
Bioinformatik in der Biomedizin
11
Bioinformatik
Neue Disziplin an der Schnittstelle der Molekulare Biowissenschaften und
Informatik mit Bezügen zu Medizin, Statistik und Mathematik
Verwaltung von genomischen Daten
Analyse von DNA- und Proteinsequenzen
Funktionelle Vorhersagen für neuen Sequenzen
Grundlagenforschung
-Biologie und Medizin
Biologische Anwendungen
-Klassifizierung von Spezies
Biotechnologische Anwendungen
-Optimierung von Bioprozessen in der industriellen Produktion
Medizinische Anwendungen
-Molekulare Diagnostik
-Stratifizierung von Patienten
G. Thallinger
Bioinformatik in der Biomedizin
12
IT Anforderungen
Supercomputer (z.B. Blue Gene)
1: Jaguar
Oak Ridge National Laboratory
1759 TFlops (11/2009: 1)
2: Nebulae
National Supercomputing
Centre in Shenzhen
1271 TFlops (06/2010: 2)
5:JUGENE - Blue Gene/P
Forschungszentrum Juelich
825 TFlops (06/2009: 3)
60: Blue Gene
IBM T.J. Watson Research
91 TFlops (06/2005: 2)
http://www.top500.org/
G. Thallinger
Bioinformatik in der Biomedizin
13
IT Infrastruktur am IGB
• 2 Web servers
• 2 Application servers
• 2 Database servers
• 32 bit Computing cluster
(48 Cores, 24 GB RAM)
• 64 bit Computing cluster
(32 Cores, 290 GB RAM)
• 26 TB Storage (3 Systeme
mit 1, 9 und 16 TB)
• Backup System
G. Thallinger
Bioinformatik in der Biomedizin
14
Bioinformatik
Können wir unsere Vergangenheit lesen?
Woher kommen wir?
Wer sind unsere Vorfahren?
Können wir in die Zukunft sehen?
Von welcher Krankheiten werde ich heimgesucht?
Kann ich was dagegen tun?
G. Thallinger
Bioinformatik in der Biomedizin
15
Bioinformatik
Können wir unsere Vergangenheit lesen?
“Out of Africa”?
Sind wir auch Nachkommen der Neandertaler?
Wie verwandt sind die Schimpansen?
G. Thallinger
Bioinformatik in der Biomedizin
16
Out of Afrika: Die Wanderkarte im Erbgut
Untersuchung der Mitrochondien DNA
• Homo sapiens: vor 200.000 Jahren in
Afrika
• vor 150.000 Jahren: “Eva”
• vor 60.000 Jahren: 2.000 Individuen
• vor 40.000 Jahren: die Welt wird
besiedelt
• heute, 2.000 Generationen später
genographic.nationalgeographic.com/gen
ographic/globe.html
G. Thallinger
Bioinformatik in der Biomedizin
17
Neandertaler
Genetische Analysen fossiler
Proben:
Neandertaler und moderne
Menschen haben sich nicht
wesentlich miteinander vermischt
Green RE, et al., Nature. 2006, 444(7117):330-336
Draft Neandertal Genome aus drei
Individuen: nähere Verwandschaft
zu Eurasiern als zu Afrikanern
unterhalb der Sahara
Green RE, et al., Science. 2010;328(5979):710-22.
G. Thallinger
Bioinformatik in der Biomedizin
18
Schimpanse
99.4% der Gene bei Mensch und Schimpanse sind
identisch
Chimpanzee Sequencing and Analysis Consortium.
Nature. 2005;437(7055):69-87.
Warum können dann Affen nicht sprechen?
Sprach-Gen: FOXP2
Eine Mutation bei den Schimpansen!
Enard W, et al., Nature 2002;418(6900):869-72
G. Thallinger
Bioinformatik in der Biomedizin
19
Schimpanse
Maus mit humaner FOXP2-Version: andere
Artikulation
Enard W, et al., Cell 2009;137(5):961-71.
G. Thallinger
Bioinformatik in der Biomedizin
20
Bioinformatik
Können wir in die Zukunft sehen?
Von welcher Krankheiten werde ich heimgesucht?
Kann ich was dagegen tun?
G. Thallinger
Bioinformatik in der Biomedizin
21
Genetische Ursachen von Krankheiten
AIDS: 10% genetische Ursachen, 90%
Umweltfaktoren
Diabetes: 50% genetische Ursachen, 50%
Umweltfaktoren
Zystische Fibrose (Mukoviszidose): 90% genetische
Ursachen, 10% Umweltfaktoren
G. Thallinger
Bioinformatik in der Biomedizin
22
Chronische Krankheiten
•
Todesursache Nummer eins (Krebs, Herzkrankheiten, psychische
Erkrankungen)
• Kombinierte Wirkung von vielen Genen, Umweltfaktoren und Verhalten
•
Schwierige Diagnose und Therapie
• z..B. Krebs: 200 unterschiedliche Krankheiten die zum unkontrollierten
Zellwachstum führen
EU: 925.000 Todesfälle pro Jahr
5% des Gesundheitsbudgets für die Behandlung von Krebserkrankungen
•
Genomik: umfassender und systematischer Ansatz
• Identifikation aller Gene die die Krankheit verursachen
• Entdeckung neuer molekularer Ziele
Dzt. werden nur 500 von den möglichen 5.000 verwendet!
G. Thallinger
Bioinformatik in der Biomedizin
23
Darmkrebs
weltweit 1.000.000 Fälle pro Jahr
500.000 Tote pro Jahr
40% überleben 5 Jahre
G. Thallinger
Bioinformatik in der Biomedizin
24
Darmkrebs
1932: Dukes Klassifikation
2009: modifizierte Dukes Klassifikation
Prognostische Marker?
G. Thallinger
Bioinformatik in der Biomedizin
25
Darmkrebs
G. Thallinger
Bioinformatik in der Biomedizin
26
Krebs und Immunologie
G. Thallinger
Bioinformatik in der Biomedizin
27
Krebs und Immunologie
Klinische Beobachtung:
– Patient A hat ein Melanom (eine Form von Hautkrebs), wird als geheilt
entlassen
– 16 Jahre später ist Patient A Nierenspender für die Patienten B und C;
Patienten B und C bekommen Immunosuppresiva
– Patienten B und C erkranken an einem Melanom, ImmunosuppresionsTherapie wird abgesetzt
MacKie et al., N Engl J Med, 2003;348(6):567-568
G. Thallinger
Bioinformatik in der Biomedizin
28
Krebs und Immunologie
Modell 1: Immunzellen im Tumor:
Entzündungsreaktion, unterstützt
die Tumorentwicklung
Modell 2: Immunzellen im Tumor:
„Wächter“ des Immunsystems,
bekämpfen die Krebszellen
http://www.cellsalive.com/ctl.htm
G. Thallinger
Bioinformatik in der Biomedizin
29
Krebs und Immunologie
•
Kooperation TU Graz und INSERM, Paris
•
•
•
•
1000 Patienten
Beobachtungszeitraum 20 Jahre
Untersuchung der Proben mit state-of-the-art Technologien
Grosse Datenmengen die verwaltet und analysiert werden müssen
G. Thallinger
Bioinformatik in der Biomedizin
30
Die Suche ...
• Klinische Daten (n>1000)
• FACS-Analyse mit 400 Parametern (n=50)
– Viele Parameter, wenig Patienten
• Tissue microarrays (n>500)
– Viele Patienten, wenig Parameter
• Datenbank für klinische und molekulare Daten
(“Goldgrube”)
• Data mining (“Datenabbau”)
G. Thallinger
Bioinformatik in der Biomedizin
31
FACS
• Fluorescently activated cell sorter
• Fluoreszierende Marker (Osamu Shimomura,
Nobelpreis für Chemie 2008)
• Zell-Analyse
G. Thallinger
Bioinformatik in der Biomedizin
32
G. Thallinger
Bioinformatik in der Biomedizin
33
Fluorescence Activated Cell Sorter
G. Thallinger
Bioinformatik in der Biomedizin
34
Tissue Microarrays
Slice: 5 µm
Max. Anzahl: 300
Tissue microarrays (Kononen et al., Nat Med, 1998;4(7):844-847
G. Thallinger
Bioinformatik in der Biomedizin
35
Tissue Microarrays
TAMEE: Tissue array management and evaluation environment
Thallinger et al., BMC Bioinformatics, 2007;8:81
G. Thallinger
Bioinformatik in der Biomedizin
36
Datenbank für klinische und molekulare Daten
Mlecnik et al.,
BMC Genomics, 2010;11(1):50
G. Thallinger
Bioinformatik in der Biomedizin
37
Datenbank für klinische und molekulare Daten
G. Thallinger
Bioinformatik in der Biomedizin
38
Datenbank für klinische und molekulare Daten
G. Thallinger
Bioinformatik in der Biomedizin
39
Datenbank für klinische und molekulare Daten
G. Thallinger
Bioinformatik in der Biomedizin
40
Fallstudie Darmkrebs
• Klinische Daten (n>1000)
• FACS-Analyse mit 400 Parametern (n=50)
– Viele Parameter, wenig Patienten
• Tissue microarrays (n>500)
– Viele Patienten, wenig Parameter
• Datenbank für klinische und molekulare Daten
(“Goldgrube”)
• Data mining (“Datenabbau”) mit Hilfe von
bioinformatischen Methoden
G. Thallinger
Bioinformatik in der Biomedizin
41
Frühes Eindringen von Metastasen und
Krankheitsverlauf
Sind VELIPI positiver Darmkrebs mit Mediatoren von
Enzündung und/oder Immunsuppression verknüpft ?
VE: vascular emboli
LI: lymphatic invasion
PI: perineural invasion
VELIPI: VE or LI or PI
G. Thallinger
Bioinformatik in der Biomedizin
42
Tumor-Infiltrierende Immunzellen
Unterschiedliche Marker für positive (VELIPI+) und negative (VELIPI-) Patienten
VELIPI: vascular emboli (VE), lymphatic invasion (LI), perineural invasion (PI)
min. expression
max. expression
Pagès et al. N Engl J Med,
2005;353:2654-2666
G. Thallinger
Bioinformatik in der Biomedizin
43
Immunpolizei: Effector Memory T-cells
Disease-free and overall survival of CD45ROhi patients
100
40
20
CD45RO-lo
% Recurrence-Free
CD45RO-hi
60
P<0.001
80
CD45RO-hi
60
40
CD45RO-lo
20
0
0
0
50
100
150
Survival (months)
G. Thallinger
100
P<0.001
80
% Survival
Tissue MicroArray (TMA) analysis (n=353 patients)
CD45RO
0
50
100
150
Disease Free Survival (months)
Pagès et al. N Engl J Med,
2005;353:2654-2666
Bioinformatik in der Biomedizin
44
Konklusion
Negative Korrelation zwischen Memory T cells und
frühe metastatische Invasion sowie dem Krankheitsverlauf bei Patienten mit Darmkrebs.
CD45RO Memory T-cells stellen einen unabhängigen
prognostischen Faktor dar.
G. Thallinger
Bioinformatik in der Biomedizin
45
Welche Role spielen die Subtypen der T-Zellen und
deren Lokalisierung ?
G. Thallinger
Bioinformatik in der Biomedizin
46
Adaptive Immunabwehr und klinische Vorhersage
Galon J, et al. Science.2006;313(5795):1960-1964
G. Thallinger
Bioinformatik in der Biomedizin
47
Kombinierte Analyse von Tumor-Regionen verbessert die Vorhersage
Galon J, et al. Science.2006;313(5795):1960-1964
G. Thallinger
Bioinformatik in der Biomedizin
48
Patienten Stratifizierung
UICC-TNM
Staging system
A
1
Disease-Free Survival
Tumor
histopathology
UICC-TNM
I
0.8
II
0.6
III
0.4
0.2
IV
0
0
20
40
60
80
100 120 140 160 180
Survival (months)
C
CD3CTHiCD3IMHi
CD45ROCTHiCD45ROIMHi
CD3CTCD3IM
evaluation
plus
CD45ROCTCD45ROIM
evaluation
Disease-Free Survival
1
II
I
III
0.8
ns
**
0.6
0.4
0.2
IV
I
III
CD3CTLoCD3IMLo
CD45ROCTLoCD45ROIMLo
II
IV
ns
0
0
20
40
60
80
100 120 140 160 180
Survival (months)
G. Thallinger
Galon et al. Science.2006;313(5795):1960-1964
Bioinformatik in der Biomedizin
49
Krebs Immunologie
Zellen verhalten sich wie erloschene Sterne:
noch lange nachdem sie verglüht sind, sehen wir sie leuchten
Wie können in die Zukunft sehen:
bei welchen Patienten werden sich wieder Tumore entwickeln
 entprechende Therapie rechtzeitig wählen
G. Thallinger
Bioinformatik in der Biomedizin
50
Ausblick
Mechanismen der (De)Aktivierung der T-Zellen?
Immunotherapie?
Krebsimpfung?
G. Thallinger
Bioinformatik in der Biomedizin
51
Medizin der Zukunft
Trend 1: Biotechnologie
Neuartige Therapien
-Biotherapeutika
-Tumorvakzine
Trend 2: Individuelle Medizin
Pharmakogenomik
-Erwünschte und unerwünschte Wirkungen
der Medikamente durch genetische Merkmale
-USA: 100 Millionen $ pro Jahr werden vergeudet
Maßgeschneiderte Behandlung
-personalisiert und ohne Nebenwirkungen
G. Thallinger
Bioinformatik in der Biomedizin
52
Science Fiction oder Realität?
Trend 1: Biotechnologie
Gezielte Tumorbehandlung (Targeted Therapy) mit Biotherapeutika
-Herceptin (Brustkrebsmedikament): Therapie nach Test auf HER2
-Erbitux: Darmkrebs
Trend 2: Individuelle Medizin
DNA-Chip für Diagnostik: Roche AmpliChip CYP450
10-20% Verbesserung der Wirksamkeit der Therapie
10-15% Vermeidung von Nebenwirkungen
DNA-Chip für Krebs-Diagnostik: AmpliChip p53
G. Thallinger
Bioinformatik in der Biomedizin
53
Science Fiction oder Realität?
Trend 2, Individuelle Medizin:
Individuelle Genome?
Gesamtkosten für das humane Genom: 3 Milliarden Dollar
Kostenreduktion durch Technologieentwicklung
G. Thallinger
Bioinformatik in der Biomedizin
54
Science Fiction oder Realität?
X-Prize Foundation: Größter Preis in der Medizingeschichte
4. Oktober 2011: Archon X PRIZE for Genomics
Preis von 10 Millionen Dollar für den Bewerber der:
“... to create technology that can successfully sequence 100
human genomes less than 30 days ...
...at a demonstrated cost of no more than 1.000 $ per genome...
…no more than one error per 1,000,000 bases…”
http://genomics.xprize.org/
G. Thallinger
Bioinformatik in der Biomedizin
55
Fiktion oder Realität?
Sequenzierung eines humanen Genoms:
2007: 3 Monate, 1 Million €
2008: 100.000-350.000$
http://www.knome.com/
https://www.23andme.com/
2009: 48.000$
http://www.illumina.com/
2010: 5.000$!!!!
http://www.completegenomics.com/
Bioinformatik: Schlüsseldisziplin für PPP-Medizin:
Personalisierte
Prediktive
Preventive
G. Thallinger
} Medizin
Bioinformatik in der Biomedizin
56
Bioinformatik
G. Thallinger
Bioinformatik in der Biomedizin
57
Geschichte der Bioinformatik
Margaret Dayhoff
- Atlas of Protein Sequence and Structure, 1965-1969
- PAM Matrices 1978
(http://pir.georgetown.edu/pirwww/)
Dayhoff MO, Schwartz RM, Orcutt BC. A Model of Evolutionary Change in Proteins. In: Atlas of
Protein Sequence and Structure. National Biomedical Research Fundation. 1978;345-352
G. Thallinger
Bioinformatik in der Biomedizin
58
Geschichte der Bioinformatik
Temple Smith, Mike Waterman
- Global alignment algorithm (1981)
Smith TF, Waterman MS. Identification of common molecular subsequences. J Mol Biol.
1981;147(1):195-197
G. Thallinger
Bioinformatik in der Biomedizin
59
Geschichte der Bioinformatik
William R. Pearson
- FASTA file format
- FASTA algorithm (1988)
Pearson WR. Rapid and Sensitive Sequence Comparison with FASTP and FASTA. Methods in
Enzymology, 1990;183:63-98
G. Thallinger
Bioinformatik in der Biomedizin
60
Geschichte der Bioinformatik
David J. Lipman
-ENTREZ (http://www.ncbi.nlm.nih.gov/ENTREZ)
G. Thallinger
Bioinformatik in der Biomedizin
61
Geschichte der Bioinformatik
Stephen S. Altschul and colleagues.
-BLAST (basic local alignment search tool) (1990)
Altschul SF, et al. Basic local alignment search tool. J Mol Biol. 1990;215(3):403-10
G. Thallinger
Bioinformatik in der Biomedizin
62
Bioinformatik
Signifikante Änderungen in den experimentellen
Lebenswissenschaften:
Stark gestiegener Umfang
von biologischen Daten
durch
• Höhere Anzahl von Forschern
• Neue experimentelle
Hochdurchsatz Technologien
G. Thallinger
Änderungen in der Datenqualität
• Gleichartige Daten unter
kontrollierten Bedingungen
erzeugt
• Daten oft ohne Bezug zur (oft
unbekannten) biologischen
Funktion
Bioinformatik in der Biomedizin
63
Bioinformatik
Die Datenexplosion in der Bioinformatik
G. Thallinger
Bioinformatik in der Biomedizin
64
Bioinformatik
Datenraum
> 2000 Datenbanken
> 6000 Gbyte
Verdoppelung jedes Jahr (e.g. 8 Gbyte Sequenzdaten
pro Woche)!
G. Thallinger
Bioinformatik in der Biomedizin
65
Bioinformatik
Datenraum bei Homo sapiens
30.000 Gene
320 Zelltypen
10 experimentelle Bedingungen
100 chemische Verbindungen
38.4 Terabyte (4 Bytes pro Datenpunkt)
G. Thallinger
Bioinformatik in der Biomedizin
66
Bioinformatik
G. Thallinger
Bioinformatik in der Biomedizin
67
Bioinformatik
G. von Heijne, S. Brunak, G. Cameron, A. Tramontano, G. Vriend (ESF):
„The use of computational techniques to handle, analyze, and add
value to the flood of data coming from modern genomics and
proteomics“
Theoretische Analyse von makromolekularen Sequenzen und Strukturen
Assembly, Annotation, Analyse und Vergleich von genomischen Daten
Modellierung von Proteinstrukturen
Organisation von biologischem Wissen in Datenbanken
Anwendung und Entwicklung von Werkzeugen für das ”data mining”
Identifikation von Targets für die Entwicklung von Heilmitteln
Analyse von DNA Microarrays
Analyse von metabolischen und funktionellen Netzwerken
G. Thallinger
Bioinformatik in der Biomedizin
68
Bioinformatik
Gene
G. Thallinger
Funktion
Bioinformatik in der Biomedizin
69
Bioinformatik
Eine Anleitung zum Lesen der Gene
Gerhard Thallinger
Institut für Genomik und Bioinformatik, TU Graz
http://genome.tugraz.at
G. Thallinger
Bioinformatik in der Biomedizin
70