Bioinformatik - Bioinformatics Graz
Transcription
Bioinformatik - Bioinformatics Graz
Bioinformatik in der Biomedizin: Eine Anleitung zum Lesen der Gene Gerhard Thallinger Institut für Genomik und Bioinformatik, TU Graz http://genome.tugraz.at G. Thallinger Bioinformatik in der Biomedizin 1 Bioinformatik • Einführung in die Bioinformatik • Biologische Datenbanken: Suche, Aufbau • Prediktive Methoden basierend auf DNA- und Protein Sequenzen • Microarray Technologie und Auswertung • Next Generation Sequencing mit Anwendungen G. Thallinger Bioinformatik in der Biomedizin 2 Genetik und Genomik Gen: Erbfaktor Genetik: Erforschung der Funktion von Genen Genom: Gesamte Erbinformation Genomik: Erforschung der Gesamtheit aller Gene eines Organismus (siehe auch das bm:wf Programm www.gen-au.at) G. Thallinger Bioinformatik in der Biomedizin 3 Genetik Gregor Mendel Die Mathematik der Vererbung 1856: Kreuzungsexperimente mit Gartenerbse (rund, gerunzelt, verschiedene Blütenfarben) 1866: Veröffentlichung der Versuche Mendel G, Versuche über Pflanzen-Hybriden. Verh. Naturforsch. Ver. Brünn, 1866;4:3-47 G. Thallinger Bioinformatik in der Biomedizin 4 Molekulargenetik Watson JD, Crick FH, Molecular Structure of Nucleic Acids: A Structure for Deoxyribose Nucleic Acid. Nature, 1953;171(4356):737-738 G. Thallinger Bioinformatik in der Biomedizin 5 Molekulargenetik “…No one suggests these groupings [A, C, G, T] can yet be arranged artificially. Discovering how these chemical „cards“ are shuffled and paired will keep the scientists busy for the next 50 years…” Richie Calder, News Chronicle, 15. May 1953 G. Thallinger Bioinformatik in der Biomedizin 6 Molekulargenetik 1966 – Entschlüsselung des genetischen Codes (Nierenberg, Khorana) 1972 – Entwicklung der rekombinanten DNA-Technologie (Lobban, Kaiser) 1977 – DNA-Sequenziermethode entwickelt (Sanger) 1982 – Erstes Medikament basierend auf der rekombinanten DNA-Technologie (Humaninsulin) G. Thallinger Bioinformatik in der Biomedizin 7 Genomik 1983 – PCR (Polymerase Kettenreaktion): DNAAmplifizierung (Mullins) 1984 – Machbarkeitsstudie zum „Human Genome Project“ 1990 – Start des „Human Genome Projects“ Ziel: Entschlüsselung des humanen Genoms (3.000.000.000 bp) bis 2005 G. Thallinger Bioinformatik in der Biomedizin 8 Genomik 1995 – Zwei bakterielle Genome entschlüsselt: Mycoplasma genitalium ( 580.070 bp; 0,58 Mbp), Haemophilus influenzae (1.830.137 bp; 1,83 Mbp) 1996 – Hefegenom entschlüsselt (12 Mbp, 6.000 Gene) 1998 – Genom des Fadenwurms (97 Mbp, 18.000 Gene) 2000 – Genom der Taufliege (180 Mbp, 16.000 Gene) G. Thallinger Bioinformatik in der Biomedizin 9 2001: Das Humane Genom ist entschlüsselt! 2500 Personen, 20 Institutionen Das Buch des Lebens hat 3 Milliarden Zeichen -‘nur’ rd. 21.000 Gene (Taufliege: 16.000) Lander et al., Nature. 2001;409:860-921 Venter et al., Science. 2001;291:1304-1351 G. Thallinger Bioinformatik in der Biomedizin 10 Chromosom 22: 8800 Seiten G. Thallinger GATCATCATCGAATGGAGTTGAATGGAATTATCAAAGAATGGAATCCAGTGGTATCATCATCAAATGGAA CCGAATGGAATCATCAAATGGACTCAAATGGAATCATTGAATAGATTCGAATGGAATCATCATCGAATGA AATCGAATGGAAAAATTGAATGGACTCGAATGGAACCATCATTGAATGGAAACCAAAGGAATCATCATCT AATGAAATGAAATGGAATCATAGAATGGACACAAATGGAATCATCATCGAATGGTATTGAATGGAATCAT CGAAAAGAATCGACGGAATCATGATCAAATGGACTCGAATGGAATCATCATGGAATGGAATCAAATGGAA TCATCAATGAATGGAATCCAATGGTATCATCATCAAATGGAACCGAAAGGAATCATCAAGTGGACTCAAA TGGAATCATCGAATGGAATCGAATGGAATCATCATCGAATGGAATCGAATGGAAACATCGAATGGAATCG AATGGAAACATCATTGAATGGAATCATCATCAAACGGAATCTATTTGAATCCTCATTGGATAGAATCGAA TGGAATCATCAAATGGAATAGAAAGGAATCATCATCGAATGCAATCGAATAGAATCATCAAATGAAAAGG AACGGAATCATCATCGAATGGAATCGAATGGAATCATCAACGAATGGAATCGAATGGAATCATCGTCTAA TGGAATCAAATGGAATCATCAACGAATGGAATAGCATGGAATCATCGAATGGAATCTCATGGCATCATCA TCACATGGAACCGAATGGAATCATCATGGAGTGTAATCTAATGGAATCATCATTGAATGGAATCCAATGG GATCACTGAATTGAATGGAATGATCATCGAATGGAATCAAAGGGAATCATCAAATGGGATAGAAGGGAAT CATAGAATGGAATCGAATGGAATCATCGAATGGATTCAAATGGAATCACCATCAAATGGAAAAGAATGGA ATCATCAAAAGGACTCGAATGGAATCATCAAGGAATAGAATCAAATGGAATAATTGAATAGACACGAATG GAATCATCATTTAATGGAATCAAATGGAATCATCGAATGGACTCAAATGGAATCATCATTGAATGGAATC GAATGGAATCATCGAATGACATTGAATAGAATAATCAATGAATGGAATCTTAAGGAATAATCGAATGGAC TCGAATGGAATAATCGAATGGACTCGAGTGGAATCATCATCGAATGGAATCGAATGGAATCATCAAATGG ACTCAAATGGAATCATCATTGAATGGAATGGAATGAAATCATCGAATGGACTCGAGTGGAATCATCATCG AATGGAATGGAATGGAATCATCGAATGGACTCAAATGGAATCATCATCGAATGGAATGGAATGGAATCAT CGAATGGACTCGAATGGAATCATCATCAAATGGAATCTAATGGAATCATCGAAGGTACTGGAATGGAATC ATAATCAAATGGAATCGAATGGAATCATTGAATGACATCGAATGGAATCCTCATTGAATGGAATGGAATG GAGTCATCAAATGGAATCCAATGGAATCATCATCGAATGGAATCAAATGGAATCATCAAATGGAATCGAA TGGAACCATCGGATGGAATCGAATGGAATCATCATCGAATGGAATCGAATTGAATCATCGAATGGAATCG AATGCAATCATCTCAAACAGAATCAAATAGAACCATCCAATGAAATCAAATGGAATCATCATCGAATAGA ATCAAATGGAACCATAGAATGGTATCGAATGGAATCATCATCAAATGGAATCAAAAGCAAAAATCGAATG GATTCGAAAAGAATCATCAAATGGACATGAATGGAATCATCATCCAATGGAATGAAATGGAATTAACGAA TGGAATCGAATGGAATCATCATCAAATGGAATCAAATGGAATCATCTAATGGACAGTAATGGAATCCTCA TTGAATGGAATCGAATGGAATAATCAAATGGAGACGAATGGAATCCCCATCGAATGGAAGTGAATGGAAT CATCAAATGGACCCAAATGCAATCATCATCGAATGGAATTGAACAGAATCTTCGTTGAATAGACTCGAAT GGAATCATCAAATGGACTCAAATTGAATCATTGAATGGAATTGAATGGTATCATCACAGAATGAATTGAA TGGAATCATCGAATGGTCTCGAAAGGAATAATTATCAAATGCAATCGAATGTAATCACCGAATAGAATCG AATGGAATAATCATCGAATGGACTCGAATGGAATCATCATCAAATGGAATCGAATGGAATTATTGAATGG AATCGAATAGAATCATCGAATGGACTCTAATGGAATCATCGAATGGAATGTAATGGAATAATCAATGAAC TCGAATGGAATCATCATTGAATGGAAACGAATGGAATCATTGAATGGAATTGAATGGAAACATCATCGAA TGCAATCGAATGGAATCATCACCGACTTGAATAGAAAAGAATCATCAGCAAATGGAATCGAATGGAATCA TCATGGAATGGAATCCAAAGGAATCATCATTGAATGCAACCAAATGGAATCGTCATCGAATGGACCGAAA GGAGTCATCATCGAATGGAATCGCATGGAATCATCATCAAATGGAATTGAATGGAACCATCATCAAATGG Bioinformatik in der Biomedizin 11 Bioinformatik Neue Disziplin an der Schnittstelle der Molekulare Biowissenschaften und Informatik mit Bezügen zu Medizin, Statistik und Mathematik Verwaltung von genomischen Daten Analyse von DNA- und Proteinsequenzen Funktionelle Vorhersagen für neuen Sequenzen Grundlagenforschung -Biologie und Medizin Biologische Anwendungen -Klassifizierung von Spezies Biotechnologische Anwendungen -Optimierung von Bioprozessen in der industriellen Produktion Medizinische Anwendungen -Molekulare Diagnostik -Stratifizierung von Patienten G. Thallinger Bioinformatik in der Biomedizin 12 IT Anforderungen Supercomputer (z.B. Blue Gene) 1: Jaguar Oak Ridge National Laboratory 1759 TFlops (11/2009: 1) 2: Nebulae National Supercomputing Centre in Shenzhen 1271 TFlops (06/2010: 2) 5:JUGENE - Blue Gene/P Forschungszentrum Juelich 825 TFlops (06/2009: 3) 60: Blue Gene IBM T.J. Watson Research 91 TFlops (06/2005: 2) http://www.top500.org/ G. Thallinger Bioinformatik in der Biomedizin 13 IT Infrastruktur am IGB • 2 Web servers • 2 Application servers • 2 Database servers • 32 bit Computing cluster (48 Cores, 24 GB RAM) • 64 bit Computing cluster (32 Cores, 290 GB RAM) • 26 TB Storage (3 Systeme mit 1, 9 und 16 TB) • Backup System G. Thallinger Bioinformatik in der Biomedizin 14 Bioinformatik Können wir unsere Vergangenheit lesen? Woher kommen wir? Wer sind unsere Vorfahren? Können wir in die Zukunft sehen? Von welcher Krankheiten werde ich heimgesucht? Kann ich was dagegen tun? G. Thallinger Bioinformatik in der Biomedizin 15 Bioinformatik Können wir unsere Vergangenheit lesen? “Out of Africa”? Sind wir auch Nachkommen der Neandertaler? Wie verwandt sind die Schimpansen? G. Thallinger Bioinformatik in der Biomedizin 16 Out of Afrika: Die Wanderkarte im Erbgut Untersuchung der Mitrochondien DNA • Homo sapiens: vor 200.000 Jahren in Afrika • vor 150.000 Jahren: “Eva” • vor 60.000 Jahren: 2.000 Individuen • vor 40.000 Jahren: die Welt wird besiedelt • heute, 2.000 Generationen später genographic.nationalgeographic.com/gen ographic/globe.html G. Thallinger Bioinformatik in der Biomedizin 17 Neandertaler Genetische Analysen fossiler Proben: Neandertaler und moderne Menschen haben sich nicht wesentlich miteinander vermischt Green RE, et al., Nature. 2006, 444(7117):330-336 Draft Neandertal Genome aus drei Individuen: nähere Verwandschaft zu Eurasiern als zu Afrikanern unterhalb der Sahara Green RE, et al., Science. 2010;328(5979):710-22. G. Thallinger Bioinformatik in der Biomedizin 18 Schimpanse 99.4% der Gene bei Mensch und Schimpanse sind identisch Chimpanzee Sequencing and Analysis Consortium. Nature. 2005;437(7055):69-87. Warum können dann Affen nicht sprechen? Sprach-Gen: FOXP2 Eine Mutation bei den Schimpansen! Enard W, et al., Nature 2002;418(6900):869-72 G. Thallinger Bioinformatik in der Biomedizin 19 Schimpanse Maus mit humaner FOXP2-Version: andere Artikulation Enard W, et al., Cell 2009;137(5):961-71. G. Thallinger Bioinformatik in der Biomedizin 20 Bioinformatik Können wir in die Zukunft sehen? Von welcher Krankheiten werde ich heimgesucht? Kann ich was dagegen tun? G. Thallinger Bioinformatik in der Biomedizin 21 Genetische Ursachen von Krankheiten AIDS: 10% genetische Ursachen, 90% Umweltfaktoren Diabetes: 50% genetische Ursachen, 50% Umweltfaktoren Zystische Fibrose (Mukoviszidose): 90% genetische Ursachen, 10% Umweltfaktoren G. Thallinger Bioinformatik in der Biomedizin 22 Chronische Krankheiten • Todesursache Nummer eins (Krebs, Herzkrankheiten, psychische Erkrankungen) • Kombinierte Wirkung von vielen Genen, Umweltfaktoren und Verhalten • Schwierige Diagnose und Therapie • z..B. Krebs: 200 unterschiedliche Krankheiten die zum unkontrollierten Zellwachstum führen EU: 925.000 Todesfälle pro Jahr 5% des Gesundheitsbudgets für die Behandlung von Krebserkrankungen • Genomik: umfassender und systematischer Ansatz • Identifikation aller Gene die die Krankheit verursachen • Entdeckung neuer molekularer Ziele Dzt. werden nur 500 von den möglichen 5.000 verwendet! G. Thallinger Bioinformatik in der Biomedizin 23 Darmkrebs weltweit 1.000.000 Fälle pro Jahr 500.000 Tote pro Jahr 40% überleben 5 Jahre G. Thallinger Bioinformatik in der Biomedizin 24 Darmkrebs 1932: Dukes Klassifikation 2009: modifizierte Dukes Klassifikation Prognostische Marker? G. Thallinger Bioinformatik in der Biomedizin 25 Darmkrebs G. Thallinger Bioinformatik in der Biomedizin 26 Krebs und Immunologie G. Thallinger Bioinformatik in der Biomedizin 27 Krebs und Immunologie Klinische Beobachtung: – Patient A hat ein Melanom (eine Form von Hautkrebs), wird als geheilt entlassen – 16 Jahre später ist Patient A Nierenspender für die Patienten B und C; Patienten B und C bekommen Immunosuppresiva – Patienten B und C erkranken an einem Melanom, ImmunosuppresionsTherapie wird abgesetzt MacKie et al., N Engl J Med, 2003;348(6):567-568 G. Thallinger Bioinformatik in der Biomedizin 28 Krebs und Immunologie Modell 1: Immunzellen im Tumor: Entzündungsreaktion, unterstützt die Tumorentwicklung Modell 2: Immunzellen im Tumor: „Wächter“ des Immunsystems, bekämpfen die Krebszellen http://www.cellsalive.com/ctl.htm G. Thallinger Bioinformatik in der Biomedizin 29 Krebs und Immunologie • Kooperation TU Graz und INSERM, Paris • • • • 1000 Patienten Beobachtungszeitraum 20 Jahre Untersuchung der Proben mit state-of-the-art Technologien Grosse Datenmengen die verwaltet und analysiert werden müssen G. Thallinger Bioinformatik in der Biomedizin 30 Die Suche ... • Klinische Daten (n>1000) • FACS-Analyse mit 400 Parametern (n=50) – Viele Parameter, wenig Patienten • Tissue microarrays (n>500) – Viele Patienten, wenig Parameter • Datenbank für klinische und molekulare Daten (“Goldgrube”) • Data mining (“Datenabbau”) G. Thallinger Bioinformatik in der Biomedizin 31 FACS • Fluorescently activated cell sorter • Fluoreszierende Marker (Osamu Shimomura, Nobelpreis für Chemie 2008) • Zell-Analyse G. Thallinger Bioinformatik in der Biomedizin 32 G. Thallinger Bioinformatik in der Biomedizin 33 Fluorescence Activated Cell Sorter G. Thallinger Bioinformatik in der Biomedizin 34 Tissue Microarrays Slice: 5 µm Max. Anzahl: 300 Tissue microarrays (Kononen et al., Nat Med, 1998;4(7):844-847 G. Thallinger Bioinformatik in der Biomedizin 35 Tissue Microarrays TAMEE: Tissue array management and evaluation environment Thallinger et al., BMC Bioinformatics, 2007;8:81 G. Thallinger Bioinformatik in der Biomedizin 36 Datenbank für klinische und molekulare Daten Mlecnik et al., BMC Genomics, 2010;11(1):50 G. Thallinger Bioinformatik in der Biomedizin 37 Datenbank für klinische und molekulare Daten G. Thallinger Bioinformatik in der Biomedizin 38 Datenbank für klinische und molekulare Daten G. Thallinger Bioinformatik in der Biomedizin 39 Datenbank für klinische und molekulare Daten G. Thallinger Bioinformatik in der Biomedizin 40 Fallstudie Darmkrebs • Klinische Daten (n>1000) • FACS-Analyse mit 400 Parametern (n=50) – Viele Parameter, wenig Patienten • Tissue microarrays (n>500) – Viele Patienten, wenig Parameter • Datenbank für klinische und molekulare Daten (“Goldgrube”) • Data mining (“Datenabbau”) mit Hilfe von bioinformatischen Methoden G. Thallinger Bioinformatik in der Biomedizin 41 Frühes Eindringen von Metastasen und Krankheitsverlauf Sind VELIPI positiver Darmkrebs mit Mediatoren von Enzündung und/oder Immunsuppression verknüpft ? VE: vascular emboli LI: lymphatic invasion PI: perineural invasion VELIPI: VE or LI or PI G. Thallinger Bioinformatik in der Biomedizin 42 Tumor-Infiltrierende Immunzellen Unterschiedliche Marker für positive (VELIPI+) und negative (VELIPI-) Patienten VELIPI: vascular emboli (VE), lymphatic invasion (LI), perineural invasion (PI) min. expression max. expression Pagès et al. N Engl J Med, 2005;353:2654-2666 G. Thallinger Bioinformatik in der Biomedizin 43 Immunpolizei: Effector Memory T-cells Disease-free and overall survival of CD45ROhi patients 100 40 20 CD45RO-lo % Recurrence-Free CD45RO-hi 60 P<0.001 80 CD45RO-hi 60 40 CD45RO-lo 20 0 0 0 50 100 150 Survival (months) G. Thallinger 100 P<0.001 80 % Survival Tissue MicroArray (TMA) analysis (n=353 patients) CD45RO 0 50 100 150 Disease Free Survival (months) Pagès et al. N Engl J Med, 2005;353:2654-2666 Bioinformatik in der Biomedizin 44 Konklusion Negative Korrelation zwischen Memory T cells und frühe metastatische Invasion sowie dem Krankheitsverlauf bei Patienten mit Darmkrebs. CD45RO Memory T-cells stellen einen unabhängigen prognostischen Faktor dar. G. Thallinger Bioinformatik in der Biomedizin 45 Welche Role spielen die Subtypen der T-Zellen und deren Lokalisierung ? G. Thallinger Bioinformatik in der Biomedizin 46 Adaptive Immunabwehr und klinische Vorhersage Galon J, et al. Science.2006;313(5795):1960-1964 G. Thallinger Bioinformatik in der Biomedizin 47 Kombinierte Analyse von Tumor-Regionen verbessert die Vorhersage Galon J, et al. Science.2006;313(5795):1960-1964 G. Thallinger Bioinformatik in der Biomedizin 48 Patienten Stratifizierung UICC-TNM Staging system A 1 Disease-Free Survival Tumor histopathology UICC-TNM I 0.8 II 0.6 III 0.4 0.2 IV 0 0 20 40 60 80 100 120 140 160 180 Survival (months) C CD3CTHiCD3IMHi CD45ROCTHiCD45ROIMHi CD3CTCD3IM evaluation plus CD45ROCTCD45ROIM evaluation Disease-Free Survival 1 II I III 0.8 ns ** 0.6 0.4 0.2 IV I III CD3CTLoCD3IMLo CD45ROCTLoCD45ROIMLo II IV ns 0 0 20 40 60 80 100 120 140 160 180 Survival (months) G. Thallinger Galon et al. Science.2006;313(5795):1960-1964 Bioinformatik in der Biomedizin 49 Krebs Immunologie Zellen verhalten sich wie erloschene Sterne: noch lange nachdem sie verglüht sind, sehen wir sie leuchten Wie können in die Zukunft sehen: bei welchen Patienten werden sich wieder Tumore entwickeln entprechende Therapie rechtzeitig wählen G. Thallinger Bioinformatik in der Biomedizin 50 Ausblick Mechanismen der (De)Aktivierung der T-Zellen? Immunotherapie? Krebsimpfung? G. Thallinger Bioinformatik in der Biomedizin 51 Medizin der Zukunft Trend 1: Biotechnologie Neuartige Therapien -Biotherapeutika -Tumorvakzine Trend 2: Individuelle Medizin Pharmakogenomik -Erwünschte und unerwünschte Wirkungen der Medikamente durch genetische Merkmale -USA: 100 Millionen $ pro Jahr werden vergeudet Maßgeschneiderte Behandlung -personalisiert und ohne Nebenwirkungen G. Thallinger Bioinformatik in der Biomedizin 52 Science Fiction oder Realität? Trend 1: Biotechnologie Gezielte Tumorbehandlung (Targeted Therapy) mit Biotherapeutika -Herceptin (Brustkrebsmedikament): Therapie nach Test auf HER2 -Erbitux: Darmkrebs Trend 2: Individuelle Medizin DNA-Chip für Diagnostik: Roche AmpliChip CYP450 10-20% Verbesserung der Wirksamkeit der Therapie 10-15% Vermeidung von Nebenwirkungen DNA-Chip für Krebs-Diagnostik: AmpliChip p53 G. Thallinger Bioinformatik in der Biomedizin 53 Science Fiction oder Realität? Trend 2, Individuelle Medizin: Individuelle Genome? Gesamtkosten für das humane Genom: 3 Milliarden Dollar Kostenreduktion durch Technologieentwicklung G. Thallinger Bioinformatik in der Biomedizin 54 Science Fiction oder Realität? X-Prize Foundation: Größter Preis in der Medizingeschichte 4. Oktober 2011: Archon X PRIZE for Genomics Preis von 10 Millionen Dollar für den Bewerber der: “... to create technology that can successfully sequence 100 human genomes less than 30 days ... ...at a demonstrated cost of no more than 1.000 $ per genome... …no more than one error per 1,000,000 bases…” http://genomics.xprize.org/ G. Thallinger Bioinformatik in der Biomedizin 55 Fiktion oder Realität? Sequenzierung eines humanen Genoms: 2007: 3 Monate, 1 Million € 2008: 100.000-350.000$ http://www.knome.com/ https://www.23andme.com/ 2009: 48.000$ http://www.illumina.com/ 2010: 5.000$!!!! http://www.completegenomics.com/ Bioinformatik: Schlüsseldisziplin für PPP-Medizin: Personalisierte Prediktive Preventive G. Thallinger } Medizin Bioinformatik in der Biomedizin 56 Bioinformatik G. Thallinger Bioinformatik in der Biomedizin 57 Geschichte der Bioinformatik Margaret Dayhoff - Atlas of Protein Sequence and Structure, 1965-1969 - PAM Matrices 1978 (http://pir.georgetown.edu/pirwww/) Dayhoff MO, Schwartz RM, Orcutt BC. A Model of Evolutionary Change in Proteins. In: Atlas of Protein Sequence and Structure. National Biomedical Research Fundation. 1978;345-352 G. Thallinger Bioinformatik in der Biomedizin 58 Geschichte der Bioinformatik Temple Smith, Mike Waterman - Global alignment algorithm (1981) Smith TF, Waterman MS. Identification of common molecular subsequences. J Mol Biol. 1981;147(1):195-197 G. Thallinger Bioinformatik in der Biomedizin 59 Geschichte der Bioinformatik William R. Pearson - FASTA file format - FASTA algorithm (1988) Pearson WR. Rapid and Sensitive Sequence Comparison with FASTP and FASTA. Methods in Enzymology, 1990;183:63-98 G. Thallinger Bioinformatik in der Biomedizin 60 Geschichte der Bioinformatik David J. Lipman -ENTREZ (http://www.ncbi.nlm.nih.gov/ENTREZ) G. Thallinger Bioinformatik in der Biomedizin 61 Geschichte der Bioinformatik Stephen S. Altschul and colleagues. -BLAST (basic local alignment search tool) (1990) Altschul SF, et al. Basic local alignment search tool. J Mol Biol. 1990;215(3):403-10 G. Thallinger Bioinformatik in der Biomedizin 62 Bioinformatik Signifikante Änderungen in den experimentellen Lebenswissenschaften: Stark gestiegener Umfang von biologischen Daten durch • Höhere Anzahl von Forschern • Neue experimentelle Hochdurchsatz Technologien G. Thallinger Änderungen in der Datenqualität • Gleichartige Daten unter kontrollierten Bedingungen erzeugt • Daten oft ohne Bezug zur (oft unbekannten) biologischen Funktion Bioinformatik in der Biomedizin 63 Bioinformatik Die Datenexplosion in der Bioinformatik G. Thallinger Bioinformatik in der Biomedizin 64 Bioinformatik Datenraum > 2000 Datenbanken > 6000 Gbyte Verdoppelung jedes Jahr (e.g. 8 Gbyte Sequenzdaten pro Woche)! G. Thallinger Bioinformatik in der Biomedizin 65 Bioinformatik Datenraum bei Homo sapiens 30.000 Gene 320 Zelltypen 10 experimentelle Bedingungen 100 chemische Verbindungen 38.4 Terabyte (4 Bytes pro Datenpunkt) G. Thallinger Bioinformatik in der Biomedizin 66 Bioinformatik G. Thallinger Bioinformatik in der Biomedizin 67 Bioinformatik G. von Heijne, S. Brunak, G. Cameron, A. Tramontano, G. Vriend (ESF): „The use of computational techniques to handle, analyze, and add value to the flood of data coming from modern genomics and proteomics“ Theoretische Analyse von makromolekularen Sequenzen und Strukturen Assembly, Annotation, Analyse und Vergleich von genomischen Daten Modellierung von Proteinstrukturen Organisation von biologischem Wissen in Datenbanken Anwendung und Entwicklung von Werkzeugen für das ”data mining” Identifikation von Targets für die Entwicklung von Heilmitteln Analyse von DNA Microarrays Analyse von metabolischen und funktionellen Netzwerken G. Thallinger Bioinformatik in der Biomedizin 68 Bioinformatik Gene G. Thallinger Funktion Bioinformatik in der Biomedizin 69 Bioinformatik Eine Anleitung zum Lesen der Gene Gerhard Thallinger Institut für Genomik und Bioinformatik, TU Graz http://genome.tugraz.at G. Thallinger Bioinformatik in der Biomedizin 70