Merkmalsextraktion auf genomweiten Assoziationsdaten mithilfe maschineller Lernverfahren
INB-Lunch-Seminar
Merkmalsextraktion auf genomweiten Assoziationsdaten mithilfe maschineller Lernverfahren
Carina Hauft
Das menschliche Genom besteht aus mehr als drei Milliarden Basepaaren. Es unterscheidet sich von Mensch zu Mensch in unterschiedlichen Basen der DNA, sogenannten Single Nucleotide Polymorphisms (SNPs), von denen bis zu zehn Millionen bekannt sind. Mehrere tausend SNP-Ausprägungen können anhand modernster Genchip-Verfahren gleichzeitig gemessen werden, welches die Erstellung von großen Datensätzen ermöglicht, mit deren Hilfe genetische Risikofaktoren auf dem gesamten Genom untersucht werden können.
Diese Bachelorarbeit untersucht maschinelle Lernverfahren und Clusteralgorithmen zur Identifizierung von Merkmalen in SNP-Mustern, die ein genetisches Risiko für Herzinfarkt repräsentieren. Eine Kombination dieser Merkmale kann mit der Krankheit im Zusammenhang stehen und Aufschluss über die genetischen Hintergründe und biologischen Mechanismen liefern. Im Rahmen dieser Arbeit werden die Clusterverfahren k-Means, Neural Gas und agglomeratives Clustern untersucht; als Variante des agglomerativen Clusterns wird der in unserer Arbeitsgruppe entwickelte sogenannte Bubbleansatz vorgestellt.
Sowohl mit dem k-Means Algorithmus als auch mit dem Neural Gas Algorithmus konnte ein Einblick in die allgemeine Struktur der Daten gewonnen werden. Es konnten jedoch keine Muster gefunden werden, die ein signifikantes genetisches Risiko aufweisen, da diese Muster vermutlich nicht stark genug ausgeprägt sind, um von diesen Algorithmen erkannt zu werden. Auch das agglomerative Clustern konnte keinen Hinweis auf Herzinfarkt-spezifische Muster liefern. Mithilfe des Bubblealgorithmus, der auch für seltene, schwach ausgeprägte Muster empfindlich ist, konnten signifikante Cluster gefunden werden.
| Zeit: |
Freitag, den 15.01.2010, 12 Uhr c.t. |
| Ort: |
Institut für Neuro- und Bioinformatik Seminarraum (1. OG, Raum 17) Ratzeburger Allee 160 (Geb. 64) |

