Direkt zum Inhalt | Direkt zur Navigation

Institut für Neuro- und Bioinformatik

Direktor: Prof. Dr. rer. nat. Thomas Martinetz

Benutzerspezifische Werkzeuge

Merkmalsextraktion auf genomweiten Assoziationsdaten mithilfe maschineller Lernverfahren

erstellt von Michael Dorr zuletzt verändert: 14.01.2010 13:38

INB-Lunch-Seminar

Merkmalsextraktion auf genomweiten Assoziationsdaten mithilfe maschineller Lernverfahren

Carina Hauft

Das menschliche Genom besteht aus mehr als drei Milliarden Basepaaren. Es unterscheidet sich von Mensch zu Mensch in unterschiedlichen Basen der DNA, sogenannten Single Nucleotide Polymorphisms (SNPs), von denen bis zu zehn Millionen bekannt sind. Mehrere tausend SNP-Ausprägungen können anhand modernster Genchip-Verfahren gleichzeitig gemessen werden, welches die Erstellung von großen Datensätzen ermöglicht, mit deren Hilfe genetische Risikofaktoren auf dem gesamten Genom untersucht werden können.

Diese Bachelorarbeit untersucht maschinelle Lernverfahren und Clusteralgorithmen zur Identifizierung von Merkmalen in SNP-Mustern, die ein genetisches Risiko für Herzinfarkt repräsentieren. Eine Kombination dieser Merkmale kann mit der Krankheit im Zusammenhang stehen und Aufschluss über die genetischen Hintergründe und biologischen Mechanismen liefern. Im Rahmen dieser Arbeit werden die Clusterverfahren k-Means, Neural Gas und agglomeratives Clustern untersucht; als Variante des agglomerativen Clusterns wird der in unserer Arbeitsgruppe entwickelte sogenannte Bubbleansatz vorgestellt.

Sowohl mit dem k-Means Algorithmus als auch mit dem Neural Gas Algorithmus konnte ein Einblick in die allgemeine Struktur der Daten gewonnen werden. Es konnten jedoch keine Muster gefunden werden, die ein signifikantes genetisches Risiko aufweisen, da diese Muster vermutlich nicht stark genug ausgeprägt sind, um von diesen Algorithmen erkannt zu werden. Auch das agglomerative Clustern konnte keinen Hinweis auf Herzinfarkt-spezifische Muster liefern. Mithilfe des Bubblealgorithmus, der auch für seltene, schwach ausgeprägte Muster empfindlich ist, konnten signifikante Cluster gefunden werden.

 

Artikelaktionen