DBS-Logo Ludwig-Maximilians-Universität München
Institut für Informatik, LFE Datenbanksysteme
Prof. Dr. Hans-Peter Kriegel 
University of Munich
Institute for Computer Science
Database and Information Systems 

Diplomarbeit
Clustering von XML-Daten unter Verwendung dichte-basierter Clustering-Konzepte

Beschreibung

Knowledge Discovery in Databases (KDD) ist der Prozeß der (semi)automatischen Extraktion von Wissen aus Datenbanken, das gültig, bisher unbekannt und potentiell nützlich ist. Ein Teilschritt im KDD-Prozess ist das Data Mining, eine spezielle Form davon das Clustering. Ziel von Clusteringverfahren ist es, Daten (semi-)automatisch so in Kategorien einzuteilen, daß Objekte im gleichen Cluster möglichst ähnlich und Objekte aus verschiedenen Clustern möglichst unähnlich zueinander sind. Dazu gibt es unterschiedliche Ansätze.
Die meisten Ansätze gehen jedoch davon aus, dass die Daten als sogenannte Feature-Vektoren vorliegen. Da es sich bei XML-Daten um semistrukturierte Daten handelt, insbesondere z.B. mengenwertige Attribute zugelassen sind, bietet sich eine Transformation in Feature-Vektoren nicht immer an. Stattdessen lassen sich diese Daten zum Beispiel als Graphen darstellen.

Eine Adresskartei könnte in XML zum Beispiel wie folgt spezifiziert werden:
 
< Adresskartei >
   < Adresse >
        < Name > Karin Kailing < /Name >
        < Einrichtung > Universität München
            < /Einrichtung >
        < EMail > kailing@... < /EMail >
    < /Adresse >
    < Adresse >
        < Name > Mitti Mitarbeiter < /Name >
        < Einrichtung > Universität München
            < /Einrichtung >
        < Abteilung > LFE DBS < /Abteilung >
        < Kontakt >
            < EMail > mitti@info.de < /EMail >
        < /Kontakt >
    < /Adresse >
< /Adresskartei >

In der Diplomarbeit sollen verschieden Ansätze zum Clustern von XML-Daten untersucht und entwickelt werden.
 

Bearbeiter:

Alije Ristemi

Ansprechpartner:

Karin Kailing, Zi. E 1.06, Tel. 2180-9325, email: kailing@dbs.informatik.uni-muenchen.de