Ludwig-Maximilians-Universität München
Institut für Informatik, LFE Datenbanksysteme Prof. Dr. Hans-Peter Kriegel |
University of Munich
Institute for Computer Science Database and Information Systems |
Diplomarbeit
Clustering von XML-Daten unter Verwendung dichte-basierter Clustering-Konzepte
Beschreibung
Knowledge Discovery in Databases (KDD) ist der Prozeß der (semi)automatischen
Extraktion von Wissen aus Datenbanken, das gültig, bisher unbekannt
und potentiell nützlich ist. Ein Teilschritt im KDD-Prozess ist das
Data Mining, eine spezielle Form davon das Clustering. Ziel von Clusteringverfahren
ist es, Daten (semi-)automatisch so in Kategorien einzuteilen, daß
Objekte im gleichen Cluster möglichst ähnlich und Objekte aus
verschiedenen Clustern möglichst unähnlich zueinander sind. Dazu
gibt es unterschiedliche Ansätze.
Die meisten Ansätze gehen jedoch davon aus, dass die Daten als
sogenannte Feature-Vektoren vorliegen. Da es sich bei XML-Daten um semistrukturierte
Daten handelt, insbesondere z.B. mengenwertige Attribute zugelassen sind,
bietet sich eine Transformation in Feature-Vektoren nicht immer an. Stattdessen
lassen sich diese Daten zum Beispiel als Graphen darstellen.
Eine Adresskartei könnte in XML zum Beispiel wie folgt spezifiziert
werden:
| < Adresskartei
>
< Adresse > < Name > Karin Kailing < /Name > < Einrichtung > Universität München < /Einrichtung > < EMail > kailing@... < /EMail > < /Adresse > < Adresse > < Name > Mitti Mitarbeiter < /Name > < Einrichtung > Universität München < /Einrichtung > < Abteilung > LFE DBS < /Abteilung > < Kontakt > < EMail > mitti@info.de < /EMail > < /Kontakt > < /Adresse > < /Adresskartei > |
![]() |
In der Diplomarbeit sollen verschieden Ansätze zum Clustern von
XML-Daten untersucht und entwickelt werden.
Bearbeiter:
Alije Ristemi
Ansprechpartner:
Karin Kailing, Zi. E 1.06, Tel. 2180-9325, email: kailing@dbs.informatik.uni-muenchen.de