Ludwig-Maximilians-Universität München
Institut für Informatik, LFE Datenbanksysteme Prof. Dr. Hans-Peter Kriegel |
University of Munich
Institute for Computer Science Database and Information Systems |
Beschreibung:
![]() |
Beim Clustering - ein Teilproblem des Data Mining - versucht man eine
Menge von Objekten so in Klassen einzuteilen, dass Objekte innerhalb einer
Klasse möglichst ähnlich und Objekte verschiedener Klassen möglichst
unähnlich zueinander sind. In den letzten Jahren wurden einiger sehr
gute Clustering-Verfahren entwickelt, die jedoch alle nur für niedrig
dimensionale Daten geeignet sind. Bei hochdimensionalen Objekte wie z.B.
Bio-Daten, Web Log-Files, Kundendaten oder Zeit-Meßreihen liefern
eigentlich alle Algorithmen unbrauchbare Ergebnisse. Dies liegt hauptsächlich
am sog. "Curse of Dimensionality": Je mehr Dimensionen ein Raum hat, desto
größer ist er, und desto weiter können die einzelnen Objekte
in diesem Raum von einander entfernt liegen.
Bei vielen Anwendungen sind die Daten im Gesamt-Datenraum sehr "noisy", d.h. sie bilden tatsächlich keine vernünftigen Cluster. Es kann aber sehr wohl sein, dass in niedriger dimensionalen Unterräumen Cluster gebildet werden. Das Problem, in hochdimensionalen Daten niedriger dimensionale Unterräume mit Clustern zu finden, nennt man "Subspace Clustering". Um dieses Problem zu lösen, wurde ein dichte-basierter Ansatz zum Subspace Clustering entwickelt. |
Bearbeiter(in) |
Titel |
| Julia Blanck und Petra Linhart | Implementierung einer Testumgebung für die Evaluierung des neuen Ansatzes zum Subspace Clustering |
| Norbert Liebisch | Parameterbestimmung für eps und minPts |