Projektarbeit: BIRCH als Preprocessing Step für OPTICS

Projektarbeit

BIRCH als Preprocessing Step für OPTICS

Inhalt

Der Clusteringalgorithmus BIRCH stützt sich auf ein nachgeschaltetes beliebiges weiteres Clusteringverfahren. OPTICS soll hier eingesetzt und um die speziellen Konstrukte von BIRCH erweitert werden, um die Eignung der Kombination der beiden Systeme zu testen. Als Vergleich wird ein zellenbasiertes Verfahren zur Kompression der OPTICS-Eingabedaten entwickelt.

Problemstellung

BIRCH ist ein hierarchisches, lokales Clusteringverfahren, welches durch geschickte Reduzierung des Datenvolumens für niedrigdimensionale Daten sehr effizient arbeitet, bei hochdimensionalen Daten jedoch die bekannten Probleme aufweist. Es baut intern einen sog. CF-Tree auf, der die Cluster sehr platzsparend speichert; die Blätter dieses Baumes werden mit einem beliebigen globalen Algorithmus geclustert.

OPTICS ordnet Datenpunkte so an, daß im Raum nahe beieinander liegende Punkte auch in ihrer Reihenfolge möglichst nahe sind. Es liefert zwar keine explizite Clusterbeschreibung, umgeht aber dafür die Probleme, die bei verschieden dichten Clustern auftreten und funktioniert auch für hochdimensionale Daten.

Es soll nun untersucht werden, inwieweit sich OPTICS als Clusterverfahren in Birch einsetzen läßt, und wie die speziellen Eigenschaften des CF-Trees optimal ausgenützt werden können. In Experimenten soll die Eignung des Verfahrens sowohl in Bezug auf Geschwindigkeit als auch Qualität der erkannten Cluster getestet werden.

Weiterhin wird ein zellenbasierter Ansatz verfolgt: der Raum wird in ein Gitter eingeteilt, und diese Gitterzellen werden, geeignet gewichtet mit der Anzahl der darin liegenden Datenpunkte, in OPTICS eingespeist, um den Aspekt der Datenkompression mit der Kompression durch BIRCH zu vergleichen.

Lösungsansatz

BIRCH (sowie der Zellengenerator) wird über Zwischendateien an OPTICS gekoppelt, wobei zunächst die CF-Daten nur durch einzelne Punkte approximiert werden. Im zweiten Schritt wird untersucht, ob OPTICS entsprechend erweitert werden kann, um die CF optimaler verwenden zu können.

Ziel

Durch die Datenreduzierung von BIRCH kann die Performanz des OPTICS-Algorithmus evl. wesentlich verbessert werden. Andererseits kann BIRCH evtl. auch im Hochdimensionalen besser verwendet werden, wenn es mit OPTICS kombiniert wird.

Tools

C/C++
GNUPlot und andere Unix-Tools
OPTICS-Tools (Java)

Personen

Bearbeiter	Ekkehard Krämer
Betreuer	Markus Breunig

Arbeitsplan

Arbeitsabschnitt	Zeitbedarf
BIRCH zum Laufen bringen Compilieren unter Solaris/Linux und entsprechende Anpassungen sowie Re-Ingenieering des Eingabedatenformates (5) Genaueres Verstehen des Algorithmus anhand des Sourcecodes (Abweichungen vom Paper) (2,5) Tests mit hochdimensionalen Daten (2)	9,5
OPTICS in BIRCH integrieren Implementation über Zwischendatei mit den CF als Einzelpunkten (2) Erweiterungen von OPTICS (Distanz-Funktion, etc.) (10) Auswertung, Vergleich (6)	18
Zellenbasierten Ansatz für BIRCH-Eingabedaten entwickeln und testen, wieder in Zusammenhang mit OPTICS	8
Zellenbasierter Ansatz im Hochdimensionalen	4

Ergebnis

Es wurde ein System erstellt, mit man sehr schnell Eingabedaten erzeugen und durch verschiedene Variationen von BIRCH/OPTICS laufen lassen sowie die Ergebnisse auf diverse Weisen visualisieren kann.

Durch die Komprimierung der Eingabedaten mittels BIRCH läßt sich die Laufzeit von OPTICS beeindruckend reduzieren. Dies erkauft man sich mit einer etwas weniger intuitiv erkennbaren, aber aufgrund einiger Erweiterungen des OPTICS-Algorithmus in vielen Fällen durchaus brauchbaren Cluster-Struktur im OPTICS-Reachability-Plot. Im momentanen Status verschliessen sich die Plots aber der automatisierten Weiterverarbeitung in Cluster-Erkennungs-Algorithmen, wenn man nicht auf zu viele Informationen verzichten kann bzw. will.

Der zellenbasierte Ansatz hat sich im Vergleich mit BIRCH als nicht lohnenswert herausgestellt: wo BIRCH seine Clustering Features sehr flexibel positionieren kann (z.B. entspricht der CF eines Rausch-Punktes exakt dem ursprünglichen Punkt), ist dies beim Rastern nicht möglich; die Rasterung verbraucht besonders bei mehr als 2 Dimensionen bei weitem mehr Speicherplatz für annähernd vergleichbare Ergebnisse und hat keine erkennbaren Vorteile gegenüber BIRCH (abgesehen von der wesentlich leichteren Implementierung).

Homepages: DBS Institut LMU
28.02.2000 Ekkehard Krämer