Ludwig-Maximilians-Universität München
Institut für Informatik
Lehr- und Forschungseinheit für Datenbanksysteme

       
 




 
 
 
 
 
 


Projektarbeit

Evaluierung und Implementierung einer Indexstruktur für Distributed Data Mining am Beispiel von CF-Tree


Data Mining beschäftigt sich damit, aus großen Datenmengen Wissen zu gewinnen. Heutzutage sind die zu analysierenden Daten aber nicht nur zentral auf einer einzigen Datenbank gespeichert, sie sind vielmehr auf mehreren, voneinander unabhängigen Knoten verteilt und über ein Computernetzwerk miteinander verbunden. Aufgabe von Distributed Data Mining (DDM) ist es, aus solchen Daten, ohne dabei die Daten selbst zusammen zu führen, Wissen zu entdecken.


Aufgabenstellung:

Ziel dieser Projektarbeit ist es, eine CF-Tree – ähnliche Indexstruktur zur Unterstützung von Algorithmen für verteilte Datenanalyse zu implementieren.

Der CF-Tree ist ein höhenbalancierter Baum bezüglich eines Schwellwertes T, eines maximalen Verzweigungsgrades B und eines maximalen Füllgrades für Blätter L, mit folgenden Eigenschaften:

  • Jeder innere Knoten K enthält höchstens B Einträge.
  • Ein Blattknoten enthält höchstens L einträge.
  • Jeder Blattknoten besitzt ein Zeiger prev und next, womit die Blattknoten verkettet sind.
  • Der Durchmesser aller Einträge in einem Blattknoten ist kleiner als T.


Vorkenntnisse:

Kenntnisse in der Programmiersprache JAVA.


Kontakt:

Eshref Januzaj, Zi. E 1.04, Tel.: 2180 9321, email: januzaj@dbs.informatik.uni-muenchen.de