Beim verteilten Clustering werden die Daten zuerst auf verteilten Knoten lokal geclustert. Die Daten auf den verteilten Knoten werden Seien genant. Nachdem die Seiten lokal geclustert sind, werden für jede Seite lokale Repräsentanten bestimmt. Die lokalen Repräsentanten werden dann zu einem globalen Knoten geschickt und dichtebasiert geclustert. So entstehen globale Repräsentanten, die an jede lokale Site übermittelt und zur Aktualisierung der lokalen Modelle verwendet werden. Das Resultat von verteilten Clustering hängt von der Auswahl des Algorithmus zur lokalen Repräsentantenbestimmung ab und kann unterschiedlich sein. Es wird also ein Werkzeug gebraucht, mit dem man die Ursachen der unterschiedlichen Resultate studieren kann.
Implementierung eines Frameworks zur Verwaltung von Algorithmen und zum Vergleichen deren Ergebnissen. Die Algorithmen sollen nicht mehrer „von Hand“ gestartet werden, es soll möglich sein die Algorithmen leicht in Framework einzubinden und von dort zu starten. Die Ergebnisse der Verfahren können aus verschiedenen Sichten beobachtet und verglichen werden. Bei mehrerdimensionalen Daten soll man die Möglichkeit haben, zwei Attribute auszuwählen, die Angezeigt werden sollen. Als zusätzliches Feature soll das Tool eine 3D-Anzeige bitten.
Bearbeiter | Rafael Dominik |
Betreuer | Eshref Januzaj |
Arbeitsabschnitt | Zeitbedarf |
Einarbeitung: Einarbeitung in distributed Clustering und bestehenden Algorithmen. | 15 Tage |
Analyse und Design: Aufgabeanalyse, Erstellung Lösungsansatzes, GUI’s Planung. | 20 Tage |
Implementierung: Implementierung des tool-Package und Anpassung der bestehenden Algorithmen an das Tool. | 45 Tage |
Präsentation: Vorbereitung der Präsentation. | 5 Tage |
Ausarbeitung: Erstellung der Ausarbeitung. | 5 Tage |
Das Ergebnis ist ein Framework, mit dem sich alle Schritte des verteilten Clusterings, schrittweise oder auf einmal, durchführen lassen. Die Algorithmen lassen sich direkt vom Tool starten und die Ergebnisse der Verfahren können unterschiedlich betrachtet und verglichen werden. Für lokales Clustering und lokale Repräsentantenbestimmung können neue Algorithmen leicht hinzugefügt werden. Die Daten können auch in einer 3D-Anzeige angeschaut werden.