Giraph-didic


Project maintained by galpha Hosted on GitHub Pages — Theme by mattgraham

Distributed Diffusive Clustering mit Apache Giraph

In diesem Projekt wurder der Distributed Diffusive Clustering Algorithmus (kurz DiDiC) auf Apache Giraph (1.1.0) umgesetzt.

Zusammenfassung

Graphen werden in vielen Domänen eingesetzt, um Datenstrukturen zu modellieren: in der Biologie, in der Business Intelligence, in sozialen Netzwerken und vielen anderen. Ein häufig auftretendes Problem ist das Finden von Teilgraphen, deren Elemente besonders stark verknüpft sind, sogenannte Cluster. Zusätzlich stellt die immer weiter wachsende Größe der Graphen Anforderungen an die Parallelisierbarkeit von Algorithmen, die auf Graphen arbeiten. Im Rahmen unserer Arbeit haben wir den Clustering Algorithmus DiDiC auf dem Graph-Processing Framework Apache Giraph implementiert.

Verwendung

Für die Verwendung benötigt man Maven 2 (oder neuere Version).

Beispiel (Ergebnisse)

Am Beispiel des Facebook-Datensatz (von SnapStanford) wurde der Algorithmus ausgeführt um 10 Cluster zu identifizieren.

Facebook 10 Cluster