Studianalyse - Visualisierung und Auswertung des StudiVZ

Abstract - Was ist StudiAnalyse?

StudiAnalye is an Open Source softwareproject, so it is available for free and everyone is welcome to join the project and use it for free. It visualizes and analysis a social community network called "StudiVZ" (www.studivz.net). It's similar to facebook.com. You need a StudiVZ account to use StudiAnalyse as user. StudiVZ is very popular in Germany. The site was lauchend in october 2005, and has more than 1,000,000 users.

StudiAnalye ist ein Open Source Softwareprojekt, es ist also jeder eingeladen bei der Entwicklung mitzuhelfen bzw. es kostenlos zu benutzen. Es visualisiert und analysiert das soziale Netzwerk "StudiVZ" (www.studivz.net). Ein Äquivalent zu facebook.com. Du brauchst einen StudiVZ Account, um dich bei StudiAnalye anzumelden. StudiVZ is sehr populär in Deutschland. Die Seite existiert seit Oktober 2005 und hat mehr als 1.000.000 registrierte User.

System Voraussetzung

Voraussetzung für die erfolgreiche Verwendung von StudiAnalye ist die geeignete Laufzeitumgebung.
Ein Java Runtime Environment (JRE) der Java Standard Edition (JSE) ab der Version 1.5 oder höher ist erforderlich.
Java kann hier bezogen werden. Es werden alle gängigen Betriebssysteme unterstützt.

Die hier herunterladbare "exe" Datei ist allerdings vorerst nur für Microsoft Windows nutzbar.
StudiAnalyse soll jedoch auch bald für andere Plattformen verfügbar sein.

Geschichte

Analyse des StudiVZ


Zu Projektbeginn (13. Oktober 2006) war es geplant, das komplette StudiVZ statistisch auszuwerten. Wir fragten bei StudiVZ an ob wir annonymisierte Daten für die Auswertung erhalten könnten. Leider war dies nicht möglich, weil das StudiVZ Angst hatte (wahrscheinlich zu recht) negativ in die Presse zu kommen...Anfang Dezember konnten wir dann endlich mit dem Crawlen beginnen, d.h. der Parser der die Daten aus den einzelnen HTML Seiten "zieht" war einsatzbereit und die Datenbanktabellen angelegt. Wir crawlten ausschließlich nachts und achteten darauf nicht mehr als einen Zugriff pro Sekunde zu unternehmen. So wollten wir vermeiden einen "Denial of Service" zu fahren!

Leider änderte sich öfters die Seitenstruktur, so waren wir gezwungen unseren Crawler anzupassen und manche Daten wieder zu verwerfen. Mitte Dezember hatten wir ca. 6000 Profile gespeichert (natürlich nur die öffentlich zugänglichen Daten!). Die große Überraschung kam zu Weihnachten als a) die ids (eindeutige Identifikationnummern) geändert und b) Captchas eingeführt wurden.

Wir mussten das komplette Projekt neu ausrichten (Anfang Januar!). Wir stellten die Persistenzschicht von "Datenbank" auf "XML" (GraphML) um, da es ja nun nicht mehr möglich war zentral zu crawlen. Es wurde ein Installer realisiert der ein dezentrales Crawling ermöglich. Das Crawling wurde von Servlet Ebene auf Applet-Ebene verschoben. Gespeichert werden die Daten nun lokal bei den StudiAnalyse Benutzern...

Ab 23. Januar boten wir offiziell die erste Version (Version 0.6.0) zum Download bei Sourceforge an, allerdings wurde nur ein Tag später die Verwendung von StudiVZ gesperrt.
Wir werden den Dialog mit StudiVZ suchen und hoffen trotz der neuen AGBs eine neue Version anbieten zu können! Wir sind auf jeden Fall StudiVZ-freundlich eingestellt ;)

wird fortgesetzt!

Ausblick

  • Anbindung an GoogleMaps (Deine Freunde werden auf der Deutschlandkarte angezeigt)
  • Erweiterung der Funktionalität
  • Optimierungen im Bereich GUI und Crawling

Blogroll

Alexander Trust: StudiVZ: Crawl mich Baby, (nicht) noch ein Mal
Jörg-Olaf Schäfers: StudiVZ: Crawler-Visualisierung in bunt (und Farbe!)
Karsten Wenzlaff: Kuriositäten aus dem StudiVZ-Reich
SourceForge.net Logo