Studianalyse - Visualisierung und Auswertung des StudiVZ
Abstract - Was ist StudiAnalyse?
StudiAnalye is an Open Source softwareproject, so it is available for free and everyone is welcome to
join the project and use it for free. It visualizes and analysis a social community network called
"StudiVZ" (
www.studivz.net). It's similar to facebook.com. You need a StudiVZ account to use
StudiAnalyse as user. StudiVZ is very popular in Germany. The site was lauchend in october 2005,
and has more than 1,000,000 users.
StudiAnalye ist ein Open Source Softwareprojekt, es ist also jeder eingeladen bei der
Entwicklung mitzuhelfen bzw. es kostenlos zu benutzen. Es visualisiert und analysiert das
soziale Netzwerk "StudiVZ" (
www.studivz.net). Ein Äquivalent zu facebook.com. Du brauchst
einen StudiVZ Account, um dich bei StudiAnalye anzumelden. StudiVZ is sehr populär in
Deutschland. Die Seite existiert seit Oktober 2005 und hat mehr als 1.000.000 registrierte User.
System Voraussetzung
Voraussetzung für die erfolgreiche Verwendung von StudiAnalye ist die geeignete
Laufzeitumgebung.
Ein Java Runtime Environment (JRE) der Java Standard Edition (JSE) ab der
Version 1.5 oder höher ist erforderlich.
Java kann
hier bezogen werden. Es werden alle
gängigen Betriebssysteme unterstützt.
Die hier herunterladbare "exe" Datei ist allerdings vorerst nur für Microsoft Windows nutzbar.
StudiAnalyse soll jedoch auch bald für andere Plattformen verfügbar sein.
Geschichte
Analyse des StudiVZ
Zu Projektbeginn (13. Oktober 2006) war es geplant, das komplette StudiVZ statistisch auszuwerten.
Wir fragten bei StudiVZ an ob wir annonymisierte Daten für die Auswertung erhalten könnten.
Leider war dies nicht möglich, weil das StudiVZ Angst hatte (wahrscheinlich zu recht) negativ in
die Presse zu kommen...Anfang Dezember konnten wir dann endlich mit dem Crawlen beginnen, d.h. der
Parser der die Daten aus den einzelnen HTML Seiten "zieht" war einsatzbereit und die Datenbanktabellen
angelegt. Wir crawlten ausschließlich nachts und achteten darauf nicht mehr als einen Zugriff pro Sekunde
zu unternehmen. So wollten wir vermeiden einen "Denial of Service" zu fahren!
Leider änderte sich öfters die Seitenstruktur, so waren wir gezwungen unseren Crawler anzupassen und manche
Daten wieder zu verwerfen. Mitte Dezember hatten wir ca. 6000 Profile gespeichert (natürlich nur die
öffentlich zugänglichen Daten!). Die große Überraschung kam zu Weihnachten als a) die ids (eindeutige
Identifikationnummern) geändert und b) Captchas eingeführt wurden.
Wir mussten das komplette Projekt neu ausrichten (Anfang Januar!). Wir stellten die Persistenzschicht von "Datenbank"
auf "XML" (GraphML) um, da es ja nun nicht mehr möglich war zentral zu crawlen. Es wurde
ein Installer realisiert der ein dezentrales Crawling ermöglich. Das Crawling wurde von
Servlet Ebene auf Applet-Ebene verschoben. Gespeichert werden die Daten nun lokal bei den
StudiAnalyse Benutzern...
Ab 23. Januar boten wir offiziell die erste Version (Version 0.6.0) zum Download bei Sourceforge an, allerdings
wurde nur ein Tag später die Verwendung von StudiVZ gesperrt.
Wir werden den Dialog mit StudiVZ suchen und hoffen trotz der neuen AGBs eine neue Version anbieten zu
können! Wir sind auf jeden Fall StudiVZ-freundlich eingestellt ;)
wird fortgesetzt!
Ausblick
- Anbindung an GoogleMaps (Deine Freunde werden auf der Deutschlandkarte angezeigt)
- Erweiterung der Funktionalität
- Optimierungen im Bereich GUI und Crawling
Blogroll
Alexander Trust: StudiVZ: Crawl mich Baby, (nicht) noch ein Mal
Jörg-Olaf Schäfers: StudiVZ: Crawler-Visualisierung in bunt (und Farbe!)
Karsten Wenzlaff: Kuriositäten aus dem StudiVZ-Reich