Webstatistik anonymisiert

Wer Webdienste anbietet, egal ob für sich selbst oder für Kunden, ist im einfachsten Falle neugierig darauf wieviele Besucher sich auf den Webseiten einfinden. Im kommerziellen Umfeld reicht Neugier alleine nicht, da sind Besucherzahlen ein Faktor, an dem der Erfolg von Webseiten gemessen wird. Die ganze Sache ist ein Hexenwerk, der Webserver liefert reichlich Datenmaterial, das mit geeigneter Software analysiert werden kann. Heraus kommen dann schöne Grafiken, die u.a. zeigen aus welchen Ländern die Besucher kamen, zu welchen Zeiten, wie lange sie vorbeisurften und so einiges mehr.

Das ist so weit in Ordnung, wenn die Sache nicht einen datenschutzrechtlichen Haken hätte. Die Logdateien enthalten persönliche Daten, die IP-Adresse des Seitenbesuchers, und dürften daher nicht länger gespeichert werden, als es für die Auswertung notwendig ist. Theoretisch ist es kein Problem die Logdateien nach dem Analyselauf zu löschen. Praktisch sieht es leider häufig so aus, dass die Logdateien auf den Servern bleiben und nur gelöscht werden, wenn der Plattenplatz eng wird. Selbst wenn ein pflichtbewusster Admin oder Webmaster die Logdateien löscht, stellt sich immer noch die Frage ob die IP-Adressen nicht evtl. von der Webanalysesoftware gespeichert worden.

Eine Lösung aus dem Dilemma wäre es, die Logfunktion des Webservers zu deaktivieren und stattdessen Webtracker wie Google Analytics oder Opentracker zu nutzen. Womit man sich dann auch schon wieder das nächste Problem mit dem Datenschutz einhandelt. Denn gespeichert werden die Daten dort auch und die Besucher der Webseite haben keine Möglichkeit die Löschung persönlicher Daten zu bewirken. Also was tun?

Meine Lösung bestand bis vor etwa einem Jahr darin, dass ich die IP-Adressen in den Logdateien teilweise  anonymisiert habe. Teilweise deswegen, weil es nur im letzten Byte passierte. Angenommen ein Webseitenbesucher hatte die IP-Adresse 192.168.15.131, dann wurde zur letzten Zahl (131) ein zufälliger Wert hinzuaddiert. Heraus kam dann z.B. 192.168.15.247. Der Zufallswert wurde bei jeder unterschiedlichen IP-Adresse eines Tages neu bestimmt. Damit war es weiterhin möglich das Besucherverhalten zu verfolgen und mit den drei höherwertigen Bytes die geographische Herkunft zu ermitteln. Das ist nicht ganz das, was man sich unter echter Anonymisierung vorstellen darf, aber ein gangbarer Kompromiss.

Seit ich Piwik für die Analyse einsetze, konnte ich feststellen, dass ich die oben beschriebenen Auswertungen kaum mehr nutze. In der Folge habe ich die Logfunktion meiner Webserver, auf denen auch Kundenprojekte laufen, deaktiviert. Was zudem den angenehmen Nebeneffekt hatte, dass die Last auf den Servern leicht zurückging. Einziger Haken war aber immer noch, dass Piwik normalerweise die IP-Adressen in der Datenbank speichert. Verhindern konnte man das, durch Änderungen im Quelltext von Piwik, die allerdings bei jedem Update überschrieben wurde. Die Änderung musste man dann wieder nachziehen, manchmal dachte man nicht daran, wie es eben so im Arbeitsalltag läuft.

Glücklicherweise gibt es mittlerweile das Plugin NoIP von Martin Gamnitzer. Mit ihm wird sichergestellt, dass statt der realen IP-Adresse nur eine genullte Version in der Datenbank steht. Um beim Beispiel von oben zu bleiben, würde statt 192.168.15.131, die 192.168.0.0 gespeichert werden.  Das ist etwas rigieder als meine Variante mit den Logdateien, funktioniert aber immer noch wunderbar um auch die Herkunft der Besucher festzustellen. Aktuell muss NoIP manuell installiert werden, in Piwik 0.5.5, aktuell ist 0.5.4, wird es zum Standardpaket gehören.

Die Benutzung kann ich nur jedem empfehlen. Die Auswertungen sind nach wie vor aussagekräftig, ich persönlich kann jedenfall keinen Unterschied zu vorher feststellen. Für mich ist das Verfahren ein guter Weg, der die Interessen des Webseitenbesuchers auf Datenschutz, mit denen des Betreibers abwägt.

Nachtrag: Mittlerweile ist Piwik 0.5.5 verfügbar und wie oben erwähnt, gehört jetzt ein Plugin zum Lieferumfang, das die IP-Adressen der Besucher anonymisiert. Der Name des Plugins lautet AnonymizeIP und kann, besser gesagt sollte, im Admin-Backend von Piwik aktiviert werden. Das NoIpPlugin muss selbstverständlich deaktiviert werden, sofern es wie oben beschrieben, manuell installiert und aktiviert wurde.

Tags: , , , , , ,

3 comments

  1. Aus dem Maschinenraum…

    Übers Wochende gab es hier ein wenig Arbeit. Das Blog wurde auf einen anderen Server verschoben und bei der Gelegenheit gleich noch die Blogsoftware auf den neuesten Stand gebracht. Nachdem Serendipity 1.4 lange Zeit gute Dienste geleistet hat, ist jet…

  2. Cool…genau das brauche ich auch für mein Piwik. Dann kann ich gutes Gewissens weiter Statistik betreiben.

  3. WordPress, Piwik, Spacequadrat…

    Dieses Internetangebot bereitet mir über die Artikelerstellung hinaus erfreulich wenig Arbeit und Kosten. Das habe ich insbesondere dem als freie Software angebotenen Weblog Content Management System WordPress und dem freundlichen Freehoster Space……

Leave a comment