KIT, TU Dresden 05.06.2020, 07:26 Uhr

Datenschutz beim Website-Tracking

Viele Trackingdienste werben mit sicherem Datenschutz, indem sie die Datensätze generalisieren und anonymisieren. Wie sicher dies ist, haben Informatikerinnen und Informatiker des Karlsruher Instituts für Technologie (KIT) und der TU Dresden untersucht.
Beim Surfen im Internet sammeln Unternehmen nicht nur Daten über besuchte Webseiten, sondern auch über den Zeitpunkt des Abrufes oder Ortsinformationen.
(Quelle: Amadeus Bramsiepe , Markus Breig, KIT )
Trackingdienste sammeln grosse Datenmengen der Internetnutzerinnen und -nutzer. Darunter fallen neben den besuchten Webseiten beispielsweise auch Informationen zu den verwendeten Endgeräten, der Zeitpunkt des Abrufes (Zeitstempel) oder Ortsinformationen. "Da diese Daten sehr sensibel sind und einen hohen Personenbezug haben, nutzen viele Unternehmen die Generalisierung, um sie scheinbar zu anonymisieren und damit Datenschutzregelungen zu umgehen", sagt Professor Thorsten Strufe, Leiter der Forschungsgruppe "Praktische IT-Sicherheit" am KIT. Bei einer Generalisierung wird der Detailgrad der Informationen reduziert, sodass eine Identifizierung von Einzelpersonen nicht mehr möglich sein soll. So werden beispielsweise die Ortsinformationen auf die Region beschränkt, die Abrufzeit auf den Tag oder die IP-Adressen um einige Zahlen gekürzt. Ob so wirklich keine Rückschlüsse mehr auf das Individuum gezogen werden können, hat Strufe gemeinsam mit seiner Forschungsgruppe und Kolleginnen und Kollegen der TU Dresden untersucht.
Mithilfe einer Vielzahl an Metadaten deutscher Webseiten mit etwa 66 Millionen Nutzern und über 2 Milliarden Seitenaufrufen konnten die Informatikerinnen und Informatiker nicht nur Rückschlüsse auf die aufgerufenen Seiten, sondern auch auf die Verkettung der einzelnen Seitenaufrufe, sogenannten "Click Traces", ziehen. Die Daten stellte ihnen die INFOnline GmbH, eine Institution für Reichweitenmessung in Deutschland, zur Verfügung.

Der Verlauf von Seitenaufrufen hat grosse Aussagekraft

"Um die Wirksamkeit der Generalisierung zu testen, haben wir zwei unterschiedliche Anwendungsszenarien betrachtet", sagt Strufe. "Zum einen haben wir die gesamten Click Traces auf ihre Eindeutigkeit untersucht. Denn ist ein Click Trace, also der Verlauf vieler aufeinanderfolgender Seitenaufrufe, klar von anderen abgrenzbar, so ist er nicht mehr anonym." Dabei zeigte sich, dass Informationen zur besuchten Webseite und benutztem Browser komplett aus den Daten entfernt werden müssen, um Rückschlüsse auf Personen zu vermeiden. "Die Daten werden erst dann anonym, wenn die Sequenzen entweder zu einzelnen Klicks verkürzt, also völlig ohne Zusammenhang gespeichert werden, oder alle Informationen mit Ausnahme des Zeitstempels entfernt werden", so Strufe. "Selbst wenn lediglich die Domain, die Themenzuordnung, wie "Politik" oder "Sport", und die Zeit nur tagesgenau gespeichert werden, können 35 bis 40 Prozent der Daten individuellen Personen zugeordnet werden." In diesem Szenario konnten die Forscherinnen und Forscher zeigen, dass der Ansatz der Generalisierung nicht der Definition der Anonymität entspricht.


Das könnte Sie auch interessieren