Web 2.0

04. August 2009 15:38; Akt: 06.08.2009 11:20 Print

Speer gegen Spam

von Henning Steier - Unerwünschte Werbung verstopft nicht nur elektronische Postfächer, sondern auch zunehmend Seiten wie Twitter und Facebook. Eine Software soll die Kommunikationswege bald wieder frei machen. 20 Minuten Online hat mit dem Chefentwickler gesprochen.

Bildstrecke im Grossformat »

Zum Thema
Fehler gesehen?

Experten schätzen, dass rund 90 Prozent aller weltweit versandten E-Mails Spam sind, also elektronische Postfächer verstopfen, indem sie unter anderem für vermeintliche Wunderpotenzpillen werben oder Uhren-Schnäppchen preisen. Wie bizarr die Betreffzeilen der E-Mails sind und dass sich daraus für Designer Elliot Burford auch Kunstwerke erstellen lassen, ist in der obigen Fotostrecke zu sehen.

Mittlerweile werden auch Web 2.0-Seiten wie Twitter von Spammern heimgesucht. Wie eine aktuelle Studie der kanadischen Beratungsfirma Sysomos ergab, wurden 32 Prozent der untersuchten Tweets von Rechnern automatisiert erstellt. Die Analysten hatten im Mai 2009 rund 11,5 Millionen Beiträge der Zwitscher-Seite untersucht. Aleksander Gostev, von der Virenscanner-Firma Kaspersky, schätzte unlängst den 2008 durch Spam verursachten Schaden auf umgerechnet etwa 213 Millionen Franken. Daher arbeiten rund um den Globus Entwickler mit Hochdruck an Technologien, mit denen Profi-Spammern, von denen einige besonders erfolgreiche in der nebenstehenden Bildstrecke zu sehen sind, das Handwerk gelegt werden soll. So wird unter Googles Federführung an neuartigen Captchas gefeilt: Nutzer sollen dann nicht mehr Kombinationen aus Zahlen und Buchstaben auf Webseiten eingeben, sondern das, was Sie in einem YouTube-Clip sehen. Dadurch sollen Menschen von Rechnern unterschieden werden. Letztgenannte grasen viele Webseiten auf der Suche nach E-Mail-Adressen ab, an die dann Spam-Nachrichten verschickt werden können.

Einen anderen Weg der Spambekämpfung hat ein Forscherteam unter der Leitung von Ching-man Au Yeung und Michael Noll gewählt. Mit Kollegen aus Grossbritannien haben sie eine Software namens «SPEAR» (Speer) entwickelt. Die Abkürzung steht für «Spamming-resistant Expertise Analysis and Ranking». Was sich dahinter verbirgt, erklärt Noll, der am Hasso-Plattner-Institut der Universität Potsdam forscht, im Interview.

20 Minuten Online: Was kann man sich unter SPEAR vorstellen?
Michael Noll: Der von uns entwickelte «SPEAR»-Algorithmus ist eine neue Technik, welche die Expertise von Benutzern anhand ihrer Aktivitäten analysiert und messbar macht. Uns interessiert dabei die Fähigkeit von Menschen, neue und qualitativ hochwertige Informationen im Internet zu finden. Wir haben dazu altbekannte Techniken, die von Suchmaschinen wie Google oder Microsoft für das so genannte Ranking von Webseiten eingesetzt werden, zweckentfremdet und mit entsprechenden Anpassungen auf das Mitmach-Web übertragen und weiter ausgebaut. Kurz gesagt: Aus alt mach neu.

Wie funktioniert das Ganze?
Unser Ansatz besteht aus zwei wesentlichen Elementen: Zum ersten gehen wir von einer Wechselwirkung zwischen der Expertise von Benutzern und der Qualität der Informationen aus, über die sie sich austauschen. In unserem konkreten Fall sind diese Informationen Webseiten, zum Beispiel ein Artikel in einem Onlinemagazin. Das heisst, die Expertise eines Benutzers ist umso höher, je höher die Qualität der von ihm gefundenen Webseiten ist. Umgekehrt ist die Qualität einer Webseite umso höher, je mehr Experten diese als interessant und hochwertig erachten.

Worauf basiert Ihre Entwicklung ausserdem?
Das zweite Element ist eine zeitliche Analyse der Benutzeraktivitäten. Je früher ein Benutzer eine qualitativ hochwertige Information entdeckt, umso grösser ist der so genannte Bonus, den unser Ansatz diesem zuweist. Dies ist vergleichbar mit der Welt der Wissenschaften, in der derjenige Forscher, der zuerst eine wichtige Entdeckung publiziert, die entsprechenden akademischen Lorbeeren einheimst. Durch diese Kombination liefert unser Ansatz somit zwei Ergebnisse: die ermittelte Expertise von Benutzern und die Qualität von Webseiten.

Welchen Nutzen hat das für Herrn und Frau Schweizer?
Da die Interaktion von Benutzern im Internet immer mehr zunimmt, sind Ansätze wie der unsere natürlich sehr hilfreich, um die sozialen Netzwerke von Usern zu verbessern: sowohl durch die Empfehlung von interessanten und vertrauenswürdigen Benutzern als auch um der Überflutung durch zu viele Informationen entgegenzuwirken. Je schneller und effizienter wichtige Informationen ausgetauscht werden können, umso besser.

Auf welchen Webseiten könnte «SPEAR» genutzt werden?
Einerseits können wir natürlich solche Online-Dienste verbessern, deren direkter Fokus auf Benutzern - zum Beispiel Identifizieren von Trends oder Trendsettern auf Twitter - oder den durch die Benutzer ausgetauschten Informationen liegt. Hier wären das Kaufverhalten und Produktrezensionen auf Amazon oder Hörgewohnheiten für Musik auf Last.fm zu nennen. In beiden Fällen können wir mit unserem Ansatz Zusatzinformationen liefern, die die Qualität dieser Dienste verbessern können, also beispielsweise genauer passende Produktempfehlungen auf Amazon.

Wie soll der Algorithmus Spammer herausfiltern?
Sie werden durch unsere Technik quasi nebenbei aufgespürt. Der «SPEAR»-Algorithmus sorgt dafür, dass sie sprichwörtlich von der Oberfläche verschwinden. Es ist für einen Spammer nur noch sehr schwer möglich, seine Werbung an prominenter Stelle zu platzieren und sichtbar zu machen. Und wenn aber niemand diese unerwünschte Werbung mehr sehen kann, so freut das natürlich uns als Benutzer, und die Spammer ärgern sich.

Gibt es Interesse von namhaften Unternehmen, diese Technologie einzusetzen?
Ja, die üblichen Verdächtigen zeigen sich interessiert. Weitere Informationen möchte ich beim derzeitigen Stand der Gespräche aber nicht geben, um die Diskussionen nicht zu behindern.

Was hat sie darauf gebracht, «SPEAR» zu entwickeln?
Als Wissenschaftler sind wir selbst begeisterte Nutzer des Social-Bookmarking-Dienstes Delicious.com, der mittlerweile eine Tochter von Yahoo ist. Über die Seite kann man Lesezeichen und Kommentare zu Websites austauschen. Leider ist es mangels entsprechender Funktionen in der Praxis nur schwer möglich, Expertennetzwerke über die Delicious-Plattform aufzubauen. Solche Netzwerke sind aber extrem wichtig, um sich schnell und effizient mit Gleichgesinnten auszutauschen und frühzeitig an neue und qualitativ hochwertige Informationen zu gelangen – gerade im schnelllebigen Internet. Neben dem generellen Interesse an der Problematik stand also auch der Wunsch, den Status Quo unserer eigenen täglichen Arbeit zu verbessern.

Wie schätzen Sie die Spammer-Dichte in Communities und auf Social-Bookmark-Seiten ein?
Genaue Zahlen zu liefern fällt mir schwer, da die meisten solcher Online-Dienste nur wenige Daten und Informationen öffentlich bekanntgeben beziehungsweise bekanntgeben dürfen, anhand derer aussagekräftige Statistiken erstellt werden könnten. Je nach Studie und Kontext variieren die Angaben zwischen zehn und 80 Prozent, ein offensichtlich sehr breites Spektrum. Im Fall der Webseite Delicious.com, die wir als Testumgebung für unsere Arbeit gewählt haben, konnte nachgewiesen werden, dass 19 der damals 20 aktivsten Benutzer Spammer waren. Andererseits haben wir bei Delicious etwa 71 000 Seiten, 500 000 Nutzer und zwei Millionen Bookmarks analysiert, um Experten für die Programmiersprache JavaScript zu finden. Auf der von unserem «SPEAR»-Algorithmus gelieferten Liste war unter den ersten 200 kein Spammer zu finden. Aus meiner persönlichen Erfahrung muss ich aber sagen, dass Spam bereits heute ein grosses Problem für solche Online-Dienste ist und sich das Problem mit zunehmender Popularität dieser Angebote weiter vergrössern wird, wie wir dies schon im Bereich E-Mail-Kommunikation feststellen konnten. Da wir uns in einem ständigen Wettrüsten mit den Spammern befinden, bleibt also noch viel zu tun.

Wo könnte Ihre Entwicklung ausserdem eingesetzt werden?
Wir planen beispielsweise, mit unserem Ansatz die Expertise von Forschern anhand wissenschaftlicher Publikationen zu untersuchen. Akademische Publikationen – ob auf Papier gedruckt oder online im Web verfügbar – enthalten nämlich alle notwendigen Informationen, um unsere Technik anzuwenden.