Künstliche Intelligenz: Neue Software erkennt Bilder – und beschreibt sie
Aktualisiert

Künstliche IntelligenzNeue Software erkennt Bilder – und beschreibt sie

Zwei Forscherteams vermelden unabhängig voneinander die Entwicklung einer neuen Bilderkennungs-Software. Sie erkennt nicht nur Sujets, sie beschreibt sie auch in Worten.

von
pst
1 / 6
Forscher von Google und Wissenschaftler der Stanford University haben eine Software zur Bilderkennung und -beschreibung entwickelt. Googles Programm beschreibt dieses Bild mit den Worten: «Zwei Pizzen liegen auf einem Herd».

Forscher von Google und Wissenschaftler der Stanford University haben eine Software zur Bilderkennung und -beschreibung entwickelt. Googles Programm beschreibt dieses Bild mit den Worten: «Zwei Pizzen liegen auf einem Herd».

Google
Beide Systeme sind in der Lage, anhand einer kleinen Anzahl von Menschen beschriebener Bilder zu lernen und anschliessend selbst Bilder und Videos zu beschreiben.

Beide Systeme sind in der Lage, anhand einer kleinen Anzahl von Menschen beschriebener Bilder zu lernen und anschliessend selbst Bilder und Videos zu beschreiben.

Google
Googles Bilderkennungs-Software ist derzeit fähig, zumindest einen Teil der Bilder treffend zu beschreiben.

Googles Bilderkennungs-Software ist derzeit fähig, zumindest einen Teil der Bilder treffend zu beschreiben.

Google

Neue Fortschritte im Bereich der Bilderkennung machen es möglich, dass Computer jetzt fähig sind, Bilder so genau wie noch nie zuvor zu erkennen. Mehr noch: Sie sind sogar fähig, das «Gesehene» in Worte zu fassen. Zwei Forscherteams von Google und der Stanford-Universität haben unabhängig voneinander eine künstliche Intelligenz auf Basis neuronaler Netze entwickelt, welche die Funktionsweise des menschlichen Gehirns simuliert. Das berichtet die «New York Times».

Dem Bericht zufolge ist die K.I. bei der Dechiffrierung und Beschreibung von Bildern gar in der Lage, bis zu einem gewissen Grad die menschliche Auffassungsgabe nachzuahmen. Bisher war sogenannte «Computer-Vision» lediglich in der Lage, einzelne Objekte zu erkennen. Die neue Software, die am Montag sowohl von Forschern des Suchmaschinengiganten Google als auch von Wissenschaftlern der Stanford University gezeigt wurde, bringt sich selbst bei, ganze Szenen zu interpretieren. Beispielsweise junge Männer beim Fussballspielen oder eine Herde Elefanten, die durch die Steppe marschiert.

Vom Schlagwort zur Bildbeschreibung

Für Fei-Fei Li sind «die Pixeldaten in Bildern und Videos die dunkle Materie des Internets. Wir beginnen jetzt damit, sie zu beleuchten», so die Leiterin des Stanford Artificial Intelligence Laboratory.

Bisher müssen sich Suchmaschinen noch weitgehend auf zu ungenaue Bildbeschriftungen, -titel und -anmerkungen verlassen, um Inhalte einzuordnen. Hat die neue Software indes ein Bild analysiert, versieht sie das Dargestellte mit Schlagworten. Die Forscher fanden dabei heraus, dass daraus resultierende, vom Computer verfasste Beschreibungen erstaunlich genau sind. Die präsentierten Fortschritte ermöglichen eine weitaus genauere Katalogisierung und Suche im Milliarden Bilder und Videos umfassenden weltweiten Netz.

Die Stanford-Wissenschaftler gehen bei der computergesteuerten Bildanalyse ähnlich wie die Google-Forscher vor. Beide arbeiten mit der Kombination neuronaler Netze. Diese sind in der Lage, Ähnlichkeiten und Muster in Daten zu erkennen, von denen nicht einmal Menschen etwas wissen.

Doppelt so genau wie bisher

In ihrem Bericht beschreiben die Forscher der Stanford-Universität, wie eine Netzwerkarchitektur neue Beschreibungen zu Bildbereichen zu generieren lernt. Wie leistungsfähig ihre Methode ist, wurde anhand öffentlich zugänglicher Mediatheken wie Flickr8K oder Flickr30K überprüft. Die Bildbeispiele sind von computergenerierten Bildlegenden begleitet, die nicht nur einzelne Objekte, sondern auch das dargestellte Geschehen beschreiben (siehe Bildstrecke).

Das Google-Team ging bei der computergesteuerten Bildanalyse ähnlich vor. Auch hier wurde mit zwei neuronalen Netzen gearbeitet, um Bild- und Sprachmodelle zusammenzuführen. Wie die Stanford-Wissenschaftler trainierten sie ihre Software zunächst mit einer kleinen Anzahl Bildern, die zuvor von Menschen mit Worten beschrieben worden waren. So konnte das Programm zusammenhängende Muster in den Bildern und Beschreibungen erkennen und war dann in der Lage, Objekte und Ereignisse auf noch unbeschriebenen Bildern zu definieren – doppelt so genau wie bei früheren Versuchen.

Zwar sind die maschinell erstellten Bildbeschreibungen oft noch ziemlich weit von menschlicher Wahrnehmung entfernt, doch bei einem beachtlichen Teil der Test-Bilder waren die Beschreibungen sowohl vom Stanford- als auch vom Google-System erstaunlich präzise.

Deine Meinung