Science
18.11.2014

Computer beschreiben in Phrasen Szenen auf Fotos

Durch die Kombination zweier neuraler Netzwerke beschreiben Computer Szenen von Bildern. Dies soll die Internetsuche verbessern und sehbeeinträchtigten Personen helfen.

Forscher von Google haben eine Möglichkeit gefunden, mit der automatisch der Inhalt von Fotos erkannt und beschrieben werden kann. Dazu wurden zwei neurale Netzwerke kombiniert: Eines für Sprache und eines für die Bilderkennung. Unabhängig davon hat die Stanford University ein ähnliches System vorgestellt.

Die Bilderkennung habe zwar bereits mit verschiedenen Algorithmen gut funktioniert, jedoch konnte bisher kaum die Szene beschrieben werden. Hauptsächlich wurden Elemente, die im Foto zu sehen sind, aufgezählt. Wurde vorher ein Foto vom Computer als „Mann mit Motorrad“ beschriftet, ist es beim neuen System: „Eine Person fährt mit einem Motorrad auf einer unbefestigten Straße“.

Laut Google wurde das System mit relativ wenig Beispielbildern mit Beschriftungen trainiert, um Szenen in Phrasen beschreiben zu können. Danach wurden dem System Bilder ohne Beschriftung gezeigt. Laut den Forschern erkennt und beschreibt das System die Szene doppelt so häufig korrekt, als bei früheren Versuchen. Mit einem Menschen kann das System aber noch lange nicht mithalten.

Einsatzmöglichkeiten

Mit der Weiterentwicklung des Systems könnte es zukünftig vielfältig eingesetzt werden. So könnte die Bildersuche im Internet präziser funktionieren, da auch Fotos gefunden werden, die nicht von einem Menschen beschriftet wurden. Möglich wären auch Hilfs-Tools für sehbeeinträchtigte Menschen, um den Inhalt von Bildern zu beschreiben.

Laut der New York Times ist ein Einsatz für Überwachungssysteme denkbar. Computer könnten künftig nicht nur Personen anhand ihrer Gesichter erkennen, sondern auch Szenen, wie etwa ein Überfall oder eine Schlägerei, und automatisch die Behörden informieren.