Ein Öl-Bild einer Schnecke, die ein Schnitzel isst, generiert von DALL-E Mini

Diese Website macht aus Wörtern Bilder: Ein ethisches Dilemma

24.06.2022

Bildgeneratoren, die mittels künstlicher Intelligenz Bilder aus Text erzeugen, sind im Vormarsch. Doch es gibt noch Hürden.

Dieser Artikel ist älter als ein Jahr!

Das Prinzip ist einfach: Man beschreibt ein Bild - und sei es noch so abwegig - mit wenigen Worten. Die Künstler*in beginnt ein Werk anzufertigen, das der Beschreibung am ehesten entspricht. Nach einigen Tagen - vielleicht Wochen, je nach Aufwand - hält man das fertige Gemälde in den Händen.

Für mehr Geld erhält man vielleicht mehrere Varianten, aus denen man wählen kann. Der Zeitaufwand ist dabei jedoch höher. Nicht so bei Software. Binnen Minuten liefern dafür konzipierte Programme ein Ergebnis. Wenn es nicht gefällt, lässt man das Programm einfach nochmal durchlaufen.

DALL-E mini ausprobieren

Wer einen Eindruck von der Technologie erhaschen will, kann das Online-Programm DALL-E mini ausprobieren. Die deutlich abgespeckte Version ist dabei zwar nicht so leistungsstark wie DALL-E 2, gibt aber gute und auch unterhaltsame Einblicke, wozu die Technologie in der Lage ist.

Google mit eigenem Bildgenerator

Solche Computerprogramme, die Bilder aus Text erzeugen, werden dabei immer besser. Die bekanntesten heißen etwa DALL-E 2, das vom Forschungslabor OpenAI entwickelt wurde. Zu den Investoren von OpenAI gehören Microsoft und Elon Musk. Auch Google spielt mit seinem Imagen AI in der Top-Liga der Text-To-Image-Programme mit.

Beispiele von Googles Imagen AI

5 Bilder

Slideshow ansehen

Das AI im Namen steht dabei für die Artificial Intelligence, also Künstliche Intelligenz, mit der der Computer den Text interpretiert und basierend darauf Bilder ausspuckt. Das muss zunächst einmal nichts heiße:, Als Künstliche Intelligenz (KI) werden alle Programme bezeichnet, die menschliche Denkmuster nachahmen können.

Künstliche Intelligenz, die etwa künstliche Landschaften oder Porträtbilder erstellt, ist ebenso nichts Neues. DALL-E und Imagen sind jedoch besonders. Die Programme beschränken sich nicht auf ein einziges Spezialgebiet und haben so den Vorteil, dass sie allerlei Szenen erstellen können. Von Landschaften über Portraits, von Gemälde bis hin zu hochauflösenden Detailaufnahmen.

Wir würden hier gerne ein Youtube Video zeigen. Leider haben Sie uns hierfür keine Zustimmung gegeben. Wenn Sie diesen anzeigen wollen, stimmen sie bitte Youtube zu.

"Vor 2 bis 3 Jahren wären solche schönen Abbildungen noch nicht möglich gewesen", sagt Professor Christoph Lampert vom IST Austria. Dabei setzen die großen Tech-Firmen, die die Entwicklung solcher KIs unterstützen, natürlich auch auf den Werbeeffekt, die solche Veröffentlichungen bringen. "Die Unternehmen betreiben zwar akademische Forschung, nutzen solche Projekte aber gerne, um damit Werbung zu machen", meint Lampert.

DALL-E 2 und ImagenAI sind dabei noch nicht für die Öffentlichkeit zugänglich, Lampert kann sich aber gut vorstellen, dass sich daraus ein eigenes Geschäftsmodell entwickeln könnte.

Rechtlicher Rahmen gefordert

Nicht zuletzt beinhaltet die Technologie auch eine ethische Komponente. Ähnlich wie etwa bei Deep-Fake-Videos wäre es damit möglich, ohne größeren Aufwand relativ realistische Fälschungen herzustellen. Für Lampert hält sich die Gefahr allerdings in Grenzen: "Bereits jetzt kann ich mit Photoshop alle möglichen Bilder fälschen. Mit solchen Programmen ist das nur in größerer Zahl möglich, weil viele Menschen gleichzeitig darauf zugreifen können."

“Das ist natürlich ein sehr komplexes Feld”, sagt KI-Professor Stefan Woltran von der TU Wien. Er vertritt bei dem Thema die Position, dass Software nicht ohne Prüfverfahren veröffentlicht werden sollte, die die Auswirkungen auf die Gesellschaft überprüft: “Die ganz argen Wild-West-Zeiten sind zwar vorbei, dennoch braucht es einen gesetzlichen Rahmen.” Etwa durch eine Kennzeichnungspflicht von durch KI generierten Bildern.

Wir würden hier gerne einen X Post zeigen. Leider haben Sie uns hierfür keine Zustimmung gegeben. Wenn Sie diesen anzeigen wollen, stimmen sie bitte X zu.

Keine Gewalt, keine Pornografie

Den Entwickler*innen ist auch die moralische Komponente bewusst. So stellen die Programme etwa keine pornografischen oder gewalttätigen Inhalte dar. Auch Gesichter - etwa berühmter Persönlichkeiten - werden nur stark verzerrt gezeichnet. Diese harten Filter sind schnell gesetzt und können verhindern, dass allzu grober Unfug betrieben wird.

Wir würden hier gerne einen X Post zeigen. Leider haben Sie uns hierfür keine Zustimmung gegeben. Wenn Sie diesen anzeigen wollen, stimmen sie bitte X zu.

Antrainierte Voreingenommenheit

Eine große Herausforderung stellt das Training dieser Künstlichen Intelligenzen dar. Um zu wissen, wie etwa ein Apfel, eine Birne oder ein Weltraumteleskop aussieht, werden die Programme mit einer enormen Menge an Bildern gefüttert. Allein bei DALL-E 2 sind es etwa 650 Millionen Bilder.

“Die Theorie hinter maschinellem Lernen sind ja nicht ganz neu”, sagt Woltran: “Nur sind jetzt Unmengen an Daten durch das Internet verfügbar.” Allein auf Instagram seien Millionen an Bildern mit den bereits passenden Beschreibungen in Form von Hashtags verfügbar. Diese gigantischen Datenbanken sind aber nur so unvoreingenommen, wie die Menschen, die sie anlegen.

Es ist etwa schwierig, kulturelle oder geschlechtliche Voreingenommenheiten auszumerzen. “Der Mensch ist nicht frei von Bias, ganz im Gegenteil”, sagt Woltran. “Bis vor einigen Jahren glaubte man noch, Computer haben keine Schwächen.” Das stimmt natürlich nicht, die Schwächen liegen jetzt nur woanders. Wenn ein Programm vorwiegend mit Bildern von weißen Menschen gefüttert wurde, ist auch der Standardmensch in den generierten Bildern eher weiß.

"CEO" als Mann, "Pflegeperson" als Frau

Wenn Frauen im Trainingsmaterial häufiger als Pflegepersonen auftauchen als Männer, wird das die Software so erlernen. Gibt man etwa “nurse”, also die englische Bezeichnung für "Pflegeperson" ein, wird die KI tendenziell öfter ein Bild einer Frau generieren. Gibt man aber CEO, also Geschäftsführer*in ein, werden ausschließlich Männer angezeigt. “Computer verarbeiten die Daten komplett unreflektiert”, sagt Woltran.

"Die Daten sind größtenteils englisch und größtenteils westlich geprägt", weiß Lampert. "Wenn man ein solches Programm etwa nach einem Auto fragt, ist die Chance groß, dass ein amerikanisches Modell vorgeschlagen wird." Einzige Lösung sei, den Trainingsdatensatz so divers wie möglich zu gestalten.

Technisch noch nicht ausgereift

Auch technisch sind solche Bildergeneratoren noch nicht ganz ausgereift. Obwohl die Programme bereits einen unheimlich guten Detailgrad erreichen, ist bei genauerer Betrachtung meistens zu erkennen, ob es sich um ein künstliches oder um ein echtes Bild handelt. Oft verschwimmen Linien, oder einzelne Bildausschnitte passen offensichtlich nicht zusammen.

Ein roter Apfel in einer Schüssel grüner Äpfel - DALL-E Mini hat noch Probleme, die richtigen Farben zu finden.

© DALL-E Mini

Daneben gibt es bei solchen Künstlichen Intelligenzen immer noch typische “Verständnisprobleme”. Bei der Frage nach einem roten Apfel in einer Schale mit grünen Äpfeln vertauscht etwa DALL-E gerne die Farben. Auch die Darstellung von Schrift ist alles andere als ausgereift.

Jobs durch Künstliche Intelligenz in Gefahr

Dennoch könnte der Fortschritt im Feld der Künstlichen Intelligenz bald so weit sein, dass echte sowie künstlich geschaffene Bilder kaum noch zu unterscheiden sind. Besonders bitter könnte das für Künstler*innen werden, oder etwa Anbieter*innen von Stock-Fotos. Bildgeneratoren bieten Menschen ein mächtiges Werkzeug, ihre Kreativität auszuleben und selbst Bilder, Logos oder Kunstwerke zu gestalten.

Wir würden hier gerne einen X Post zeigen. Leider haben Sie uns hierfür keine Zustimmung gegeben. Wenn Sie diesen anzeigen wollen, stimmen sie bitte X zu.

Woltran will nicht darauf wetten, dass KI in Zukunft zu neuen konzeptuellen Durchbrüchen führen, oder einfach nur bestehende Konzepte - wie etwa Bild- oder Spracherkennung - verbessern wird. “Auf den letzten Metern der Entwicklung tauchen nämlich oft erst die eigentlichen Probleme auf”, sagt Woltran.

Lampert fühlt sich bei den Bildgeneratoren an die Anfänge von PowerPoint erinnert. “Die Art von visuellen Präsentationen wird sich in den nächsten Jahren ändern”, ist er überzeugt: “Früher hat man blinkende Schrift verwendet, in Zukunft wird man vielleicht mehr Bilder von Elchen auf dem Mond sehen.”

Methoden hinter DALL-E erklärt

DALL-E 2 nutzt einen Prozess namens “Diffusion”. Ein Muster mit zufälligen Punkten wird so weit geändert, bis ein Bild entsteht, in dem spezifische Aspekte des angeforderten Bildes wiedererkannt werden. Wer genau wissen will, wie etwa DALL-E 2 funktioniert und Bilder aus Texteingaben generiert, kann sich dieses (englische) Video des US-Mediums Vox ansehen:

Wir würden hier gerne ein Youtube Video zeigen. Leider haben Sie uns hierfür keine Zustimmung gegeben. Wenn Sie diesen anzeigen wollen, stimmen sie bitte Youtube zu.

Mehr zum Thema

Science

Kommentare

Wir würden hier gerne einen Outbrain Feed zeigen. Leider haben Sie uns hierfür keine Zustimmung gegeben. Wenn Sie diesen anzeigen wollen, stimmen sie bitte Outbrain UK Ltd zu.

Diese Website macht aus Wörtern Bilder: Ein ethisches Dilemma

DALL-E mini ausprobieren

Google mit eigenem Bildgenerator

Beispiele von Googles Imagen AI

Rechtlicher Rahmen gefordert

Keine Gewalt, keine Pornografie

Antrainierte Voreingenommenheit

"CEO" als Mann, "Pflegeperson" als Frau

Technisch noch nicht ausgereift

Jobs durch Künstliche Intelligenz in Gefahr

Methoden hinter DALL-E erklärt

Mehr zum Thema

"Habt keine Angst vor künstlicher Intelligenz"

Forscher wollen eure Fäkalienfotos, um damit eine KI zu trainieren

IBMs Watson errät, was auf deinen Fotos zu sehen ist

Kommentare