Nvidias GauGAN

Fotorealistische Landschaften aus dem neuronalen Netzwerk

Geschätzte Lesezeit: ca. 2 Minuten

Foto von Julius Zunker

von Julius Zunker -

Am Montag hat Nvidia auf der hauseigenen Unternehmensmesse ein beeindruckendes, neues Grafikprogramm vorgestellt. Das auf künstlichen neuronalen Netzwerken basierende System lässt mit nur wenigen Klicks die schönsten Landschaften entstehen - und dies mit beinahe fotorealistischem Look.

Nvidia GTC steht für 'GPU Technology Conference'. Die Fachkonferenz von Nvidia ist ganz Lernsystemen und künstlichen Intelligenzen gewidmet. Wo wenn nicht hier wäre der perfekte Ort um das KI-gestützte Paint-Programm für die nächste Generation vorzustellen? Vorhang auf für 'GauGAN'!

Grafische Nullsummenspiele mit realistischen Ergebnissen

GauGAN basiert auf Generative Adversarial Networks (kurz GAN) - also Gruppen von Algorithmen für unüberwachtes Lernen. Derartige Netzwerke bestehen aus zwei künstlichen, neuronalen Netzwerken, die in Kommunikation miteinander stehen. Eines der beiden Netzwerke stellt grafische Variablen auf, das andere bewertet diese. Im Fall von GauGAN wird so aus wenigen, simplen Strichen schnell ein beinahe fotorealistisches Landschaftsbild. Dabei ist das Werk der Software nur ein Beispiel dafür, was mit der neuronalen Netzwerk-Plattform in Zukunft möglich sein soll.

Dem neuronalen Netzwerk stehen für seine Arbeiten drei Werkzeuge zur Verfügung: Ein Farbeimer, ein Stift und ein Pinsel. Zusätzlich findet sich am unteren Rand eine Reihe von wählbaren Objekten. Malt man mit dem Stift eine Linie und wählt dazu das Wolken-Objekt aus, verwandelt GauGAN alles in eine malerische Reihe von wie fotografiert wirkenden Wolken. Dabei bestehen diese nicht aus Reihen von 'Stamps' also Wiederholungen des selben Bildauszugs, sondern es wird ein einzigartiges Bild erzeugt.

Aus wenig erzeugt GauGAN Ansehnliches

Wird mit den Tool beispielsweise die grobe Form eines Baumes gezeichnet, wird GauGAN daraus einen Baum erschaffen. Wird ein einfacher Strich gezogen, wird das Ergebnis ein kahler Baumstamm sein. Die KI arbeitet aber auch multimodal und stellt sicher, dass selbst wenn zwei User die exakt identischen Vorgaben einspeisen, es zu zwei unterschiedlichen Ergebnissen kommt.

Um Ergebnisse in Echtzeit zu erzeugen, muss GauGAN auf einem System mit Tensor-Prozessor laufen. In diesem Fall auf einer RDX Titan GPU Plattform. In der Vorführung konnte so eine Linie gezeichnet werden und das System wandelte diese direkt in ein realistisches Ergebnis um. Bryan Catanzaro, Vize für Applied Deep Learning Research, gab an, dass GauGAN mit kleinen Modifikationen in Zukunft auf beinahe jeder Plattform laufen kann, sogar auf CPUs. Es dauert dann eben nur ein paar Sekunden, bis das Ergebnis fertig gestellt ist.

Bessere Performance für die nahe Zukunft angekündigt

In der Vorführung waren die Übergänge zwischen den einzelnen Objekten noch lange nicht perfekt. Das Team hinter GauGAN kündigte allerdings an, dies in der nächsten Zeit deutlich zu verbessern. Für den bisherigen Stand der Dinge lernte GauGAN anhand von einer Millionen Flickr-Bildern. Das Programm soll in Bälde komplett veröffentlicht werden, zunächst ohne eine kommerzielle Absicht dahinter. Nach so einem Tool dürften sich Game Designer die Finger lecken.

Hier erfährst du mehr über: Künstliche Intelligenz

Sag uns deine Meinung!