OpenAI hat seinem DALL-E-Text-zu-Bild-KI-Modell eine neue „nach außen zeigende“ Funktion hinzugefügt, die es dem System ermöglicht, neue visuelle Elemente zu generieren, die die Grenzen eines bestimmten Bildes erweitern.
Im obigen Beispiel können Sie sehen, wie sich DALL-E mit Hilfe menschlicher Aufforderungen „vorstellt“, was sich außerhalb des Rahmens von Johannes Vermeers Porträt „Das Mädchen mit dem Perlenohrring“ befindet. Beachten Sie, dass das System trotz der begrenzten Informationen, die das Porträt bietet, in der Lage ist, Vermeers Stil zu entsprechen, indem es die Schatten und Lichter des Originals nachahmt.
Im Zeitraffer unten können Sie auch sehen, wie der verantwortliche Künstler August Kamp das Bild in kleinen Abschnitten auf einmal vergrößern musste, wobei er oft DALL-E-Generationen wiederholte, um das gewünschte Ergebnis zu erzielen. Was in diesem Video nicht zu sehen, aber sicherlich hervorzuheben ist, ist die Tatsache, dass das System diese Erweiterungen nicht selbst generiert. Wie bei jeder Text-zu-Bild-KI erfordert das Modell, dass Menschen die neuen visuellen Elemente beschreiben.
Die Outpainting-Funktion kann verwendet werden, um den ursprünglichen Inhalt zu erweitern, aber natürlich haben viele DALL-E-Benutzer mit dieser Funktion herumgespielt, um zu sehen, was außerhalb des Rahmens berühmter Bilder liegt. (Scrollen Sie nach unten für mein absolutes Lieblingsbeispiel …)
Aus einer breiteren Perspektive erweitert Outpainting nicht wirklich die Kernfunktionalität von Text-Bild-KI-Systemen, aber es zeigt, wie sich OpenAI wahrscheinlich auf dem wachsenden Markt für solche Systeme positionieren wird: indem Benutzerfreundlichkeit zu einem Schlüsselargument für Kunden wird.
Viele Text-to-Image-KI-Modelle können die gleiche wesentliche Funktion wie Paint ausführen, aber wie DALL-E selbst vor diesem Update erforderte es einiges an manueller Bastelei. Das Malen so einfach wie möglich zu gestalten, wird DALL-E dabei helfen, sich von der wachsenden Konkurrenz kleinerer, aber vergleichbarer Systeme wie Midjourney und Stable Diffusion abzuheben.
DALL-E selbst ist jetzt über ein Beta-Programm verfügbar, das derzeit Zugriff auf über eine Million Benutzer hat. Jeder Beta-Benutzer erhält im ersten Monat 50 kostenlose Image-Builds, danach jeden Monat 15 weitere Verwendungen. Sie können dann weitere 115 Generationen von Bildern für 15 $ erwerben.
In der Zwischenzeit kann die Farbe jedoch verwendet werden, um einige der größten Geheimnisse des Lebens zu beantworten, wie zum Beispiel „Was wäre, wenn der Typ von Quaker Oats ein vollbusiger Barkeeper wäre?“ Wundere dich nicht mehr:
Previously published on www.theverge.com