OpenAI hat ein neues AI-Modell namens Sora vorgestellt, welches Text zu Video erstellen kann. Kurze und möglichst präzise Promts werden dabei in ein bis zu einer Minute langes Video überführt. ChatGPT als Sprachmodell oder DALL-E 3, Midjourney, Stable Diffusion als visuelle Generative AI für Bilder sind bei vielen Nutzern bereits in den Alltag übergegangen und werden für verschiedene Einsatzbereiche genutzt.

Sora ist in der Lage, komplexe Szenen mit mehreren Objekten und Details des Motivs sowie des Hintergrunds zu erzeugen. Analog zu Bildgenerierung versteht das Modell, was der Benutzer über den Prompt versucht darzustellen, es beachtet aber auch Dinge wie das korrekte physikalische Verhalten von Objekten in einer bestimmten Umgebung. Ein Auto wirbelt auf einer staubigen Straße diesen Staub auch auf. Liegen trockene Blätter auf dem Boden und der Wind soll wehen, werden diese Blätter vom Wind weggeblasen.

Aber OpenAI beschreibt auch Limitierungen des aktuellen Modells. So hat es möglicherweise Schwierigkeiten, die Physik einer komplexen Szene genau zu simulieren, und versteht möglicherweise bestimmte Fälle von Ursache und Wirkung nicht. Zum Beispiel könnte eine Person in einen Keks beißen, aber danach hat der Keks vielleicht keine Bissspuren.

Trainiert wurde Sora mit Bild- und Videodaten aus den verschiedensten Quellen. Selbst von DALL-E erzeugte Bilder können für ein Training herangezogen werden. Aktuell kann Sora Videos in 1.920 x 1.080 Pixel sowie 1.080 x 1.920 Pixel und alle Formate dazwischen, erzeugen. Die maximale Länge beträgt 60 Sekunden.

Ab wann Sora als Service den Nutzern zur Verfügung steht, ist nicht bekannt. Womöglich will OpenAI zunächst noch einige der aktuell vorhandenen Fehler und Limitierungen beseitigen. Weitere technische Details zu Sora findet ihr direkt bei OpenAI.

Ist die Welt bereit für Sora?

Bevor es zu einer Veröffentlichung von Sora kommt, will OpenAI sicherstellen, dass gewisse Sicherheitsmechanismen etabliert sind, die verhindern sollen, dass AI-generierte Videos für Fehlinformationen, hasserfüllte Inhalte und dergleichen verwendet werden. Man entwickelt auch Tools zur Erkennung solcher Inhalte, zum Beispiel einen sogenannten Detection Classifier, der erkennen können soll, ob ein Video von Sora erstellt wurde oder nicht. Zudem ist geplant C2PA-Metadaten einzubeziehen. Diese fügen dem Video (oder auch generiertem Bild) Informationen hinzu, die es als solches ausweisen.

Allerdings lassen sich Metadaten auch verändern oder entfernen. Kamerahersteller wollen ihren Fotos signieren, damit diese als "echt" gekennzeichnet sind. Aber auch dies dürfte keine Maßnahme sein, die für vollständige Sicherheit sorgt. Sobald die Schlüssel für solche Zertifikate leaken, können AI-generierte Fotos und Videos als "echt" markiert werden.

Wir haben die meisten der zahlreichen Beispiel-Videos von OpenAI zusammen mit den dazugehörigen Prompts in ein Video gepackt. Bei längeren Prompts könnt ihr das Video kurz pausieren.

Natürlich sucht man direkt nach Fehlern in den Videoschnipseln und diese findet man auch. Allerdings muss man sich auch vor Augen führen, dass dies als aktueller Zustand die am wenigsten ausgereifte Version von Text to Video sein wird, ab hier wird sich die Technologie nur weiterentwickeln und verbessern.

Ein erster zentraler und wohl auch angepeilter Anwendungsbereich für die AI-generierten Videos könnten Stock-Videos sein – ähnlich wie dies bei den Bildern auch schon der Fall ist.