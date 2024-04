Werbung

Die technischen Sprünge, die KI-Modelle in den vergangenen Jahren gemacht haben, sind beachtlich. So war es noch nie so einfach, Texte, Sprache, Bilder und ganze Videos mittels KI generieren zu lassen. Microsoft hat nun mit VASA-1 ein neues KI-Werkzeug vorgestellt, welches es erlaubt, nur auf Grundlage eine Bildes und einer Sprachprobe eines Menschen, ein Video der Zielperson zu erstellen. Dabei soll VASA-1 sogar in Echtzeit arbeiten können, womit sich die Technologie auch für entsprechende Echtzeit-Anwendungen wie Konversation mittels Video-Anruf eignet.

Die Ergebnisse sollen für sich selbst sprechen. Microsoft bezieht in einem Blogeintrag zudem noch Stellung zu der Leistungsfähigkeit des Forschungsprojekts: "VASA-1 ist nicht nur in der Lage, Lippenbewegungen zu erzeugen, die hervorragend mit dem Ton synchronisiert sind, sondern auch ein großes Spektrum an Gesichtsnuancen und natürlichen Kopfbewegungen zu erfassen, die zur Wahrnehmung von Authentizität und Lebendigkeit beitragen".

Die Kerninnovation von VASA-1 ist dabei ein ganzheitliches Modell zur Erzeugung von Gesichtsdynamik und Kopfbewegungen. Viele frühere und konkurrierende Modelle konzentrieren sich eher auf die lippensynchronen Wiedergabe, was automatisch zu einer Vernachlässigung anderer Aspekte führt. Das Modell von Microsoft hingegen ist in der Lage, emotionale Reaktionen im Gesicht zu simulieren, um so dem Zuschauer mehr Tiefe und Glaubwürdigkeit zu vermitteln.

Neben der Leistungsfähigkeit von VASA-1 erklärt Microsoft noch die Absichten hinter dem Projekt: "Unsere Forschung konzentriert sich auf die Entwicklung visueller affektiver Fähigkeiten für virtuelle KI-Avatare und zielt auf positive Anwendungen ab. Es ist nicht beabsichtigt, Inhalte zu erstellen, die zur Irreführung oder Täuschung verwendet werden.". Das Unternehmen betont allerdings, dass die Technologie durchaus ein hohes Missbrauchspotential enthält. Daher hat Microsoft derzeit nicht vor, "eine Online-Demo, eine API, ein Produkt, zusätzliche Implementierungsdetails oder damit zusammenhängende Angebote zu veröffentlichen".