Generative Audio AI: Multimodale Zukunft

Meine generative Audio KI Reise steht kurz vor dem Abschluss.

Mein größtes Learning:

Ob auf lokalen Geräten oder in der Cloud als Closed- oder Open-Source-Lösung – der Trend hin zu artifiziellem KI-Audio ist eindeutig und wird zusammen mit bildgebenden Verfahren und Text früher oder später seinen Weg in die Multimodalität zukünftiger Modelle finden.

Aktualisierung: OpenAI hat seinem Modell seit ein paar Tagen genau diese Multimodalität hinzugefügt. ChatGPT+ Nutzer*innen erhalten in den kommenden zwei Wochen ein Update, das Nutzer befähigt, die eigene Stimme als Input zu verwenden und ChatGPT tatsächlich auch „sprechen“ zu lassen. Ach so, und Bilder kann sich ChatGPT dann auch direkt anschauen und interpretieren.

Das hier angesprochene Video wurde komplett mit einem digitalen Klon meiner Selbst erstellt. Nichts daran wurde tatsächlich aufgenommen – Text von ChatGPT, die Stimme ist ein HeyGen Klon, genau wie das Video.

Related Posts

PM Mark Carney speaks at World Economic Forum in Davos – January 20, 2026

Gestaltet sich KI jetzt selbst? ASI-ARCH entdeckt neue KI-Architekturen

„Zielpublikum“: wie KI an der Front Tempo, Taktik und Verantwortung verschiebt

Schreibe einen Kommentar