Listen

Description

In dieser Folge des KI-Gilde Podcasts werfen wir einen Blick auf Googles neues Modell DiffusionGemma. Statt Text klassisch Wort für Wort zu generieren, nutzt das Modell eine Diffusion-Architektur, die man sonst aus der Bildgenerierung kennt.

DiffusionGemma erzeugt eine "Leinwand" von 256 Wörtern auf einen Schlag, indem es zufälliges "Wort-Rauschen" in mehreren Durchgängen schrittweise durch passenden Text ersetzt. Dank einer cleveren "Mixture of Experts"-Architektur, bei der von den 26 Milliarden Parametern immer nur 4 Milliarden gleichzeitig aktiv sind, benötigt das Modell lediglich 18 GB Videospeicher. Damit läuft es blitzschnell und lokal auf heimischen Rechnern. Wir klären, wie dieses "Text-Entrauschen" im Detail funktioniert und warum diese verzögerungsfreie Textgenerierung unsere Erwartungen an KI-Assistenten für immer verändern könnte.