The Information berichtet von internen Umbauten beim ChatGPT-Entwickler, der binnen Jahresfrist ein Audio-first-Device auf den Markt bringen will.
Der ChatGPT-Entwickler OpenAI verstärkt seine Aktivitäten im Bereich Sprachtechnologie erheblich. Laut The Information wurde das zuständige Team in den vergangenen Wochen deutlich vergrößert. Mehrere neu formierte Abteilungen konzentrieren sich auf die Entwicklung spezialisierter Audio-Modelle. Ziel ist ein persönliches Gerät mit Sprachsteuerung im Zentrum, das in rund zwölf Monaten erscheinen soll.
ChatGPT beherrscht bereits Sprachkommunikation. Technisch gibt es zwei Ansätze: Entweder wandelt ein separates Modell den Text nachträglich in Audio um, oder ein multimodales System verarbeitet Sprache direkt ohne Zwischenschritt. Ein Insider erklärte gegenüber The Information, das aktuell eingesetzte Verfahren schneide leistungsmäßig schlechter ab als reine Textmodelle. Der Umweg über ein zweites Modell verursache Verzögerungen in der Kommunikation. Mit einem neuen, speziell auf Audio ausgelegten Modell seien jedoch erste Fortschritte erzielt worden.
Die gesamte Branche bewegt sich weg vom Bildschirm. Google entwickelt mit den Audio Overviews eine sprachbasierte Suche. Smarte Brillen haben sich als Plattform für Sprachinteraktion etabliert. Meta vertreibt seit Längerem Modelle unter den Marken Ray-Ban und Oakley, Google folgt mit eigenen Glasses. Start-ups wie Rokid und Even Realities drängen ebenfalls in den Markt.
OpenAI positioniert sein geplantes Produkt bewusst jenseits der Brillenkategorie. Neben der Sprachsteuerung soll permanente Einsatzbereitschaft ein zentrales Merkmal werden. Das Silicon Valley sieht in „Always on"-Funktionalität den Schlüssel zu wirklich nützlicher KI-Hardware. Meta hat kürzlich das Start-up Limitless übernommen, dessen Produkt als dauerhaft aktiver Begleiter konzipiert ist.




