#258 Googleが音声認識・翻訳・音声合成が可能な大規模言語モデル「AudioPaLM」を発表

Description

Googleが音声理解と音声生成のための大規模言語モデル（LLM）、「AudioPaLM」を発表しました。
「AudioPaLM」は、すでに発表されていた、音声ベースの「AudioLM」の機能と、テキストベースの大規模言語モデル「PaLM-2」の機能を統合したマルチモーダルアーキテクチャで、テキストと音声を処理・生成し、音声認識や音声翻訳などのアプリケーションに利用できるというもの。今回はこのシステムを紹介します。

【AD】
Audiostartでは、ポッドキャストに音声広告を掲載したい広告主を募集中です。詳細は以下のリンク先をご覧ください。
https://bit.ly/41jPwyu

【AD】
Audiostartでは、音声広告を掲載して広告報酬を受け取りたいポッドキャスターの方を募集しています。法人・個人問いません。詳細は以下のリンク先をご覧ください。
https://bit.ly/3GSVv5P

#258 Googleが音声認識・翻訳・音声合成が可能な大規模言語モデル「AudioPaLM」を発表

Listen

Description

Want to check another podcast?