Listen

Description

I denne episode af Verbos podcast diskuterer værterne Kasper Junge og Jonas Høgh Kyhse-Andersen de seneste fremskridt inden for AI, herunder Tencent's nye LLM, Hunyan MoE A52B, og den innovative startup Phi Zero, der fokuserer på at udvikle fysisk intelligens. De udforsker også emner som generelle foundation modeller i robotics og balancen mellem specialisering og generalisering i AI-forskning. I denne samtale diskuterer værterne Jonas Høgh Kyhse-Andersen og Kasper Junge emner relateret til robotteknologi, sprogmodeller og den nyeste udvikling inden for audio generation. De reflekterer over, hvordan tilgængeligheden af software har fremmet innovation og hvordan nye værktøjer som Notebook LM kan revolutionere måden, vi interagerer med information på. Samtalen dykker også ned i de teknologiske udfordringer ved at generere naturlig lyd og opretholde koherens i audio-modeller. I denne episode diskuterer værterne Jonas Høgh Kyhse-Andersen og Kasper Junge emner relateret til stemmemodellering, akustik og AI-integration. De dykker ned i, hvordan akustiske og semantiske tokens bruges i AI-modeller, og hvordan disse teknologier kan anvendes i praktiske applikationer som Integuru, et framework til automatisering af API-interaktioner. Samtalen udforsker også, hvordan LLM'er kan forbedres ved at strukturere information og dokumentation.

Chapters

00:00 Introduktion til AI og Tencent
04:57 Tencent's Hunyan MoE A52B Model
10:05 Fysisk Intelligens og Phi Zero
14:53 Generelle Foundation Modeller i Robotics
20:01 Specialisering vs. Generalisering i AI
25:57 Generering af podcasts fra dokumenter
32:07 Teknologier bag audio generation
40:11 Løsninger til langvarig koherens i lyd
51:58 Ugens Repo: Integuru og AI-Integration

Links

https://github.com/Tencent/Tencent-Hunyuan-Large

https://www.physicalintelligence.company/blog/pi0?blog

https://deepmind.google/discover/blog/pushing-the-frontiers-of-audio-generation/

https://research.google/blog/soundstream-an-end-to-end-neural-audio-codec/

AudioLM: https://arxiv.org/abs/2209.03143

W2v-BERT: https://arxiv.org/abs/2108.06209

https://github.com/Integuru-AI/Integuru