Listen

Description

Bonjour et bienvenue dans le podcast de l'IA par l’IA qui vous permet de rester à la page !Aujourd’hui : promesses et limites des LLM, le pari vidéo de DeepMind avec Veo 3, la traduction automatique qui s’invite partout, la génération de mondes 3D chez Meta, et l’influence marketing dopée à l’IA.D’abord, retour sur l’onde de choc lancée en 2022 par OpenAI avec ChatGPT. Les grands modèles de langage s’appuient sur des grappes de serveurs reliés par des réseaux à haute vitesse et équipés de GPU dédiés à l’entraînement et à l’inférence. Ce matériel, bien différent des GPU grand public, alourdit fortement les coûts. Sur le plan technique, la génération reste probabiliste: un même personnage illustré page après page peut changer d’apparence, et les réponses textuelles peuvent “halluciner”. S’ajoute une controverse juridique sur l’utilisation de contenus issus de livres et du web. Malgré ces freins, l’espoir d’automatiser des tâches intellectuelles a déclenché une ruée: des entreprises comme NVIDIA écoulent des milliards de dollars de GPU. Mais la rentabilité demeure incertaine; dans un secteur logiciel en ralentissement, l’IA sert de relais de croissance, au risque d’alimenter une bulle alors que les revenus tangibles peinent à se matérialiser.Pendant ce temps, côté vision, Google DeepMind avance l’idée que les modèles vidéo pourraient devenir des couteaux suisses du visuel. Leur Veo 3 prend une invite textuelle et une image d’entrée pour générer une vidéo de huit secondes en 720p à 24 images par seconde. Sans réentraînement, il traite détection de contours, segmentation, super‑résolution, mais aussi des illusions comme le dalmatien ou les taches de Rorschach. Il simule des notions physiques — flottabilité, résistance de l’air, réflexions, mélange des couleurs — et retire des pièces façon Jenga de manière plausible. En manipulation d’images, il supprime des arrière‑plans, recolore, change le point de vue, parfois en préservant mieux textures et détails que des éditeurs spécialisés, même si des animations indésirées subsistent. DeepMind souligne un raisonnement visuel via “chaîne de cadres”: résolution de labyrinthes, symétries, tri de nombres, extrapolation de règles, voire Sudoku simples. La conception des invites compte: un fond vert aide la segmentation, et un réécrivain d’invites piloté par un LLM est utilisé. Dans certains cas comme le Sudoku, le LLM pourrait faire l’essentiel; et Gemini 2.5 Pro seul ne résout pas les tâches visuelles de base à partir d’images. Veo 3 n’égale pas encore des modèles spécialisés comme SAMv2, mais dépasse nettement Veo 2 en six mois, rejoint Nano Banana sur certaines tâches et prend l’avantage sur des labyrinthes irréguliers. L’ajustement d’instructions et le renforcement par retour humain sont envisagés. DeepMind y voit une étape vers des “modèles du monde”, renforcée par Genie 3, quand d’autres, comme Yann LeCun chez Meta, défendent des approches prédictives type V‑JEPA 2.Sur le terrain du langage, la traduction automatique s’étend avec Google Translate, DeepL ou Whisper, couvrant plus de 100 langues. Grâce aux transformers et à l’apprentissage sur des corpus parallèles, ces systèmes produisent des textes cohérents, y compris dans des langues peu dotées. En entreprise, le travail se déplace vers la relecture et l’adaptation des sorties machine, ce qui exige une littératie critique encore peu enseignée. Des biais persistent: des stéréotypes de genre peuvent être introduits, comme la phrase “The doctor is here” rendue au masculin en turc. OpenAI montre avec GPT‑4o une traduction orale multilingue en temps réel, utile en visioconférence, voyage, éducation et services clients. Mais l’appui sur des corpus dominants, souvent anglo‑centrés, tend à uniformiser et à gommer expressions régionales et registres minoritaires. Dans les affaires internationales, l’ambiguïté contextuelle reste un défi: une erreur peut peser lourd dans une négociation ou un discours officiel.Autre horizon: la création 3D chez Meta. Lors de Meta Connect, Mark Zuckerberg a présenté l’ambition de générer des mondes virtuels via l’IA, avec un futur Meta Horizon Studio. L’équipe XR Tech discute AssetGen, un modèle de base pour produire des assets 3D, sa construction et son entraînement. Les LLM y joueront un rôle de pilotage, avec une cible claire: partir d’une simple invite textuelle pour générer des environnements 3D complets.Et côté marketing d’influence, la plateforme Traackr met l’analyse au centre. Son Brand Vitality Score mesure la vitalité d’une marque. Outils de découverte et de recrutement d’influenceurs, gestion du cycle de vie et des relations, “product seeding” intégré à Shopify pour limiter le gaspillage, suivi centralisé des campagnes, des contenus et des affiliés: tout vise la performance. Mesure du ROI, analyses comparatives et intelligence concurrentielle aident à calibrer les budgets et l’efficacité des dépenses. Nouveauté: des résumés de contenu alimentés par l’IA évaluent instantanément voix, ton, sujets et mentions de marque, réduisant le temps d’audit et le risque de partenariats mal assortis. La plateforme propose aussi études de cas, rapports et guides, ainsi que des événements réunissant des experts.Voilà qui conclut notre épisode d’aujourd’hui. Merci de nous avoir rejoints, et n’oubliez pas de vous abonner pour ne manquer aucune de nos discussions passionnantes. À très bientôt dans L'IA Aujourd’hui !


Hébergé par Acast. Visitez acast.com/privacy pour plus d'informations.