Ksterx - Podcast Details

Shows

ずんだもんのHugging Faceニュース Daily AI Papers Briefing (2026-05-08)【本日の論文】1. Stream-R1: Reliability-Perplexity Aware Reward Distillation for Streaming Video Generation https://huggingface.co/papers/2605.038492. Stream-T1: Test-Time Scaling for Streaming Video Generation https://huggingface.co/papers/2605.044613. RLDX-1 Technical Report https://huggingface.co/papers/2605.032694. OpenSearch-VL: An Open Recipe for Frontier Multimodal Search Agents https://huggingface.co/papers/2605.051855. HERMES++: Toward a Unified Driving World Model for 3D Scene Understanding and Generation https://huggingface.co/papers/2604.28196

2026-05-0803 min

ずんだもんのHugging Faceニュース Daily AI Papers Briefing (2026-05-07)【本日の論文】1. ARIS: Autonomous Research via Adversarial Multi-Agent Collaboration https://huggingface.co/papers/2605.030422. OpenSeeker-v2: Pushing the Limits of Search Agents with Informative and High-Difficulty Trajectories https://huggingface.co/papers/2605.040363. Beyond SFT-to-RL: Pre-alignment via Black-Box On-Policy Distillation for Multimodal RL https://huggingface.co/papers/2604.281234. X2SAM: Any Segmentation in Images and Videos https://huggingface.co/papers/2605.008915. HeavySkill: Heavy Thinking as the Inner Skill in Agentic Harness https://huggingface.co/papers/2605.02396

2026-05-0703 min

ずんだもんのHugging Faceニュース Daily AI Papers Briefing (2026-05-06)【本日の論文】1. MolmoAct2: Action Reasoning Models for Real-world Deployment https://huggingface.co/papers/2605.028812. From Context to Skills: Can Language Models Learn from Context Skillfully? https://huggingface.co/papers/2604.276603. Persistent Visual Memory: Sustaining Perception for Deep Generation in LVLMs https://huggingface.co/papers/2605.008144. Repetition over Diversity: High-Signal Data Filtering for Sample-Efficient German Language Modeling https://huggingface.co/papers/2604.280755. OceanPile: A Large-Scale Multimodal Ocean Corpus for Foundation Models https://huggingface.co/papers/2605.00877

2026-05-0604 min

ずんだもんのHugging Faceニュース Daily AI Papers Briefing (2026-05-05)【本日の論文】1. UniVidX: A Unified Multimodal Framework for Versatile Video Generation via Diffusion Priors https://huggingface.co/papers/2605.006582. Web2BigTable: A Bi-Level Multi-Agent LLM System for Internet-Scale Information Search and Extraction https://huggingface.co/papers/2604.272213. Map2World: Segment Map Conditioned Text to 3D World Generation https://huggingface.co/papers/2605.007814. Prox-E: Fine-Grained 3D Shape Editing via Primitive-Based Abstractions https://huggingface.co/papers/2604.237745. From Skill Text to Skill Structure: The Scheduling-Structural-Logical Representation for Agent Skills https://huggingface.co/papers/2604.24026

2026-05-0503 min

ずんだもんのHugging Faceニュース Daily AI Papers Briefing (2026-05-04)【本日の論文】1. Heterogeneous Scientific Foundation Model Collaboration https://huggingface.co/papers/2604.273512. Visual Generation in the New Era: An Evolution from Atomic Mapping to Agentic World Modeling https://huggingface.co/papers/2604.281853. Co-Evolving Policy Distillation https://huggingface.co/papers/2604.270834. Intern-Atlas: A Methodological Evolution Graph as Research Infrastructure for AI Scientists https://huggingface.co/papers/2604.281585. ExoActor: Exocentric Video Generation as Generalizable Interactive Humanoid Control https://huggingface.co/papers/2604.27711

2026-05-0403 min

ずんだもんのHugging Faceニュース Daily AI Papers Briefing (2026-05-03)【本日の論文】1. Heterogeneous Scientific Foundation Model Collaboration https://huggingface.co/papers/2604.273512. Visual Generation in the New Era: An Evolution from Atomic Mapping to Agentic World Modeling https://huggingface.co/papers/2604.281853. Co-Evolving Policy Distillation https://huggingface.co/papers/2604.270834. ExoActor: Exocentric Video Generation as Generalizable Interactive Humanoid Control https://huggingface.co/papers/2604.277115. Efficient Training on Multiple Consumer GPUs with RoundPipe https://huggingface.co/papers/2604.27085

2026-05-0303 min

ずんだもんのHugging Faceニュース Daily AI Papers Briefing (2026-05-02)【本日の論文】1. Heterogeneous Scientific Foundation Model Collaboration https://huggingface.co/papers/2604.273512. Visual Generation in the New Era: An Evolution from Atomic Mapping to Agentic World Modeling https://huggingface.co/papers/2604.281853. Co-Evolving Policy Distillation https://huggingface.co/papers/2604.270834. ExoActor: Exocentric Video Generation as Generalizable Interactive Humanoid Control https://huggingface.co/papers/2604.277115. Efficient Training on Multiple Consumer GPUs with RoundPipe https://huggingface.co/papers/2604.27085

2026-05-0204 min

ずんだもんのHugging Faceニュース Daily AI Papers Briefing (2026-05-01)【本日の論文】1. GLM-5V-Turbo: Toward a Native Foundation Model for Multimodal Agents https://huggingface.co/papers/2604.267522. Large Language Models Explore by Latent Distilling https://huggingface.co/papers/2604.249273. RADIO-ViPE: Online Tightly Coupled Multi-Modal Fusion for Open-Vocabulary Semantic SLAM in Dynamic Environments https://huggingface.co/papers/2604.260674. ClawGym: A Scalable Framework for Building Effective Claw Agents https://huggingface.co/papers/2604.269045. Turning the TIDE: Cross-Architecture Distillation for Diffusion Large Language Models https://huggingface.co/papers/2604.26951

2026-05-0103 min

ずんだもんのHugging Faceニュース Daily AI Papers Briefing (2026-04-30)【本日の論文】1. Recursive Multi-Agent Systems https://huggingface.co/papers/2604.259172. Programming with Data: Test-Driven Data Engineering for Self-Improving LLMs from Raw Corpora https://huggingface.co/papers/2604.248193. DV-World: Benchmarking Data Visualization Agents in Real-World Scenarios https://huggingface.co/papers/2604.259144. AutoResearchBench: Benchmarking AI Agents on Complex Scientific Literature Discovery https://huggingface.co/papers/2604.252565. Meta-CoT: Enhancing Granularity and Generalization in Image Editing https://huggingface.co/papers/2604.24625

2026-04-3003 min

ずんだもんのHugging Faceニュース Daily AI Papers Briefing (2026-04-29)【本日の論文】1. From Skills to Talent: Organising Heterogeneous Agents as a Real-World Company https://huggingface.co/papers/2604.224462. World-R1: Reinforcing 3D Constraints for Text-to-Video Generation https://huggingface.co/papers/2604.247643. ReVSI: Rebuilding Visual Spatial Intelligence Evaluation for Accurate Assessment of VLM 3D Reasoning https://huggingface.co/papers/2604.243004. Tuna-2: Pixel Embeddings Beat Vision Encoders for Multimodal Understanding and Generation https://huggingface.co/papers/2604.247635. Vision-Language-Action Safety: Threats, Challenges, Evaluations, and Mechanisms https://huggingface.co/papers/2604.23775

2026-04-2903 min

ずんだもんのHugging Faceニュース Daily AI Papers Briefing (2026-04-28)【本日の論文】1. Agentic World Modeling: Foundations, Capabilities, Laws, and Beyond https://huggingface.co/papers/2604.227482. Video Analysis and Generation via a Semantic Progress Function https://huggingface.co/papers/2604.225543. DiffNR: Diffusion-Enhanced Neural Representation Optimization for Sparse-View 3D Tomographic Reconstruction https://huggingface.co/papers/2604.215184. LLM Safety From Within: Detecting Harmful Content with Internal Representations https://huggingface.co/papers/2604.185195. FlowAnchor: Stabilizing the Editing Signal for Inversion-Free Video Editing https://huggingface.co/papers/2604.22586

2026-04-2805 min

ずんだもんのHugging Faceニュース Daily AI Papers Briefing (2026-04-27)【本日の論文】1. LLaTiSA: Towards Difficulty-Stratified Time Series Reasoning from Visual Perception to Semantics https://huggingface.co/papers/2604.172952. WorldMark: A Unified Benchmark Suite for Interactive Video World Models https://huggingface.co/papers/2604.216863. UniT: Toward a Unified Physical Language for Human-to-Humanoid Policy Learning and World Modeling https://huggingface.co/papers/2604.197344. StyleID: A Perception-Aware Dataset and Metric for Stylization-Agnostic Facial Identity Recognition https://huggingface.co/papers/2604.216895. Co-Evolving LLM Decision and Skill Bank Agents for Long-Horizon Tasks https://huggingface.co/papers/2604.20987

2026-04-2703 min

ずんだもんのHugging Faceニュース Daily AI Papers Briefing (2026-04-26)【本日の論文】1. LLaTiSA: Towards Difficulty-Stratified Time Series Reasoning from Visual Perception to Semantics https://huggingface.co/papers/2604.172952. WorldMark: A Unified Benchmark Suite for Interactive Video World Models https://huggingface.co/papers/2604.216863. UniT: Toward a Unified Physical Language for Human-to-Humanoid Policy Learning and World Modeling https://huggingface.co/papers/2604.197344. StyleID: A Perception-Aware Dataset and Metric for Stylization-Agnostic Facial Identity Recognition https://huggingface.co/papers/2604.216895. Co-Evolving LLM Decision and Skill Bank Agents for Long-Horizon Tasks https://huggingface.co/papers/2604.20987

2026-04-2605 min

ずんだもんのHugging Faceニュース Daily AI Papers Briefing (2026-04-25)【本日の論文】1. LLaTiSA: Towards Difficulty-Stratified Time Series Reasoning from Visual Perception to Semantics https://huggingface.co/papers/2604.172952. WorldMark: A Unified Benchmark Suite for Interactive Video World Models https://huggingface.co/papers/2604.216863. UniT: Toward a Unified Physical Language for Human-to-Humanoid Policy Learning and World Modeling https://huggingface.co/papers/2604.197344. StyleID: A Perception-Aware Dataset and Metric for Stylization-Agnostic Facial Identity Recognition https://huggingface.co/papers/2604.216895. Co-Evolving LLM Decision and Skill Bank Agents for Long-Horizon Tasks https://huggingface.co/papers/2604.20987

2026-04-2504 min

ずんだもんのHugging Faceニュース Daily AI Papers Briefing (2026-04-24)【本日の論文】1. LLaDA2.0-Uni: Unifying Multimodal Understanding and Generation with Diffusion Large Language Model https://huggingface.co/papers/2604.207962. Near-Future Policy Optimization https://huggingface.co/papers/2604.207333. DR-Venus: Towards Frontier Edge-Scale Deep Research Agents with Only 10K Open Data https://huggingface.co/papers/2604.198594. OpenMobile: Building Open Mobile Agents with Task and Trajectory Synthesis https://huggingface.co/papers/2604.150935. DeVI: Physics-based Dexterous Human-Object Interaction via Synthetic Video Imitation https://huggingface.co/papers/2604.20841

2026-04-2403 min

ずんだもんのHugging Faceニュース Daily AI Papers Briefing (2026-04-23)【本日の論文】1. Tstars-Tryon 1.0: Robust and Realistic Virtual Try-On for Diverse Fashion Items https://huggingface.co/papers/2604.197482. CoInteract: Physically-Consistent Human-Object Interaction Video Synthesis via Spatially-Structured Co-Generation https://huggingface.co/papers/2604.196363. AgentSPEX: An Agent SPecification and EXecution Language https://huggingface.co/papers/2604.133464. AnyRecon: Arbitrary-View 3D Reconstruction with Video Diffusion Model https://huggingface.co/papers/2604.197475. TEMPO: Scaling Test-time Training for Large Reasoning Models https://huggingface.co/papers/2604.19295

2026-04-2303 min

ずんだもんのHugging Faceニュース Daily AI Papers Briefing (2026-04-22)【本日の論文】1. Extending One-Step Image Generation from Class Labels to Text via Discriminative Text Representation https://huggingface.co/papers/2604.181682. OneVL: One-Step Latent Reasoning and Planning with Vision-Language Explanation https://huggingface.co/papers/2604.184863. Agent-World: Scaling Real-World Environment Synthesis for Evolving General Agent Intelligence https://huggingface.co/papers/2604.182924. OpenGame: Open Agentic Coding for Games https://huggingface.co/papers/2604.183945. MultiWorld: Scalable Multi-Agent Multi-View Video World Models https://huggingface.co/papers/2604.18564

2026-04-2204 min

ずんだもんのHugging Faceニュース Daily AI Papers Briefing (2026-04-21)【本日の論文】1. Elucidating the SNR-t Bias of Diffusion Probabilistic Models https://huggingface.co/papers/2604.160442. Maximal Brain Damage Without Data or Optimization: Disrupting Neural Networks via Sign-Bit Flips https://huggingface.co/papers/2502.074083. PersonaVLM: Long-Term Personalized Multimodal LLMs https://huggingface.co/papers/2604.130744. Web Retrieval-Aware Chunking (W-RAC) for Efficient and Cost-Effective Retrieval-Augmented Generation Systems https://huggingface.co/papers/2604.049365. Qwen3.5-Omni Technical Report https://huggingface.co/papers/2604.15804

2026-04-2103 min

ずんだもんのHugging Faceニュース Daily AI Papers Briefing (2026-04-20)【本日の論文】1. HY-World 2.0: A Multi-Modal World Model for Reconstructing, Generating, and Simulating 3D Worlds https://huggingface.co/papers/2604.142682. DR^{3}-Eval: Towards Realistic and Reproducible Deep Research Evaluation https://huggingface.co/papers/2604.146833. RAD-2: Scaling Reinforcement Learning in a Generator-Discriminator Framework https://huggingface.co/papers/2604.153084. How to Fine-Tune a Reasoning Model? A Teacher-Student Cooperation Framework to Synthesize Student-Consistent SFT Data https://huggingface.co/papers/2604.141645. GlobalSplat: Efficient Feed-Forward 3D Gaussian Splatting via Global Scene Tokens https://huggingface.co/papers/2604.15284

2026-04-2005 min

ずんだもんのHugging Faceニュース Daily AI Papers Briefing (2026-04-19)【本日の論文】1. HY-World 2.0: A Multi-Modal World Model for Reconstructing, Generating, and Simulating 3D Worlds https://huggingface.co/papers/2604.142682. DR^{3}-Eval: Towards Realistic and Reproducible Deep Research Evaluation https://huggingface.co/papers/2604.146833. RAD-2: Scaling Reinforcement Learning in a Generator-Discriminator Framework https://huggingface.co/papers/2604.153084. How to Fine-Tune a Reasoning Model? A Teacher-Student Cooperation Framework to Synthesize Student-Consistent SFT Data https://huggingface.co/papers/2604.141645. GlobalSplat: Efficient Feed-Forward 3D Gaussian Splatting via Global Scene Tokens https://huggingface.co/papers/2604.15284

2026-04-1903 min

ずんだもんのHugging Faceニュース Daily AI Papers Briefing (2026-04-18)【本日の論文】1. HY-World 2.0: A Multi-Modal World Model for Reconstructing, Generating, and Simulating 3D Worlds https://huggingface.co/papers/2604.142682. RAD-2: Scaling Reinforcement Learning in a Generator-Discriminator Framework https://huggingface.co/papers/2604.153083. DR^{3}-Eval: Towards Realistic and Reproducible Deep Research Evaluation https://huggingface.co/papers/2604.146834. How to Fine-Tune a Reasoning Model? A Teacher-Student Cooperation Framework to Synthesize Student-Consistent SFT Data https://huggingface.co/papers/2604.141645. ASGuard: Activation-Scaling Guard to Mitigate Targeted Jailbreaking Attack https://huggingface.co/papers/2509.25843

2026-04-1803 min

ずんだもんのHugging Faceニュース Daily AI Papers Briefing (2026-04-17)【本日の論文】1. Seedance 2.0: Advancing Video Generation for World Complexity https://huggingface.co/papers/2604.141482. GameWorld: Towards Standardized and Verifiable Evaluation of Multimodal Game Agents https://huggingface.co/papers/2604.074293. RationalRewards: Reasoning Rewards Scale Visual Generation Both Training and Test Time https://huggingface.co/papers/2604.116264. SpatialEvo: Self-Evolving Spatial Intelligence via Deterministic Geometric Environments https://huggingface.co/papers/2604.141445. OccuBench: Evaluating AI Agents on Real-World Professional Tasks via Language World Models https://huggingface.co/papers/2604.10866

2026-04-1703 min

ずんだもんのHugging Faceニュース Daily AI Papers Briefing (2026-04-16)【本日の論文】1. ClawGUI: A Unified Framework for Training, Evaluating, and Deploying GUI Agents https://huggingface.co/papers/2604.117842. KnowRL: Boosting LLM Reasoning via Reinforcement Learning with Minimal-Sufficient Knowledge Guidance https://huggingface.co/papers/2604.126273. Rethinking On-Policy Distillation of Large Language Models: Phenomenology, Mechanism, and Recipe https://huggingface.co/papers/2604.130164. Turing Test on Screen: A Benchmark for Mobile GUI Agent Humanization https://huggingface.co/papers/2604.095745. SPPO: Sequence-Level PPO for Long-Horizon Reasoning Tasks https://huggingface.co/papers/2604.08865

2026-04-1604 min

ずんだもんのHugging Faceニュース Daily AI Papers Briefing (2026-04-15)【本日の論文】1. QuanBench+: A Unified Multi-Framework Benchmark for LLM-Based Quantum Code Generation https://huggingface.co/papers/2604.085702. The Past Is Not Past: Memory-Enhanced Dynamic Reward Shaping https://huggingface.co/papers/2604.112973. OmniShow: Unifying Multimodal Conditions for Human-Object Interaction Video Generation https://huggingface.co/papers/2604.118044. Attention Sink in Transformers: A Survey on Utilization, Interpretation, and Mitigation https://huggingface.co/papers/2604.100985. Strips as Tokens: Artist Mesh Generation with Native UV Segmentation https://huggingface.co/papers/2604.09132

2026-04-1503 min

ずんだもんのHugging Faceニュース Daily AI Papers Briefing (2026-04-14)【本日の論文】1. WildDet3D: Scaling Promptable 3D Detection in the Wild https://huggingface.co/papers/2604.086262. FORGE:Fine-grained Multimodal Evaluation for Manufacturing Scenarios https://huggingface.co/papers/2604.074133. RefineAnything: Multimodal Region-Specific Refinement for Perfect Local Details https://huggingface.co/papers/2604.068704. EXAONE 4.5 Technical Report https://huggingface.co/papers/2604.086445. Matrix-Game 3.0: Real-Time and Streaming Interactive World Model with Long-Horizon Memory https://huggingface.co/papers/2604.08995

2026-04-1404 min

ずんだもんのHugging Faceニュース Daily AI Papers Briefing (2026-04-13)【本日の論文】1. Rethinking Generalization in Reasoning SFT: A Conditional Analysis on Optimization, Data, and Model Capability https://huggingface.co/papers/2604.066282. SkillClaw: Let Skills Evolve Collectively with Agentic Evolver https://huggingface.co/papers/2604.083773. ClawBench: Can AI Agents Complete Everyday Online Tasks? https://huggingface.co/papers/2604.085234. HY-Embodied-0.5: Embodied Foundation Models for Real-World Agents https://huggingface.co/papers/2604.074305. When Numbers Speak: Aligning Textual Numerals and Visual Instances in Text-to-Video Diffusion Models https://huggingface.co/papers/2604.08546

2026-04-1303 min

ずんだもんのHugging Faceニュース Daily AI Papers Briefing (2026-04-12)【本日の論文】1. SkillClaw: Let Skills Evolve Collectively with Agentic Evolver https://huggingface.co/papers/2604.083772. Rethinking Generalization in Reasoning SFT: A Conditional Analysis on Optimization, Data, and Model Capability https://huggingface.co/papers/2604.066283. HY-Embodied-0.5: Embodied Foundation Models for Real-World Agents https://huggingface.co/papers/2604.074304. When Numbers Speak: Aligning Textual Numerals and Visual Instances in Text-to-Video Diffusion Models https://huggingface.co/papers/2604.085465. ClawBench: Can AI Agents Complete Everyday Online Tasks? https://huggingface.co/papers/2604.08523

2026-04-1204 min

ずんだもんのHugging Faceニュース Daily AI Papers Briefing (2026-04-11)【本日の論文】1. Rethinking Generalization in Reasoning SFT: A Conditional Analysis on Optimization, Data, and Model Capability https://huggingface.co/papers/2604.066282. SkillClaw: Let Skills Evolve Collectively with Agentic Evolver https://huggingface.co/papers/2604.083773. HY-Embodied-0.5: Embodied Foundation Models for Real-World Agents https://huggingface.co/papers/2604.074304. When Numbers Speak: Aligning Textual Numerals and Visual Instances in Text-to-Video Diffusion Models https://huggingface.co/papers/2604.085465. ClawBench: Can AI Agents Complete Everyday Online Tasks? https://huggingface.co/papers/2604.08523

2026-04-1102 min

ずんだもんのHugging Faceニュース Daily AI Papers Briefing (2026-04-10)【本日の論文】1. Think in Strokes, Not Pixels: Process-Driven Image Generation via Interleaved Reasoning https://huggingface.co/papers/2604.047462. RAGEN-2: Reasoning Collapse in Agentic RL https://huggingface.co/papers/2604.062683. MARS: Enabling Autoregressive Models Multi-Token Generation https://huggingface.co/papers/2604.070234. Combee: Scaling Prompt Learning for Self-Improving Language Model Agents https://huggingface.co/papers/2604.042475. SEVerA: Verified Synthesis of Self-Evolving Agents https://huggingface.co/papers/2603.25111

2026-04-1003 min

ずんだもんのHugging Faceニュース Daily AI Papers Briefing (2026-04-09)【本日の論文】1. Video-MME-v2: Towards the Next Stage in Benchmarks for Comprehensive Video Understanding https://huggingface.co/papers/2604.050152. Claw-Eval: Toward Trustworthy Evaluation of Autonomous Agents https://huggingface.co/papers/2604.061323. Learning to Retrieve from Agent Trajectories https://huggingface.co/papers/2604.049494. ACES: Who Tests the Tests? Leave-One-Out AUC Consistency for Code Generation https://huggingface.co/papers/2604.039225. GBQA: A Game Benchmark for Evaluating LLMs as Quality Assurance Engineers https://huggingface.co/papers/2604.02648

2026-04-0904 min

ずんだもんのHugging Faceニュース Daily AI Papers Briefing (2026-04-08)【本日の論文】1. OpenWorldLib: A Unified Codebase and Definition of Advanced World Models https://huggingface.co/papers/2604.047072. MinerU2.5-Pro: Pushing the Limits of Data-Centric Document Parsing at Scale https://huggingface.co/papers/2604.047713. LIBERO-Para: A Diagnostic Benchmark and Metrics for Paraphrase Robustness in VLA Models https://huggingface.co/papers/2603.283014. TriAttention: Efficient Long Reasoning with Trigonometric KV Compression https://huggingface.co/papers/2604.049215. Adam's Law: Textual Frequency Law on Large Language Models https://huggingface.co/papers/2604.02176

2026-04-0803 min

ずんだもんのHugging Faceニュース Daily AI Papers Briefing (2026-04-07)【本日の論文】1. Self-Distilled RLVR https://huggingface.co/papers/2604.031282. A Simple Baseline for Streaming Video Understanding https://huggingface.co/papers/2604.023173. Token Warping Helps MLLMs Look from Nearby Viewpoints https://huggingface.co/papers/2604.028704. Agentic-MME: What Agentic Capability Really Brings to Multimodal Intelligence? https://huggingface.co/papers/2604.030165. Test-Time Scaling Makes Overtraining Compute-Optimal https://huggingface.co/papers/2604.01411

2026-04-0705 min

ずんだもんのHugging Faceニュース Daily AI Papers Briefing (2026-04-06)【本日の論文】1. DataFlex: A Unified Framework for Data-Centric Dynamic Training of Large Language Models https://huggingface.co/papers/2603.261642. The Latent Space: Foundation, Evolution, Mechanism, Ability, and Outlook https://huggingface.co/papers/2604.020293. Generative World Renderer https://huggingface.co/papers/2604.023294. SKILL0: In-Context Agentic Reinforcement Learning for Skill Internalization https://huggingface.co/papers/2604.022685. Steerable Visual Representations https://huggingface.co/papers/2604.02327

2026-04-0604 min

ずんだもんのHugging Faceニュース Daily AI Papers Briefing (2026-04-05)【本日の論文】1. DataFlex: A Unified Framework for Data-Centric Dynamic Training of Large Language Models https://huggingface.co/papers/2603.261642. The Latent Space: Foundation, Evolution, Mechanism, Ability, and Outlook https://huggingface.co/papers/2604.020293. Generative World Renderer https://huggingface.co/papers/2604.023294. SKILL0: In-Context Agentic Reinforcement Learning for Skill Internalization https://huggingface.co/papers/2604.022685. Steerable Visual Representations https://huggingface.co/papers/2604.02327

2026-04-0503 min

ずんだもんのHugging Faceニュース Daily AI Papers Briefing (2026-04-04)【本日の論文】1. DataFlex: A Unified Framework for Data-Centric Dynamic Training of Large Language Models https://huggingface.co/papers/2603.261642. The Latent Space: Foundation, Evolution, Mechanism, Ability, and Outlook https://huggingface.co/papers/2604.020293. Generative World Renderer https://huggingface.co/papers/2604.023294. SKILL0: In-Context Agentic Reinforcement Learning for Skill Internalization https://huggingface.co/papers/2604.022685. EgoSim: Egocentric World Simulator for Embodied Interaction Generation https://huggingface.co/papers/2604.01001

2026-04-0403 min

ずんだもんのHugging Faceニュース Daily AI Papers Briefing (2026-04-03)【本日の論文】1. ClawKeeper: Comprehensive Safety Protection for OpenClaw Agents Through Skills, Plugins, and Watchers https://huggingface.co/papers/2603.244142. Terminal Agents Suffice for Enterprise Automation https://huggingface.co/papers/2604.000733. MiroEval: Benchmarking Multimodal Deep Research Agents in Process and Outcome https://huggingface.co/papers/2603.284074. ViGoR-Bench: How Far Are Visual Generative Models From Zero-Shot Visual Reasoners? https://huggingface.co/papers/2603.258235. Vision2Web: A Hierarchical Benchmark for Visual Website Development with Agent Verification https://huggingface.co/papers/2603.26648

2026-04-0305 min

ずんだもんのHugging Faceニュース Daily AI Papers Briefing (2026-04-02)【本日の論文】1. FIPO: Eliciting Deep Reasoning with Future-KL Influenced Policy Optimization https://huggingface.co/papers/2603.198352. CARLA-Air: Fly Drones Inside a CARLA World -- A Unified Infrastructure for Air-Ground Embodied Intelligence https://huggingface.co/papers/2603.280323. LongCat-Next: Lexicalizing Modalities as Discrete Tokens https://huggingface.co/papers/2603.275384. Lingshu-Cell: A generative cellular world model for transcriptome modeling toward virtual cells https://huggingface.co/papers/2603.252405. GEMS: Agent-Native Multimodal Generation with Memory and Skills https://huggingface.co/papers/2603.28088

2026-04-0204 min

ずんだもんのHugging Faceニュース Daily AI Papers Briefing (2026-04-01)【本日の論文】1. TAPS: Task Aware Proposal Distributions for Speculative Sampling https://huggingface.co/papers/2603.270272. Towards a Medical AI Scientist https://huggingface.co/papers/2603.285893. Gen-Searcher: Reinforcing Agentic Search for Image Generation https://huggingface.co/papers/2603.287674. Emergent Social Intelligence Risks in Generative Multi-Agent Systems https://huggingface.co/papers/2603.277715. EpochX: Building the Infrastructure for an Emergent Agent Civilization https://huggingface.co/papers/2603.27304

2026-04-0103 min

ずんだもんのHugging Faceニュース Daily AI Papers Briefing (2026-03-31)【本日の論文】1. Out of Sight but Not Out of Mind: Hybrid Memory for Dynamic Video World Models https://huggingface.co/papers/2603.257162. ShotStream: Streaming Multi-Shot Video Generation for Interactive Storytelling https://huggingface.co/papers/2603.257463. PackForcing: Short Video Training Suffices for Long Video Sampling and Long Context Inference https://huggingface.co/papers/2603.257304. Trace2Skill: Distill Trajectory-Local Lessons into Transferable Agent Skills https://huggingface.co/papers/2603.251585. MedOpenClaw: Auditable Medical Imaging Agents Reasoning over Uncurated Full Studies https://huggingface.co/papers/2603.24649

2026-03-3103 min

ずんだもんのHugging Faceニュース Daily AI Papers Briefing (2026-03-30)【本日の論文】1. PixelSmile: Toward Fine-Grained Facial Expression Editing https://huggingface.co/papers/2603.257282. Intern-S1-Pro: Scientific Multimodal Foundation Model at Trillion Scale https://huggingface.co/papers/2603.250403. Calibri: Enhancing Diffusion Transformers via Parameter-Efficient Calibration https://huggingface.co/papers/2603.248004. RealRestorer: Towards Generalizable Real-World Image Restoration with Large-Scale Image Editing Models https://huggingface.co/papers/2603.255025. Voxtral TTS https://huggingface.co/papers/2603.25551

2026-03-3004 min

ずんだもんのHugging Faceニュース Daily AI Papers Briefing (2026-03-29)【本日の論文】1. PixelSmile: Toward Fine-Grained Facial Expression Editing https://huggingface.co/papers/2603.257282. Intern-S1-Pro: Scientific Multimodal Foundation Model at Trillion Scale https://huggingface.co/papers/2603.250403. Calibri: Enhancing Diffusion Transformers via Parameter-Efficient Calibration https://huggingface.co/papers/2603.248004. RealRestorer: Towards Generalizable Real-World Image Restoration with Large-Scale Image Editing Models https://huggingface.co/papers/2603.255025. Voxtral TTS https://huggingface.co/papers/2603.25551

2026-03-2803 min

ずんだもんのHugging Faceニュース Daily AI Papers Briefing (2026-03-28)【本日の論文】1. PixelSmile: Toward Fine-Grained Facial Expression Editing https://huggingface.co/papers/2603.257282. Intern-S1-Pro: Scientific Multimodal Foundation Model at Trillion Scale https://huggingface.co/papers/2603.250403. RealRestorer: Towards Generalizable Real-World Image Restoration with Large-Scale Image Editing Models https://huggingface.co/papers/2603.255024. Calibri: Enhancing Diffusion Transformers via Parameter-Efficient Calibration https://huggingface.co/papers/2603.248005. MACRO: Advancing Multi-Reference Image Generation with Structured Long-Context Data https://huggingface.co/papers/2603.25319

2026-03-2703 min

ずんだもんのHugging Faceニュース Daily AI Papers Briefing (2026-03-27)【本日の論文】1. CUA-Suite: Massive Human-annotated Video Demonstrations for Computer-Use Agents https://huggingface.co/papers/2603.244402. EVA: Efficient Reinforcement Learning for End-to-End Video Agent https://huggingface.co/papers/2603.229183. UI-Voyager: A Self-Evolving GUI Agent Learning via Failed Experience https://huggingface.co/papers/2603.245334. T-MAP: Red-Teaming LLM Agents with Trajectory-aware Evolutionary Search https://huggingface.co/papers/2603.223415. Why Does Self-Distillation (Sometimes) Degrade the Reasoning Capability of LLMs? https://huggingface.co/papers/2603.24472

2026-03-2603 min

ずんだもんのHugging Faceニュース Daily AI Papers Briefing (2026-03-26)【本日の論文】1. MinerU-Diffusion: Rethinking Document OCR as Inverse Rendering via Diffusion Decoding https://huggingface.co/papers/2603.224582. WildWorld: A Large-Scale Dataset for Dynamic World Modeling with Actions and Explicit State toward Generative ARPG https://huggingface.co/papers/2603.234973. SpecEyes: Accelerating Agentic Multimodal LLMs via Speculative Perception and Planning https://huggingface.co/papers/2603.234834. From Static Templates to Dynamic Runtime Graphs: A Survey of Workflow Optimization for LLM Agents https://huggingface.co/papers/2603.223865. PEARL: Personalized Streaming Video Understanding Model https://huggingface.co/papers/2603.20422

2026-03-2502 min

ずんだもんのHugging Faceニュース Daily AI Papers Briefing (2026-03-25)【本日の論文】1. Omni-WorldBench: Towards a Comprehensive Interaction-Centric Evaluation for World Models https://huggingface.co/papers/2603.222122. Speed by Simplicity: A Single-Stream Architecture for Fast Audio-Video Generative Foundation Model https://huggingface.co/papers/2603.219863. LongCat-Flash-Prover: Advancing Native Formal Reasoning via Agentic Tool-Integrated Reinforcement Learning https://huggingface.co/papers/2603.210654. Look Where It Matters: High-Resolution Crops Retrieval for Efficient VLMs https://huggingface.co/papers/2603.169325. OpenResearcher: A Fully Open Pipeline for Long-Horizon Deep Research Trajectory Synthesis https://huggingface.co/papers/2603.20278

2026-03-2403 min

ずんだもんのHugging Faceニュース Daily AI Papers Briefing (2026-03-24)【本日の論文】1. HopChain: Multi-Hop Data Synthesis for Generalizable Vision-Language Reasoning https://huggingface.co/papers/2603.170242. Astrolabe: Steering Forward-Process Reinforcement Learning for Distilled Autoregressive Video Models https://huggingface.co/papers/2603.170513. TerraScope: Pixel-Grounded Visual Reasoning for Earth Observation https://huggingface.co/papers/2603.190394. ProactiveBench: Benchmarking Proactiveness in Multimodal Large Language Models https://huggingface.co/papers/2603.194665. FlowScene: Style-Consistent Indoor Scene Generation with Multimodal Graph Rectified Flow https://huggingface.co/papers/2603.19598

2026-03-2303 min

ずんだもんのHugging Faceニュース Daily AI Papers Briefing (2026-03-23)【本日の論文】1. Generation Models Know Space: Unleashing Implicit 3D Priors for Scene Understanding https://huggingface.co/papers/2603.192352. SAMA: Factorized Semantic Anchoring and Motion Alignment for Instruction-Guided Video Editing https://huggingface.co/papers/2603.192283. 3DreamBooth: High-Fidelity 3D Subject-Driven Video Generation Model https://huggingface.co/papers/2603.185244. FASTER: Rethinking Real-Time Flow VLAs https://huggingface.co/papers/2603.191995. Nemotron-Cascade 2: Post-Training LLMs with Cascade RL and Multi-Domain On-Policy Distillation https://huggingface.co/papers/2603.19220

2026-03-2203 min

ずんだもんのHugging Faceニュース Daily AI Papers Briefing (2026-03-22)【本日の論文】1. Generation Models Know Space: Unleashing Implicit 3D Priors for Scene Understanding https://huggingface.co/papers/2603.192352. SAMA: Factorized Semantic Anchoring and Motion Alignment for Instruction-Guided Video Editing https://huggingface.co/papers/2603.192283. 3DreamBooth: High-Fidelity 3D Subject-Driven Video Generation Model https://huggingface.co/papers/2603.185244. FASTER: Rethinking Real-Time Flow VLAs https://huggingface.co/papers/2603.191995. Nemotron-Cascade 2: Post-Training LLMs with Cascade RL and Multi-Domain On-Policy Distillation https://huggingface.co/papers/2603.19220

2026-03-2104 min

ずんだもんのHugging Faceニュース Daily AI Papers Briefing (2026-03-21)【本日の論文】1. Generation Models Know Space: Unleashing Implicit 3D Priors for Scene Understanding https://huggingface.co/papers/2603.192352. SAMA: Factorized Semantic Anchoring and Motion Alignment for Instruction-Guided Video Editing https://huggingface.co/papers/2603.192283. FASTER: Rethinking Real-Time Flow VLAs https://huggingface.co/papers/2603.191994. 3DreamBooth: High-Fidelity 3D Subject-Driven Video Generation Model https://huggingface.co/papers/2603.185245. Bridging Semantic and Kinematic Conditions with Diffusion-based Discrete Motion Tokenizer https://huggingface.co/papers/2603.19227

2026-03-2006 min

ずんだもんのHugging Faceニュース Daily AI Papers Briefing (2026-03-20)【本日の論文】1. MetaClaw: Just Talk -- An Agent That Meta-Learns and Evolves in the Wild https://huggingface.co/papers/2603.171872. Video-CoE: Reinforcing Video Event Prediction via Chain of Events https://huggingface.co/papers/2603.149353. MosaicMem: Hybrid Spatial Memory for Controllable Video World Models https://huggingface.co/papers/2603.171174. Alignment Makes Language Models Normative, Not Descriptive https://huggingface.co/papers/2603.172185. Complementary Reinforcement Learning https://huggingface.co/papers/2603.17621

2026-03-1903 min

ずんだもんのHugging Faceニュース Daily AI Papers Briefing (2026-03-19)【本日の論文】1. InCoder-32B: Code Foundation Model for Industrial Scenarios https://huggingface.co/papers/2603.167902. MiroThinker-1.7 & H1: Towards Heavy-Duty Research Agents via Verification https://huggingface.co/papers/2603.157263. Qianfan-OCR: A Unified End-to-End Model for Document Intelligence https://huggingface.co/papers/2603.133984. Kinema4D: Kinematic 4D World Modeling for Spatiotemporal Embodied Simulation https://huggingface.co/papers/2603.166695. Demystifing Video Reasoning https://huggingface.co/papers/2603.16870

2026-03-1803 min

ずんだもんのHugging Faceニュース Daily AI Papers Briefing (2026-03-18)【本日の論文】1. AI Can Learn Scientific Taste https://huggingface.co/papers/2603.144732. OpenSeeker: Democratizing Frontier Search Agents by Fully Open-Sourcing Training Data https://huggingface.co/papers/2603.155943. EnterpriseOps-Gym: Environments and Evaluations for Stateful Agentic Planning and Tool Use in Enterprise Settings https://huggingface.co/papers/2603.135944. HSImul3R: Physics-in-the-Loop Reconstruction of Simulation-Ready Human-Scene Interactions https://huggingface.co/papers/2603.156125. Grounding World Simulation Models in a Real-World Metropolis https://huggingface.co/papers/2603.15583

2026-03-1703 min

ずんだもんのHugging Faceニュース Daily AI Papers Briefing (2026-03-17)【本日の論文】1. LMEB: Long-horizon Memory Embedding Benchmark https://huggingface.co/papers/2603.125722. Cheers: Decoupling Patch Details from Semantic Representations Enables Unified Multimodal Comprehension and Generation https://huggingface.co/papers/2603.127933. Can Vision-Language Models Solve the Shell Game? https://huggingface.co/papers/2603.084364. daVinci-Env: Open SWE Environment Synthesis at Scale https://huggingface.co/papers/2603.130235. OmniForcing: Unleashing Real-time Joint Audio-Visual Generation https://huggingface.co/papers/2603.11647

2026-03-1603 min

ずんだもんのHugging Faceニュース Daily AI Papers Briefing (2026-03-16)【本日の論文】1. Spatial-TTT: Streaming Visual-based Spatial Intelligence with Test-Time Training https://huggingface.co/papers/2603.122552. Strategic Navigation or Stochastic Search? How Agents and Humans Reason Over Document Collections https://huggingface.co/papers/2603.121803. IndexCache: Accelerating Sparse Attention via Cross-Layer Index Reuse https://huggingface.co/papers/2603.122014. Video-Based Reward Modeling for Computer-Use Agents https://huggingface.co/papers/2603.101785. ShotVerse: Advancing Cinematic Camera Control for Text-Driven Multi-Shot Video Creation https://huggingface.co/papers/2603.11421

2026-03-1504 min

ずんだもんのHugging Faceニュース Daily AI Papers Briefing (2026-03-15)【本日の論文】1. Spatial-TTT: Streaming Visual-based Spatial Intelligence with Test-Time Training https://huggingface.co/papers/2603.122552. Strategic Navigation or Stochastic Search? How Agents and Humans Reason Over Document Collections https://huggingface.co/papers/2603.121803. IndexCache: Accelerating Sparse Attention via Cross-Layer Index Reuse https://huggingface.co/papers/2603.122014. Video-Based Reward Modeling for Computer-Use Agents https://huggingface.co/papers/2603.101785. ShotVerse: Advancing Cinematic Camera Control for Text-Driven Multi-Shot Video Creation https://huggingface.co/papers/2603.11421

2026-03-1404 min

ずんだもんのHugging Faceニュース Daily AI Papers Briefing (2026-03-14)【本日の論文】1. Spatial-TTT: Streaming Visual-based Spatial Intelligence with Test-Time Training https://huggingface.co/papers/2603.122552. Strategic Navigation or Stochastic Search? How Agents and Humans Reason Over Document Collections https://huggingface.co/papers/2603.121803. IndexCache: Accelerating Sparse Attention via Cross-Layer Index Reuse https://huggingface.co/papers/2603.122014. Video-Based Reward Modeling for Computer-Use Agents https://huggingface.co/papers/2603.101785. DreamVideo-Omni: Omni-Motion Controlled Multi-Subject Video Customization with Latent Identity Reinforcement Learning https://huggingface.co/papers/2603.12257

2026-03-1304 min

ずんだもんのHugging Faceニュース Daily AI Papers Briefing (2026-03-13)【本日の論文】1. OpenClaw-RL: Train Any Agent Simply by Talking https://huggingface.co/papers/2603.101652. Flash-KMeans: Fast and Memory-Efficient Exact K-Means https://huggingface.co/papers/2603.092293. MA-EgoQA: Question Answering over Egocentric Videos from Multiple Embodied Agents https://huggingface.co/papers/2603.098274. LLM2Vec-Gen: Generative Embeddings from Large Language Models https://huggingface.co/papers/2603.109135. ReMix: Reinforcement routing for mixtures of LoRAs in LLM finetuning https://huggingface.co/papers/2603.10160

2026-03-1204 min

ずんだもんのHugging Faceニュース Daily AI Papers Briefing (2026-03-12)【本日の論文】1. Geometry-Guided Reinforcement Learning for Multi-view Consistent 3D Scene Editing https://huggingface.co/papers/2603.031432. Thinking to Recall: How Reasoning Unlocks Parametric Knowledge in LLMs https://huggingface.co/papers/2603.099063. Omni-Diffusion: Unified Multimodal Understanding and Generation with Masked Discrete Diffusion https://huggingface.co/papers/2603.065774. MM-Zero: Self-Evolving Multi-Model Vision Language Models From Zero Data https://huggingface.co/papers/2603.092065. InternVL-U: Democratizing Unified Multimodal Models for Understanding, Reasoning, Generation and Editing https://huggingface.co/papers/2603.09877

2026-03-1104 min

ずんだもんのHugging Faceニュース Daily AI Papers Briefing (2026-03-11)【本日の論文】1. Lost in Stories: Consistency Bugs in Long Story Generation by LLMs https://huggingface.co/papers/2603.058902. Holi-Spatial: Evolving Video Streams into Holistic 3D Spatial Intelligence https://huggingface.co/papers/2603.076603. LoGeR: Long-Context Geometric Reconstruction with Hybrid Memory https://huggingface.co/papers/2603.032694. Believe Your Model: Distribution-Guided Confidence Calibration https://huggingface.co/papers/2603.038725. How Far Can Unsupervised RLVR Scale LLM Training? https://huggingface.co/papers/2603.08660

2026-03-1005 min

ずんだもんのHugging Faceニュース Daily AI Papers Briefing (2026-03-10)【本日の論文】1. Penguin-VL: Exploring the Efficiency Limits of VLM with LLM-based Vision Encoders https://huggingface.co/papers/2603.065692. BandPO: Bridging Trust Regions and Ratio Clipping via Probability-Aware Bounds for LLM Reinforcement Learning https://huggingface.co/papers/2603.049183. Planning in 8 Tokens: A Compact Discrete Tokenizer for Latent World Model https://huggingface.co/papers/2603.054384. WildActor: Unconstrained Identity-Preserving Video Generation https://huggingface.co/papers/2603.005865. Progressive Residual Warmup for Language Model Pretraining https://huggingface.co/papers/2603.05369

2026-03-0904 min

ずんだもんのHugging Faceニュース Daily AI Papers Briefing (2026-03-09)【本日の論文】1. MOOSE-Star: Unlocking Tractable Training for Scientific Discovery by Breaking the Complexity Barrier https://huggingface.co/papers/2603.037562. SkillNet: Create, Evaluate, and Connect AI Skills https://huggingface.co/papers/2603.044483. DARE: Aligning LLM Agents with the R Statistical Ecosystem via Distribution-Aware Retrieval https://huggingface.co/papers/2603.047434. AgentVista: Evaluating Multimodal Agents in Ultra-Challenging Realistic Visual Scenarios https://huggingface.co/papers/2602.231665. RoboPocket: Improve Robot Policies Instantly with Your Phone https://huggingface.co/papers/2603.05504

2026-03-0803 min

ずんだもんのHugging Faceニュース Daily AI Papers Briefing (2026-03-08)【本日の論文】1. MOOSE-Star: Unlocking Tractable Training for Scientific Discovery by Breaking the Complexity Barrier https://huggingface.co/papers/2603.037562. SkillNet: Create, Evaluate, and Connect AI Skills https://huggingface.co/papers/2603.044483. DARE: Aligning LLM Agents with the R Statistical Ecosystem via Distribution-Aware Retrieval https://huggingface.co/papers/2603.047434. AgentVista: Evaluating Multimodal Agents in Ultra-Challenging Realistic Visual Scenarios https://huggingface.co/papers/2602.231665. RoboPocket: Improve Robot Policies Instantly with Your Phone https://huggingface.co/papers/2603.05504

2026-03-0705 min

ずんだもんのHugging Faceニュース Daily AI Papers Briefing (2026-03-07)【本日の論文】1. MOOSE-Star: Unlocking Tractable Training for Scientific Discovery by Breaking the Complexity Barrier https://huggingface.co/papers/2603.037562. SkillNet: Create, Evaluate, and Connect AI Skills https://huggingface.co/papers/2603.044483. DARE: Aligning LLM Agents with the R Statistical Ecosystem via Distribution-Aware Retrieval https://huggingface.co/papers/2603.047434. RoboPocket: Improve Robot Policies Instantly with Your Phone https://huggingface.co/papers/2603.055045. AgentVista: Evaluating Multimodal Agents in Ultra-Challenging Realistic Visual Scenarios https://huggingface.co/papers/2602.23166

2026-03-0603 min

ずんだもんのHugging Faceニュース Daily AI Papers Briefing (2026-03-06)【本日の論文】1. Helios: Real Real-Time Long Video Generation Model https://huggingface.co/papers/2603.043792. T2S-Bench & Structure-of-Thought: Benchmarking and Prompting Comprehensive Text-to-Structure Reasoning https://huggingface.co/papers/2603.037903. Heterogeneous Agent Collaborative Reinforcement Learning https://huggingface.co/papers/2603.026044. Proact-VL: A Proactive VideoLLM for Real-Time AI Companions https://huggingface.co/papers/2603.034475. MemSifter: Offloading LLM Memory Retrieval via Outcome-Driven Proxy Reasoning https://huggingface.co/papers/2603.03379

2026-03-0503 min

ずんだもんのHugging Faceニュース Daily AI Papers Briefing (2026-03-05)【本日の論文】1. Utonia: Toward One Encoder for All Point Clouds https://huggingface.co/papers/2603.032832. UniG2U-Bench: Do Unified Models Advance Multimodal Understanding? https://huggingface.co/papers/2603.032413. Beyond Language Modeling: An Exploration of Multimodal Pretraining https://huggingface.co/papers/2603.032764. BeyondSWE: Can Current Code Agent Survive Beyond Single-Repo Bug Fixing? https://huggingface.co/papers/2603.031945. Beyond Length Scaling: Synergizing Breadth and Depth for Generative Reward Models https://huggingface.co/papers/2603.01571

2026-03-0402 min

ずんだもんのHugging Faceニュース Daily AI Papers Briefing (2026-03-04)【本日の論文】1. From Scale to Speed: Adaptive Test-Time Scaling for Image Editing https://huggingface.co/papers/2603.001412. OmniLottie: Generating Vector Animations via Parameterized Lottie Tokens https://huggingface.co/papers/2603.021383. SWE-rebench V2: Language-Agnostic SWE Task Collection at Scale https://huggingface.co/papers/2602.238664. RubricBench: Aligning Model-Generated Rubrics with Human Standards https://huggingface.co/papers/2603.015625. OpenAutoNLU: Open Source AutoML Library for NLU https://huggingface.co/papers/2603.01824

2026-03-0303 min

ずんだもんのHugging Faceニュース Daily AI Papers Briefing (2026-03-03)【本日の論文】1. dLLM: Simple Diffusion Language Modeling https://huggingface.co/papers/2602.226612. Enhancing Spatial Understanding in Image Generation via Reward Modeling https://huggingface.co/papers/2602.242333. Recovered in Translation: Efficient Pipeline for Automated Translation of Benchmarks and Datasets https://huggingface.co/papers/2602.222074. CUDA Agent: Large-Scale Agentic RL for High-Performance CUDA Kernel Generation https://huggingface.co/papers/2602.242865. Mode Seeking meets Mean Seeking for Fast Long Video Generation https://huggingface.co/papers/2602.24289

2026-03-0203 min

ずんだもんのHugging Faceニュース Daily AI Papers Briefing (2026-03-02)【本日の論文】1. The Trinity of Consistency as a Defining Principle for General World Models https://huggingface.co/papers/2602.231522. From Blind Spots to Gains: Diagnostic-Driven Iterative Training for Large Multimodal Models https://huggingface.co/papers/2602.228593. MobilityBench: A Benchmark for Evaluating Route-Planning Agents in Real-World Mobility Scenarios https://huggingface.co/papers/2602.226384. OmniGAIA: Towards Native Omni-Modal AI Agents https://huggingface.co/papers/2602.228975. Imagination Helps Visual Reasoning, But Not Yet in Latent Space https://huggingface.co/papers/2602.22766

2026-03-0103 min

ずんだもんのHugging Faceニュース Daily AI Papers Briefing (2026-03-01)【本日の論文】1. The Trinity of Consistency as a Defining Principle for General World Models https://huggingface.co/papers/2602.231522. From Blind Spots to Gains: Diagnostic-Driven Iterative Training for Large Multimodal Models https://huggingface.co/papers/2602.228593. MobilityBench: A Benchmark for Evaluating Route-Planning Agents in Real-World Mobility Scenarios https://huggingface.co/papers/2602.226384. OmniGAIA: Towards Native Omni-Modal AI Agents https://huggingface.co/papers/2602.228975. Imagination Helps Visual Reasoning, But Not Yet in Latent Space https://huggingface.co/papers/2602.22766

2026-02-2803 min

ずんだもんのHugging Faceニュース Daily AI Papers Briefing (2026-02-28)【本日の論文】1. The Trinity of Consistency as a Defining Principle for General World Models https://huggingface.co/papers/2602.231522. From Blind Spots to Gains: Diagnostic-Driven Iterative Training for Large Multimodal Models https://huggingface.co/papers/2602.228593. MobilityBench: A Benchmark for Evaluating Route-Planning Agents in Real-World Mobility Scenarios https://huggingface.co/papers/2602.226384. OmniGAIA: Towards Native Omni-Modal AI Agents https://huggingface.co/papers/2602.228975. Imagination Helps Visual Reasoning, But Not Yet in Latent Space https://huggingface.co/papers/2602.22766

2026-02-2703 min

ずんだもんのHugging Faceニュース Daily AI Papers Briefing (2026-02-27)【本日の論文】1. HyTRec: A Hybrid Temporal-Aware Attention Architecture for Long Behavior Sequential Recommendation https://huggingface.co/papers/2602.182832. MolHIT: Advancing Molecular-Graph Generation with Hierarchical Discrete Diffusion Models https://huggingface.co/papers/2602.176023. DreamID-Omni: Unified Framework for Controllable Human-Centric Audio-Video Generation https://huggingface.co/papers/2602.121604. SkyReels-V4: Multi-modal Video-Audio Generation, Inpainting and Editing model https://huggingface.co/papers/2602.218185. ARLArena: A Unified Framework for Stable Agentic Reinforcement Learning https://huggingface.co/papers/2602.21534

2026-02-2603 min

ずんだもんのHugging Faceニュース Daily AI Papers Briefing (2026-02-26)【本日の論文】1. On Data Engineering for Scaling LLM Terminal Capabilities https://huggingface.co/papers/2602.211932. Query-focused and Memory-aware Reranker for Long Context Processing https://huggingface.co/papers/2602.121923. PyVision-RL: Forging Open Agentic Vision Models via RL https://huggingface.co/papers/2602.207394. From Perception to Action: An Interactive Benchmark for Vision Reasoning https://huggingface.co/papers/2602.210155. Test-Time Training with KV Binding Is Secretly Linear Attention https://huggingface.co/papers/2602.21204

2026-02-2502 min

ずんだもんのHugging Faceニュース Daily AI Papers Briefing (2026-02-25)【本日の論文】1. A Very Big Video Reasoning Suite https://huggingface.co/papers/2602.201592. VLANeXt: Recipes for Building Strong VLA Models https://huggingface.co/papers/2602.185323. SkillOrchestra: Learning to Route Agents via Skill Transfer https://huggingface.co/papers/2602.196724. TOPReward: Token Probabilities as Hidden Zero-Shot Rewards for Robotics https://huggingface.co/papers/2602.193135. Mobile-O: Unified Multimodal Understanding and Generation on Mobile Device https://huggingface.co/papers/2602.20161

2026-02-2405 min

ずんだもんのHugging Faceニュース Daily AI Papers Briefing (2026-02-24)【本日の論文】1. VESPO: Variational Sequence-Level Soft Policy Optimization for Stable Off-Policy LLM Training https://huggingface.co/papers/2602.106932. Does Your Reasoning Model Implicitly Know When to Stop Thinking? https://huggingface.co/papers/2602.083543. Generated Reality: Human-centric World Simulation using Interactive Video Generation with Hand and Camera Control https://huggingface.co/papers/2602.184224. Decoding as Optimisation on the Probability Simplex: From Top-K to Top-P (Nucleus) to Best-of-K Samplers https://huggingface.co/papers/2602.182925. Spanning the Visual Analogy Space with a Weight Basis of LoRAs https://huggingface.co/papers/2602.15727

2026-02-2303 min

ずんだもんのHugging Faceニュース Daily AI Papers Briefing (2026-02-23)【本日の論文】1. SpargeAttention2: Trainable Sparse Attention via Hybrid Top-k+Top-p Masking and Distillation Fine-Tuning https://huggingface.co/papers/2602.135152. Mobile-Agent-v3.5: Multi-platform Fundamental GUI Agents https://huggingface.co/papers/2602.168553. Unified Latents (UL): How to train your latents https://huggingface.co/papers/2602.172704. Frontier AI Risk Management Framework in Practice: A Risk Analysis Technical Report v1.5 https://huggingface.co/papers/2602.144575. Arcee Trinity Large Technical Report https://huggingface.co/papers/2602.17004

2026-02-2204 min

ずんだもんのHugging Faceニュース Daily AI Papers Briefing (2026-02-22)【本日の論文】1. SpargeAttention2: Trainable Sparse Attention via Hybrid Top-k+Top-p Masking and Distillation Fine-Tuning https://huggingface.co/papers/2602.135152. Mobile-Agent-v3.5: Multi-platform Fundamental GUI Agents https://huggingface.co/papers/2602.168553. Unified Latents (UL): How to train your latents https://huggingface.co/papers/2602.172704. Frontier AI Risk Management Framework in Practice: A Risk Analysis Technical Report v1.5 https://huggingface.co/papers/2602.144575. Arcee Trinity Large Technical Report https://huggingface.co/papers/2602.17004

2026-02-2104 min

ずんだもんのHugging Faceニュース Daily AI Papers Briefing (2026-02-21)【本日の論文】1. SpargeAttention2: Trainable Sparse Attention via Hybrid Top-k+Top-p Masking and Distillation Fine-Tuning https://huggingface.co/papers/2602.135152. Unified Latents (UL): How to train your latents https://huggingface.co/papers/2602.172703. Mobile-Agent-v3.5: Multi-platform Fundamental GUI Agents https://huggingface.co/papers/2602.168554. "What Are You Doing?": Effects of Intermediate Feedback from Agentic LLM In-Car Assistants During Multi-Step Processing https://huggingface.co/papers/2602.155695. Calibrate-Then-Act: Cost-Aware Exploration in LLM Agents https://huggingface.co/papers/2602.16699

2026-02-2004 min

ずんだもんのHugging Faceニュース Daily AI Papers Briefing (2026-02-20)【本日の論文】1. SLA2: Sparse-Linear Attention with Learnable Routing and QAT https://huggingface.co/papers/2602.126752. RynnBrain: Open Embodied Foundation Models https://huggingface.co/papers/2602.149793. Learning Humanoid End-Effector Control for Open-Vocabulary Visual Loco-Manipulation https://huggingface.co/papers/2602.167054. CADEvolve: Creating Realistic CAD via Program Evolution https://huggingface.co/papers/2602.163175. Empty Shelves or Lost Keys? Recall Is the Bottleneck for Parametric Factuality https://huggingface.co/papers/2602.14080

2026-02-1904 min

ずんだもんのHugging Faceニュース Daily AI Papers Briefing (2026-02-19)【本日の論文】1. Sanity Checks for Sparse Autoencoders: Do SAEs Beat Random Baselines? https://huggingface.co/papers/2602.141112. SkillsBench: Benchmarking How Well Agent Skills Work Across Diverse Tasks https://huggingface.co/papers/2602.126703. GLM-5: from Vibe Coding to Agentic Engineering https://huggingface.co/papers/2602.157634. Does Socialization Emerge in AI Agent Society? A Case Study of Moltbook https://huggingface.co/papers/2602.142995. ResearchGym: Evaluating Language Model Agents on Real-World AI Research https://huggingface.co/papers/2602.15112

2026-02-1805 min

ずんだもんのHugging Faceニュース Daily AI Papers Briefing (2026-02-18)【本日の論文】1. Experiential Reinforcement Learning https://huggingface.co/papers/2602.139492. DeepImageSearch: Benchmarking Multimodal Agents for Context-Aware Image Retrieval in Visual Histories https://huggingface.co/papers/2602.108093. REDSearcher: A Scalable and Cost-Efficient Framework for Long-Horizon Search Agents https://huggingface.co/papers/2602.142344. STATe-of-Thoughts: Structured Action Templates for Tree-of-Thoughts https://huggingface.co/papers/2602.142655. Query as Anchor: Scenario-Adaptive User Representation via Large Language Model https://huggingface.co/papers/2602.14492

2026-02-1703 min

ずんだもんのHugging Faceニュース Daily AI Papers Briefing (2026-02-17)【本日の論文】1. Less is Enough: Synthesizing Diverse Data in Feature Space of LLMs https://huggingface.co/papers/2602.103882. SQuTR: A Robustness Benchmark for Spoken Query to Text Retrieval under Acoustic Noise https://huggingface.co/papers/2602.127833. MedXIAOHE: A Comprehensive Recipe for Building Medical MLLMs https://huggingface.co/papers/2602.127054. Zooming without Zooming: Region-to-Image Distillation for Fine-Grained Multimodal Perception https://huggingface.co/papers/2602.118585. OneVision-Encoder: Codec-Aligned Sparsity as a Foundational Principle for Multimodal Intelligence https://huggingface.co/papers/2602.08683

2026-02-1703 min

ずんだもんのHugging Faceニュース Daily AI Papers Briefing (2026-02-05)【本日の論文】1. CodeOCR: On the Effectiveness of Vision Language Models in Code Understanding https://huggingface.co/papers/2602.017852. AOrchestra: Automating Sub-Agent Creation for Agentic Orchestration https://huggingface.co/papers/2602.037863. No Global Plan in Chain-of-Thought: Uncover the Latent Planning Horizon of LLMs https://huggingface.co/papers/2602.021034. MARS: Modular Agent with Reflective Search for Automated AI Research https://huggingface.co/papers/2602.026605. daVinci-Agency: Unlocking Long-Horizon Agency Data-Efficiently https://huggingface.co/papers/2602.02619

2026-02-0403 min

ずんだもんのHugging Faceニュース Daily AI Papers Briefing (2026-02-04)【本日の論文】1. Green-VLA: Staged Vision-Language-Action Model for Generalist Robots https://huggingface.co/papers/2602.009192. Kimi K2.5: Visual Agentic Intelligence https://huggingface.co/papers/2602.022763. Vision-DeepResearch: Incentivizing DeepResearch Capability in Multimodal Large Language Models https://huggingface.co/papers/2601.220604. Vision-DeepResearch Benchmark: Rethinking Visual and Textual Search for Multimodal Large Language Models https://huggingface.co/papers/2602.021855. Closing the Loop: Universal Repository Representation with RPG-Encoder https://huggingface.co/papers/2602.02084

2026-02-0303 min

ずんだもんのHugging Faceニュース Daily AI Papers Briefing (2026-02-02)【本日の論文】1. Idea2Story: An Automated Pipeline for Transforming Research Concepts into Complete Scientific Narratives https://huggingface.co/papers/2601.208332. Everything in Its Place: Benchmarking Spatial Intelligence of Text-to-Image Models https://huggingface.co/papers/2601.203543. Scaling Embeddings Outperforms Scaling Experts in Language Models https://huggingface.co/papers/2601.212044. DynamicVLA: A Vision-Language-Action Model for Dynamic Object Manipulation https://huggingface.co/papers/2601.221535. MMFineReason: Closing the Multimodal Reasoning Gap via Open Data-Centric Methods https://huggingface.co/papers/2601.21821

2026-02-0104 min

ずんだもんのHugging Faceニュース Daily AI Papers Briefing (2026-02-01)【本日の論文】1. Idea2Story: An Automated Pipeline for Transforming Research Concepts into Complete Scientific Narratives https://huggingface.co/papers/2601.208332. Everything in Its Place: Benchmarking Spatial Intelligence of Text-to-Image Models https://huggingface.co/papers/2601.203543. Scaling Embeddings Outperforms Scaling Experts in Language Models https://huggingface.co/papers/2601.212044. DynamicVLA: A Vision-Language-Action Model for Dynamic Object Manipulation https://huggingface.co/papers/2601.221535. MMFineReason: Closing the Multimodal Reasoning Gap via Open Data-Centric Methods https://huggingface.co/papers/2601.21821

2026-01-3104 min

ずんだもんのHugging Faceニュース Daily AI Papers Briefing (2026-01-31)【本日の論文】1. Idea2Story: An Automated Pipeline for Transforming Research Concepts into Complete Scientific Narratives https://huggingface.co/papers/2601.208332. Everything in Its Place: Benchmarking Spatial Intelligence of Text-to-Image Models https://huggingface.co/papers/2601.203543. Scaling Embeddings Outperforms Scaling Experts in Language Models https://huggingface.co/papers/2601.212044. DynamicVLA: A Vision-Language-Action Model for Dynamic Object Manipulation https://huggingface.co/papers/2601.221535. OCRVerse: Towards Holistic OCR in End-to-End Vision-Language Models https://huggingface.co/papers/2601.21639

2026-01-3002 min

ずんだもんのHugging Faceニュース Daily AI Papers Briefing (2026-01-30)【本日の論文】1. Harder Is Better: Boosting Mathematical Reasoning via Difficulty-Aware GRPO and Multi-Aspect Question Reformulation https://huggingface.co/papers/2601.206142. Advancing Open-source World Models https://huggingface.co/papers/2601.205403. Innovator-VL: A Multimodal Large Language Model for Scientific Discovery https://huggingface.co/papers/2601.193254. DeepSeek-OCR 2: Visual Causal Flow https://huggingface.co/papers/2601.205525. Spark: Strategic Policy-Aware Exploration via Dynamic Branching for Long-Horizon Agentic Learning https://huggingface.co/papers/2601.20209

2026-01-2904 min

ずんだもんのHugging Faceニュース Daily AI Papers Briefing (2026-01-29)【本日の論文】1. AgentDoG: A Diagnostic Guardrail Framework for AI Agent Safety and Security https://huggingface.co/papers/2601.184912. AdaReasoner: Dynamic Tool Orchestration for Iterative Visual Reasoning https://huggingface.co/papers/2601.186313. A Pragmatic VLA Foundation Model https://huggingface.co/papers/2601.186924. Visual Generation Unlocks Human-Like Reasoning through Multimodal World Models https://huggingface.co/papers/2601.198345. AVMeme Exam: A Multimodal Multilingual Multicultural Benchmark for LLMs' Contextual and Cultural Knowledge and Thinking https://huggingface.co/papers/2601.17645

2026-01-2804 min

ずんだもんのHugging Faceニュース Daily AI Papers Briefing (2026-01-28)【本日の論文】1. Can LLMs Clean Up Your Mess? A Survey of Application-Ready Data Preparation with LLMs https://huggingface.co/papers/2601.170582. daVinci-Dev: Agent-native Mid-training for Software Engineering https://huggingface.co/papers/2601.184183. The Script is All You Need: An Agentic Framework for Long-Horizon Dialogue-to-Cinematic Video Generation https://huggingface.co/papers/2601.177374. Scientific Image Synthesis: Benchmarking, Methodologies, and Downstream Utility https://huggingface.co/papers/2601.170275. Elastic Attention: Test-time Adaptive Sparsity Ratios for Efficient Transformers https://huggingface.co/papers/2601.17367

2026-01-2704 min

ずんだもんのHugging Faceニュース Daily AI Papers Briefing (2026-01-27)【本日の論文】1. LongCat-Flash-Thinking-2601 Technical Report https://huggingface.co/papers/2601.167252. SWE-Pruner: Self-Adaptive Context Pruning for Coding Agents https://huggingface.co/papers/2601.167463. TwinBrainVLA: Unleashing the Potential of Generalist VLMs for Embodied Tasks via Asymmetric Mixture-of-Transformers https://huggingface.co/papers/2601.141334. VisGym: Diverse, Customizable, Scalable Environments for Multimodal Agents https://huggingface.co/papers/2601.169735. Memory-V2V: Augmenting Video-to-Video Diffusion Models with Memory https://huggingface.co/papers/2601.16296

2026-01-2603 min

ずんだもんのHugging Faceニュース Daily AI Papers Briefing (2026-01-26)【本日の論文】1. EvoCUA: Evolving Computer Use Agents via Learning from Scalable Synthetic Experience https://huggingface.co/papers/2601.158762. HERMES: KV Cache as Hierarchical Memory for Efficient Streaming Video Understanding https://huggingface.co/papers/2601.147243. LLM-in-Sandbox Elicits General Agentic Intelligence https://huggingface.co/papers/2601.162064. The Flexibility Trap: Why Arbitrary Order Limits Reasoning Potential in Diffusion Language Models https://huggingface.co/papers/2601.151655. BayesianVLA: Bayesian Decomposition of Vision Language Action Models via Latent Action Queries https://huggingface.co/papers/2601.15197

2026-01-2504 min

ずんだもんのHugging Faceニュース Daily AI Papers Briefing (2026-01-25)【本日の論文】1. EvoCUA: Evolving Computer Use Agents via Learning from Scalable Synthetic Experience https://huggingface.co/papers/2601.158762. HERMES: KV Cache as Hierarchical Memory for Efficient Streaming Video Understanding https://huggingface.co/papers/2601.147243. The Flexibility Trap: Why Arbitrary Order Limits Reasoning Potential in Diffusion Language Models https://huggingface.co/papers/2601.151654. LLM-in-Sandbox Elicits General Agentic Intelligence https://huggingface.co/papers/2601.162065. BayesianVLA: Bayesian Decomposition of Vision Language Action Models via Latent Action Queries https://huggingface.co/papers/2601.15197

2026-01-2403 min

ずんだもんのHugging Faceニュース Daily AI Papers Briefing (2026-01-24)【本日の論文】1. EvoCUA: Evolving Computer Use Agents via Learning from Scalable Synthetic Experience https://huggingface.co/papers/2601.158762. The Flexibility Trap: Why Arbitrary Order Limits Reasoning Potential in Diffusion Language Models https://huggingface.co/papers/2601.151653. HERMES: KV Cache as Hierarchical Memory for Efficient Streaming Video Understanding https://huggingface.co/papers/2601.147244. BayesianVLA: Bayesian Decomposition of Vision Language Action Models via Latent Action Queries https://huggingface.co/papers/2601.151975. LLM-in-Sandbox Elicits General Agentic Intelligence https://huggingface.co/papers/2601.16206

2026-01-2304 min

ずんだもんのHugging Faceニュース Daily AI Papers Briefing (2026-01-23)【本日の論文】1. Agentic Reasoning for Large Language Models https://huggingface.co/papers/2601.125382. MMDeepResearch-Bench: A Benchmark for Multimodal Deep Research Agents https://huggingface.co/papers/2601.123463. Rethinking Video Generation Model for the Embodied World https://huggingface.co/papers/2601.152824. Paper2Rebuttal: A Multi-Agent Framework for Transparent Author Response Assistance https://huggingface.co/papers/2601.141715. Behavior Knowledge Merge in Reinforced Agentic Models https://huggingface.co/papers/2601.13572

2026-01-2203 min

ずんだもんのHugging Faceニュース Daily AI Papers Briefing (2026-01-22)【本日の論文】1. Being-H0.5: Scaling Human-Centric Robot Learning for Cross-Embodiment Generalization https://huggingface.co/papers/2601.129932. Advances and Frontiers of LLM-based Issue Resolution in Software Engineering: A Comprehensive Survey https://huggingface.co/papers/2601.116553. Toward Efficient Agents: Memory, Tool learning, and Planning https://huggingface.co/papers/2601.141924. OmniTransfer: All-in-one Framework for Spatio-temporal Video Transfer https://huggingface.co/papers/2601.142505. FutureOmni: Evaluating Future Forecasting from Omni-Modal Context for Multimodal LLMs https://huggingface.co/papers/2601.13836

2026-01-2103 min

ずんだもんのHugging Faceニュース Daily AI Papers Briefing (2026-01-21)【本日の論文】1. ABC-Bench: Benchmarking Agentic Backend Coding in Real-World Development https://huggingface.co/papers/2601.110772. Multiplex Thinking: Reasoning via Token-wise Branch-and-Merge https://huggingface.co/papers/2601.088083. Medical SAM3: A Foundation Model for Universal Prompt-Driven Medical Image Segmentation https://huggingface.co/papers/2601.108804. NAACL: Noise-AwAre Verbal Confidence Calibration for LLMs in RAG Systems https://huggingface.co/papers/2601.110045. Spurious Rewards Paradox: Mechanistically Understanding How RLVR Activates Memorization Shortcuts in LLMs https://huggingface.co/papers/2601.11061

2026-01-2004 min

ずんだもんのHugging Faceニュース Daily AI Papers Briefing (2026-01-20)

2026-01-1904 min

ずんだもんのHugging Faceニュース Daily AI Papers Briefing (2026-01-19)

2026-01-1903 min

ずんだもんのHugging Faceニュース Daily AI Papers Briefing (2026-01-17)

2026-01-1604 min

ずんだもんのHugging Faceニュース Daily AI Papers Briefing (2026-01-16)【本日の論文】・1. Controlled Self-Evolution for Algorithmic Code Optimization・2. DeepResearchEval: An Automated Framework for Deep Research Task Construction and Agentic Evaluation・3. MAXS: Meta-Adaptive Exploration with LLM Agents・4. A^3-Bench: Benchmarking Memory-Driven Scientific Reasoning via Anchor and Attractor Activation・5. Distribution-Aligned Sequence Distillation for Superior Long-CoT Reasoning【参考リンク】 Controlled Self-Evolution for Algorithmic Code Optimization: https://huggingface.co/papers/2601.07348 DeepResearchEval: An Automated Framework for Deep Research Task Construction and Agentic Evaluation: https://huggingface.co/papers/2601.09688 MAXS: Meta-Adaptive Exploration with LLM Agents: https://huggingface.co/papers/2601.09259 A^3-Bench: Benchmarking Memory-Driven Scientific Reasoning via Anchor and Attractor Activation: https://huggingface.co/papers/2601.092...

2026-01-1603 min