이 논문은 이미지 속 인물을 자연스럽게 움직이게 만드는 인공지능 프레임워크인 SteadyDancer를 소개합니다. 기존 방식들이 영상 생성 과정에서 인물의 정체성을 잃거나 초기 프레임이 변형되는 문제를 해결하기 위해, 연구진은 이미지-투-비디오(I2V) 구조를 기반으로 한 새로운 모델을 설계했습니다. 핵심 기술로는 동작 제어와 원본 이미지의 충돌을 방지하는 조건 화해 메커니즘과 공간적 불일치를 해결하는 시너지 포즈 변조 모듈이 포함됩니다. 또한, 모델의 성능을 정밀하게 측정하기 위해 실제 환경의 복잡한 움직임을 반영한 X-Dance 벤치마크를 새롭게 제안했습니다. 결과적으로 이 기술은 첫 번째 프레임의 완벽한 보존과 함께 매끄럽고 일관된 고품질 애니메이션을 생성하는 데 탁월한 성과를 보입니다.