FIBO라는 새로운 오픈 소스 텍스트-이미지 모델의 개발과 평가를 설명합니다. 이 모델은 기존 모델의 제어 가능성과 표현력 한계를 극복하기 위해 긴 구조화된 캡션으로 훈련되었으며, 이는 이미지의 모든 세부 요소와 속성을 명시합니다. 효율적인 훈련을 위해 DimFusion이라는 새로운 아키텍처를 도입하여 토큰 길이를 늘리지 않고도 대규모 언어 모델(LLM)의 중간 표현을 통합합니다. 또한, 긴 캡션에 대한 모델 정렬과 제어 가능성을 객관적으로 측정하기 위해 Text-as-a-Bottleneck Reconstruction (TaBR)이라는 이미지 기반 평가 프로토콜을 제안합니다. 최종적으로 FIBO는 동급 모델 대비 뛰어난 프롬프트 준수와 요소 분리(disentanglement) 능력을 입증하여 전문가 수준의 이미지 생성 도구로 발전할 가능성을 보여줍니다.