본 논문은 Visual Program Distillation: Distilling Tools and Programmatic Reasoning into Vision-Language Models, Yushi HU et al. google research 의 논문을 리뷰한 글입니다. 개요 (Abstract) 이논문은 Visual Program Distillation (VPD) 에 대한 모델 소개입니다. VPD는 복잡한 시각적 작업을 해결하기 위한 프레임워크.VPD는 LLM의 추론 능력을 여러 후보 프로그램 (Python 함수 형태) 을 샘플링하여 제대로 된 프로그램을 확인. 각 프로그램을 추론 단계의 언어 설명으로 변환하여 VLM에 증류.VPD를 사용한 ' PaLI-X' 모델은 이전 VLM을 능가. 인간..