The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision) PDF
Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models
초록
대형 다중 모달 모델(LMM, Large multimodal models)은 시각적 이해와 같은 다중 감각 능력을 가진 대형 언어 모델(LLMs, large language models)을 확장하여 더욱 강력한 일반 지능을 달성합니다. 이 논문에서는 GPT-4V(ision)1과 같은 최신 모델을 분석하여 LMM에 대한 이해를 깊게 합니다. 분석은 GPT-4V가 수행할 수 있는 흥미로운 작업에 중점을 둡니다. GPT-4V의 능력과 일반성을 검사하기 위한 테스트 샘플, 지원되는 입력 및 작동 모드, 그리고 모델을 유발하는 효과적인 방법을 포함합니다. GPT-4V를 탐구하는 접근법에서 우리는 다양한 도메인과 작업을 포괄하는 정교하게 설계된 질적 샘플의 컬렉션을 정리하고 구성합니다. 이러한 샘플에서의 관찰은 GPT-4V의 전례 없는 다중 모달 입력 처리 능력과 그 능력의 일반성이 함께 GPT-4V를 강력한 다중 모달 전문가 시스템으로 만든다는 것을 보여줍니다. 또한, GPT-4V의 입력 이미지에 그려진 시각적 표시를 이해하는 독특한 능력은 시각적 참조 유발과 같은 새로운 인간-컴퓨터 상호 작용 방법을 제시할 수 있습니다. 우리는 GPT-4V 기반 시스템에 대한 미래 연구 방향과 나타나는 응용 시나리오에 대한 심도 있는 토론으로 보고서를 마칩니다. 다음 세대의 다중 모달 작업 구성, LMM을 활용하고 강화하여 현실 세계의 문제를 해결하는 새로운 방법, 그리고 다중 모달 기초 모델에 대한 더 나은 이해를 위한 미래 연구에 이 초기 탐구가 영감을 줄 것이라고 기대합니다.
2. GPT-4V의 입력 방식
이 부분에서는 GPT-4V가 지원하는 입력 방식들에 대해 설명합니다. GPT-4V는 텍스트만을 입력으로 사용하는 일반적인 언어 모델로 작동할 수 있으며, 하나의 이미지와 텍스트 쌍 또는 선택적으로 단일 이미지만을 입력으로 사용할 수 있습니다. 또한, 여러 이미지와 텍스트를 번갈아 가면서 입력하거나 여러 이미지만을 입력으로 사용할 수도 있습니다. 그 다음으로, 이러한 다양한 입력 방식을 활용하는 주요 사용 사례들을 강조합니다.
2.3 번갈아 가며 주어진 이미지-텍스트 입력
GPT-4V의 일반성은 이미지와 텍스트를 유연하게 번갈아 가며 처리할 수 있는 능력으로 더욱 강화되었습니다. 이러한 번갈아 가며 주어진 이미지-텍스트 입력은 여러 이미지와 함께 짧은 질문이나 지시가 있는 시각 중심, 두 개의 이미지가 삽입된 긴 웹페이지와 같은 텍스트 중심 또는 이미지와 텍스트의 균형 잡힌 혼합이 될 수 있습니다. 이 혼합 입력 모드는 다양한 응용 프로그램에 유연성을 제공합니다. 예를 들어, 그림 1에서 보여지는 것처럼 여러 영수증 이미지에서 지불한 총 세금을 계산할 수 있습니다. 또한 여러 입력 이미지를 처리하고 요청된 정보를 추출하는 것도 가능합니다. GPT-4V는 메뉴에서 맥주 가격을 찾고 맥주 수를 세고 총 비용을 반환하는 것처럼 번갈아 가며 주어진 이미지-텍스트 입력 간의 정보를 효과적으로 연결할 수도 있습니다. 이러한 직접적인 응용을 넘어, 번갈아 가며 주어진 이미지-텍스트 입력을 처리하는 것은 문맥 내 몇 번의 학습 및 다른 고급 테스트 시간 프롬프트 기술의 기본 구성 요소로 작용하며, 이를 통해 GPT-4V의 일반성을 더욱 향상시킵니다. 우리는 다음 섹션인 섹션 3에서 이러한 흥미로운 새로운 사용법을 보여줍니다.
Sec. 2.3 번갈아 가며 주어진 이미지-텍스트 입력
영수증 이미지 3장을 첨부하고 세금이 얼마인지 챗지피티에게 물었습니다. 두번째 영수증의 세금은 4.58인데 잘못 계산하였습니다.
영수증의 세금 및 테이블의 맥주 금액에 대한 답변은 논문 내용으로는 올바르게 받았지만, 논문에 있는 이미지를 통한 테스트에서는 잘못된 답변을 받게 되었습니다.
이미지에서 정보를 정확하게 해석하지 못한 여러 가지 이유가 있을 수 있습니다:
- 해상도와 명확성: 이미지의 품질이 낮거나 텍스트가 불분명한 경우 모델이 내용을 정확하게 해석하지 못할 수 있습니다.
- 레이아웃과 디자인: 복잡한 레이아웃이나 겹쳐진 텍스트는 정보 추출을 더 어렵게 만들 수 있습니다.
- 모델의 한계: 모델은 이미지를 처리하고 이해하기 위해 설계되었지만, 복잡하거나 미묘한 상황에서는 항상 완벽하지 않을 수 있습니다.
- 누락: 때로는 이미지가 명확하더라도 모델이 특정 세부 사항을 놓치거나 잘못 해석할 수 있습니다.
이미지에서 추출된 정보의 정확성을 위해 항상 두 번 체크하고 다른 정보와 교차 참조하는 것이 좋습니다.