본문으로 이동

엑시노스 2600 VPS가 이끄는 AI 기반 모바일 카메라 혁신

  • 메일

현재까지 모바일 카메라는 이미지 센서와 ISP를 중심으로 발전해 왔다. 이미지 센서가 빛을 전기 신호로 변환하고, ISP가 이를 보정 및 가공해 화면에 출력하는 구조가 모바일 카메라의 기본이었다.

최근 모바일 카메라는 이 구조를 넘어서는 변화를 맞이하고 있다. AI 기반 컴퓨터 비전 기술이 본격적으로 결합되면서, 모바일 카메라는 단순히 이미지를 처리하는 장치가 아닌 장면을 인식하고 의미를 해석하는 지능형 시스템으로 진화하고 있다. 촬영 결과의 품질은 센서 해상도나 광학 성능만으로 결정되지 않으며, 촬영 전후의 전 과정에서 동작하는 AI 알고리즘과 시스템 설계가 핵심 요소로 작용한다.

오늘날 한 장의 사진은 다수의 AI 모델과 알고리즘을 거쳐 완성된다. 셔터 입력 이전부터 프리뷰 단계에서 장면 분석과 최적화가 동시에 수행되며, 이 과정 전반이 실시간으로 동작한다. 이에 따라 모바일 카메라의 경쟁력은 AI 컴퓨터 비전 기술을 얼마나 효율적으로 통합하고 구현했는지에 따라 결정된다.

엑시노스 2600은 이러한 변화에 대응하기 위해 엑시노스 최초로 VPS(Visual Perception System)를 개발하여 카메라 전용 AI 컴퓨터 비전 서브시스템을 구축하였다. 이를 통해 실시간 동작과 저전력 효율을 동시에 충족하였고, 결과적으로 차별화된 카메라 경쟁력을 확보할 수 있었다. 본 아티클에서는 모바일 카메라 구조의 변화와 함께 엑시노스 2600에 탑재된 VPS가 어떤 기술적 접근을 통해 이를 구현했는지 살펴보고자 한다. 

 

모바일 카메라 시스템의 진화

과거 모바일 카메라 시스템은 이미지 센서에서 시작해 이미지 처리 서브시스템을 거쳐 디스플레이로 전달되는 직렬 구조를 기반으로 했다. 이미지 센서로부터 입력된 베이어 원시 데이터를 기준으로 디모자이킹, 노이즈 제거, 색상 및 대비 보정과 같은 처리가 순차적으로 수행되었고, 최종 결과만이 사용자에게 전달되었다.

최근의 모바일 카메라 시스템은 이러한 단순 직렬 구조에서 벗어나 병렬 처리와 피드백 구조를 갖춘 형태로 진화하고 있다. 각 처리 단계는 독립적으로 동작하는 것이 아니라 AI 컴퓨터 비전 솔루션과 상호작용하며 결과를 반복적으로 보정한다. 이를 통해 촬영 환경과 피사체 특성을 실시간으로 반영한 최적의 영상 및 이미지를 제공할 수 있게 발전하였다. 
 

이미지/영상 처리를 위한 기존 ISP 파이프라인과 AI 기반 ISP 파이프라인을 비교한 다이어그램
그림 1. ISP 파이프라인 비교
이미지/영상 처리를 위한 기존 ISP 파이프라인과 AI 기반 ISP 파이프라인을 비교한 다이어그램
그림 1. ISP 파이프라인 비교

 

과거의 모바일 카메라는 이미지 센서로부터 입력된 단일 이미지를 기준으로 화질 처리를 수행했다. 반면 최근의 모바일 카메라는 연속적으로 입력되는 영상 시퀀스를 활용하는 멀티프레임 처리 방식을 기본 동작 방식으로 채택하고 있다. 멀티프레임 처리를 위해서는 시간 축을 기준으로 인접한 프레임 간의 컨텍스트를 분석하고, 프레임 간 움직임을 정확하게 파악하는 기술이 필요하다. 이 과정에서 글로벌 모션 벡터와 로컬 모션 벡터를 정밀하게 분류하는 모션 추정 알고리즘이 핵심 요소로 작용한다.

딥러닝 기반 모션 추정 알고리즘은 손의 움직임과 같은 국소적인 동작을 정밀하게 추출한다. 이러한 분석 결과를 기반으로 ISP의 동작 구성을 동적으로 생성하며, 멀티프레임 처리를 위한 최적의 ISP 설정을 결정한다. 이를 통해 여러 프레임을 정확하게 합성할 수 있으며, 단일 이미지 처리 방식에 기반한 기존 화질 개선 방식의 제약을 효과적으로 개선하였다.
 

시간 축을 기준으로 인접한 프레임 간의 컨텍스트와 움직임을 파악하는 멀티프레임 처리 개념도
그림 2. 시간 축 기반 멀티프레임 처리
시간 축을 기준으로 인접한 프레임 간의 컨텍스트와 움직임을 파악하는 멀티프레임 처리 개념도
그림 2. 시간 축 기반 멀티프레임 처리

 

또 다른 모바일 카메라 화질 기술은 실시간 관심 영역 추출(Semantic Segmentation)을 기반으로 영역별 최적의 화질을 구현하는 기술인 CAX(Content Aware Preview/Video/Capture)이다. CAX를 통해 머리카락이나 눈썹과 같은 디테일 영역은 선명도를 유지하고, 피부 영역은 자연스럽게 표현하는 등의 처리를 독립적으로 수행할 수 있다.
 

실시간 관심 영역 추출(Semantic Segmentation)을 기반으로 영역별 최적의 화질을 구현하는 기술인 CAX의 예시. CAX 기능의 온/오프에 따른 얼굴 이미지 품질 비교.
그림 3. 실시간 관심 영역 추출(Semantic Segmentation) 기반 이미지 품질 향상
실시간 관심 영역 추출(Semantic Segmentation)을 기반으로 영역별 최적의 화질을 구현하는 기술인 CAX의 예시. CAX 기능의 온/오프에 따른 얼굴 이미지 품질 비교.
그림 3. 실시간 관심 영역 추출(Semantic Segmentation) 기반 이미지 품질 향상

 

모바일 카메라에서 얼굴에 대한 정보는 가장 중요한 정보 중 하나이다. 사람의 얼굴 위치, 눈 깜빡임 여부, 표정 변화와 같은 정보의 실시간 처리가 촬영 결과의 완성도를 직접적으로 좌우한다. 최근 모바일 카메라는 이러한 얼굴 정보를 실시간으로 인식하고 해석함으로써, 사용자의 의도를 반영한 촬영 결과를 제공하는 방향으로 진화하고 있다. 엑시노스 2600 또한 VPS를 기반으로 AI 기반 얼굴 검출 솔루션을 제공하며, 눈 깜빡임 감지, 얼굴 랜드마크 검출¹을 지원한다. 이를 통해 프리뷰 단계부터 촬영 순간까지 얼굴 상태를 지속적으로 분석할 수 있다.

얼굴 검출 기반 AI 컴퓨터 비전 기술은 사용자 경험 개선으로 직결된다. 스마트폰 이용자들이 사진 촬영 시에 흔히 겪는 불편함은 단체 사진 촬영 시 일부 인원이 눈을 감아서 만족스러운 사진 결과물을 얻지 못하는 것이다. 엑시노스 2600에 탑재된 VPS는 실시간으로 얼굴 상태를 인식하여 각 인물의 얼굴 표정, 눈 깜빡임 여부 등을 분석 및 평가하여 각 인물의 베스트 컷만 선택 및 합성함으로써 반복 촬영하는 수고로움 없이 단 한 번의 촬영만으로도 만족스러운 결과를 제공한다. 이는 AI 컴퓨터 비전 기술이 촬영 과정 전반에 개입해 이미지 결과 품질을 개선하는 대표적인 활용 사례다.
 

AI 컴퓨터 비전 기술 활용 예시. 촬영된 멀티프레임에 대한 AI 기반의 실시간 얼굴 감지 수행 및 눈을 감은 부분은 다른 프레임으로 교체를 하여 베스트컷을 생성하는 기술.
그림 4. VPS 기반 단체 사진 촬영 최적화 처리 과정
AI 컴퓨터 비전 기술 활용 예시. 촬영된 멀티프레임에 대한 AI 기반의 실시간 얼굴 감지 수행 및 눈을 감은 부분은 다른 프레임으로 교체를 하여 베스트컷을 생성하는 기술.
그림 4. VPS 기반 단체 사진 촬영 최적화 처리 과정

 

이와 같이 현대의 모바일 카메라 시스템은 고정 로직 기반의 이미징 시스템과 AI 컴퓨터 비전 시스템이 결합된 혼합 구조로 진화하고 있다. 기존 이미징 시스템은 AI 처리를 위한 전처리와 사람의 시각에 최적화된 이미지 생성을 담당하며, AI 컴퓨터 비전 시스템은 장면과 피사체에 대한 의미적 해석을 수행한다. 두 시스템은 피드백 루프를 통해 유기적으로 연결되며, 하나의 통합된 카메라 동작을 구성하여 최적의 사진 결과물을 제공한다.
 

모바일 AI 컴퓨터 비전 및 카메라 시스템의 구조적 변화

모바일 환경에서 AI 컴퓨터 비전 시스템을 구현하기 위해서는 배터리 소모, 발열, 실시간 응답성이라는 제약을 동시에 고려해야 한다. 기존에는 CPU, GPU, NPU와 같은 범용 프로세서를 활용해 이러한 비전 시스템을 구현해 왔다.

그러나 컴퓨터 비전 알고리즘은 대규모 언어 모델과 달리 상대적으로 경량화된 네트워크 구조와 낮은 입력 차원을 가지며, 초고해상도 60프레임 영상 환경에서 지속적인 실시간 처리가 요구된다. 이로 인해 전용 구조를 통한 효율적 구현이 중요해진다.

엑시노스 2600은 이러한 특성을 반영해, 자체 개발한 AI 컴퓨터 비전 알고리즘을 기반으로 카메라 전용 AI 서브시스템인 VPS를 설계했다. VPS는 AI 얼굴 검출, 모션 추정, 실시간 관심 영역 추출(Semantic Segmentation)과 같은 핵심 솔루션을 초고해상도 60프레임 시나리오에서 실시간으로 제공한다. 전작과 비교하였을 때, 다양한 카메라 솔루션 전반에서 50% 이상의 전력 효율 개선을 달성했으며, 이는 전력 소모와 지연 시간 모두에서 동시에 개선을 이룬 놀라운 성과이다. 
 

엑시노스 2500 대비 엑시노스 2600의 객체 감지 및 비디오 세그멘테이션 전력 소비 감소를 보여주는 막대 그래프.
그림 5. 컴퓨터 비전 솔루션별 전력 효율 비교
엑시노스 2500 대비 엑시노스 2600의 객체 감지 및 비디오 세그멘테이션 전력 소비 감소를 보여주는 막대 그래프.
그림 5. 컴퓨터 비전 솔루션별 전력 효율 비교

 

VPS는 자체 알고리즘을 활용해 전체 처리 과정을 처음부터 끝까지 효율적으로 동작하도록 설계되었으며, 이를 통해 낮은 지연 시간과 최소화된 소프트웨어 오버헤드, 높은 전력 효율을 균형 있게 구현했다.

추가로, 알고리즘 측면에서도 높은 인식 정확도를 유지하면서도 네트워크 경량화 또한 성공적으로 구현하였으며, SOTA(State-of-the-Art)² 연구 결과와 비교해도 동등 이상의 정확도를 확보할 수 있었다. 해당 알고리즘은 모바일 온디바이스 환경에서 초당 60프레임으로 동작하면서도 낮은 전력 소모를 가능하게 했고 이를 통해 다중 프레임을 활용한 영상 합성 처리에서 업계 선도 수준의 성능을 구현할 수 있었다.
 

인물 감지를 위한 엑시노스 2600 VPS와 SOTA 알고리즘 간의 성능 비교.
그림 6. 엑시노스 2600과 SOTA 알고리즘 성능 비교
인물 감지를 위한 엑시노스 2600 VPS와 SOTA 알고리즘 간의 성능 비교.
그림 6. 엑시노스 2600과 SOTA 알고리즘 성능 비교

 

차세대 지능형 카메라의 미래

모바일 카메라는 더 이상 단순한 광학 장치가 아니라, AI 컴퓨터 비전 시스템과 이미징 시스템이 결합된 지능형 카메라로 진화하고 있다. 이러한 변화는 사진과 영상 촬영을 넘어, 주변 환경을 실시간으로 인지하고 이해하는 방향으로 확장되고 있다.

지능형 카메라는 향후 대규모 언어 모델과 결합된 멀티모달 기술로 발전하며, 보다 직관적이고 풍부한 사용자 경험을 제공할 것이다. 이 흐름은 스마트폰을 넘어 다양한 웨어러블 디바이스로 확장되어, 일상 전반에서 자연스럽게 활용되는 기술로 자리 잡을 것으로 예상된다. 

이번 아티클에서 소개한 엑시노스 2600에 탑재된 VPS를 기반으로 삼성은 미래 핵심 요소 기술인 AI 컴퓨터 비전 시스템 역량을 확보했다. 이를 바탕으로 모바일 환경에 최적화된 AI 솔루션 고도화와 차세대 멀티모달 AI를 위한 기술 확장을 지속해 나갈 것이다.
 



1
 얼굴 랜드마크 검출은 얼굴의 구조와 표정을 파악하기 위해 사전에 정의된 기준점들의 위치를 검출하는 컴퓨터 비전 기술이다.

2 평가 시점을 기준으로, 최근 학계 및 산업계 연구에서 보고된 가장 진보된 기술 수준의 성능과 정확도를 의미한다.
 



* 표시된 이미지는 예시용으로만 제공되며, 제품 자체 또는 해당 제품과 함께 촬영된 이미지를 정확하게 재현하지 않을 수 있습니다. 모든 이미지는 디지털 방식으로 편집, 수정 또는 보정되었습니다.

* 모든 제품 사양은 내부 테스트 결과를 반영하며 사용자의 시스템 구성에 따라 변동이 있을 수 있습니다. 실제 성능은 사용 조건과 환경에 따라 다를 수 있습니다.