본문으로 이동

삼성의 온디바이스 AI SDK 툴체인 전략 파헤치기

온디바이스 AI가 부드럽게 작동하기 위해서는, 서버에서 학습된 초대형 모델을 스마트폰 칩 위에서 무리 없이 구동되도록 만드는 숨은 과정이 필요하다.
삼성의 온디바이스 AI SDK 툴체인은 이 복잡한 전환을 가능하게 하는 보이지 않는 핵심 기반으로써, 방대한 AI 모델을 실사용 가능한 형태로 바꾸고 휴대 가능한 경험으로 확장하는 역할을 수행한다.

  • 메일

일반적으로 고객의 AI 모델은 클라우드 또는 서버 환경에서 학습되며, 매우 큰 GPU 기반 연산에 맞춰 최적화되어 있다. 이러한 모델을 Exynos NPU에서 구동하기 위해서는 그래프 최적화, 양자화, 컴파일 과정을 거쳐 온디바이스 AI모델로 변환하는 작업이 필수적이다.

온디바이스 AI SDK 툴체인은 고객의 원본 모델을 로어링(lowering) 과정을 통해 온디바이스 NPU 환경에서 실행 가능한 형태로 바꾸며, 고객 모델 지원에 있어 핵심적인 역할을 한다. 그러나 이를 완성하기 위해 해결해야 할 몇 가지 기술적 과제도 존재한다.

[1] 다양한 AI 모델 IR 지원
지원해야 하는 AI 모델의 수와 복잡성이 매년 빠르게 증가함에 따라, 온디바이스 AI SDK 툴체인은 다양한 대응 시나리오를 지원해야 한다. AI SDK 툴체인이 PyTorch¹⁾, ONNX²⁾, TensorFlow³⁾, TFLite⁴⁾등 폭넓한 AI 모델 IR⁵⁾ 을 지원함으로써, 개발자가 빠르게 반복하고 유연하게 적용할 수 있는 환경을 제공할 수 있으며 이는 민첩한 AI 개발의 핵심 기반이다.

[2] 툴체인 단계별 검증 방법
AI 모델의 로어링(lowering) 과정에서는 그래프 최적화와 양자화를 거치며, 원본 모델이 점진적으로 하드웨어에서 실행 가능한 형태로 변환된다. 이때 원본 AI 모델의 정확도와 성능을 가능한 한 유지하기 위해, 각 단계에서의 검증을 강화하는 것이 매우 중요하다.

[3] 그래프 최적화 및 양자화 알고리즘의 고도화
온디바이스 AI 모델의 성능을 극대화하기 위해서는 LLM과 같이 복잡도가 높은 모델에 최적화된 그래프 최적화 기술과 양자화 알고리즘을 지속적으로 발전시키는 것이 필수적이다.

삼성의 온디바이스 AI SDK인 Exynos AI Studio는 이러한 핵심 기술 과제들을 해결하며 고객에게 완성도 높은 솔루션을 제공한다.


Exynos AI Studio: Exynos 온디바이스 SDK의 고도화 전략
삼성은 온디바이스 AI 분야에서 글로벌 리더가 되기 위해 Exynos AI Studio SDK를 개발해 고객에게 제공해 왔으며, 다양한 고도화 전략을 바탕으로 미래 기술을 준비하고 있다.

PyTorch, ONNX, TFLite 기반 AI 모델이 PyTorch 개발 환경 SDK와 IR Converter를 거쳐 Exynos AI에 최적화된 내부 중간 표현(IR)으로 변환되는 과정을 나타낸 다이어그램.
Fig 1. Exynos AI Studio SDK 구조
PyTorch, ONNX, TFLite 기반 AI 모델이 PyTorch 개발 환경 SDK와 IR Converter를 거쳐 Exynos AI에 최적화된 내부 중간 표현(IR)으로 변환되는 과정을 나타낸 다이어그램.
Fig 1. Exynos AI Studio SDK 구조


Exynos AI Studio는 크게 Exynos AI Studio High Level Toolchain(EHT) 과 Exynos AI Studio Low Level Toolchain(ELT) 로 구성된다. 두 모듈은 각각 모델 레벨에서 고급 그래프 최적화 및 양자화를 수행하며, SoC 특화 알고리즘과 컴파일을 담당한다.

EHT는 ONNX, TFLite 등 오픈소스 프레임워크 IR을 입력받아 IR Converter를 통해 내부 IR로 변환하고, 그래프 최적화를 통해 NPU 실행에 적합한 모델 구조로 조정한다. 이후 양자화를 통해 모델 크기를 줄여 온디바이스 환경에서 효율적으로 실행될 수 있도록 한다.

ELT는 각 NPU 세대에 최적화된 로어링 작업을 수행해 모델을 하드웨어에서 실행 가능한 형태로 변환한다. 마지막으로 컴파일러 단계를 거쳐 NPU에서 구동 가능한 온디바이스 AI 모델로 생성된다.


다양한 AI 모델 IR을 처리하는 SDK 설계
SDK의 확장성을 높이기 위해서는 다양한 AI 모델 IR 포맷을 지원하는 것이 중요하다. 삼성 SDK는 현재 ONNX, TFLite 등 오픈소스 프레임워크 IR을 지원하고 있으며, PyTorch 지원을 강화하기 위한 전략도 추진하고 있다. 특히 생성형 AI 모델의 경우, PyTorch 개발 환경 내에서 그래프 최적화와 양자화를 수행하면 로어링 과정에서 불필요한 변환을 줄일 수 있다. 이는 더욱 안정적이고 효율적인 SDK 제공을 가능하게 한다.

PyTorch, ONNX, TFLite 등 딥러닝 프레임워크를 지원하는 Exynos AI Studio SDK 구조도로, CNNX·SNC 변환, 양자화, 그래프 및 로우레벨 최적화, 컴파일과 온디바이스 AI 디버깅·분석 도구 흐름을 나타낸 이미지.
Fig 2. 다양한 AI 입력 모델 IR 처리 방식
PyTorch, ONNX, TFLite 등 딥러닝 프레임워크를 지원하는 Exynos AI Studio SDK 구조도로, CNNX·SNC 변환, 양자화, 그래프 및 로우레벨 최적화, 컴파일과 온디바이스 AI 디버깅·분석 도구 흐름을 나타낸 이미지.
Fig 2. 다양한 AI 입력 모델 IR 처리 방식


SDK 내부의 IR Converter를 거친 다양한 입력 IR은 Exynos 온디바이스 AI 개발에 최적화된 내부 IR로 변환된다.
모든 SDK 모듈은 이 내부 IR을 통해 정보를 주고받기 때문에 소프트웨어 아키텍처는 높은 확장성과 유연성을 갖추게 된다.


시뮬레이터·에뮬레이터 기반 단계별 검증
로어링 과정이 진행될수록 모델 크기는 점차 줄어들고, 그에 따라 원본 모델의 정확도도 일부 감소한다.
이 시점에서는 SDK 각 모듈의 기능을 강화하고 정확도 손실을 최소화하기 위해, 툴체인 단계별 검증 기능이 반드시 필요하다.

원본 모델, Fake Quant 및 Dequantize가 적용된 CNNX 시뮬레이션 모델, NPU 에뮬레이션 기반 SNC 모델 간 연산자 출력 값을 비교하여 SNR 기반 검증 과정을 나타낸 다이어그램.
Fig 3. 시뮬레이터·에뮬레이터 기반 단계별 검증 프로세스
원본 모델, Fake Quant 및 Dequantize가 적용된 CNNX 시뮬레이션 모델, NPU 에뮬레이션 기반 SNC 모델 간 연산자 출력 값을 비교하여 SNR 기반 검증 과정을 나타낸 다이어그램.
Fig 3. 시뮬레이터·에뮬레이터 기반 단계별 검증 프로세스


Exynos AI Studio의 EHT 모듈 출력값은 시뮬레이션 기능을 통해 원본 모델과 연산자 단위로 비교할 수 있다. 이때 SNR(Signal-to-Noise Ratio) 지표를 활용한다. 시뮬레이터는 양자화 정보를 처리하기 위해 특정 연산자를 de-quantize/quantize 연산으로 감싸고, fake quantization 방식으로 연산을 수행하여 정확도를 검증한다. ELT모듈 결과는 에뮬레이터 기능을 통해 정확도를 검증하는데, 이는 EHT 검증 방식과 유사하다. 에뮬레이터는 NPU 하드웨어를 모사한 에뮬레이션 코드를 통해 연산하기 때문에 더욱 정밀한 검증이 가능하다.


고도화된 그래프 최적화·양자화 알고리즘 전략
AI 모델의 복잡도와 크기가 커질수록 SDK가 제공해야 할 그래프 최적화 및 양자화 알고리즘의 고도화는 더욱 중요해진다.

Exynos AI Studio의 최적화 및 양자화 기능을 비교한 표로, 하드웨어 비의존 및 하드웨어 특화 그래프 최적화 항목과 지원 데이터 타입, PTQ 기반 양자화 기능을 나타냄.
Fig 4. Exynos AI Studio의 그래프 최적화·및 양자 특화
Exynos AI Studio의 최적화 및 양자화 기능을 비교한 표로, 하드웨어 비의존 및 하드웨어 특화 그래프 최적화 항목과 지원 데이터 타입, PTQ 기반 양자화 기능을 나타냄.
Fig 4. Exynos AI Studio의 그래프 최적화·및 양자 특화


그래프 최적화 단계는 하드웨어 비종속적 최적화(HW agnostic)와 하드웨어 특화(specific) 최적으로 나뉜다. 일반적인 컴퓨팅 장치에 적합한 최적화를 적용한 후, NPU 하드웨어 가속기의 특성에 맞는 알고리즘을 추가로 수행한다. 양자화 알고리즘은 서버 환경에서 fp32 bit width로 학습된 모델을 int8, int16, 또는 fp16 bit width 와 함께 NPU에서 실행 가능한 비트폭으로 변환한다. 고도화된 그래프 최적화와 양자화 알고리즘을 적용함으로써 원본 모델의 정확도를 최대한 유지한 상태에서 NPU 최적화를 수행할 수 있다.


온디바이스 인텔리전스의 미래를 향해
온디바이스 AI는 이제 기술적 한계를 넘어 실질적인 활용 단계에 도달했다. 삼성은 Exynos AI Studio SDK를 통해 미래 AI가 요구하는 속도, 정확도, 확장성을 제공하며, 사용자가 필요로 하는 순간과 환경 속에서 진정한 지능형 경험을 실현하고 있다.

기술적인 관점에서 Exynos AI Studio SDK는 온디바이스 AI SDK 툴체인 구조를 기반으로 고객의 AI 모델이 NPU 하드웨어에서 효과적으로 동작하도록 최적화·양자화·컴파일 과정을 수행한다. 앞으로도 삼성은 종합적인 설계와 개발 전략을 바탕으로 온디바이스 AI 기술 분야에서 글로벌 리더십을 지속해 나갈 것이다.



* 모든 이미지는 설명을 돕기 위한 예시이며, 실제 제품과 다를 수 있습니다.


1) 메타가 개발한 오픈소스 딥러닝 프레임워크로, 직관적이고 유연한 AI 모델 개발에 최적화되어 있다.
2) ONNX (Open Neural Network Exchange), 머신러닝·딥러닝 모델을 표현하기 위한 오픈소스 형식이다.
3) 구글이 개발한 오픈소스 딥러닝 프레임워크로, 대규모 AI 학습 및 배포에 적합하도록 설계되었다.
4) 모바일 및 엣지 디바이스에서 AI 모델을 실행할 수 있도록 최적화한 TensorFlow의 경량 버전이다.
5) Intermediate Representation(IR): 여러 딥러닝 프레임워크의 모델을 하나의 형태로 통합해, 최적화·양자화·컴파일 등의 후처리를 수행할 수 있도록 하는 하드웨어 비종속적 포맷이다.