본문으로 이동

삼성이 개척하는 온디바이스 생성형 AI의 전환점

  • 메일

2025년, 생성형 AI는 우리 손 위에 놓여져 있으며, 삼성의 Exynos SoC에 내장된 온디바이스 AI 기능 덕분에 이제 이 힘을 더 빠르고, 안전하게 활용할 수 있게 되었다. 과거에는 대규모 서버와 지속적인 인터넷 연결이 필요했던 AI 연산이 이제 스마트폰과 같은 개인 기기에서 직접 구동 가능해진 것이다. 이러한 관점에서 온디바이스 AI는 단순한 기술적 이정표가 아닌, AI 활용 방식의 근본적인 전환을 의미한다.

온디바이스 AI는 클라우드 기반 모델 대비 여러 가지 중요한 이점을 제공한다. 인터넷 연결 없이도 실시간으로 AI 서비스를 이용할 수 있으며, 모든 연산을 로컬에서 처리하여 개인정보를 안전하게 보호할 수 있다. 또한 클라우드 서비스 비용 절감에도 기여한다. 그러나 스마트폰에서 온디바이스로 대규모 생성형 AI를 원활하게 구동하는 것은 연산 자원과 메모리 용량의 한계로 인해 쉽지 않은 일이다. 이를 해결하기 위해 고효율 추론 기술과 모델 경량화 및 양자화 기술이 필수적이며, 고성능 모델의 실시간 구동을 지원하기 위한 모델 변환 툴, 런타임 소프트웨어 기술, 이종 코어 아키텍처 기반의 고성능/저전력 신경망 가속기 설계 기술이 필요하다. 
 

이종 코어 아키텍처 기반 고성능/저전력 신경망 가속기

트랜스포머 아키텍처는 대규모 생성형 AI의 근간이 되는 구조로, 멀티 헤드 어텐션 메커니즘과 피드포워드 네트워크의 조합으로 구성되어 있다. 이 두 구조 내에서는 행렬 곱셈과 같은 선형 연산, 소프트맥스1 함수와 같은 비선형 연산이 사용되며, 각 연산의 비중은 생성형 AI가 활용되는 구체적인 시나리오에 따라 달라지는 특징이 있다. 

이러한 이유로, 생성형 AI 모델을 온디바이스에서 효율적으로 구동하기 위해서는 선형 연산과 비선형 연산 모두를 지원해야 한다. 또한 두 연산의 비중이 다양하게 변동되는 경우에도 효율적으로 동작할 수 있는 이종 코어 아키텍처 기반의 신경망 가속기가 반드시 필요하다.

압축, 제어, 메모리, 세 개의 텐서 엔진, 한 개의 벡터 엔진으로 구성된 신경망 가속기의 이종 코어 아키텍처 다이어그램.
압축, 제어, 메모리, 세 개의 텐서 엔진, 한 개의 벡터 엔진으로 구성된 신경망 가속기의 이종 코어 아키텍처 다이어그램.

다음은 온디바이스 환경에서 대규모 생성형 AI 모델을 구동하기 위해 필요한 고성능/저전력 신경망 가속기의 세 가지 핵심 특징이다.

[1] 온디바이스 환경을 위한 고성능/저전력 연산기 구조

온디바이스 환경에서 모델 구동의 실시간성을 보장하기 위해, 수십 TOPS 이상의 연산 성능과 16비트 미만의 낮은 정밀도를 지원하는 구조를 갖추고 있다. 온디바이스 시스템은 클라우드 기반 플랫폼에 비해 절대적인 연산 성능은 낮을 수 있으나, 4비트 및 8비트와 같은 낮은 정밀도를 지원함으로써 더 높은 에너지 효율을 달성할 수 있다.

[2] 다양한 이종 코어 기반 아키텍처

생성형 AI 모델을 구성하는 선형 연산과 비선형 연산을 효과적으로 처리하기 위해, 두 유형의 연산에 최적화된 텐서 엔진과 벡터 엔진을 탑재하고 있다. 텐서 엔진은 고속 선형 연산을 위한 다수의 MAC2 어레이를 탑재하고 있으며, 벡터 엔진은 다양한 비선형 연산에 최적화된 SIMD3 유닛을 포함하고 있다.

[3] 다수의 연산기 간의 공유 메모리 및 컨트롤러 아키텍처

다양한 이종 연산기 간 데이터 전송 오버헤드를 최소화하기 위해, 모든 연산 엔진에는 연산 결과를 교환할 수 있는 스크래치패드 SRAM 등의 내부 공유 메모리가 탑재되어 있다. 또한 각 코어의 구동 효율을 극대화하기 위한 전용 컨트롤러 아키텍처도 함께 갖추고 있다.
 

고효율 추론을 위한 연산 및 메모리 최적화 소프트웨어 기술

온디바이스 환경에서 대규모 AI 모델을 구동하기 위해서는 제한된 하드웨어 자원 내에서 효율적인 연산과 데이터 저장을 가능하게 하는 최적화 소프트웨어 기술이 필요하다. 대표적인 예로 LoRA4 적용 기술과 신경망 연산 및 메모리 최적화를 위한 컴파일러 기술이 있다.

[1] LoRA 적용 기술

LoRA 기법은 고정된 모델 파라미터에 최소한의 변경만을 가해 다양한 목적을 구현할 수 있는 방식으로, 이를 통해 전체 모델 크기를 크게 줄일 수 있다는 특징이 있다. 특정 도메인 언어 모델 구축, 특정 스타일의 이미지 생성, 특정 작업용 챗봇 및 AI 에이전트 개발 등이 대표적인 예시이다. 이러한 LoRA 기법의 장점을 온디바이스 환경에서 활용하기 위해서는 LoRA 적용 기술이 필수적이다. 

온디바이스 환경에서 LoRA 기법을 통해 목표 모델의 고정된 파라미터와 업데이트 가능한 LoRA 파라미터를 명확히 분리해 처리할 수 있으며, 이를 통해 다양한 작업에 유연하게 대응하면서도 메모리 사용량을 최소화할 수 있다. 

LoRA 기술 적용을 나타낸 다이어그램으로, 기본 가중치 (W_base)는 고정되어 있고, 여러 작업을 위해 학습 가능한 저랭크 적응 행렬 (A_i 및 B_i)이 사용됩니다.
LoRA 기술 적용을 나타낸 다이어그램으로, 기본 가중치 (W_base)는 고정되어 있고, 여러 작업을 위해 학습 가능한 저랭크 적응 행렬 (A_i 및 B_i)이 사용됩니다.

[2] 신경망 연산 및 메모리 최적화를 위한 컴파일러 기술

온디바이스 환경에서 생성형 AI 모델을 가속화하기 위한 컴파일러 기술에는 크게 이종 가속기 병렬 처리 기법과 하위 모델 간 파라미터 공유 기법이 존재한다. 이종 가속기 병렬 처리 기법은 생성형 AI 모델을 구성하는 선형 연산과 비선형 연산을 처리하는 연산기의 종류가 다르다는 점을 활용해, 이들 연산기의 구동을 병렬로 스케줄링하여 전체 실행 시간을 최소화하는 기법이다. 

데이터 종속성 제거 후 스케줄링 기법을 보여주는 다이어그램으로, 순차 처리와 병렬 처리 과정을 비교합니다.
데이터 종속성 제거 후 스케줄링 기법을 보여주는 다이어그램으로, 순차 처리와 병렬 처리 과정을 비교합니다.

더하여, 데이터 의존 제거를 위한 신경망 분할 기법과 이종 가속기 병렬 처리 기법이 함께 적용되는 경우, 메모리 트래픽을 줄이고 연산 시간을 병렬화함으로써 추론 속도를 크게 향상시킬 수 있다. 
 

신경망 타일링 및 이종 가속기를 사용한 병렬 처리 기반 추론 가속화 다이어그램으로, 직렬 및 병렬 실행 타임라인을 비교합니다.
신경망 타일링 및 이종 가속기를 사용한 병렬 처리 기반 추론 가속화 다이어그램으로, 직렬 및 병렬 실행 타임라인을 비교합니다.

하위 모델 간 파라미터 공유 기법은 생성형 AI 모델의 저장 공간 한계를 극복하는 데 기여하는 컴파일러 최적화 기술 중 하나이다. 전체 모델 내의 하위 모델 간 파라미터를 공유함으로써 전체 시스템에서 필요한 저장 공간을 크게 줄일 수 있다. 

하위 모델 간 가중치 공유 기술을 보여주는 다이어그램으로, 여러 하위 모델의 개별 가중치를 공유 가중치로 통합하는 과정을 나타냅니다.
하위 모델 간 가중치 공유 기술을 보여주는 다이어그램으로, 여러 하위 모델의 개별 가중치를 공유 가중치로 통합하는 과정을 나타냅니다.

AI 모델 경량화 및 양자화 기술

모델 경량화와 양자화 기술은 온디바이스 환경에서 대규모 생성형 AI 모델을 구동하기 위한 필수 기술이다. 이 기술들은 제한된 하드웨어 자원에서도 AI 모델을 효율적이고 실시간으로 동작할 수 있도록 하며, 메모리와 연산 능력의 한계를 넘어 모델 크기를 줄이고 연산 속도를 높이며 에너지 소비를 최소화하는 데 중요한 역할을 한다.

모델 경량화의 두 가지 핵심 기술로는 프루닝과 지식 증류 방법이 있다. 프루닝은 모델 내에서 불필요하거나 중요도가 낮은 뉴런을 제거하거나, 이러한 뉴런 간의 연결을 비활성화하는 기법으로, 모델 크기와 연산 부하를 줄여 연산 속도와 에너지 효율을 크게 향상시킨다. 반면, 지식 증류는 대규모 교사 모델의 예측 정보를 소규모 학생 모델에 전달하는 방법으로, 파라미터 수를 획기적으로 줄이면서도 복잡한 모델의 성능을 유지할 수 있게 한다. 두 방법 모두 온디바이스 환경에서 실시간 AI 추론을 실현하기 위해 필수적이며, 상호 보완적으로 활용할 때 최적의 결과를 제공할 수 있다.

모델 경량화 적용 개념도로, 원래의 큰 신경망이 가지치기/지식 증류를 통해 더 작은 모델로 변환되는 과정을 보여줍니다.
모델 경량화 적용 개념도로, 원래의 큰 신경망이 가지치기/지식 증류를 통해 더 작은 모델로 변환되는 과정을 보여줍니다.

모델 양자화 기술은 신경망의 가중치와 활성화 값을 8비트 이하의 낮은 정밀도로 변환해 연산 및 저장에 필요한 자원을 크게 줄여, 제한된 하드웨어 자원 하에서도 대규모 생성형 AI 모델을 효율적으로 처리할 수 있게 한다. 이러한 이유로 양자화는 온디바이스 환경에서 실시간 추론을 가능하게 하는 핵심 기술로 자리하고 있다. 

최근에는 4비트 이하의 가중치와 8비트 이하의 활성화 값을 적용한 생성형 AI 모델이 제안되고 있다. 나아가 4비트 미만의 정밀도를 지원하는 모델의 개발과 적용이 확산되며, 온디바이스 AI 실행 환경에 빠른 변화를 일으키고 있다.

모델 양자화 적용 개념도로, 원본 32비트 신경망이 양자화된 2-16비트 혼합 정밀도 모델로 변환되는 과정을 보여줍니다.
모델 양자화 적용 개념도로, 원본 32비트 신경망이 양자화된 2-16비트 혼합 정밀도 모델로 변환되는 과정을 보여줍니다.

온디바이스 생성형 AI의 미래를 열다

삼성전자는 이종 연산을 지원하는 하드웨어부터 연산 부하를 줄이는 알고리즘, 구동 효율을 높이는 소프트웨어에 이르기까지 온디바이스 생성형 AI 핵심 기술을 높은 수준으로 통합하며 지속적으로 발전시켜 왔다. 이러한 기술적 진전을 바탕으로 삼성은 세계 최초 AI 스마트폰 상용화에 기여했으며, 앞으로도 온디바이스 AI 기술의 한계를 끊임없이 확장해 나가며 전 세계 사용자에게 더욱 스마트하고 안전한 AI 경험을 제공할 것이다.

* 표시된 이미지는 예시용으로만 제공되며, 제품 자체 또는 해당 제품과 함께 촬영된 이미지를 정확하게 재현하지 않을 수 있습니다. 모든 이미지는 디지털 방식으로 편집, 수정 또는 보정되었습니다.

* 모든 제품 사양은 내부 테스트 결과를 반영하며 사용자의 시스템 구성에 따라 변동이 있을 수 있습니다. 실제 성능은 사용 조건과 환경에 따라 다를 수 있습니다. 


1) Softmax는 실수 벡터를 확률 분포로 변환하는 수학적 함수이다. NPU에서 Softmax는 트랜스포머의 어텐션 메커니즘에서 상관관계를 강조하는 데 중요한 역할을 한다. 더하여, 분류 작업에서 확률을 계산하는 데에도 필수적인 함수이다.
2) Multiply-Accumulate, 곱셈-누산 연산
3) Single Instruction Multiple Data, 단일 명령 다중 데이터 처리
4) Low-Rank Adaptation, 저랭크 적응