본문으로 이동

클라우드를 넘어, 온디바이스 AI 기술 혁신을 심층 분석하다

  • 메일

대규모 생성 AI 모델, 특히 대형 언어 모델과 텍스트-이미지 변환 모델은 주로 클라우드 서버 환경에서 운영되어 왔다. 그러나 개인정보 보호 강화, 지연 시간 감소, 비용 및 에너지 효율 개선에 대한 수요가 증가함에 따라, SoC 기반의 온디바이스 생성형 AI에 대한 관심이 커지고 있다. 이러한 흐름 속에서 주목받는 이 기술은 여러 장점을 제공하지만, 현실화하기 위해 반드시 해결해야 할 세 가지 주요 물리적 한계가 존재한다. 

[1] 연산 자원 제한

클라우드 서버와 달리 엣지 디바이스의 SoC는 제한된 연산 자원을 갖고 있어, 생성형 AI 모델이 요구하는 초당 수조 회의 연산(TOPS)을 처리하기 어렵다. 병렬 연산 유닛의 수가 제한적이고, 동작 주파수도 낮게 유지해야 하므로, 고성능 온디바이스 추론을 가능하게 하려면 연산량 자체를 구조적으로 줄이는 노력이 필수적이다.

[2] 메모리 용량 및 대역폭 제한

고성능 생성형 AI 모델은 수백 메가바이트에서 수 기가바이트에 이르는 파라미터와 중간 활성화 값을 다뤄야 한다. 하지만 서버와 비교했을 때 엣지 디바이스는 DRAM 용량이 작고, 외부 메모리 접근 속도가 현저히 느리다는 한계가 있다. 이로 인해 모델 실행 중 빈번한 메모리 접근이 주요 병목 현상이 되어, 전체 시스템 성능 저하와 에너지 소비 증가를 초래할 수 있다.

[3] 배터리 전력 및 열 설계 한계

배터리로 구동되는 모바일 디바이스는 사용 가능한 전력이 제한적이며, 과도한 전력 소모는 발열 증가로 이어져 시스템 성능을 자동으로 낮추는 열 스로틀링을 유발한다. 이러한 제약으로 인해 고성능 모델을 탑재하더라도 지속적인 추론이 어렵기 때문에, 에너지 효율을 최우선으로 고려한 연산 프로세스 재설계가 필요하다.

이러한 도전 과제를 해결하기 위해 삼성은 하드웨어 수준의 최적화뿐 아니라, 모델 구조, 연산 패턴, 알고리즘 설계 등 아키텍처 전반에 걸친 개선에 집중해 왔다. 이 핵심 요소들이 엑시노스 SoC에서 대규모 생성형 AI 모델의 탁월한 성능을 가능하게 했으며, 지금부터 이러한 기술적 개선이 어떻게 이루어졌는지 자세히 살펴보도록 하겠다.


저비트 양자화: SoC 상의 동작을 위한 모델 경량화 기술

저비트 양자화는 딥러닝 모델의 가중치와 활성화 값을 32비트 부동소수점 대신 8비트, 4비트 또는 그 이하의 정수로 표현하여 모델의 전체 크기와 계산 복잡도를 크게 줄이는 기술이다. 이 방법은 연산 속도를 높이고 메모리 사용량을 감소시키며, 전력 효율이 높은 정수 기반 연산을 가능하게 해 제한된 연산 자원을 가진 SoC 및 엣지 디바이스에서 매우 효과적이다.

최근에는 정밀도 손실 없이도 모델을 4비트 이하로 양자화할 수 있는 새로운 알고리즘들이 등장하면서, 저비트 양자화는 대형 언어 모델과 생성형 모델을 디바이스 내에서 실행하기 위한 핵심 기술로 자리잡게 되었다. 삼성은 이 방식을 적용하여 부동소수점 모델 대비 높은 전력 효율성(TOPS/W 기준)을 달성했으며, 메모리 대역폭 병목 현상도 완화하였다. 이러한 성과를 바탕으로 엑시노스 SoC에서 Llama, Stable Diffusion XL 등 생성형 모델을 원활하게 구동할 수 있는 수준의 성능을 확보하였다.

저비트 양자화 구현의 이점
저비트 양자화 구현의 이점

가중치 희소성: 메모리 I/O 감소를 위한 연산 효율화 기법

가중치 희소성은 딥러닝 모델 내에서 중요도가 낮거나 값이 거의 0에 가까운 가중치를 제거하거나 무시하여, 모델이 필수적인 연산만 수행하도록 하는 기술이다. 이 기법을 활용하면 전체 연산량이 줄어들 뿐만 아니라 불필요한 메모리 접근도 줄어들어, 메모리 입출력(I/O)을 크게 감소시킬 수 있다. 과거에는 채널이나 필터 전체를 제거하는 구조적 가지치기가 모델 구조를 단순화하는 데 주로 사용되었으나, 이 방법은 채널이나 필터 전체를 한꺼번에 제거해야 하기 때문에, 제거할 수 있는 부분이 많지 않아 실제 연산량을 크게 줄이기 어렵다는 한계가 있다. 반면, 개별 가중치 연결을 선택적으로 제거하는 비구조적 가지치기가 점차 주목받고 있으며, 산업계는 이 기술을 실제 성능 향상으로 연결하기 위해 희소성 인식 맞춤형 가속기를 활용하는 방향으로 지속 연구 중이다.

엑시노스 플랫폼은 하드웨어 수준에서 비구조적 가중치 희소성을 지원하여 메모리 I/O를 줄일 수 있다. 이를 통해 메모리 I/O가 주요 성능 병목인 모델에서도 최적화된 성능과 낮은 전력 소모를 실현했다. 삼성은 가중치 희소성에 더해, 활성화 희소성과 같은 추가 기술도 연구 중이다. 활성화 희소성은 레이어에 입력되는 값 중 다수가 0이 되어 해당 연산을 건너뛸 수 있게 하는 기술이다. 가중치 희소성이 신경망 연산에서 고정된 상수와 관련된 기술인 반면, 활성화 희소성은 데이터에 따라 변하는 변수와 관련되어 있어 이를 처리하기 위해 별도의 하드웨어 지원이 필요하다는 특징이 있다.¹


알고리즘 수준의 최적화: 추론 속도를 구조적으로 향상시키는 새로운 접근


기존의 고정된 모델 아키텍처를 압축하거나 불필요한 연산을 건너뛰는 방식에서 한 걸음 더 나아가기 위해, 삼성은 추론 알고리즘 차원에서의 구조적 최적화를 연구하고 적용하고 있다.

[1] 대형 언어 모델을 위한 추론 기반 디코딩

추론 기반 디코딩은 대형 언어 모델의 추론 속도를 획기적으로 향상시키는 기술이다. 이 기법은 먼저 경량화된 작은 모델을 활용해 다수의 후보 토큰을 신속하게 생성한 뒤, 대형 모델이 이 후보 토큰들을 한 번에 검증하는 방식으로 작동한다. 이러한 구조는 매 토큰마다 대형 모델을 호출하던 기존 방식에 비해 연산량을 크게 줄이며, 다수의 토큰을 한 번에 예측하고 검증할 수 있어 추론 지연을 현저히 개선할 수 있다. 품질 저하 없이 응답 속도를 최대 3~4배까지 향상시킬 수 있는 이 기법은, 연산 자원이 제한적인 모바일 및 엣지 디바이스 환경에서 대형 언어 모델을 실행하는 데 있어 핵심 기술로 주목받고 있다.

자기 회귀 디코딩과 추측 디코딩 비교
자기 회귀 디코딩과 추측 디코딩 비교

[2] 대형 언어 모델을 위한 슬라이딩 윈도우 어텐션

대형 언어 모델이 긴 입력 시퀀스를 처리할 때 발생하는 막대한 연산량과 메모리 사용량의 문제를 해결하기 위해, 삼성은 슬라이딩 윈도우 어텐션과 같은 최적화 알고리즘을 도입하였다. 이 기법은 Self-Attention 계산을 전체 시퀀스에 대해 수행하지 않고, 각 토큰이 고정된 길이의 인접한 윈도우 내 토큰들과만 상호작용하도록 제한한다. 이를 통해 Transformer 블록의 연산 복잡도를 기존의 O(N²)에서 O(N)으로 줄일 수 있다. 이러한 구조는 긴 문맥 처리가 요구되는 요약 기능과 같은 작업에 특히 적합하며, 확장된 시퀀스를 효율적으로 처리할 수 있게 해준다. 추론 기반 디코딩이 미래의 추론 경로를 예측하여 연산량을 줄이는 방식이라면, 슬라이딩 윈도우 어텐션은 문맥 구조 자체를 단순화함으로써 구조적으로 연산 부담을 줄이는 방식이다.

[3] 이미지 생성용 확산 모델을 위한 스텝 디스틸레이션

스텝 디스틸레이션은 고품질 이미지 생성을 위해 필요한 반복적인 노이즈 제거 단계를 줄이기 위한 지능형 최적화 기법이다. 기존의 확산 모델은 수십~수백 단계에 걸쳐 U-Net 구조의 모델을 사용해 점진적으로 노이즈를 제거하는데, 이는 연산량이 많고 메모리 접근이 빈번해 SoC 또는 엣지 디바이스 환경에서는 적용이 어렵다는 한계가 있다.

이 문제를 해결하기 위해, 스텝 디스틸레이션은 수십~수백 단계의 추론 과정을 10단계 미만으로 단축하면서도 유사한 이미지 품질을 유지할 수 있도록 한다. 이 기법은 기존 모델의 구조나 파라미터에 큰 변경 없이 적용 가능하므로, Stable Diffusion과 같은 대규모 이미지 생성 모델에도 쉽게 적용할 수 있다. 특히 전력 효율성과 추론 시간 최적화가 중요한 SoC 및 엣지 환경에 적합하다.

추가적으로, 스텝 디스틸레이션은 U-Net 아키텍처의 특성을 기반으로 각 단계마다 변화가 큰 레이어는 자주 실행하고, 변화가 적은 레이어는 간헐적으로 실행하는 방식으로도 최적화를 확장할 수 있다. 이를 통해 제한된 연산 자원과 메모리 대역폭 내에서도 고품질 생성형 AI를 실현할 수 있어, 스텝 디스틸레이션은 핵심적인 구현 기술로 평가된다.


더 스마트한 온디바이스 AI 경험을 향하여

생성형 AI 시대에 대응하여, 삼성은 엑시노스 SoC의 AI 성능을 지속적인 아키텍처 및 알고리즘 최적화를 통해 강화하며 온디바이스 혁신을 이끌어왔다. 에이전트 AI 시대를 준비하는 삼성은 저비트 양자화, 가중치 및 활성화 희소성 같은 모델 경량화 기술을 계속 연구하며, 이를 엑시노스 AI 스튜디오라는 통합 툴체인 형태로 구현하고 있다.

알고리즘 수준에서는, 추론 기반 디코딩을 발전시키는 한편, MoE², Mamba³, MM-DiT⁴ 등 엣지 디바이스 환경에 맞춤화된 최첨단 모델 아키텍처의 효율적인 구현을 위한 연구 및 개발도 활발히 진행 중이다.

이러한 소프트웨어 혁신들은 생성형 모델이 온디바이스 환경에서 실행되는 방식에 있어 중대한 전환점을 의미한다. 삼성은 앞으로도 하드웨어 발전과 소프트웨어 혁신을 바탕으로 온디바이스 AI 성능을 더욱 향상시킬 것이다. 이러한 통합적 접근법은 실시간 온디바이스 생성형 AI를 단순히 가능한 수준에 머무르게 하지 않고, 한층 뛰어난 성능으로 구현할 수 있도록 할 것이다.

* 표시된 이미지는 예시용으로만 제공되며, 제품 자체 또는 해당 제품과 함께 촬영된 이미지를 정확하게 재현하지 않을 수 있습니다. 모든 이미지는 디지털 방식으로 편집, 수정 또는 보정되었습니다.

* 모든 제품 사양은 내부 테스트 결과를 반영하며 사용자의 시스템 구성에 따라 변동이 있을 수 있습니다. 실제 성능은 사용 조건과 환경에 따라 다를 수 있습니다.


1) 신경망의 기본 연산은 y=w×xy = w \times xy=w×x이다. 가중치 희소성은 w=0w = 0w=0인 경우에 발생하며, 활성화 희소성은 x=0x = 0x=0인 경우에 발생한다. 두 경우 모두 연산을 생략하고 yyy를 0으로 설정할 수 있다. 그러나 www는 상수이고 xxx는 변수이기 때문에, 이를 처리하기 위한 하드웨어 구현 방식은 서로 다르다.
2) MoE(Mixture of Experts)는 신경망 아키텍처로, 전문가 모델들 중 일부만 선택적으로 활성화하여 계산 효율성을 높이는 동시에 모델 용량의 효과적인 확장을 가능하게 한다.
3) Mamba는 시퀀스 모델로, Transformer의 한계를 극복하며 긴 시퀀스를 선형 시간에 처리할 수 있도록 설계된 새로운 아키텍처이다.
4) MM-DiT(Multimodal Diffusion Transformer)는 확산 모델에서 기존의 U-Net 아키텍처를 트랜스포머 기반 구조로 대체한 모델이다. 이미지를 패치 단위로 나누어 각 패치를 토큰으로 처리하고, 텍스트와 이미지 정보를 동시에 처리함으로써 멀티 모달 이해를 바탕으로 고품질 이미지 생성을 가능하게 한다.