본문으로 이동

AI 추론 확장을 위한 KV 캐시 오프로딩: 차세대 AI 시스템 아키텍처와 스토리지의 역할

  • 메일

대규모 언어 모델(LLM)의 규모가 빠르게 커지면서 AI 시스템 최적화의 초점도 점차 변화하고 있다. 학습(Training)이 여전히 높은 자원을 요구하는 영역이지만, 실제 서비스 환경에서 반복적으로 수행되는 추론(Inference) 워크로드의 중요성이 빠르게 증가하고 있다. 특히 여러 에이전트가 상호작용하며 맥락을 유지하고 단계적으로 결과를 생성하는 에이전틱 AI 환경에서는 이러한 변화가 더욱 두드러진다.

이러한 환경에서 추론은 단순한 연산 단계를 넘어선다. 모델이 생성한 정보를 저장하고 재사용하는 KV 캐시 관리가 시스템 전반의 성능과 효율에 직접적인 영향을 미치기 때문이다. 모델 규모가 커지고 멀티 노드 기반 분산 환경으로 확장될수록 KV 캐시는 단일 요청이나 단일 GPU를 넘어 지속적으로 유지·관리되는 시스템 자원으로 변화하고 있다. 그 결과 메모리 용량과 데이터 관리 부담이 증가하며, 이는 시스템 확장성을 제한하는 요소로 작용한다.

결국 AI 추론 파이프라인에는 새로운 병목이 발생한다. 시스템 메모리에 과도한 부담을 주지 않으면서도 빠른 응답성을 유지하기 위해 KV 캐시를 효율적으로 저장·접근·재사용하는 것이 핵심 과제가 되었으며, 이는 컴퓨팅 자원의 배치와 활용 방식 전반에 대한 아키텍처 재설계를 요구하고 있다.

 

KV 캐시 오프로딩의 중요성

최근 NVIDIA는 Vera Rubin 플랫폼에서 CMX™(Context Memory eXpansion) 아키텍처를 도입하고, 삼성전자의 고성능 엔터프라이즈 SSD PM1753를 채택함으로써 GPU 메모리의 물리적 한계를 보완하기 위한 메모리 확장 접근을 실제 시스템 수준에서 구체화하고 있다. 이는 KV 캐시 기반의 대규모 추론 데이터를 GPU 및 시스템 메모리 외부까지 확장해 활용하는 구조가, 개념을 넘어 실제 시스템 설계에 반영되고 있음을 보여준다.

KV 캐시 오프로딩은 이러한 요구에 대응하기 위한 접근 방식으로, 스토리지를 새로운 메모리 레이어(Storage Tier)로 활용하는 구조를 의미한다. 일부 캐시를 GPU 또는 시스템 메모리 외부로 이동시켜 메모리 부담을 완화하면서도, 추론 단계 간 데이터 활용 효율을 유지할 수 있다.

이 구조는 더 긴 컨텍스트 처리와 유연한 추론 확장을 가능하게 하며, 대용량 데이터를 반복적으로 활용하는 환경에서 그 효과가 더욱 두드러진다. 이를 안정적으로 구현하기 위해서는 대용량 읽기 중심 환경에서도 낮은 지연시간과 일관된 병렬 접근 성능을 제공할 수 있는 스토리지 특성이 필수적이다.

삼성전자 PM1753
삼성전자 PM1753
삼성전자 PM1753
삼성전자 PM1753

KV 캐시 오프로딩 워크로드 특성 이해

삼성전자는 이러한 아키텍처 변화가 실제 시스템 환경에서 어떻게 구현되는지를 선제적으로 검증하기 위해, PM1753 기반의 시스템 레벨 평가를 수행했다. 이번 평가는 단순한 성능 비교를 넘어, KV 캐시 오프로딩 환경에서 추론 워크로드와 스토리지 간 상호작용을 구조적으로 분석하는 데 초점을 두었다.

분석 결과, KV 캐시 오프로딩은 소규모의 빈번한 I/O보다는 대용량 데이터 블록 단위 이동이 주요 특성으로 나타났다. 이는 추론 과정에서 이전에 생성된 대규모 맥락 데이터를 반복적으로 활용하기 때문이다. 이에 따라 스토리지는 단순 저장 장치를 넘어, 대용량 데이터를 안정적으로 지속 제공하는 핵심 구성 요소로 작동한다.

또한 해당 워크로드는 전반적으로 읽기 중심이며, 높은 동시성 환경에서 순간적인 트래픽 변동이 발생하는 특성을 보였다. 이에 따라 스토리지 시스템은 높은 처리량과 병렬 접근 성능을 유지하면서도, 일관된 지연시간을 제공할 수 있어야 한다.

 

KV 캐시 오프로딩이 가져오는 시스템 변화

삼성전자의 내부 평가 결과는 KV 캐시 오프로딩이 고성능 스토리지와 결합될 때 AI 추론 확장성 측면에서 실질적인 효과를 제공할 수 있음을 보여준다. 이는 단일 성능 지표 개선을 넘어, 성능·전력 효율·운영 비용 등 시스템 전반의 동작 방식에 영향을 미친다.

KV 캐시 오프로딩을 통해 워크로드 일부를 스토리지로 분산함으로써 메모리 부담을 완화하고 반복 연산을 줄일 수 있다. 또한 트래픽이 급증하는 상황에서도 안정적인 지연시간을 유지하며 GPU 자원 활용 효율을 높이고, 높은 부하 환경에서도 일관된 데이터 처리 성능을 지원할 수 있다.

 

AI 인프라 확장을 위한 시사점

KV 캐시 오프로딩에 대한 관심 증가는 AI 시스템 아키텍처 전반의 변화를 보여준다. 에이전트 기반 추론과 멀티 노드 환경이 확대되면서, 스토리지는 단순 저장 장치를 넘어 시스템 확장을 가능하게 하는 핵심 인프라 요소로 진화하고 있다.

삼성전자의 이번 평가 결과는 스토리지가 시스템 규모가 커질수록 병목이 아닌 확장의 기반으로 작용할 수 있음을 시사한다. 향후 AI 인프라 설계에서는 KV 캐시 오프로딩이 주요 고려 요소 중 하나로 자리 잡을 가능성이 높으며, 스토리지와 시스템 아키텍처 간 균형 설계가 실제 서비스 환경에서의 확장성과 효율을 좌우하게 될 것이다.

 

자세히 알아보기

평가에 활용된 실제 하드웨어 구성, 측정 데이터 및 워크로드 분석 결과는 아래 백서[1]를 통해 확인할 수 있다.

Download

 


 
References
 
[1] White Paper: Scaling AI Inference with KV Cache Offloading
 
해당 백서는 본 아티클에서 소개한 아키텍처 관점을 보완하는 정량적 분석과 실험 데이터를 담고 있다. 
이를 통해 KV 캐시 오프로딩이 향후 AI 인프라 발전에 어떤 영향을 미칠 수 있는지 보다 심층적으로 살펴볼 수 있다.
 

* 본 페이지에 포함된 모든 내용은 정보 제공을 목적으로 작성되었습니다. 삼성전자 및 그 계열사와 각 임직원, 자문인, 대리인 등(이하 “삼성”)은 본 페이지에 포함된 정보, 진술, 의견 또는 기타 사항의 정확성, 합리성, 완전성에 대해 명시적 또는 묵시적으로 어떠한 보증이나 진술도 하지 않으며, 해당 내용은 “있는 그대로(AS-IS)” 제공됩니다. 삼성은 본 페이지의 내용 사용 또는 이와 관련하여 발생하는 어떠한 손해에 대해서도 책임을 지지 않습니다. 또한 본 페이지에 포함된 정보, 자료 또는 콘텐츠와 관련하여 어떠한 지식재산권 또는 라이선스도 부여되지 않습니다.
* 본 페이지에는 향후 전망에 관한 진술(forward-looking statements)이 포함될 수 있습니다. 이러한 진술은 미래 성과를 보장하지 않으며, 실제 삼성의 사업, 시장 또는 산업 환경의 전개는 본 페이지에 포함된 전망과 실질적으로 다를 수 있습니다.
* 표시된 이미지는 예시용으로만 제공되며, 제품 자체 또는 해당 제품과 함께 촬영된 이미지를 정확하게 재현하지 않을 수 있습니다.
* 모든 이미지는 디지털 방식으로 편집, 수정 또는 보정되었습니다.