본문으로 이동

AI 성장을 촉진하는 스마트 메모리

AI 혁신을 이루려면 그 어느 때보다 많은 데이터를 처리해야 한다.
연산 로직을 결합해 재설계한 메모리 장치는 새로운 미래형 애플리케이션의 장을 열 것으로 전망된다.

  • 메일
AI 데이터 딜레마를 해소하는 PIM AI 알고리즘과 애플리케이션의 성장 및 진화로 데이터 처리에서도 요구 사항이 급격하게 증가했다. 보건, 음성인식, 자율주행 등의 애플리케이션 분야에서, 보다 깊은 인사이트를 얻기 위해서는 데이터 처리 용량과 속도를 지속적으로 높여야 하다. 하지만 이러한 수요가 증가하고 있는 상황에서, 지금까지 사양을 점진적으로 개선해 온 현재의 메모리 솔루션만으로는 역부족이다. AI의 미래 개척이라는 고차원의 도전과제를 해결하기 위해서는 혁신적인 돌파구가 필요하다. AI 애플리케이션의 성장에 영향을 주는 현재의 메모리 솔루션 제약을 해결하기 위해 등장한 해결책이 바로 Processing-in-Memory (PIM)이다. 삼성전자는 업계 최초로 PIM을 고대역폭 메모리(HBM)에 통합했다. PIM은 증가하는 AI 데이터 처리 수요와 이러한 수요를 충족하기에 역부족인 현재의 메모리 솔루션 간의 가교가 될 것이다. PIM 자체는 새로운 기술이 아니지만 이전에는 학계와 업계에서 대략적인 개념 차원으로만 연구되어 온 주제였다. PIM은 연산과 메모리가 통합된 구조로, 이를 바탕으로 로직이 탑재된 메모리 장치가 데이터 연산을 로컬로 수행할 수 있게 됐다. 이러한 태스크는 일반적으로 CPU, GPU, NPU 등 고성능 로직 장치가 수행하는 작업이다. 이렇게 로컬 데이터 연산 수행이 가능해지면 지연 시간이 최소화되고 처리 속도가 증가함은 물론, 에너지 효율도 개선된다. 삼성전자는 HBM 장치에 PCU(Programmable Computing Unit)라는 AI 엔진을 통합함으로써 최초로 HBM 내에 PIM 개념을 구현해 냈다.
기존 HBM보다 HBM-PIM의 성능 구조를 비교한 이미지입니다.
기존 HBM보다 HBM-PIM의 성능 구조를 비교한 이미지입니다.
보다 스마트해진 메모리와 발전한 성능 AI 애플리케이션의 성장으로, 인사이트를 얻기 위해 반복적으로 접근해 처리해야 하는 데이터의 양은 방대해졌다. 필수적인 데이터 이동 수요가 크게 늘면서 나타난 현상 중 하나가, AI 애플리케이션의 연산 능력이 메모리 시스템의 성능에 의해 좌우된다는 점이다. 이러한 한계가 AI 애플리케이션의 연산 능력을 제한시키면서, 메모리 시스템의 한계를 극복할 솔루션이 시급했졌다. PIM을 AI 애플리케이션에 최적화된 솔루션이라고 소개하는 이유가 여기에 있다. PIM은 일부 데이터가 메모리 장치에서 로컬로 저장, 처리되면서 메모리와 고성능 논리 장치간에 이동하는 데이터의 양이 줄어들기 때문이다. 따라서 메모리 시스템이 AI 애플리케이션의 연산 능력에 가하는 제약은 완화되고 순 연산 능력은 향상된다. 일반적으로 AI 애플리케이션은 컴퓨팅 바운드형(비전)과 메모리 바운드형(음성인식, 기계번역, 추천)으로 나뉜다. GPU와 신경망 처리 장치(NPU)는 컴퓨팅 바운드형 AI 애플리케이션에 적합한 솔루션이지만, 빅데이터를 처리하는 메모리 바운드형 AI 애플리케이션을 구동하려면 보다 높은 성능의 메모리 시스템이 필요해진다. 또한 컴퓨팅 바운드 애플리케이션의 메모리 시스템 요건에 비해 용량과 대역폭은 커야 한다. 현재 상용화된 D램 솔루션 중, HBM은 큰 용량에 작은 폼팩터, 그리고 높은 대역폭을 갖춰 컴퓨팅 바운드형 AI 애플리케이션과 일부 메모리 바운드형 AI 애플리케이션이 갖춰야 할 주요 요건을 충족시켰다. 하지만 메모리 바운드형 AI 애플리케이션의 요건은 HBM 장치가 가진 용량과 대역폭을 넘어 빠르게 증가하고 있다. 이에 따라 삼성전자는 HBM의 기능을 보완하고 메모리 바운드형 AI 애플리케이션의 성능을 개선하는 수단으로 PIM을 채택했다.
HBM-PIM을 통한 가속화를 그래프로 나타낸 이미지입니다.
HBM-PIM을 통한 가속화를 그래프로 나타낸 이미지입니다.
삼성전자가 개발한 HBM-PIM 솔루션의 차별화된 점은 PCU(Programmable Computing Unit)라는 AI 엔진으로, 메모리 장치 내 일부 로직 기능의 성능을 구현하는 메모리 코어에 자리잡고 있다. 이 PCU는 CPU의 멀티코어 프로세싱과 유사한 방식으로 작동한다. PCU는 성능 향상을 위해 메모리 내에 병렬 프로세싱을 구현한다. PIM은 HBM과의 조화로 AI 애플리케이션의 연산 처리량을 향상시키는데, 이는 HBM 장치의 내부 병렬 프로세싱 비중이 높기 때문이다. HBM 장치는 D램 다이를 서로 쌓아서 각 D램 다이에 병렬로 동시 접근이 가능하다. 이러한 내부 병렬 프로세싱 비중은 HBM-PIM 구현의 핵심 요소인데, HBM 장치의 구조는 일부 D램 다이에서 로컬 연산 처리가 가능하고 다른 D램 다이에 지속적인 데이터 접근도 가능하기 때문이다. HBM-PIM 장치는 향상된 성능과 전력 효율성 측면에서 잠재력을 품고 있다. 음성인식 등 AI 애플리케이션의 경우, HBM-PIM은 기존 HBM 대비 두 배 높은 성능을 보였다. 전력 효율성 면에서는, 일부 연산 작업을 D램 다이 내에서 처리하기 때문에 메모리 장치와 로직 장치간의 데이터 이동으로 인한 IO 트래픽이 발생하지 않는다. 이렇게 초기 테스트를 통해 HBM-PIM이 기존 HBM 솔루션에 비해 전력 소모가 70% 이상 적음을 증명해 냈다.
기존의 HBM보다 HBM-PIM의 시스템 성능이 두배로 나타나며, 시스템 에너지가 70%감소하였음을 막대그래프로 나타낸 이미지입니다.
기존의 HBM보다 HBM-PIM의 시스템 성능이 두배로 나타나며, 시스템 에너지가 70%감소하였음을 막대그래프로 나타낸 이미지입니다.
미래를 향해 열린 문 PIM은 HBM뿐만 아니라 LPDDR과 GDDR 등 다수의 메모리 기술에 적용 가능하며, 기존 메모리 생태계를 근본적으로 바꾸거나 버릴 필요도 없다. 이 지점에서 엄청난 기회를 찾을 수 있다. 메모리가 PIM 없이 구동할 때보다 강력하고 스마트한 성능을 나타내도록 구현하는 작업이야 말로, 업계가 새로운 AI 애플리케이션 개발 방법을 모색하는 과정에서 추구해야 할 방향이 될 것이다. HBM을 시작으로, 삼성전자는 PIM을 통해 컴퓨팅을 바라보는 시각을 재편하기 위한 여정을 진행하고 있다. 또한 이를 실현하기 위해 AI 업계의 혁신기업들과도 협업하고 있다. PIM은 이미 우리의 세상을 바꾸는 AI 분야에서 가능성을 확장하고 있다. 이제 메모리 기술 혁신을 통해 전에 없던 성과를 이룰 새로운 길이 열렸다.