본문으로 이동

[메모리 테크 데이 2023] 더 나은 차세대 SSD를 위한 삼성 메모리 솔루션

  • 메일
SSD 메모리 용량 및 속도에 대한 요구 사항이 급증하면서 데이터 스토리지 효율성을 개선하고, 가비지 컬렉션을 줄이며, 오류를 보다 능동적으로 처리해야 할 필요성이 커지고 있다. 쉬운 이해를 위해 SSD 데이터가 직면한 문제를 곡물을 저장고에서 창고로 운송할 때 발생되는 문제를 비유를 통해 비교해 보자. 배송할 곡물 포대를 SSD에 저장할 대용량 데이터라고 생각해보자. 그리고 NVMe SSD 기술을 사용하면 배송업체(데이터센터 호스트)는 아래와 같이 다양한 방법으로 곡물을 운송할 수 있다.
    • 여러 배송 업체가 곡물 포대에 모두 태그를 부착하여 단일 운송 채널에서 혼동 없이 모두 운송할 수 있도록 하는 방법 (SR-IOV, ZNS)
    • 창고에서 각 곡물 포대를 다른 유사한 곡물과 함께 보관할 수 있는 최적의 장소(FDP - Flexible Data Placement)를 찾아 재배치할 포대 수를 최소화하는 방법 (GC-가비지 컬렉션).
    • 우선순위가 높은 배송과 우선순위가 낮은 배송에 적용되는 리소스 수 (성능 관리)
곡물이 모두 운송되었다면, 이제 유해 동물과 해충 문제와 같은 곡물 관리를 생각할 차례다. 과거에는 최고의 쥐덫(트랩)을 만든 사람에게 관리를 맡겼다. SSD 로 따지면 이러한 작업은 오류 관리와 비슷하다.
    • 쥐를 최대한 많이 잡을 수 있도록 트랩 메커니즘 개선(CECC/UECC)
    • 트랩을 모니터링하여 잡힌 쥐의 수, 트랩이 가득 찼는지 여부, 한 트랩이 다른 트랩보다 잘 작동하지 않는지 확인(SMART/Health).
    • 최대한 많은 쥐의 활동 추적 및 보고(Telemetry)
    • 활동 데이터를 사용하여 주요 해충의 침입이 발생하기 전에 예측(Failure Prediction)
그리고 다음과 같은 영역 간 문제도 있다.
    • 기존 저장공간이 가득 차 넘쳤을 때 곡물포대를 새로운 저장공간으로 회수(데이터 복구 및 신규 드라이브 마이그레이션)
앞서 설명한 ‘쥐덫(트랩)’들은 모두 삼성이 전개하고 있는 SSD 솔루션 분야이다. 삼성은 현재 SSD에 요구되는 “트랩 솔루션”과 같은 차세대 스토리지 기술과 트렌드를 메모리 테크데이 행사에서 설명했다. 다음은 각 세션 연사자가 설명한 주요 내용이다.   솔루션 제품 엔지니어링팀 정승진 상무는 텔레메트리(Telemetry)에 대해 설명했다. 우선 텔레메트리의 간략한 역사를 살펴보면, 운영 데이터를 수집한 다음 원격 위치로 전송하여 해석하는 텔레메트리 개념은 한 세기가 훨씬 넘도록 사용되어 왔다. 현대 하드 드라이브 기술의 초기부터 다양한 형태의 오류 로깅 및 검색이 수행되었다. 기본적인 SSD 전용 텔레메트리 명령어와 전달 형식은 NVMe 1.3부터 표준이 되었다. 최근에는 삼성이 SSD 기술의 선두주자로서의 입지를 기반으로 정교하고 필수적인 텔레메트리 기능을 사양에 추가하고 있으며 뚜렷한 장점을 가지고 있다. 예를 들어 기업 고객이 디바이스를 원격으로 분석하고 관리할 수 있도록 지원하는 첨단 툴인 삼성 텔레메트리 서비스를 생각해 보자. 이 툴은 데이터의 안정성을 보장하여 데이터 센터 운영자가 향후 드라이브 장애를 예방하고, 드라이브 교체를 관리하며, 데이터를 마이그레이션할 수 있도록 지원한다. "모니터링을 통해 멀티 어드레스(multi-address) CECC가 향후 시스템에 문제를 일으킬 수 있는 UECC가 될 수 있다는 것을 알게 되었다"고 정승진 상무는 설명하며 텔레메트리의 배경, 삼성이 사양에 추가하기 위해 추진하고 있는 최신 개선 사항, 드라이브 장애 감지를 위해 텔레메트리가 어떤 역할을 하는지에 대한 사례를 중점적으로 다뤘다. 주요 관심사는 삼성의 첨단 머신 러닝 기반 이상 징후 예측 연구이다.
이어서 소프트웨어 개발팀 장실완 상무는 WAF((Write Amplification Factor, 쓰기 증폭 계수)를 획기적으로 줄일 수 있는 FDP(Flexible Data Placement)와 그 구현의 용이성에 대해 설명했다. 해당 세션에서는 ZNS를 포함한 다양한 데이터 배치 기술을 비교 분석하고 삼성의 FDP 기술 활용 사례를 소개했다. 낸드(NAND)의 근본적인 한계는 낸드 셀의 데이터를 덮어쓸 수 없기 때문에 데이터를 쓰기 전에 낸드 블록을 지워야 한다는 것이다. 데이터 배치 기술은 이러한 한계를 극복하는 기술로, 이상적인 데이터 배치를 통해 추가적인 H/W 비용 없이 최신 SSD의 성능과 내구성을 향상시킬 수 있다. 호스트는 SSD가 처리하는 회수 유닛(RU)을 통하여 데이터를 배치하고, 이 기본 SSD 스토리지 유닛의 가장 효율적인 크기와 경계를 알면 수명 주기가 비슷한 데이터를 그룹화하여 SSD 가비지 수집의 비효율성을 줄이거나 제거할 수 있다. "FDP SSD의 가장 큰 장점은 시스템 SW를 아주 조금만 변경해도 가능하다는 점이다"라고 장실완 상무는 강조했다.
Meta의 로스 스텐포트(Ross Stenfort )도 이어서 하이퍼스케일 FDP 관점을 발표하여 WAF를 줄이기 위한 개선 진행 상황을 소개했다.
    • 오버프로비저닝 - 가비지 컬렉션에 사용할 추가 블록 할당한다.
    • 호스트 트림/할당 해제 명령 - SSD에 안전하게 삭제할 수 있는 항목을 알려준다.
    • FDP - 향후 가비지 컬렉션을 최소화하기 위해 데이터를 그룹화하는 방법을 SSD에 알려준다.
스텐포트는FDP의 유무에 따른 효과적인 워크로드 예를 제시하고 "애플리케이션이 반드시 FDP를 활용해야만 효과적인 것은 아니다" 라고 설명했다.   장실완 상무는 SR-IOV를 활용한 삼성 SSD 가상화 기술의 현재와 미래에 대한 논의를 이어 나갔다. 데이터센터 처리 용량을 늘리려면 효율성이 핵심이다. 데이터센터 CPU 코어 수가 일반적으로 100개를 초과함에 따라 단일 SSD를 사용하는 테넌트(개별 인스턴스/애플리케이션)의 수가 급증했다. 가상화는 각 테넌트에게 SSD 스토리지 공간에 대한 자체 전용 창을 제공한다. PCIe SR-IOV 사양은 가상화 환경을 설정하기 위한 기본 사항을 제공했다. 삼성은 초기 연구를 통해 SR-IOV에 대한 거의 10년의 경험을 쌓았으며, 근본적인 보안 및 성능 문제를 파악하고 솔루션을 개발했다.
    • 데이터 격리 - 논리적 공유에서 물리적으로 격리된 파티셔닝으로 발전하여 한 테넌트의 데이터를 다른 테넌트의 액세스로부터 안전하게 보호
    • 성능 격리 - 한 테넌트의 활동이 다른 테넌트의 성능에 악영향을 미치지 않도록 방지
    • 보안 강화 - 가상 기능 수준에서 링크 수준으로 강화된 암호화 기능 제공
    • 라이브 마이그레이션 - 데이터센터 호스트에 대한 활성 서비스를 모두 유지하면서 한 SSD에서 다른 SSD로 데이터를 이동
"단일 SSD에서 완전히 분리된 스토리지 공간을 구현하려면 낸드 칩과 컨트롤러 리소스까지 네임스페이스 전용으로 사용하는 물리적 파티셔닝으로 발전해야 한다"고 장실완 상무는 설명했다.
마지막으로 솔루션개발팀 전성훈 상무는 빠르게 진화하는 PCIe 인터페이스 속도와 고용량 제품 트렌드에 대응하기 위해 삼성이 지속적으로 개발하고 있는 새로운 솔루션에 대해 설명했다. 핵심은 낮은 유효 전력에서 빠른 속도를 구현하는 것인데, 이 두 가지 요소는 서로 상충되는 경향이 있다. 삼성은 크게 두 가지 방법으로 유효 전력을 낮추는 것을 목표로 한다.
    • 전압 레귤레이터의 효율을 높이기 위해 파워 레일을 추가하여 저전력 부품을 설계
    • 펌웨어를 수정하여 DRAM보다 저전력 SRAM 활용도를 높이는 등 구성 요소 간의 상호 작용을 최적화하는 절전 기능을 도입
속도를 높이려면 온도가 높아지는데, 삼성은 이 문제를 해결하기 위해 다음과 같은 방법을 활용하고 있다.
    • 25W에서 40W로 증가한 전력 요건을 충족하기 위해 폼 팩터를 변환하여 더 많은 열 방출
    • 보다 효과적이고 새로운 케이스 구성 재료 및 설계 기법 사용
    • 강력한 실험적 성과를 거둔 침수 냉각을 활용하는 열 관리 솔루션
"우리의 목표는 시대에 발맞춰 앞으로 침수 냉각 시스템에 최적화된 완벽한 SSD를 만들기 위해 계속해서 노력하는 것이다"고 전성훈 상무는 강조했다.
해당 세션에서는 고객의 성공을 위한 삼성 SSD 전략을 담고 있다.
    • 삼성의 첨단 FDP기술을 활용하여 WAF를 획기적으로 줄인다.
    • 삼성의 성능 조절 및 공간 파티셔닝 기술을 사용하여 멀티코어 데이터센터 CPU의 각 코어에 대한 처리 용량을 극대화함으로써 가상화 효율성을 크게 높인다.
    • 삼성의 새로운 설계 및 패키징 기술을 사용하여 전력을 줄이고 열 방출을 증가시키면서 훨씬 더 빠른 작동 속도를 달성한다.
    • 혁신적인 삼성 텔레메트리 서비스를 통해 디바이스를 원격으로 분석 및 관리하여 데이터 손실과 이로 인한 심각한 다운타임을 사실상 제거한다.
삼성의 첨단 연구 로드맵을 기반으로 향후 10년간 “한계를 뛰어넘는” 성능 향상과 비용 절감 효과를 향상시키는 차세대 SSD개발에 집중할 것이다.