본문으로 이동

고용량 메모리를 활용한 AI 기반 부정거래 탐지 인프라 비용 절감

  • 메일

AI 기반 부정거래 탐지는 핀테크 기업에게 매우 중요한 워크로드를 차지합니다. 부정거래 모니터링은 의심스러운 언어를 탐지하기 위한 자연어 처리(NLP), 정상 거래와 부정거래를 구분하는 머신러닝, 정상 사용자 행동과 이상 행동을 구분하고 과거 데이터를 기반으로 미래 동향을 예측하는 분석 기능 등 다양한 메커니즘을 포함합니다.

핵심 연산 관점에서 보면, 지속적인 실시간 추론(inference) 작업은 거래 처리, 부정거래 점수(fraud score) 생성, 그리고 문제가 있는 거래 차단과 같은 대응 조치를 중심으로 이루어집니다. 이러한 작업에는 적절한 형식으로 저장되어 즉시 서비스 되어야하는 수많은 작은 크기의 KB 단위 트랜잭션이 포함됩니다.

이러한 워크로드의 요구 사항은 인메모리 데이터베이스(In-Memory Database, IMDB)로 충족할 수 있습니다. IMDB는 해당 워크로드에 적합한 형식으로 데이터를 저장할 수 있을 뿐만 아니라, 일반 블록 액세스 스토리지에 비해 매우 빠른 로드/스토어(load/store) 성능을 제공합니다.

하지만 이러한 유형의 데이터베이스에 요구되는 메모리 용량은 상당히 큰데, 실제 서버당 메모리가 제한되어 있기 때문에 구현에 큰 어려움이 있습니다. 특히 서버 클러스터가 필요한 대규모 워크로드의 경우, 총소유비용(Total Cost of Ownership, TCO)에 대한 여러 고려 사항을 함께 검토해야 합니다.

  • 추가 서버 비용 부담: 워크로드 처리를 위해 더 많은 IMDB 메모리가 필요하다는 이유만으로 추가 서버를 도입해야 합니다. 즉, 고객은 실제로 필요하지 않은 추가적인 컴퓨팅, 스토리지, 보안, 시스템 소프트웨어 비용을 오직 메모리 증가를 위해 지불하게 됩니다. 

  • 네트워크 복잡성 증가: 데이터센터 내 물리적 인프라뿐만 아니라 IMDB 소프트웨어 자체의 복잡성으로 인해 네트워크 관리가 더 어려워집니다. 이는 전력 소비를 높이고, 성능 저하와 비용 부담을 동시에 초래합니다.

  • 신뢰성 문제: 고객 데이터의 민감성과 개인정보 보호 측면에서, 핀테크 기업은 자체 데이터센터를 운영하는 경향이 있습니다. 따라서 기반 인프라의 신뢰성은 데이터 무결성에 매우 중요합니다. 그러나 불필요하게 노드가 늘어나고 네트워크가 복잡해지면서 인프라가 비대해지면 장애 발생 시 영향을 완화하기 위해 더 많은 시스템 복제가 필요합니다.
     


DRAM 추가 비용

서버 노드당 메모리 용량을 늘리는 방법은 겉보기에는 이 문제에 대한 단순한 해결책처럼 보이지만 구현하기는 쉽지 않습니다. 핀테크 인프라 관점에서 일반적인 메모리 피라미드는 다음과 같이 구성됩니다.
 


메모리 요구 사항은 주로 DRAM으로 처리되는데, 일반적으로 DRAM은 SSD 대비 GB당 비용이 10배 이상 높습니다. 따라서 DRAM을 통해 메모리 용량을 늘리는 것은 매우 비용 부담이 큽니다.

비용 문제 외에도, DRAM 용량을 SSD 수준으로 확장하는 것은 기술적으로도 쉽지 않습니다. 슬롯 수와 메모리 카드당 용량에 제한되어 있기 때문입니다. 가장 고가의 엔터프라이즈 시스템조차 현재 총 DRAM 용량이 20TB를 초과할 수 없는 반면, SSD 용량은 페타바이트(PB) 규모까지 확장이 가능합니다.
 

CXL을 활용한 메모리 확장

좀 더 효율적인 접근 방식을 보여 주기 위해, 아래 다이어그램은 CXL 디바이스를 활용한 두 단계의 메모리 계층을 추가한 예를 나타냅니다. CXL은 AI 워크로드에 특화된 메모리 시맨틱(memory semantics, 일관성 유지, 소규모 로드/스토어 I/O)를 지원함으로써, 고객이 추가 서버 없이도 더 많은 용량을 제공할 수 있는 고밀도의 메모리 시스템을 구축할 수 있도록 해줍니다. 이를 통해 전체 TCO를 개선할 수 있습니다. 또한 CXL은 SSD 대비 매우 빠른 성능을 제공하며, DRAM보다 훨씬 높은 용량 확장이 가능합니다.

CXL 프로토콜은 직접 연결(direct attached) 스토리지 혹은 원격 스토리지(remote storage)를 위한 AI, HPC, 클라우드 데이터센터 워크로드를 목표로 하는 고사양 서버의 표준 기능이 될 것으로 것으로 예상됩니다. CXL은 메모리 확장, 메모리 공유, 메모리 풀링(memory pooling)과 같은 다양한 사용 사례에서 핵심 기술로 부상할 것입니다. 확장성 외에도, AI 기반 부정거래 탐지 워크로드가 요구하는 대역폭(bandwidth)과 지연시간(latency) 성능도 충족합니다.
 


RAS, SLAs, Observability

성능 및 TCO 절감 효과 외에도, 핀테크 제공업체는 데이터센터 내 서버 클러스터 전반에 걸친 전체 시스템 메모리에 대한 신뢰성(Reliability), 서비스 가능성(Serviceability), 가용성(Availability, RAS) 등의 RAS 기능과 관측성(Observability) 확보가 매우 중요합니다. 장치 장애는 예상보다 자주 발생하기 때문에, 이를 지속적으로 모니터링해야 합니다. 이러한 장치에서 문제가 발생했을 때 신속하고 시기 적절한 감지와 개입은 핀테크 제공업체가 중요한 서비스 수준 협약(SLA, Service Level Agreements)을 준수하는 데 필수적입니다.

따라서 데이터와 기반 인프라의 RAS 기능는 매우 중요한 요소가 됩니다. 만약 기반 인프라가 지나치게 복잡해지면, 핀테크 지원 조직은 지속적인 장애에 대응해야 하며, 고객에게 약속한 SLA를 충족하기 위해 여러 복제본을 관리해야 하는 부담이 발생합니다.
 

Samsung Cognos로 구현하는 CXL 메모리 솔루션

CXL 메모리 솔루션은 삼성의 AI 기반 메모리 관리 및 오케스트레이션 소프트웨어인 Samsung Cognos를 통해 구현될 수 있습니다.

Cognos는 다음과 같은 기능을 통해 직접 연결 메모리(direct attached memory)를 활성화하는데 중요한 사항을 지원합니다.

  • 고밀도 다중 디바이스 메모리 풀을 쉽게 확장하여 유휴 메모리로 인한 비효율(memory stranding) 문제 해결

  • 애플리케이션 인식(Application-aware) 기반 메모리 오케스트레이션으로 계층화된 메모리(tiered memory)의 성능 극대화

  • 부정거래 탐지 SLA 지표 기반 데이터 자동 계층화, 로컬화(localization), 핫 데이터(hot data) 패턴 관리, 그리고 삼성 기기에서 디바이스 레벨 훅(device-level hook) 지원

  • 디바이스 및 애플리케이션 수준에서 시스템 상태를 쉽게 관측하고(Observability) 분석할 수 있는 직관적인 콘솔 제공

  • 애플리케이션 투명성을 제공하여, 애플리케이션을 수정하지 않아도 Cognos 사용 가능

Cognos는 RAS(Reliability, Availability, Serviceability) 및 관측(Observability) 기능을 통해 서버 클러스터를 손쉽게 모니터링하고 유지 관리할 수 있도록 지원합니다. 또한 메모리 관리에 있어 사용자가 직접 개입하지 않아도 가능한 확장형 접근 방식을 제공하며, 부정거래 탐지 애플리케이션에서 필요한 IMDB(In-Memory Database)와의 원활한 통합을 지원합니다.
 


실제 운영 환경에서 Cognos와 CXL을 도입함으로써, 애플리케이션 사용자는 SLA의 지연시간(latency)과 처리량(throughput) 목표를 충족하는 동시에 TCO를 4배 개선할 수 있었습니다.
 


애플리케이션 레벨에서 별도의 변경이 필요하지 않으므로, 이 솔루션은 여기서 설명하는 AI 기반 부정거래 감지 워크로드 뿐만 아니라 다양한 IMDB 워크로드에 대해 매력적인 가치 제안을 제공합니다.

풀 스택(full-stack) 솔루션에 관심이 있고 고객에게 더 많은 가치를 제공하기 위해 삼성과의 협업을 희망하는 경우 rdmsldfscore@ssi.samsung.com로 연락 주시거나 당사 웹페이지를 방문하여 자세한 내용을 확인해 주시기 바랍니다.