SK하이닉스의 무한대 메모리, 데이터 병목 해소, 비용 최소화

기존 데이터 센터의 경직된 아키텍처에서 물리적 DIMM 슬롯은 오랫동안 궁극적인 한계였습니다. 이 슬롯이 가득 차면 서버의 성장 잠재력은 벽에 부딪히게 되고, 운영자는 몇 기가바이트의 용량을 확보하기 위해 완전히 새로운 랙을 구매해야만 했습니다. SK 하이닉스의 CXL(Compute Express Link) 기술은 메모리 트래픽을 고속 PCIe 인터페이스로 이동시켜 이러한 "메모리 병목 현상"을 해소하고, 마더보드의 물리적 한계로부터 메모리 용량을 효과적으로 분리합니다. 이러한 변화를 통해 메모리는 고정된 자산에서 외장 드라이브처럼 필요에 따라 확장할 수 있는 유동적이고 무한한 유틸리티로 탈바꿈합니다. 더욱 중요한 것은, 이 기술이 "메모리 풀링"이라는 경제적 혁신을 가져왔다는 점입니다. 메모리 풀링을 통해 공유되는 방대한 RAM 공간을 필요에 따라 동적으로 할당할 수 있습니다. 이는 AI 모델 학습에 내재한 심각한 데이터 병목 현상을 해소하는 동시에, 값비싼 DRAM이 사용되지 않는 서버에서 유휴 상태로 남아있지 않도록 함으로써 총 소유 비용(TCO)을 대폭 절감합니다.

용량 제한 없이 무한한 메모리 확장

"무제한 메모리 확장"의 기술적 핵심은 지난 40년간 DRAM을 정의해 온 병렬 인터페이스를 근본적으로 버리는 데 있습니다. 표준 DDR5 메모리는 수백 개의 트레이스가 정확히 동일한 피코초 단위로 목적지에 도달해야 하는 넓은 병렬 버스에 의존합니다. 이러한 동기화 요구 사항은 신호가 이동할 수 있는 물리적 거리와 마더보드가 지원할 수 있는 슬롯 수를 엄격하게 제한합니다. 슬롯을 하나라도 더 추가하면 신호 편차로 인해 시스템이 다운됩니다. SK 하이닉스의 CXL(Compute Express Link) 솔루션은 메모리 트랜잭션을 PCIe(Peripheral Component Interconnect Express) 패킷으로 캡슐화하여 이러한 제약을 없앱니다. 고속 SerDes(직렬화/역직렬화) 기술을 활용하면 DRAM의 방대한 병렬 데이터가 몇 개의 고주파 차동 쌍으로 직렬화됩니다. 이러한 변화를 통해 메모리를 물리적 저장 장치처럼 다룰 수 있게 됩니다. PCIe 라이저와 스위치를 통해 여러 개의 SSD나 GPU를 연결할 수 있는 것처럼, CXL은 서버에서 E3.S 또는 EDSFF와 같은 폼팩터의 메모리 모듈을 표준 드라이브 베이에 연결할 수 있도록 합니다. 이는 서버가 더 이상 마더보드의 32개 물리적 DIMM 슬롯에 제한받지 않고 PCIe 슬롯이나 외부 섀시에 연결된 테라바이트급 추가 "원거리 메모리"에 접근할 수 있음을 의미하며, 결과적으로 메모리 용량 제한이 CPU 소켓의 핀 개수와 무관해집니다. SK 하이닉스는 진정한 "무제한" 확장성을 구현하기 위해 PCIe 5세대 및 6세대 표준에 내재한 "리타이머" 및 "스위칭" 기술을 활용합니다. 기존 마더보드에서는 신호 무결성이 거리에 따라 급격히 저하됩니다(DDR5의 경우 약 7.6~13cm). CXL은 신호를 능동적으로 재생성하는 리타이머 칩을 사용하여 이 문제를 해결합니다. 이를 통해 데이터 손실 없이 메모리를 CPU에서 멀리 떨어진 곳에 배치할 수 있습니다. 더욱 중요한 것은 CXL을 통해 "CXL 스위치"를 사용할 수 있다는 점입니다. 이더넷 스위치와 유사하게, CXL 스위치는 하나의 CPU 포트를 수십 개의 메모리 장치로 분산시킬 수 있습니다. 이 토폴로지를 통해 "메모리 JBOD"(Just a Bunch of DRAM)를 구성할 수 있습니다. 이는 메모리 모듈로 완전히 채워진 전용 랙 쉘프입니다. 단일 서버는 이 쉘프에 연결하여 수백 테라바이트의 RAM을 마치 로컬 메모리처럼 사용할 수 있습니다. 이 아키텍처는 용량이 사용할 수 있는 PCIe 레인 수와 OS 커널의 주소 지정 기능에 의해서만 제한되는 분산형 리소스 풀을 생성하여, 현재 데이터 센터가 더 많은 RAM을 확보하기 위해 값비싼 새 서버를 구매해야 하는 물리적 "용량 장벽"을 효과적으로 제거합니다. 마지막으로, CXL 컨트롤러의 "이종 미디어 통합(Heterogeneous Media Integration)" 기술을 통해 무제한 확장이라는 개념이 실현됩니다. 일반적인 DIMM 슬롯에서는 CPU가 어떤 종류의 메모리가 장착되었는지(예: DDR5-4800) 정확히 알아야 하고 타이밍 파라미터를 직접 관리해야 합니다. CXL은 이러한 과정을 추상화하는 계층을 제공합니다. SK 하이닉스 모듈의 CXL 컨트롤러는 물리적 미디어 관리를 담당하며 호스트 CPU에 일반적인 "메모리 영역"을 제공합니다. 이러한 격리 덕분에 SK 하이닉스는 동일한 CXL 확장기 내에서 다양한 메모리 기술을 혼합하여 사용할 수 있습니다. 즉, 자주 사용되는 데이터에는 빠르고 고가의 DDR5를, 자주 사용되지 않는 데이터에는 느리고 저렴한 LPDDR이나 비휘발성 스토리지 클래스 메모리(SCM)를 함께 사용할 수 있습니다. 호스트 CPU는 방대한 평면 주소 공간을 인식합니다. 이를 통해 표준 DRAM보다 훨씬 저렴하고 전력 소모가 적은 페타바이트급 주소 지정 가능 메모리를 제공하는 "용량 최적화" 솔루션을 구현할 수 있습니다. 운영 체제는 계층형 메모리 관리를 사용하여 가장 자주 액세스하는 데이터를 로컬 "근거리 메모리"에 지능적으로 배치하고, 넘쳐나는 대용량 데이터를 "원거리 메모리" CXL 풀로 이동시켜 시스템이 메모리 부족(OOM) 오류로 인해 다운되는 일 없이 무한한 용량을 사용하는 것과 같은 원활한 사용자 경험을 제공합니다.

대역폭 두배 늘려 데이터 병목 해소

SK 하이닉스의 CXL 기술을 통해 "대역폭 두 배 증가"를 달성했다는 주장은 마법이 아니라 "적층 구조(Additive Architecture)"의 결과입니다. 기존 서버에서 CPU는 고정된 수의 DDR 메모리 채널(일반적으로 8개 또는 12개)로 제한됩니다. 이러한 채널이 포화하면 개별 칩의 속도가 아무리 빠르더라도 시스템은 "대역폭 한계"에 부딪히게 됩니다. CXL은 PCIe 5.0(그리고 곧 PCIe 6.0) 인터페이스를 사용하여 완전히 새로운 독립적인 데이터 고속도로를 구축함으로써 이러한 교착 상태를 해결합니다. 초당 32기가트랜스퍼(GT/s)의 속도로 작동하는 x16 PCIe 레인을 활용하는 CXL 메모리 모듈은 프로세서의 "제2의 폐" 역할을 합니다. 기존 DDR5 DIMM을 대체하는 것이 아니라 병렬로 작동합니다. 메인 메모리 채널에 트래픽이 몰리면 메모리 컨트롤러는 데이터 요청을 CXL 레인으로 오프로드합니다. 이러한 동시 작동을 통해 CPU에서 사용할 수 있는 활성 "데이터 레인"의 총 수가 효과적으로 두 배로 늘어나므로 시스템은 표준 DIMM 슬롯과 PCIe 슬롯에서 동시에 데이터를 가져올 수 있어 마더보드 메모리 버스의 이론적 한계를 넘어 물리적으로 전체 처리량을 확장할 수 있습니다. 이러한 대역폭 확장은 최신 AI 및 머신러닝 워크로드를 괴롭히는 "데이터 부족" 문제를 해결하는 데 매우 중요합니다. 고성능 GPU와 NPU는 메모리 하위 시스템이 행렬을 적당히 빠르게 공급하지 못하기 때문에 종종 유휴 상태, 즉 "스톨" 상태에 놓이게 됩니다. 이는 "컴퓨팅 바운드"와 "메모리 바운드" 간의 불균형 문제입니다. SK 하이닉스의 CXL 솔루션은 대역폭에 민감하지 않지만 대용량 데이터를 위한 전용 고대역폭 경로를 제공함으로써 이 문제를 해결합니다. 지연 시간에 민감한 코드는 표준 DDR5 슬롯에 유지하고 대규모 데이터 세트(예: 대규모 언어 모델용 임베딩 테이블)는 고대역폭 CXL 모듈로 전송하는 방식으로 트래픽을 분리하여 시스템은 "계층형 대역폭" 구조를 구현합니다. 이를 통해 GPU의 연산 장치가 100% 활용률을 유지하도록 합니다. 효율적인 Flit(흐름 제어 장치) 패킹을 사용하는 CXL 인터페이스는 패킷 헤더의 오버헤드를 최소화하여 AI 학습의 불규칙한 읽기/쓰기 패턴 속에서도 "굿풋"(실제 유용한 데이터 전송량)을 높게 유지합니다. 결과적으로, 이전에는 데이터 과학자들이 배치 크기를 줄여야 했던 병목 현상을 효과적으로 제거합니다. 마지막으로, CXL 프로토콜에서 구현되는 고급 "인터리빙" 기술을 통해 병목 현상 해결이 이루어집니다. RAID 0이 여러 하드디스크 드라이브에 데이터를 분산 저장하여 속도를 향상하는 것처럼, SK 하이닉스의 CXL 구현은 호스트 CPU가 로컬 DDR5 메모리와 연결된 CXL 모듈에 메모리 페이지를 분산 저장할 수 있도록 합니다. 이 "시스템 전체 인터리빙"은 하나의 대용량 데이터 전송을 여러 청크로 나누어 여러 소스에서 동시에 가져오는 것을 의미합니다. CPU는 하나의 메모리 채널에서 전체 블록이 전송될 때까지 기다리는 대신, 동일한 클럭 사이클 내에서 DDR 채널에서 64바이트를 가져오고 다음 64바이트를 CXL 채널에서 가져옵니다. 이 병렬 페칭 메커니즘은 CXL 링크의 약간 높은 지연 시간을 효과적으로 숨겨 애플리케이션이 체감하는 "유효 대역폭"을 크게 향상합니다. SK 하이닉스는 CXL 확장 카드를 속도가 느린 외부 장치가 아닌 메모리 맵의 통합 구성 요소로 취급함으로써 PCIe 버스를 단순한 I/O 포트에서 고성능 메모리 패브릭으로 전환하여 실시간 분석 및 차세대 고성능 컴퓨팅(HPC)에 필요한 지속적인 처리량을 제공합니다.

유휴자원 공유해 운영 비용 최소화

SK 하이닉스의 CXL 메모리 풀링 기술의 근본적인 경제적 가치는 현대 데이터 센터에서 최대 30%의 고가 DRAM이 사용되지 않고 접근 불가능한 상태로 방치되는 심각한 비효율성 문제인 "유휴 메모리" 현상을 근절하는 데 있습니다. 기존 서버 아키텍처에서 메모리는 특정 CPU의 마더보드에 물리적으로 납땜 되거나 슬롯에 장착됩니다. 만약 서버 A가 1TB RAM 중 40%만 사용하고 있지만 서버 B가 메모리 부족(OOM) 오류로 인해 다운된다면, 서버 A에 남아 있는 600GB의 "유령 용량"은 서버 B로 전송될 수 없습니다. 이 용량은 CPU 소켓이라는 물리적 장벽에 갇혀 있게 됩니다. SK하이닉스의 CXL 2.0 풀링 솔루션은 "분리형 메모리 아키텍처"를 도입하여 이러한 장벽을 허물었습니다. 메모리 모듈을 CXL 스위치로 연결된 공유 "CXL 풀링 장치"(SK하이닉스의 Niagara 2.0 플랫폼과 같은)에 배치함으로써 메모리가 더 이상 단일 호스트에 의해 소유되지 않게 됩니다. 대신, DRAM은 글로벌 리소스 풀로 존재합니다. 스위치에 연결된 여러 호스트는 이 풀에서 메모리 페이지를 "빌려" 사용할 수 있습니다. 이러한 물리적 분리는 DRAM을 고정된 하드웨어 자산에서 유동적인 유틸리티로 전환하여, 구매한 모든 기가바이트가 컴퓨팅 부하를 처리하는 데 적극적으로 사용되도록 보장함으로써 클러스터의 전체 메모리 사용률을 업계 평균인 50%에서 거의 90%까지 향상합니다. 이러한 공유를 구현하기 위해 SK 하이닉스는 자체 개발한 HMSDK(이종 메모리 소프트웨어 개발 키트)를 기반으로 하는 "동적 용량 서비스(DCS)"라는 정교한 프로토콜을 사용합니다. 정적 파티셔닝과 달리 DCS는 CXL 컨트롤러가 메모리 영역(256MB 블록 단위)을 실시간을 동적으로 할당하고 회수할 수 있도록 하며, 이는 "메모리 임대"와 유사한 방식으로 작동합니다. 특정 AI 학습 노드에 갑작스러운 트래픽 급증이 발생하면 CXL 스위치에 핫플러그 요청을 보냅니다. 스위치는 유휴 메모리 풀에서 추가 물리적 주소 공간을 해당 서버의 가상 메모리 맵에 즉시 매핑합니다. 운영 체제는 이를 서버를 종료하지 않고 새 RAM 모듈을 물리적으로 장착한 것으로 인식합니다. 반대로, 작업 부하가 감소하면 "동적 용량 장치(DCD)" 기능을 통해 호스트는 빌린 메모리를 다른 서버에서 사용할 수 있도록 메모리 풀로 반환할 수 있습니다. 이러한 탄력성은 연결된 모든 호스트의 "메모리 사용량"을 모니터링하는 Fabric Manager(FM) 소프트웨어에 의해 관리됩니다. SK 하이닉스는 이러한 "빌려 쓰고 반납하는" 사이클을 자동화하여 우선순위가 높은 워크로드가 메모리 부족으로 어려움을 겪는 일이 없도록 하는 동시에 우선순위가 낮은 작업이 현재 필요하지 않은 리소스를 독점하는 것을 방지함으로써, 이전에는 가상화된 스토리지에서만 가능했던 수준의 탁월한 프로비저닝 효율성을 달성합니다. 마지막으로, 유휴 리소스를 공유하는 방식으로의 전환은 "과잉 프로비저닝"의 필요성을 없애 총 소유 비용(TCO)에 직접적인 영향을 미칩니다. 과거에는 데이터 센터 설계자가 최악의 시나리오(예: 노드당 2TB)에 필요한 최대 메모리 용량을 모든 서버에 장착해야 했습니다. 설령 그 최대 부하가 전체 시간의 1%만 발생하더라도 말입니다. 이러한 "만일의 사태 대비" 구매 전략은 수십억 달러에 달하는 자본 지출 낭비를 초래합니다. SK 하이닉스의 CXL 풀링을 사용하면 설계자는 "씬 프로비저닝" 모델로 전환할 수 있습니다. 서버는 기본 운영을 위한 최소한의 로컬 DDR5 메모리(예: 512GB)만으로 배포하고, 공유 CXL 풀을 활용하여 최대 부하를 처리할 수 있습니다. 이를 통해 동일한 컴퓨팅 용량을 확보하면서 전체 DRAM 구매량을 20~30% 절감할 수 있습니다. 또한 CXL 메모리 풀링은 서버 마더보드당 필요한 물리적 DIMM 개수를 줄여 랙의 기본 전력 소비량을 낮춥니다. 유휴 DIMM이 적을수록 새로 고침 시 낭비되는 전력이 줄어들고, 메모리를 풀링 된 섀시에 통합함으로써 더욱 효율적인 중앙 집중식 냉각이 가능해집니다. 초기 하드웨어 구매 비용과 지속적인 전기 운영 비용을 모두 절감함으로써 "이중 투자 수익률(ROI)" 구조를 구축할 수 있으며, 따라서 CXL 풀링은 AI 시대에 비트당 운영 비용을 최소화하는 가장 효과적인 전략이 됩니다.