본문 바로가기
SK하이닉스

SK하이닉스의 폰 노이만 병목 현상, GDDR6-AiM 개발 성공, AiMX 솔루션

by 뷰메모리 2026. 1. 4.

거의 80년 동안 컴퓨팅 업계는 "폰 노이만 병목 현상"이라는 구조적 비효율성에 갇혀 있었습니다. 이 현상에서는 고속 프로세서가 수동 메모리 칩에서 제한된 대역폭의 경로를 통해 데이터가 전송되는 동안 유휴 상태로 대기해야 합니다. "논리"와 "저장"의 분리는 현대 생성형 AI의 주요 병목 현상이 되어, 데이터를 주고받는 데만도 막대한 에너지가 소모됩니다. SK 하이닉스는 연산 로직을 DRAM 다이에 직접 내장한 혁신적인 소자인 세계 최초의 GDDR6-AiM(Accelerator-in-Memory) 개발에 성공하여 이러한 장벽을 허물었습니다. 본 분석에서는 이 기술이 GPT와 같은 대규모 언어 모델(LLM) 실행을 위해 설계된 특수 가속기 카드인 "AiMX 솔루션"으로 어떻게 발전해 왔는지 살펴볼 것입니다. 계산을 메모리 자체로 옮김으로써 전력 소비를 80%까지 줄일 수 있음을 밝히고, 미래의 AI 인프라는 데이터 전송 속도를 높이는 고속도로를 구축하는 것이 아니라 목적지에 스스로 작업을 수행할 수 있는 지능을 부여하는 데 있음을 입증할 것입니다.

SK하이닉스의 폰 노이만 병목 현상, GDDR6-AiM 개발 성공, AiMX 솔루션
SK하이닉스의 폰 노이만 병목 현상, GDDR6-AiM 개발 성공, AiMX 솔루션

폰 노이만 병목 현상 해결기의 등장

현대 컴퓨팅의 근본적인 위기, 즉 폰 노이만 병목 현상은 처리 능력 부족이 아니라 "데이터 전송 비용"이라는 물류 측면 악몽에 있습니다. 기존 아키텍처에서 중앙 처리 장치(CPU) 또는 그래픽 처리 장치(GPU)는 초고속 공장 역할을 하지만, 메모리(DRAM)는 수 킬로미터 떨어진 곳에 있는 수동적인 창고 역할을 합니다. AI 모델이 가중치 매개변수를 계산해야 할 때마다 시스템은 데이터 웨어하우스에서 데이터를 가져오고, 제한된 대역폭의 버스를 통해 전송하고, 처리한 후 결과를 다시 전송하는 데 에너지를 소모해야 합니다. 이러한 "통과" 과정은 AI 워크로드에서 전체 에너지 소비량의 거의 90%를 차지하며, 이는 실제로 계산하는 것보다 데이터를 이동시키는 데 더 많은 에너지를 소비하고 있음을 의미합니다. SK하이닉스의 PIM(Processing-In-Memory) 솔루션은 도로를 확장하는 방식이 아니라, 창고 안에 공장을 옮기는 방식으로 근본적인 해결책을 제시합니다. 연산 로직을 DRAM 다이에 직접 내장함으로써, 단순 연산을 위해 버스를 이동할 필요가 없어 특정 작업에 필요한 "데이터 이동 에너지"를 거의 0에 가깝게 줄일 수 있습니다. SK 하이닉스의 PIM 구현, 특히 GDDR6-AiM에 담긴 기술적 탁월함은 각 메모리 뱅크 내에 특수 "MAC(곱셈-누적) 장치"를 통합한 데 있습니다. ChatGPT부터 자율 주행에 이르기까지 모든 것을 구동하는 딥 러닝 알고리즘은 수십억 개의 단순 곱셈과 덧셈 연산을 포함하는 행렬 곱셈에 크게 의존합니다. 일반적인 시스템에서 메모리 컨트롤러는 엄격한 게이트키퍼 역할을 하여 한 번에 하나의 명령만 허용합니다. 하지만 SK 하이닉스의 PIM 아키텍처는 메모리 뱅크 자체의 엄청난 병렬 처리 능력을 활용합니다. 일반적인 DRAM 칩에는 여러 개의 뱅크가 있는데, 하나의 뱅크가 사용되는 동안 다른 뱅크는 보통 유휴 상태로 있습니다. PIM은 이러한 뱅크들을 동시에 활성화해 메모리 칩을 거대한 병렬 프로세서로 만듭니다. 이 "현장 계산" 기능은 드라이브가 데이터가 저장된 정확한 물리적 위치에서 작업을 수행할 수 있도록 하여, 수십 년 동안 프로세서 성능을 저하해 온 협소한 I/O 인터페이스를 우회할 수 있게 해 줍니다. 더 나아가, 이 "병목 현상 해결사"의 등장으로 물리적으로 배선을 추가하지 않고도 컴퓨팅 시스템의 "유효 대역폭"이 재정의되었습니다. 고대역폭 메모리(HBM)는 칩을 쌓고 수천 개의 TSV 홀을 뚫어 속도 문제를 해결하지만, 비용이 많이 들고 열 관리 측면에서도 까다로운 솔루션입니다. PIM은 "가상 대역폭 확장" 기능을 제공합니다. 데이터 처리가 내부적으로 이루어지기 때문에 외부 버스를 자유롭게 사용할 수 있습니다. 예를 들어, 내부 PIM 장치가 1TB/s에 해당하는 속도로 데이터를 처리하는 경우, 물리적인 PCIe 또는 메모리 버스 속도가 훨씬 느리더라도 외부 프로세서는 마치 1TB/s 메모리 시스템에 연결된 것처럼 작동합니다. 이러한 "내부 대역폭 증폭"은 특히 GPU가 전체 시간의 50%를 데이터 대기에 소비하는 대규모 언어 모델(LLM) 추론과 같은 "메모리 제약형" 애플리케이션에 매우 효과적입니다. SK 하이닉스의 접근 방식은 "데드 타임"을 "컴퓨팅 타임"으로 전환하여 동일한 실리콘 공간에서 더 많은 인텔리전스를 추출할 수 있도록 함으로써 AI 데이터 센터의 경제성을 근본적으로 변화시킵니다.

세계 최초 GDDR6-AiM 개발 성공

GDDR6-AIM(Accelerator-in-Memory)의 공개는 반도체 역사에서 중요한 전환점이 되었습니다. SK 하이닉스가 기존에는 불가능하다고 여겨졌던 위업, 즉 호환성의 보편적인 법칙을 깨뜨리지 않고 표준 메모리 칩에 프로세서를 내장하는 데 성공했기 때문입니다. 기존의 실험적인 PIM 아키텍처는 특수한 독점 인터페이스가 필요하여 대량 생산에 적합하지 않았던 반면, GDDR6-AiM은 JEDEC(Joint Electron Device Engineering Council) 표준 사양은 완벽하게 준수하도록 설계되었습니다. 이 "트로이 목마" 전략은 칩이 물리적으로 표준 16Gbps 속도로 작동하고 게임용 그래픽 카드에 사용되는 일반 GDDR6 칩과 동일한 핀 레이아웃을 사용한다는 것을 의미합니다. 여기서 핵심적인 기술 혁신은 저장 밀도를 크게 저하하지 않고도 매우 조밀한 메모리 셀 어레이 내부에 논리 회로를 위한 "리소그래피 공간"을 확보할 수 있었다는 점입니다. SK 하이닉스 엔지니어들은 프로그래밍할 수 있는 컴퓨팅 유닛을 메모리 뱅크 바로 옆에 성공적으로 내장하여, 칩이 기존 저장 장치와 병렬 프로세서 모드 사이를 끊김이 없이 전환할 수 있도록 했습니다. 이러한 듀얼 모드 기능 덕분에 업계는 머더보드나 컨트롤러를 처음부터 다시 설계할 필요가 없으므로 이 혁신적인 기술의 진입 장벽이 거의 제로에 가까워집니다. 순수 연산 성능 지표 측면에서 GDDR6-AiM은 점진적인 성능 향상이 아닌 기하급수적인 성능 향상을 제공합니다. 벡터 연산을 위해 CPU에 데이터를 공급하는 표준 DRAM 모듈과 비교했을 때, AiM 칩은 무려 16배 빠른 계산 속도를 보여줍니다. 이러한 가속은 실리콘 다이 내부에 존재하는 막대한 내부 대역폭에서 비롯됩니다. 외부 핀은 16Gbps로 제한되지만, 메모리 셀과 내장 로직 유닛을 연결하는 내부 배선은 훨씬 빠른 속도로 작동합니다. 머신 러닝 작업, 특히 특정 데이터 유형(추론에 사용되는 BF16 또는 INT8 등)을 포함하는 계산의 경우, AiM은 모든 뱅크에서 동시에 수십억 개의 연산을 병렬로 실행할 수 있습니다. 또한 에너지 효율성 측면에서도 획기적인 변화가 나타나는데, 전력 소비량이 80% 감소합니다. 이러한 효율성 향상은 "I/O 토글링"에 필요한 전력 소모를 제거함으로써 달성됩니다. 데이터가 처리 과정에서 칩을 벗어날 필요가 없으므로, PCB 트레이스를 통해 신호를 전송하는 데 낭비되던 에너지가 절약되어 현재 AI 클러스터 규모를 제한하는 "전력 한계" 문제를 효과적으로 해결할 수 있습니다. GDDR6-AiM의 개발 과정은 또한 "공정 기술 통합"에 있어서 혁명이 필요했으며, 이는 메모리 제조와 로직 제조라는 두 개의 서로 다른 세계를 연결하는 것이었습니다. 전통적으로 DRAM 공정은 누설 전류 제어 및 커패시터 밀도(데이터 저장용)에 최적화되어 있지만, 로직 공정(CPU와 같은)은 트랜지스터 스위칭 속도에 최적화되어 있습니다. 이 두 가지를 단일 칩에 결합하는 것은 고속 스위칭 로직에서 발생하는 열이 인근 DRAM 커패시터의 데이터 유지 시간을 저하할 수 있기 때문에 매우 어렵습니다. SK 하이닉스는 표준 메모리 모듈의 열 설계 범위 내에서 작동하는 특수 저전력 로직 아키텍처를 개발하여 이러한 "열 간섭" 문제를 해결했습니다. 그들은 외부 호스트(CPU/GPU)가 간단한 명령(예: "매크로 명령어")을 보내 복잡한 내부 작업을 실행할 수 있도록 하는 "호스트-장치 인터페이스"를 구현했습니다. 즉, 호스트 프로세서는 지휘자가 지휘봉을 흔드는 것처럼 작동하고, GDDR6-AiM은 오케스트라처럼 음표를 연주하는 역할을 합니다. 이번 성공적인 통합을 통해 PIM은 학술 논문에나 나오는 이론적인 개념이 아니라, 생성형 AI 시대의 폭발적인 작업량을 처리할 수 있는 제조 가능하고 실용적인 제품이라는 사실이 처음으로 입증되었습니다.

생성형 AI 최적화 AiMX 솔루션

AiMX(Accelerator-in-Memory based Accelerator)는 PIM 기술이 미시적인 구성 요소에서 생성형 AI의 "추론 위기"를 해결하기 위해 특별히 설계된 거시적인 시스템 수준의 강력한 도구로 전환되었음을 보여줍니다. GDDR6-AiM이 엔진이라면, AiMX는 여러 개의 AiM 칩을 중앙 컨트롤러(일반적으로 FPGA, Field-Programmable Gate Array)에 의해 제어하는 표준 PCIe 확장 카드 형태의 전체 구성 요소입니다. 이러한 아키텍처적 결정은 전략적입니다. 데이터 센터가 특수한 독자적인 연결 방식을 사용하여 전체 서버 인프라를 개편하도록 강요하는 대신, AiMX는 기존 GPU처럼 표준 서버 슬롯에 장착됩니다. 하지만 대규모의 전력 소모가 많은 로직 코어를 사용하여 연산을 수행하는 GPU와 달리, AiMX는 특정 행렬-벡터 곱셈 작업을 카드 전체에 분산된 메모리 어레이로 직접 오프로드합니다. 이러한 "분산 지능"은 서버가 Meta의 Llama 2 또는 OpenAI의 GPT-3과 같은 대규모 언어 모델(LLM)을 실행할 때 중앙 CPU가 테라바이트 단위의 매개변수 데이터를 가져올 필요가 없다는 것을 의미합니다. 대신, 상위 수준 명령을 AiMX 카드로 전송하고, AiMX 카드는 자체 메모리 뱅크 내에서 프롬프트를 로컬로 처리한 후 최종 결과(생성된 토큰)만 반환하여 일반적으로 시스템 성능을 저하하는 PCIe 버스의 트래픽 혼잡을 크게 줄입니다. AiMX 솔루션의 핵심적인 장점은 "차세대 토큰 생성"이라는 고유한 워크로드 특성에 맞춰 알고리즘적으로 최적화되었다는 점입니다. 생성형 AI 모델의 수명 주기는 학습(훈련)과 추론(답변)의 두 단계로 구성됩니다. 학습은 "계산 집약적"이며 NVIDIA H100의 강력한 처리 능력이 있어야 하지만, 추론은 엄격하게 "메모리 집약적"입니다. ChatGPT가 단어 하나를 생성할 때마다 시스템은 메모리에서 수십억 개에 달하는 전체 파라미터 가중치 테이블에 접근해야 합니다. 기존 하드웨어에서는 이러한 방식이 비효율적입니다. 강력한 GPU 코어는 메모리가 도착하기를 기다리며 90%의 시간 동안 유휴 상태로 있기 때문입니다. AiMX는 최적화된 "추론 특화" 하드웨어 프로파일을 제공하여 이 문제를 해결합니다. GDDR6-AiM 칩을 활용하는 AiMX 카드는 이러한 특정 작업에서 표준 GPU보다 높은 유효 대역폭을 제공하면서도 비용과 전력 소모는 훨씬 적습니다. SK 하이닉스의 자체 벤치마크 테스트(Llama 2(70B 파라미터) 모델 사용) 결과, 특정 배치 크기에서 AiMX 기반 시스템이 A100 GPU를 사용하는 시스템보다 10배 빠른 데이터 처리 속도를 보였으며, 이는 병목 현상이 연산 능력이 아닌 대역폭에 있을 때 "더 스마트한 메모리"가 "더 강력한 프로세서"보다 우수하다는 것을 입증합니다. 마지막으로, AiMX는 급증하는 AI 데이터 센터 비용에 대한 "경제적 판도를 바꿀 제품"으로 자리매김하고 있습니다. AI 서비스 수요가 폭발적으로 증가함에 따라 업계는 HBM(고대역폭 메모리) 부족과 에너지 위기에 직면하고 있습니다. HBM은 매우 빠르지만, 복잡한 TSV(실리콘 관통 비아) 패키징이 필요하기 때문에 제조가 어렵고 가격이 매우 높습니다. AiMX는 게임 콘솔에 사용되는 성숙하고 생산성이 높으며 비용 효율적인 표준 기술인 GDDR6를 활용합니다. SK 하이닉스는 PIM 기술을 통해 이러한 비용 효율적인 칩에 HBM과 유사한 성능을 제공함으로써 "중간 경로"를 제시합니다. 데이터 센터 운영자는 AiMX 카드를 사용하여 매일 발생하는 대규모 사용자 쿼리(추론)를 처리함으로써 총 소유 비용(TCO)을 크게 절감하고, 고가의 HBM 기반 GPU는 모델 학습과 같은 고성능 작업에 집중할 수 있습니다. GPU를 학습에, AiMX를 사고에 활용하는 이러한 하드웨어 계층화는 단일 AI 토큰 생성 비용을 충분히 낮춰 비즈니스 모델을 실현할 수 있게 만드는 지속 가능한 생태계를 구축하며, SK 하이닉스가 단순한 공급업체를 넘어 AI 경제의 설계자로서 해야 할 역할을 공고히 하도록 합니다.