70년이 넘는 세월 동안 전 세계 컴퓨팅 표준은 프로세서와 메모리가 물리적으로 분리된 폰 노이만 아키텍처로 정의되어 왔으며, 이에 따라 "데이터 병목 현상"으로 알려진 심각한 트래픽 정체가 발생했습니다. 생성형 AI 시대에 접어들면서, GPU와 DRAM 간의 수십억 개의 파라미터 이동은 시스템 전체 에너지의 최대 80%를 소모하는 심각한 문제로 대두되었습니다. SK 하이닉스는 연산 로직을 메모리 다이에 직접 내장한 혁신적인 AiM(Accelerator-in-Memory) 기술, 특히 GDDR6-AiM을 통해 이러한 기존의 제약을 해소하고자 합니다. SK하이닉스는 데이터를 멀리 떨어진 프로세서로 전송하는 대신 데이터가 있는 곳에서 직접 처리함으로써 AI 추론 성능을 10배 향상하고 전력 소비를 80% 절감했습니다. 이 혁신은 단순히 서버에만 적용되는 것이 아닙니다. 모바일 기기와 자율주행 차량이 클라우드의 지연 없이 로컬에서 복잡한 대규모 언어 모델(LLM)을 실행할 수 있도록 하는 진정한 AI 엣지 컴퓨팅의 길을 열어줍니다. 이 분석에서는 SK 하이닉스가 메모리를 수동적인 저장소에서 능동적이고 지능적인 사고 엔진으로 어떻게 변화시키고 있는지 살펴보겠습니다.

폰 노이만의 한계를 뛰어넘는 뇌 모방 혁신 구조
지난 70년간 컴퓨터 과학을 지배해 온 전통적인 폰 노이만 아키텍처의 근본적인 한계는 중앙 처리 장치(CPU)와 메모리 장치가 물리적으로 분리되어 있다는 점입니다. 이러한 분리로 인해 모든 계산 과정에서 데이터가 제한된 "버스"를 통해 끊임없이 왕복해야 했고, 이는 "폰 노이만 병목 현상"으로 알려진 심각한 데이터 전송 정체를 초래했습니다. 현대 AI 워크로드에서는 에너지의 90%가 데이터 처리보다는 단순히 데이터를 이동시키는 데 낭비됩니다. SK 하이닉스의 "뇌 모방(Brain-Mimicking)" 혁신은 뉴런과 시냅스의 생물학적 구조와 동일하게 메모리와 연산 기능을 물리적으로 통합한 "뉴로모픽(Neuromorphic)" 아키텍처를 채택하여 이러한 비효율적인 구조를 해결합니다. 이 새로운 패러다임에서는 "저장소"와 "작업자" 사이에 분리가 없습니다. 메모리 셀 자체가 계산을 수행합니다. 데이터 버스를 완전히 제거함으로써, 이 구조는 수십억 개의 "시냅스" 메모리 셀이 동시에 작동하는 대규모 병렬 처리를 가능하게 하여, 데이터를 차례대로 처리해야 하는 기존 GPU에 필요한 전력의 극히 일부만으로도 AI가 작동할 수 있도록 합니다. 이 뇌 모방 구조의 핵심 하드웨어는 SK 하이닉스가 "아날로그 인메모리 컴퓨팅"을 구현하는 데 사용하는 ReRAM(저항성 RAM) 크로스바 어레이입니다. 생물학적 뇌에서 뉴런 간 연결의 "가중치" 또는 강도는 디지털이 아닌 아날로그 방식입니다. SK 하이닉스는 ReRAM 셀의 가변 저항을 이용하여 시냅스 가중치를 물리적으로 표현함으로써 이를 모방합니다. ReRAM 어레이는 디지털 0과 1을 프로세서로 가져와 곱셈을 수행하는 대신, 기본적인 물리 법칙, 특히 옴의 법칙(V=IR)과 키르히호프의 전류 법칙을 이용하여 행렬-벡터 곱셈(MVM)을 즉시 수행합니다. 입력 전압 벡터가 워드 라인에 가해지면, 비트 라인의 전류는 수학적으로 입력값과 저장된 가중치의 곱이 됩니다. 이는 인공지능 추론에 필요한 복잡한 행렬 연산이 메모리 어레이에서 단 한 비트의 데이터도 유출되지 않고 전기 속도로 "제자리"에서 처리된다는 것을 의미합니다. 이러한 "아날로그 컴퓨팅" 기능은 실리콘이 인간 대뇌 피질의 매끄러운 효율성을 재현하는 데 가장 근접한 수준입니다. SK하이닉스는 이러한 하드웨어를 최대한 활용하기 위해 오늘날 사용되는 심층 신경망(DNN)과는 근본적으로 다른 소프트웨어-하드웨어 로직인 스파이킹 신경망(SNN)을 사용합니다. DNN은 주기마다 모든 레이어의 모든 뉴런을 활성화하는 연속적인 처리 방식을 사용하는 반면, SNN은 "이벤트 기반" 방식으로 작동합니다. 즉, 뉴런은 누적된 막 전위가 특정 임계값에 도달했을 때만 "활성화"(신호 전송)를 수행하는데, 이는 생물학적 뉴런의 작동 방식과 정확히 일치합니다. 이러한 "희소성"은 칩의 일부가 상당한 시간 동안 완전히 작동을 멈추고 전력을 전혀 소비하지 않는다는 것을 의미하며, 이는 동기식 아키텍처에 비해 최대 100배의 에너지 효율 향상으로 이어집니다. SK 하이닉스의 뉴로모픽 설계는 신호의 값 자체가 아니라 스파이크(펄스 주파수 변조)의 타이밍에 정보를 인코딩하여 음성이나 비디오와 같은 시간적 데이터를 거의 지연 없이 실시간으로 처리할 수 있습니다. 이러한 특징 덕분에 클라우드 서버에 접속하지 않고 주변 환경에 즉각적으로 반응해야 하는 엣지 디바이스에 이상적인 "감각 피질" 역할을 합니다. SK하이닉스는 완전한 뉴로모픽 미래로 나아가기 위한 교두보로서, 디지털 로직 유닛(DLU)을 표준 그래픽 메모리에 직접 통합한 실용적인 혁신 기술인 GDDR6-AiM(Accelerator-in-Memory)을 상용화했습니다. ReRAM이 아날로그 효율성을 목표로 하지만, AiM은 고대역폭 적용 가능성을 즉시 확보하는 것을 목표로 합니다. SK하이닉스는 각 GDDR6 다이에 16개의 독자적인 곱셈 장치를 내장하여 메모리가 텐서 연산의 핵심 작업을 내부적으로 처리할 수 있도록 했습니다. 이를 통해 연산 집약적인 작업을 GPU에서 효과적으로 분담하고 메모리 뱅크를 분산형 코프로세서로 활용할 수 있습니다. 이러한 하이브리드 접근 방식을 통해 기존 AI 생태계는 "데이터 근접 처리"의 이점을 즉시 누릴 수 있으며, "데이터 이동 에너지"를 80% 절감하는 동시에 추론 처리량을 두 배로 늘릴 수 있습니다. 이는 SK 하이닉스가 메모리의 역할을 수동적인 비트 저장소에서 컴퓨팅 프로세스의 능동적이고 지능적인 참여자로 전환하려는 로드맵의 첫 번째 구체적인 단계이며, 폰 노이만 시대의 종말을 예고하는 것입니다.
GDDR6 기반 AiM 가속기 성능 공개
SK 하이닉스의 PIM 기술의 상용화는 고가의 GPU에서 대규모 언어 모델(LLM) 추론 작업을 분담하도록 설계된 특수 하드웨어 솔루션인 "AiMX"(AiM 기반 가속기) 카드에 구현되어 있습니다. 최근 업계 공개 행사에서 SK 하이닉스는 AiMX 카드를 탑재한 서버가 GPT-3(175B 파라미터) 모델 실행 시 표준 GPU 기반 시스템 대비 데이터 생성 속도에서 무려 13배 향상된 성능을 달성함을 시연했습니다. 이러한 성능 격차는 "메모리 집약적" 작업을 처리하는 방식의 근본적인 차이에서 비롯됩니다. GPU는 계산을 수행하기 전에 데이터가 PCIe 버스를 통해 HBM 스택으로 이동하는 것을 기다려야 하지만, AiMX 카드는 메모리 뱅크 바로 옆에 자체 컴퓨팅 장치가 내장된 GDDR6-AiM 칩을 사용합니다. 이를 통해 AiMX는 AI 텍스트 생성의 핵심 수학 연산인 GEMV(일반 행렬-벡터 곱셈)를 핀당 초당 16기가비트(Gbps)의 대역폭을 내부적으로 수행할 수 있어 기존 서버에서 발생하는 지연 시간을 유발하는 "데이터 이동 페널티"를 효과적으로 제거합니다. 이러한 효율성의 비결은 각 GDDR6-AiM 다이 내에 16개의 전용 처리 장치(PU)를 통합한 데 있습니다. 복잡한 명령어 디코딩이 필요한 CPU와 달리, 이 PU들은 오버헤드 없이 MAC(곱셈-누적) 연산을 실행하도록 하드웨어적으로 구성되어 있습니다. SK 하이닉스의 ISSCC 공시에 따르면, 이 아키텍처는 표준 JEDEC GDDR6 폼팩터를 유지하면서 칩당 1테라플롭스(초당 부동소수점 연산)의 연산 처리량을 제공합니다. 무엇보다 중요한 것은 이 설계가 전력 소비를 획기적으로 줄인다는 점입니다. 일반적인 시스템에서는 DRAM에서 프로세서로 데이터를 이동하는 데 실제 계산에 필요한 에너지보다 1,000배 더 많은 에너지가 소모됩니다. 데이터는 고정된 상태로 유지하고 "명령"만 이동시키는 AiMX 시스템은 유사한 GPU 구성 대비 약 1/6의 전력 소비로 작동합니다. 이는 데이터 센터에서 제한된 열 환경 내에서 대규모 생성형 AI 모델을 실행할 수 있도록 하는 에너지 효율성으로 이어져 현재 AI 인프라 확장성을 위협하는 "전력 위기"를 해결할 수 있습니다. SK 하이닉스는 순수 하드웨어 사양 외에도 고처리량 추론을 위한 널리 사용되는 오픈 소스 라이브러리인 "vLLM"(Virtual Large Language Model)과 호환되는 특수 소프트웨어 스택을 통해 AiMX의 성능을 최적화했습니다. 성능 공개 자료는 AiMX 카드가 단순한 이론적인 프로토타입이 아니라 PyTorch와 같은 업계 표준 프레임워크를 지원하는 "즉시 사용 가능한" 솔루션임을 강조합니다. 카드에 탑재된 독자적인 "AiM 컨트롤러"는 데이터 흐름을 관리하고, 작업 부하를 지능적으로 분산하여 AiM 칩이 대역폭 집약적인 벡터 계산을 처리하는 동안 호스트 CPU는 복잡한 제어 로직을 관리하도록 합니다. 이 "이종 컴퓨팅" 접근 방식은 OPT-66B 및 Llama 2 모델을 실행하는 벤치마크에서 검증되었으며, AiMX 시스템은 "배치 크기"(동시 사용자 요청 수)가 증가하더라도 일관된 생성 속도를 유지했습니다. 이러한 확장성은 PIM 기술이 더 이상 과학 실험이 아니라 AI 서비스의 "토큰당 비용"을 낮추고자 하는 클라우드 제공업체에게 실현할 수 있는 상업적 대안임을 입증합니다.
초저전력 온디바이스 AI 엣지 컴퓨팅 코어 솔루션
스마트폰이나 자율 드론과 같은 엣지 디바이스에 "온디바이스 AI"를 구현하는 데 있어 가장 큰 과제는 성능 자체가 아니라 "열 관리"입니다. 일반적인 애플리케이션 프로세서(AP)가 지속적인 AI 추론 모델을 실행하면 특정 부위에 열이 집중되어 몇 분 안에 디바이스 성능이 저하될 수밖에 없습니다. SK 하이닉스가 이러한 열역학적 위기에 대한 핵심 해결책으로 제시한 것은 열 발생을 근본적으로 분산시키는 LPDDR-PIM(Processing-In-Memory) 기술의 구현입니다. SK 하이닉스는 연산 유닛을 LPDDR5X 메모리 뱅크에 직접 내장함으로써 "뱅크 레벨 병렬 처리"를 활용합니다. 메인 AP가 절전 모드이거나 가벼운 백그라운드 작업을 처리하는 동안 특정 메모리 뱅크는 독립적으로 활성화되어 가중치를 검색하고 키워드 감지 또는 제스처 인식과 같은 저수준 작업을 위한 벡터 계산을 수행할 수 있습니다. 이 아키텍처는 에너지를 AP에 집중시키는 대신 상대적으로 온도가 낮은 메모리 다이 영역 전체에 분산시켜 "핫스팟" 문제를 효과적으로 해결합니다. 이러한 열 분산 덕분에 엣지 디바이스는 사용자의 손에 화상을 입히거나 배터리를 소모하지 않고도 고성능 AI 모델을 장시간 실행할 수 있습니다. 이는 CPU가 모든 고성능 작업을 담당하는 기존의 폰 노이만 아키텍처에서는 물리적으로 불가능한 일입니다. SK 하이닉스의 초저전력 전략에서 중요하지만 간과되는 요소는 하드웨어 수준에서 구현된 "스파시티(Sparsity)" (제로 스키핑) 로직입니다. 최신 딥러닝 모델에서는 데이터의 상당 부분이 "0"(최종 결과에 영향을 미치지 않는 값)으로 구성되어 있습니다. 기존 GPU와 NPU는 행렬 구조를 유지하기 위해 이러한 0을 곱하는 과정에서 상당한 에너지를 낭비합니다. SK 하이닉스의 PIM 가속기는 이러한 0 값을 원천적으로 식별하고 계산 사이클을 완전히 건너뛰는 특수 "제로 감지" 회로를 탑재하여 설계되었습니다. 이 "계산 건너뛰기" 메커니즘은 메모리 칩이 "지연 컴퓨팅"을 효과적으로 수행하여 절대적으로 필요한 경우에만 작업을 처리한다는 것을 의미합니다. 입력이 대부분 무음인 일반적인 음성 인식 모델의 경우, 이러한 희소성 최적화를 통해 동적 전력 소비를 70% 이상 줄일 수 있습니다. SK하이닉스는 이러한 논리를 1anm 공정 노드의 고유한 낮은 누설 전류 특성과 결합하여 AI 추론의 "활성 전력"이 고정된 에너지 비용이 아닌 입력의 복잡성에 비례하여 선형적으로 증가하도록 보장함으로써 배터리 제약이 있는 "상시 작동" 청취 장치에 이상적인 솔루션을 제공합니다. 더 나아가, 이 초저전력 솔루션은 메모리가 시스템 배터리의 1차 방어선 역할을 하는 "센서 직접 처리(Sensor-Direct Processing)" 방식으로의 패러다임 전환을 가능하게 합니다. 현재의 생태계에서는 카메라 센서가 원시 비디오 데이터를 이미지 신호 처리기(ISP)로 전송한 다음, DRAM을 거쳐 최종적으로 신경 처리 장치(NPU)로 보내 분석하는데, 이는 에너지 소모가 많은 긴 여정입니다. SK 하이닉스는 PIM(Photonic Information Modeling) 기능이 탑재된 메모리가 이미지 센서 바로 옆(또는 TSV를 통해 적층 된 형태)에 위치하는 미래를 구상하고 있습니다. 이러한 구성에서 메모리는 "관심 영역(ROI)" 감지를 로컬에서 수행합니다. 원본 프레임을 분석하여 관련 움직임이나 객체가 있는지 판단하고, 중요한 이벤트가 감지된 경우에만 전력 소모가 많은 메인 프로세서를 활성화합니다. 이 "게이트키퍼" 기능은 메모리를 수동적인 저장소에서 메인 시스템온칩(SoC)의 불필요한 활성화를 방지하는 지능형 필터로 전환합니다. 이러한 아키텍처 효율성은 24시간 내내 주변 환경을 모니터링해야 하지만, 지능형 분석 정보를 일주일에 한 번만 전송하면 되는 6G 연결 IoT 기기의 확산에 매우 중요합니다.