반응형

AI 시대가 도래하면서 면접에서 AI시장과 HBM 메모리에 대한 Keyword로 질문이 꼭 한 두개씩은 나오더군요. 우리가 흔히 알고 있는 HBM, DRAM 적층과 같은 기본적인 내용이 아닌 시장과 기술 경쟁력 그리고 추후 로드맵까지 한 번에 정리하는 시간을 가져보도록 하겠습니다.

[질문 1] DDR5가 있는데 AI 서버에 HBM이 별도로 필요한 이유는 무엇인가요.

[변형] DDR5와 HBM의 차이는 무엇인가요.

HBM은 기존의 DDR5를 대체하는 것이 아니라, 그 역할이 다릅니다. HBM의 경우 GPU 바로 옆에서 연산 전용 초고속 데이터 공급을 담당합니다. AI가 추론 시 GPU는 수천억 개의 파라미터를 동시에 처리하는데, 토큰 하나를 생성할 때마다 이 파라미터 전체를 메모리에서 GPU로 가져와야 합니다. 그 과정에서 데이터 병목이 발생하게 되며 HBM은 이러한 병목 현상을 효과적으로 처리할 수 있습니다. DDR5는 서버 메인보드에서 범용 메모리 역할을 하고, HBM은 GPU 패키지 바로 옆에서 전용으로 데이터를 공급한다는 차이가 있습니다. 

[훑어보기] "폰 노이만 병목"
현대 컴퓨터의 기본 구조는 수학자인 폰 노이만이 설계한 아키텍처를 따릅니다. Processor (CPU/GPU)와 메모리가 물리적으로 분리된 구조로, 데이터를 처리할 때마다 메모리에서 Processor로 데이터를 이동시켜 주어야 하죠.

일반적은 PC 환경은 이 정도면 충~분 합니다. 그런데 생성형 AI가 등장하면서 AI가 사용자의 입력 프롬프트의 내용과 문맥을 파악하면서 확률적으로 답변을 생성하는 추론 과정에서 수천억개의 파라미터를 동시에 참조하고, 다음 토큰을 예측해야 하죠. 이 반복적인 메모리 접근이 쌓이면서 추론 속도가 결정됩니다. GPU가 병렬처리니 뭐니 속도가 아무리 빠르다고 해도 데이터의 공급이 늦으면 당연히 기다릴 수밖에 없습니다. 그래서 빠른 데이터 공급을 위해 필요한 것이 바로 HBM인 것이죠. 
 
DDR5 vs. HBM의 구조 차이
DDR5는 평면에 놓인 단일 칩 구조입니다. 메인보드에 꽂혀 OS, 어플리케이션 등 다양한 용도에서 메모리를 공유하죠. HBM은 DRAM 칩을 수직으로 적층한 (HBM4 16단) 구조로 GPU 패키지 바로 옆 인터포저(Interposer) 위에 탑재됩니다. 데이터 이동 거리가 수 mm에 불과 하기에 외부 Parasitic 기인 Data 왜곡, Noise 등에 강하며, Data 전송 통로가 2,048개 이기에 대용량으로 데이터를 공급할 수 있는 것이죠. 

[질문 2] TSV 기술은 기존 와이어 본딩과 어떤 차이가 있습니까.

TSV는 Through Silicon Via의 약자로, 실리콘 관통 전극이라고 표현합니다. TSV는 Chip 내부에서 Layer 간 Layer를 수직으로 직접 연결하는 기술입니다. 기존 와이어 본딩의 경우 Chip 외부 가장자리에 가느다란 금속 Wire를 각층에 전극 Pad에 연결해 데이터를 주고 받는 방식입니다. 기존 Wire 본딩은 연결 수가 물리적으로 제한되며 (수십개 수준), 신호가 칩 외부를 우회해서 이동하므로 Data Path가 길기에 신호 지연과 전력 손실이 발생합니다. TSV 기술은 수직 관통된 Cu 금속을 통해 수직으로 데이터가 이동하는 차이가 있습니다. TSV는 와이어 본딩과 달리 Data 전송 Path가 짧아 기생 성분에 따른 신호 왜곡, 전력 손실에 매우 강력합니다. 또한, 집적도가 증가하면서 데이터 전송 통로 역할을 하는 VIA Hole의 Density는 현재 ~2,048개로 HBM3e 대비 HBM4에서 2배 증가하여 데이터 전송 특성이 2배 향상되었습니다. 


[질문 3] DRAM을 많이 적층 할수록 발생하는 문제는 무엇이 있을까요..

HBM에서 DRAM의 적층 단수가 높아질수록 2가지의 물리적인 문제가 발생할 수 있습니다. 첫 번째는 칩의 휨 현상입니다. 칩을 16단까지 쌓게 될 경우, 소재별 열팽창 차이로 인해 전체 구조가 휘기 시작합니다. 이는 특정 영역 내 Layer간 Stress가 집중되면서 Layer의 박리나 핀홀, 공정 균일도, 소자 특성 변동, 정합성 특성을 저하시킵니다. 두 번째는 발열입니다. 칩 내부에서 발생한 열이 외부로 빠져나오지 못하면서 소재 간 열팽창계수 차이에 의해 Wafer 전체가 비대칭적으로 변형되는 Warpage 현상이 나타날 수 있습니다. 또한, 이러한 발열은 칩 자체 Stress로 작용하여 제품 신뢰성 열화를 가속시키는 요인 중 하나입니다.


[질문 4] HBM 적층 단수의 한계를 극복하기 위해서는 어떻게 해야 하는가

(SKH 기준) MR-MUF (Mass Reflow Molded Underfill) 기술이 있습니다. 이는 Chip과 Chip 사이의 빈 공간에 액체 보호재 (EMC, Epoxy Molding Compound)를 주입하여 굳히는 공정으로 EMC 자체가 굳으면 단단히 잡아주어 칩의 휨 현상을 억제하고, EMC 자체 소재 특성으로 열 전도율이 높아 방열 경로를 충분히 확보하여 발열에 의한 이슈도 개선할 수 있습니다. 칩을 하나씩 압착 후 접합하는 기존 TC-NCF (Thermo Compression-Non Conductive Film) 방식과 달리 MR-MUF 기술은 칩을 모두 적층한 후에 대량 Reflow로 한 번에 접합하여 공정 시간 단축과 생산성 향상에 기여합니다.

[훑어보기] SK하이닉스가 HBM의 격차를 벌린 시점
NVIDIA의 HBM 검증 기준은 아주 명확합니다. HBM의 Chip 온도가 CPU 코어보다 10℃ 이상 높아지면 Fail입니다. AI 가속기가 풀 부하로 동작할 때, 이 온도 차이가 시스템 안정성에 직접적인 영향을 미치기 때문이죠. 삼성전자는 HBM3e 단품 칩 인증을 두 차례나 통과했습니다. 그러나 완성품(시스템) 시험 인증에서는 두 차례 모두 탈락한 이력이 있죠. 직접적인 원인은 바로 발열 기준 미달이었습니다. CES2025에서 젠슨 황이 이런 말을 했었죠. "삼성은 새로운 디자인이 필요하다" 이떄, 세계 1위 메모리 기업에게 내려진 공식적인 불합격 통보였습니다.

1) 단품 시험 인증 (Component Level Test)
- 개별 Chip, Package, 소자 단위로 시험 진행 
- Temperature Cycle (TC), 고온 동작 수명 (HTOL), 습도 시험 (HAST) 등 소자 자체의 내구성과 재료/공정 신뢰성 검증

2) 시스템 시험 인증 (System Level Test)
- 완성된 모듈, 보드, 제품 단위로 진행 (실제 고객사 제품에 탑재해서 실제 동작 환경에서 Test)
- 전기적 스트레스, EMI, EMC, ESD 등 시험. 실제 단품시험 인증에서 Pass되었다 하더라도, 시스템 탑재 시 이슈 및 불량 발생할 수 있음 → 단품 시험과 시스템 시험의 각 결과는 서로를 대변해줄 수 없음 (☆☆)

삼성전자가 2019년 HBM 개발을 일시 중단한 기간 동안, SK하이닉스는 MR-MUF 기술을 지속적으로 고도화했습니다. 이때 당시의 하이닉스 경영진들의 선택과 의사결정이 이제와서 보면 참 대단합니다. 2022년 첫 생성형 AI ChatGPT의 등장으로 HBM 수요가 폭발했을 때, HBM의 대량 양산이 가능했던 기업은 SK하이닉스 뿐이었습니다. 이것이 현재의 SKH(~70%) vs. Samsung(~20%)의 점유율 격차를 만들어낸 것이죠.

[질문 5] HBM 로드맵 상 HBM4 부터 왜 파운드리의 협력이 중요해졌는가

네. 그 이유에 대해서 말씀드리겠습니다. HBM4 부터 Base Die의 기능이 매우 복잡해졌기 때문입니다. Base Die는 수직으로 적층된 DRAM 전체를 제어하는 맨 아래층의 Logic Die 입니다. HBM3e까지는 그래도 메모리 공정으로도 충분히 제작 가능한 컨트롤러 기능의 Logic Die를 제작했지만, HBM4 부터는 AI 연산에 최적화된 고성능 Logic 기능이 추가 됩니다. 이에 따라 HBM4 부터는 DRAM의 적층 단수 뿐만 아니라, Base die의 고도화가 필요해졌으며 2nm / 3nm 수준의 advanced Logic 공정이 요구가 됐습니다. 이에 따라 SK하이닉스는 기업 단독으로 고도화된 Base die 구현 제한으로 TSMC와의 파트너십을 맺었고, 삼성전자의 경우 자사 Foundry를 적극 활용하여 내부에서 설계부터 완제품까지 일괄 제작하는 턴키(원스톱 종합 솔루션) 전략을 채택하였습니다.

[세부 사항] 베이스 다이 역할의 진화
HBM의 구조를 아파트에 비유하자면, 베이스 다이는 1층의 관리사무소로 보시면 됩니다ㅎ. 위층 (DRAM 층)의 데이터를 취합해서 GPU에 전달하고, 각 층의 전압, 타이밍, Error Correction을 담당하죠. HBM3e까지의 베이스 다이는 Pass-through 기능이 중심이었습니다. 그래서 이때까지는 자체 메모리 공정만으로도 충분히 베이스 다이의 기능을 구현할 수 있었죠. 하지만 HBM4부터는 관리사무소가 아니라 이제는 스마트 빌딩의 데이터 관제 센터 수준으로 복잡해지게 됩니다. AI 연산 중 자주 쓰이는 데이터는 전처리를 한다거나, GPU와 더 정교한 프로토콜로 통신을 하는 등 AI 연산에 최적화된 기능들이 추가가 되었습니다. 이러한 기능들을 구현하기 위해서 수nm의 Advanced node 공정이 요구되었고, Foundry의 역할이 매우 중요해진 것이죠.

"SK하이닉스 + TSMC 연합"
SK하이닉스는 24년 4월 TSMC와 베이스 다이 제작 및 패키징 협력 MOU를 체결했습니다. TSMC가 첨단 Logic 공정으로 베이스 다이를 제작하고, sk하이닉스가 1b DRAM을 16단으로 적층하는 것이죠. 이때 이목을 집중했던 건은 각 분야의 세계 1위 기업들의 협력이라는 것이죠. 물론 두 회사는 어찌 보면 고객, 협력사 관계이기 때문에 설계 데이터 공유나 이슈 대응, 개발 일정 조율에서 오는 복잡성과 Resource 제한이라는 Trade-off도 분명 존재합니다.

"삼성전자의 턴키 전략"
삼성전자는 자사의 파운드리로 노선을 정했습니다. 베이스 다이를 직접 제작하는 턴키(Turn-key) 전략을 선택한 것이죠. 메모리-파운들-패키징을 모두 자체 처리할 수 있는 세계 유일한 기업입니다. HBM4에서 10nm 6세대(1c) DRAM과 4nm급 Logic을 자사 공정으로 결합합니다. 삼성의 턴키 전략이 특히, 고객사 입장에서 매력적인 이유는 HBM 메모리, Logic Chip, 패키징 모두 한 곳에서 제작하다 보니, 공급망 관리가 단순해지고, 이슈 관련 책임 소재도 명확해지죠. 현재 삼성 팡드는 시장 점유율 ~11%로 TSMC와의 점유율 측면에서는 큰 격차가 있죠. 하지만 삼성의 턴키 전략으로 글로벌 팡드 점유율을 이제 확대할 기회라고도 할 수 있습니다. 삼성 팡드에서 얼마나 베이스 다이를 높은 수율로 안정적으로 생산할 수 있냐에 사활이 달렸다고 볼 수 있겠네요. 

각기 다른 의사결정에 따라 어떤 결과가 만들어질지 기대가 되네요.

[질문 6] HBM의 Bandwidth가 무엇을 의미하는가

HBM의 High Bandwidth가 높은 성능을 가질수록 AI의 추론 속도가 빨라진다는 것을 의미합니다. AI는 토큰을 하나 생성할 때마다 수천억 개의 파라미터를 메모리에서 GPU로 공급해야 하는데, 대역폭이 좁으면 아무리 빠른 GPU라고 하더라도 가동률이 낮아지고 토큰 생성 속도가 느려지기 마련입니다. 그래서 HBM의 적층 단수와 TSV 기술의 고도화가 High Bandwidth 성능을 구현하고, MR-MUF 기능 등이 휨과 발열 같은 공정 이슈와 신뢰성 관련 문제를 개선하는데 중요한 패키징 기술이라 할 수 있죠. SK하이닉스는 HBM4e 차세대 모델에서 하이브리드 본딩을 최초 도입할 예정이라 발표했습니다.


[질문 7] 하이브리드 본딩에 대해서도 간략하게 설명이 가능한가

네 말씀드리겠습니다. 현재 HBM4는 칩 간 연결에 Micro Bump를 적용하고 있습니다. Micro Bump를 사용할 경우, 수직으로 적층된 칩 간 간격이 커질 수밖에 없습니다. HBM4e 부터는 최초로 하이브리드 본딩을 적용하는데, 하이브리드 본딩은 칩 간 연결에서  범프 자체를 없애는 전략입니다. Bump 없이 Cu 전극면을 직접 접합함으로써 층간 간격을 70% 이상 Shrink 할 수 있습니다. 칩 간 간격이 줄어들면 Parasitic 성분이 최소화 되고 Data 이동 경로가 짧아져서 그에 따라 신호 전달 속도가 빨라지고, 기존 Bump 접촉면적 보다 Cu가 직접적으로 접촉하다 보니 접촉 면적 증가에 따른 전력 효율까지 동시에 개선되는 효과를 볼 수 있습니다. 


HBM의 칩 단가가 비싼 이유 3가지!!
트렌드포스 추정 기준 HBM4의 1GB 당 가격은 약 20달러 수준이죠. 일반 DRAM은 1GB당 1달러도 안 됩니다. 약 20배 이상의 가격 차이가 존재한다는 것인데, 이러한 가격 차이가 날 수밖에 없는 이유를 한 번 이야기 해봅시다.

1. 공정 복잡도 : 일반 DRAM은 평면 칩 하나를 만들지만, HBM은 16개의 칩을 수직으로 쌓고 TSV로 연결하며, MR-MUF로 패키징을 합니다. 이런 복잡한 여러 공정 Step을 거치고, 각 Step 마다 Yield Loss도 누적되다 보니 높은 Chip 단가가 산출 될 수밖에 없죠.

2. 베이스 다이 : HBM4부터는 Advanced Node의 첨단 파운드리 Logic 공정이 적용됩니다. 즉, TSMC / 삼성파운드리의 공정 사용 비용도 포함되는 것이죠.

3. 낮은 수율 : 16-Hi 적층 구조에서 하나의 층이라도 불량이 발생하면 칩 전체가 불량인 셈이죠. 따라서 일반 DRAM 대비 Total Yield가 낮을 수밖에 없죠.

즉, 앞서 PPA 관점에서 Q&A를 했다면, Cost와 Time to Market 관점에서 HBM의 공정 복잡도와 Yield의 Ramp가 제품 경쟁력에 미치는 효과를 간헐적으로 이야기해보았습니다. 공정 엔지니어들의 책임이 막중하다고 생각됩니다.

HBM4 12단 36GB Chipset의 단가는 약 500~600달러로, 한화로 70~80만원 수준입니다. 엄청 고가입니다... 그리고 AI 서버 하나에 이런 칩들이 여러개 들어가죠. 구글 TPU 아이언우드 (7세대)에는 단일 칩에 192GB HBM을 탑재합니다. HBM 용량으로 환산하면 5GB 이상 칩이 여러 개 들어가는 구조이죠. 16단 이상 고단 제품으로 갈수록 기술 난이도와 용량이 커져갈수록 공정복잡도, 수율과 같은 이유로 그 비용은 더욱 높아져 갈 전망입니다.

[질문 8] AI 시장과 HBM의 앞으로의 전망은 어떻게 생각하나요.

네. HBM의 단가는 공정복잡도와 기술 난도, 수율, 그리고 파운드리 공정 사용의 이유로 높은 단가로 책정되어 있습니다. 그럼에도 불구하고,  현재 HBM 시장에서 AI 가속기 수요의 폭발적인 증가로 인해 공급이 수요를 따라가지 못하고 있는 상황입니다. 현재 NVIDIA는 전체 HBM의 구매량의 73% 비중을 차지하고 있습니다. 아무리 HBM 생산량을 늘려도 NVIDIA 혼자 전체 물량의 3/4을 소화하고, 여기에 구글, AMD, AWS, 마이크로소프트 자체 AI 칩 수요까지 더해지면 더욱 공급 부족이 이어질 수밖에 없습니다. 그래서 현 시장에서 HBM의 기술 경쟁력 확보와 AI 시장을 선도하는 탄탄한 기술력이 요구된다고 생각됩니다. 

Tip!
1) 구글 TPU : 아이언우드(7세대), 192GB HBM 탑재, 메타플랫폼이 수십억 달러 규모의 TPU 구매를 논의 중
2) AWS, 마이크로소프트 : ASIC 개발 확대
3) AMD : 자체 AI 가속기 확대
→ TPU 한 대에 HBM 6~8개 탑재, TPU 수요 증가 = HBM 수요 동반 증가

[질문 9] 현재 국내 HBM 시장의 주요 Risk는?

현재 HBM 시장은 90% 이상을 국내 기업이 차지하고 있을 정도로 HBM 시장을 선도하고 있습니다. 하지만 국외 기업 중 마이크론 또한 HBM4 양산을 앞두고 뒤를 바싹 쫓아 오고 있습니다. 뿐만 아니라 중국 반도체 기업 CXMT가 2026년까지 HBM2 제조를 준비 중이라는 소식이 있습니다. HBM2는 10년 전에 개발된 기술이라 직접 경쟁은 어렵고, 미국의 현재 장비, 소재 제재로 대량 양산까지는 시간이 걸릴 것입니다. 하지만 중국이 본격적으로 HBM 자급 체계를 구축한다면 기존에 중국에 공급하던 한국 기업의 점유율이 잠식될 가능성이 있죠. 방심할 수 없는 중장기 Risk라고 할 수 있습니다.

반응형
그리드형(광고전용)
  • 네이버 블러그 공유하기
  • 네이버 밴드에 공유하기
  • 페이스북 공유하기
  • 카카오스토리 공유하기