공유 심층 분석

HBM 아키텍처 완전 분석: TSV부터 패키징까지

마지막 업데이트: 2026-05-11
핵심 요약

HBM은 DRAM 칩을 수직으로 쌓고 TSV(관통 구리 기둥) 5,000개 이상으로 연결하여 DDR5 대비 24배 대역폭(1,229GB/s)을 달성하는 AI GPU 전용 메모리다. SK하이닉스의 MR-MUF 패키징이 삼성 TC-NCF 대비 수율 3~4배 우위를 제공하며, HBM4E(2027년)부터는 범프를 제거하는 Hybrid Bonding으로 전환되어 20층 이상 적층이 가능해진다. 이 4중 공정(TSV 관통, 30um 박형화, 접착 기술, 인터포저 패키징)의 극한 난이도가 지구상 3개 기업만 제조할 수 있는 진입장벽을 형성한다.

당신의 컴퓨터는 왜 AI를 못 돌릴까?

고속도로를 상상해 보세요. 당신의 PC에 달린 DDR5 메모리는 왕복 2차선 시골 도로입니다. 한 번에 64비트(약 8바이트)의 데이터만 줄 세워 보냅니다. 반면 AI GPU에 달린 HBM은 1,024차선 고속도로입니다. 동시에 1,024비트의 데이터를 벽처럼 쏟아붓죠. 최신 HBM4는 여기서 한 단계 더 나아가 2,048차선으로 확장됩니다.

여기서 "차선 수"를 기술 용어로 버스 폭(bus width)이라 부르고, "한 시간에 지나가는 총 차량 수"를 대역폭(bandwidth)이라 부릅니다. 차선이 넓고 차가 빠르면 대역폭이 커지는 구조입니다.

반도체 기초편에서 DRAM은 GPU와 떨어져 있고 64비트 좁은 도로로 연결된다고 했습니다. HBM은 칩을 위로 쌓고, 칩을 관통하는 구리 기둥(TSV)으로 위아래를 연결한 뒤, GPU 바로 옆에 놓아서 1,024비트 초광폭 도로로 연결합니다. 이번 글에서는 📈000660SK하이닉스가 이 구조를 어떻게 만드는지, 왜 만들기 어려운지를 해부합니다.

DDR5 (일반 PC)
64-bit 버스 (차선 64개)
속도: 6.4 Gbps
대역폭: 51 GB/s
배치: 메인보드 위 DIMM 슬롯
HBM3E (AI GPU)
1,024-bit 버스 (차선 1,024개)
속도: 9.6 Gbps
대역폭: 1,229 GB/s
배치: GPU 바로 옆 (인터포저)

출처: Wikipedia HBM, JEDEC DDR5 Spec

같은 "메모리"인데 대역폭이 24배 차이납니다. 이 차이는 단순히 "빠른 칩을 썼기 때문"이 아닙니다. 근본적으로 다른 아키텍처, 그리고 그것을 가능하게 하는 4중 공정 기술 때문입니다. 이 글에서 그 4가지를 하나씩 해부합니다.

HBM 세대별 로드맵

이 글을 읽기 전에 HBM의 전체 진화 과정을 한눈에 보겠습니다. 이 표를 머릿속에 놓고 읽으면, 각 장에서 나오는 세대별 기술이 전체 흐름에서 어디 위치인지 파악하기 쉽습니다.

세대I/O (bits)속도 (Gbps)대역폭 (/스택)최대 적층양산
HBM11,0241.0128 GB/s4-Hi2014
HBM21,0242.0256 GB/s8-Hi2018
HBM2E1,0243.6460 GB/s8-Hi2020
HBM31,0246.4819 GB/s12-Hi2022
HBM3E1,0249.61,229 GB/s12-Hi2024
HBM42,0488.02,048 GB/s16-Hi2026
HBM4E2,048~10+~3 TB/s20-Hi2027E
HBM5TBDTBDTBDTBD2029~31

출처: JEDEC, SK하이닉스, Tweaktown. 보라 하이라이트 = 현재·차세대.

출처: JEDEC, SK하이닉스, Tweaktown

세대가 올라갈 때마다 적층 수가 늘고(4→8→12→16→20), 버스 폭이 넓어지고(HBM4부터 1,024→2,048비트), 대역폭이 커집니다. 이 글에서 다루는 4중 공정(TSV, 접착, 인터포저, 열 관리)이 이 진화를 가능하게 하는 기술적 기반입니다.

1. 왜 옆으로 놓으면 안 될까? 메모리 대역폭의 물리학

GPU의 연산 속도는 매년 폭발적으로 증가합니다. NVIDIA H100은 초당 1,979 TFLOPS(FP8)를 처리합니다. 그런데 이 엔진에 데이터를 공급하는 메모리가 느리면? GPU는 데이터를 기다리며 놀게 됩니다. 이것이 1994년 Wulf와 McKee가 명명한 "Memory Wall" 문제입니다.

1.1 대역폭의 공식: 넓이 x 속도

메모리 대역폭은 단순한 공식으로 결정됩니다.

💡 대역폭 공식

대역폭 (GB/s) = 버스 폭 (bits) x 데이터 속도 (Gbps) / 8

DDR5: 64 x 6.4 / 8 = 51.2 GB/s per channel
HBM3E: 1,024 x 9.6 / 8 = 1,229 GB/s per stack

DDR5가 대역폭을 늘리려면 클럭 속도를 높여야 합니다. 하지만 클럭을 올리면 전력이 급증하고, 신호 무결성(signal integrity) 문제가 발생합니다. HBM은 완전히 다른 접근을 택했습니다. 속도를 무리하게 올리는 대신, 버스 폭을 16배로 넓힌 것입니다.

1.2 수직 적층이 "넓은 버스"를 가능하게 한다

1,024비트 버스를 옆으로 펼치면 기판 위에 어마어마한 면적이 필요합니다. 배선이 길어지면 신호 지연과 전력 소모가 커지죠. 해답은 "쌓는 것"이었습니다. DRAM 칩을 수직으로 쌓고, 칩을 관통하는 수천 개의 미세 구멍(TSV)으로 연결하면, 수 밀리미터 이내의 극히 짧은 경로로 1,024비트를 동시에 전달할 수 있습니다.

짧은 배선 = 낮은 전력. HBM은 DDR5 대비 비트당 에너지 소비가 3~4배 적습니다. 더 빠르면서 더 효율적인 이유가 바로 수직 구조에 있습니다.

이 구조를 한눈에 보겠습니다.

HBM 실제 배치: GPU 옆에 HBM 스택이 나란히 놓인다인터포저 (실리콘 고속도로 · 1,024차선 배선)GPU(연산 장치)Base Die (TSMC)DRAM 1DRAM 8히트 스프레더① 인터포저 수평 이동 (1,024차선)② TSV 수직 관통구리 기둥 5,000+개775 μm실제로는 GPU 양옆에 HBM 스택 6~8개가 나란히 놓입니다. 여기서는 1개만 표시.

개념적 단면도. 실제 비율은 다를 수 있음. 출처: Wikipedia HBM, SK하이닉스

GPU와 HBM 스택은 인터포저 위에 나란히 놓여 있습니다. GPU에서 출발한 데이터는 인터포저(초록색 고속도로)를 따라 수평으로 이동하여 HBM 스택에 도달하고, Base Die를 거쳐 TSV(보라 점선)를 타고 수직으로 올라가 원하는 DRAM 층에 도달합니다. 전체 경로가 수 밀리미터 이내이므로 신호 지연이 극도로 짧습니다.

1.3 HBM4의 역발상: 광폭 저속 전략

세대별 대역폭 비교 (스택 1개 기준)
51 GB/s
1,229 GB/s
+67%
2,048 GB/s
DDR5 64-bit
HBM3E 1,024-bit
HBM4 2,048-bit

출처: JEDEC HBM4 Standard, Wikipedia HBM

출처: JEDEC HBM4 Standard, Wikipedia HBM

HBM4는 흥미로운 역발상을 택했습니다. 인터페이스 폭을 1,024비트에서 2,048비트로 2배 확장하면서, JEDEC(반도체 업계의 국제 표준 기구. DDR5나 HBM의 규격을 정하는 곳) 표준 기본 속도는 8.0 Gbps로 설정했습니다. "더 빠르게"가 아니라 "더 넓게"라는 설계 철학을 반영한 것입니다. 결과: 대역폭은 67% 증가하면서, 비트당 에너지는 30~40% 감소. (SK하이닉스)

다만 실제 제품은 JEDEC 기준을 초과하여 구현됩니다. NVIDIA가 요구하는 HBM4 속도는 10 Gbps 이상이며, 삼성은 11 Gbps, SK하이닉스는 10 Gbps를 달성한 것으로 보도됩니다. 넓은 버스(2,048-bit)에서 10+ Gbps를 동시에 달성하기 때문에 최종 대역폭은 2,000+ GB/s에 이릅니다. 수직 적층(TSV)이 이를 가능하게 하는 물리적 기반입니다.

2. 실리콘을 관통하는 구멍: TSV의 물리적 구조

HBM의 모든 것은 TSV(Through Silicon Via)에서 시작됩니다. 실리콘 칩에 수천 개의 미세 구멍을 뚫고, 구리로 채워서, 위아래 층을 전기적으로 연결하는 기술입니다. SK하이닉스가 2013년 세계 최초로 HBM1에 TSV를 적용했습니다. (SK하이닉스 뉴스룸)

2.1 TSV 제조 4단계

① DRIE 식각 (구멍 뚫기)
② 절연막 증착 (SiO₂ 코팅)
③ 구리 도금 (전기 충전)
④ CMP 연마 (표면 평탄화)

DRIE: Bosch Process로 구멍을 뚫다

TSV의 첫 단계는 실리콘 웨이퍼에 구멍을 뚫는 것입니다. DRIE(Deep Reactive Ion Etching)는 "Bosch Process"라고도 불리며, SF₆ 가스로 식각하고 C₄F₈ 가스로 측벽을 보호하는 과정을 수백 번 반복합니다. 마치 나선형 계단을 깎아내리듯 실리콘을 관통합니다.

HBM용 TSV의 일반적 치수: 직경 5~10 μm, 피치 40~55 μm, 깊이 40~100 μm. 사람 머리카락 두께(70 μm)보다 작은 구멍을 수천 개 뚫는 셈입니다.

구리 충전과 CMP

구멍을 뚫은 뒤, 먼저 SiO₂ 절연막으로 실리콘과 구리가 직접 닿지 않도록 코팅합니다. 그 위에 TaN/Ta barrier layer, 구리 seed layer를 PVD(물리기상증착)로 형성한 뒤, 전기도금(electroplating)으로 구멍을 아래부터 위로(bottom-up) 채웁니다. 마지막으로 CMP(Chemical Mechanical Polishing)로 표면을 원자 수준으로 깎아 평탄화합니다.

2.2 TSV의 수량: 수천 개의 정렬

HBM3E 기준(1,024비트 I/O), 최소 1,024개의 신호 TSV가 필요합니다. 여기에 전원(VDD), 접지(VSS), ECC, 테스트용 redundancy TSV를 더하면, 한 DRAM die에 5,000~6,000개 이상의 TSV가 관통합니다. HBM4(2,048비트 I/O)에서는 이 수가 8,000개+로 증가합니다. 12-Hi 스택이면 이 구멍들이 12개 층을 정확히 정렬되어 관통해야 합니다.

정렬 정밀도는 ±1~2 μm 이내. 12층 전체가 누적 오차 없이 정렬되어야 하므로, Known-Good-Die(KGD) 테스트로 불량 die를 사전에 걸러냅니다. 불량 die 1개가 섞이면 전체 스택을 폐기해야 하기 때문입니다.

2.3 웨이퍼 박형화: 30 마이크로미터의 극한

업계에서 8-Hi, 12-Hi라고 표기하는데, Hi는 High(층)를 뜻합니다. 8-Hi = 8층 적층, 12-Hi = 12층 적층입니다.

세대적층 수다이 두께전체 높이양산
HBM2E8-Hi~50 μm≤775 μm2020
HBM312-Hi~30 μm≤775 μm2022
HBM3E 12-Hi12-Hi~30 μm (40% 박형화)≤775 μm2024.9
HBM4 16-Hi16-Hi~30 μm≤775 μm개발중

출처: SK하이닉스 CES 2026

출처: SK하이닉스 CES 2026

표준 DRAM 웨이퍼 두께는 약 775 μm입니다. 그런데 JEDEC 규격상 HBM 패키지 전체 높이도 775 μm로 제한됩니다(방열판·소켓 호환성). 이 안에 12~16개 칩을 넣으려면? 각 칩을 머리카락 절반 두께인 30 μm까지 갈아내야 합니다.

이 과정을 "backgrinding"이라 합니다. mechanical grinding으로 대부분을 제거하고, CMP와 plasma thinning으로 마무리합니다. 30 μm 웨이퍼는 종잇장처럼 얇아서 혼자서는 지탱이 안 됩니다. temporary carrier wafer에 접착해서 가공한 뒤, 최종 조립 직전에 떼어냅니다.

2014
4-Hi
HBM1
2018~2022
8-Hi
HBM2/2E/3
2024
12-Hi
HBM3E
2026
16-Hi
HBM4

3. 쌓은 칩을 고정하는 기술: MR-MUF vs TC-NCF vs Hybrid Bonding

TSV로 구멍을 뚫고, 웨이퍼를 30 μm로 깎았습니다. 이제 이 얇은 칩들을 물리적으로 "접착"해야 합니다. 이 접착 기술이 SK하이닉스와 삼성의 승부를 갈랐습니다.

3.1 Micro-Bump: 칩 간 전기적 연결

각 DRAM die 표면에는 수천 개의 micro-bump가 있습니다. 구리 기둥(Cu pillar) 위에 주석(Sn) 캡을 씌운 구조입니다. 이 범프가 위아래 die의 TSV 패드와 맞닿아 전기적 통로를 형성합니다.

HBM 세대가 진화하면서 bump pitch가 줄어들고 있습니다. HBM2는 55 μm, HBM3E는 약 25~36 μm. pitch가 줄면 같은 면적에 더 많은 I/O를 넣을 수 있고, die 면적을 줄일 수 있습니다.

3.2 MR-MUF: SK하이닉스의 비밀 무기

MR-MUF(Mass Reflow Molded Underfill)는 SK하이닉스가 2019년에 공개한 독자 패키징 기술입니다. HBM3E까지 주력으로 사용되며, HBM4에도 "Advanced MR-MUF"로 이어집니다.

Die 배치 (범프 정렬)
Mass Reflow (220~240°C)
Underfill 주입 (에폭시 충전)
경화(Cure) (구조 완성)

비유하면, 레고 블록을 쌓고 오븐에 넣는 방식입니다. 오븐 열기에 접착 부분(범프의 주석)이 살짝 녹으면서 자연스럽게 자리를 잡고, 그 뒤 에폭시를 부어서 구조를 고정합니다.

핵심은 "Mass Reflow" 단계입니다. 칩들을 쌓아올린 뒤, 리플로우 오븐에서 220~240°C로 가열하면 범프의 주석이 녹으면서 자중(self-weight)으로 정렬됩니다. TC-NCF처럼 300°C + 고압을 가하지 않으므로, 칩에 가해지는 기계적 스트레스가 현저히 적습니다.

그 뒤 칩 사이 빈 공간에 에폭시 몰딩 컴파운드(EMC)를 주입하여 구조를 보강합니다. 이 에폭시를 일본 Namics Corporation이 독점 공급하며, SK하이닉스와 장기 독점 계약을 맺고 있습니다. (SK하이닉스)

3.3 TC-NCF: 삼성의 접근법과 한계

MR-MUF가 이렇게 우수한데, 삼성은 왜 같은 방식을 쓰지 않았을까요?

TC-NCF(열압착)는 반도체 업계에서 오래 사용된 "정통적" 접착 방식입니다. 삼성은 MR-MUF가 등장하기 전부터 이미 TC-NCF 장비, 소재, 공정라인에 대규모 투자를 해놓은 상태였습니다. MR-MUF는 SK하이닉스가 "기존 방식으로는 수율이 안 나온다"는 판단 하에 2019년에 독자 개발한 혁신이었고, 삼성 입장에서는 세 가지 이유로 전환이 어려웠습니다. 첫째, 기존 TC-NCF 투자의 매몰비용. 둘째, MR-MUF의 핵심 소재(에폭시)를 SK하이닉스가 Namics와 독점 계약으로 묶어놓은 상황. 셋째, 삼성 특유의 "우리 기술로 해결한다"는 조직 문화.

비유하면, TC-NCF는 양면테이프(NCF 필름)를 깔고 뜨거운 다리미로 꽉 눌러 붙이는 방식입니다. 삼성은 칩 사이에 NCF(비전도성 필름)를 미리 깔고, 300°C + 고압으로 눌러 붙입니다. 문제는 이 뜨거운 다리미의 온도와 압력입니다. 300°C에서 실리콘, 구리, 유기 소재의 열팽창계수(CTE)가 모두 다르게 팽창합니다. 이 차이가 warpage(휨)를 유발합니다. 얇은 칩이 휘어지는 겁니다. 적층 수가 늘수록 누적 warpage가 심해져 수율이 급락합니다. 이것이 삼성의 NVIDIA HBM3E 인증이 18개월 지연된 기술적 근본 원인입니다. (KED Global)

🟣
MR-MUF
공정 온도: 220~240°C · 가압: 약함(자중) · 수율: 3~4배 우위 (60~70% vs 10~20%) · 적용: HBM3E, HBM4 · 주체: SK하이닉스
🔴
TC-NCF
공정 온도: 300°C · 가압: 강함(고압) · 수율: warpage 위험 · 적용: HBM3E(삼성) · 주체: 삼성전자
🟢
Hybrid Bonding
공정 온도: RT + 200~300°C · 가압: 없음(표면 접합) · 수율: 검증 중 · 적용: HBM4E(2027~) · 주체: SK/삼성 모두

출처: SK하이닉스, Yole Group

두 방식의 차이를 그림으로 보겠습니다.

MR-MUF (SK하이닉스)TC-NCF (삼성)DRAM 3범프 (주석)DRAM 2DRAM 1220~240°C (오븐)결과: 평탄한 스택에폭시 충전으로 구조 보강수율 3~4배 우위DRAM 3NCF 필름DRAM 2DRAM 1300°C + 고압 (프레스)결과: 휨(warpage) 위험열팽창 불일치로 칩이 휘어짐수율 급락 (적층 증가 시)

개념적 비교. MR-MUF는 낮은 온도로 범프를 녹여 자연 정렬하고 에폭시로 고정. TC-NCF는 필름을 깔고 고온·고압으로 눌러 붙여 warpage 위험이 큼.

3.4 Hybrid Bonding: 범프 없는 미래

MR-MUF와 TC-NCF 모두 micro-bump를 사용합니다. 하지만 bump에는 근본적 한계가 있습니다. bump pitch가 20 μm 이하로 줄어들면, bump 간 단락(short) 위험이 급격히 증가합니다.

Hybrid Bonding은 범프를 완전히 제거합니다. 두 칩의 표면을 원자 수준으로 깎아(표면 거칠기 <0.5 nm), 상온에서 산화물-산화물(SiO₂-SiO₂) 접합 후, 200~300°C 어닐링으로 구리-구리(Cu-Cu) 금속 접합을 완성합니다.

SK하이닉스는 2026년 4월, 12-Hi Hybrid Bonding HBM 검증을 완료했다고 발표했습니다. HBM4E(2027년) 양산부터 도입 예정이며, 20-Hi 이상의 고적층을 가능하게 할 핵심 기술입니다. (TrendForce)

기존 방식과 Hybrid Bonding의 차이를 칩 접합면을 확대해서 보겠습니다.

기존: Micro-Bump 방식미래: Hybrid BondingDRAM (위)접합부 확대에폭시 (빈 공간 채움)DRAM (아래)~25μm25μmbump pitch: 25~36 μm20μm 이하로 줄이면 단락 위험→ 20-Hi 이상 불가능DRAM (위)접합부 확대Cu-Cu + SiO₂ 직접 접합DRAM (아래)~5μm범프 완전 제거층간 두께 1/5로 감소→ 775μm 안에 20-Hi+ 가능범프 제거 → 층간 5배 얇음 → 같은 높이에 더 많이 적층 가능

층간 접합부 확대 비교. 왼쪽: 구리 범프(보라) + 주석 캡(노랑)이 칩 사이 공간을 차지. 오른쪽: 구리와 산화물이 면 대 면으로 직접 접합하여 빈 공간 최소화.

💡 핵심: MR-MUF가 HBM 전쟁의 현재를 결정했다면, Hybrid Bonding은 미래를 결정합니다. SK하이닉스가 두 기술 모두에서 선행하고 있다는 점이 투자 관점에서 핵심입니다.

4. 완성된 HBM은 어디로 가는가: 2.5D 패키징과 인터포저

TSV로 적층하고, MR-MUF로 접착한 HBM 스택은 아직 완제품이 아닙니다. 이 스택을 GPU 옆에 나란히 놓고, 초고속으로 연결해야 합니다. 이 과정이 2.5D 패키징이며, TSMC의 CoWoS 기술이 핵심입니다.

4.1 인터포저: GPU와 HBM을 연결하는 실리콘 기판

일반 PCB의 배선 밀도는 수십 μm 수준입니다. 하지만 GPU에서 HBM까지 1,024~2,048비트를 연결하려면, 2~5 μm 수준의 초미세 배선이 필요합니다. 이걸 가능하게 하는 것이 실리콘 인터포저입니다.

실리콘 인터포저는 실리콘 웨이퍼 위에 3~5개 층의 RDL(Redistribution Layer)을 형성하여 초고밀도 배선을 만든 기판입니다. GPU die와 HBM 스택 6~8개가 이 인터포저 위에 나란히 탑재됩니다.

인터포저 내부를 확대해서 보겠습니다.

인터포저 내부 확대: GPU와 HBM을 연결하는 배선GPUmicro-bumpHBM 스택(Base Die)micro-bump인터포저 내부: RDL 5층 (실리콘 배선)1,024비트 수평 이동 (배선 폭 2~5 μm)일반 PCB 배선: 수십 μm → 1,024비트 연결 불가실리콘 인터포저 배선: 2~5 μm → 1,024비트 연결 가능

인터포저 내부 3D 확대. GPU와 HBM 각각의 micro-bump가 인터포저 내부 RDL 배선층에 연결되고, RDL을 통해 수평으로 데이터가 이동합니다.

4.2 CoWoS-S vs CoWoS-L

CoWoS-S

소재: 단일 실리콘 인터포저

크기 제한: ~858 mm² (reticle)

적용: H100, A100

한계: 대형 다이 2개 이상 탑재 불가

CoWoS-L

소재: LSI chiplet + organic substrate

크기: reticle의 6배 규모

적용: B200, GB200

장점: 듀얼다이 GPU + HBM 8스택 가능

출처: TechInsights

NVIDIA Blackwell(B200)은 2개의 GPU die를 하나의 패키지에 넣어야 했습니다. 단일 실리콘 인터포저(CoWoS-S)로는 크기가 부족합니다. TSMC는 CoWoS-L을 개발해 LSI(Local Silicon Interconnect) 칩릿과 유기 기판을 조합하여 reticle 한계를 돌파했습니다. 두 GPU die 간 NV-HBI 연결로 10 TB/s 대역폭을 달성합니다. (TechInsights)

2016
1.5x
초기 CoWoS
2022
3.3x
H100 세대
2025
5.5x
B200 세대
2027
9x
Rubin 세대

reticle 크기(~858 mm²) 대비 인터포저 면적 배율. 출처: TSMC

4.3 Logic Base Die: 메모리 안에 로직을 넣다

HBM4부터 중대한 구조적 변화가 도입됩니다. DRAM 스택의 최하단에 TSMC가 만든 Logic Base Die가 들어갑니다. 이전까지 HBM의 최하단 die는 단순 buffer die였지만, HBM4부터는 여기에 본격적인 로직 회로가 들어갑니다.

HBM 스택이 아파트 건물이라면, Logic Base Die는 1층 로비 + 관리실입니다. ECC(오류 정정)는 택배 검수 담당으로, 데이터가 올라가다 비트가 뒤집히면 자동으로 수정합니다. PHY(물리 계층 인터페이스)는 GPU와 통신하는 번역기로, 인터포저를 통해 들어오는 신호를 DRAM이 이해하는 형태로 변환합니다. 전력 관리 회로는 아파트 전기 배전판으로, 16층 DRAM 각각에 필요한 전압을 조절합니다. DFT(테스트 설계)는 자체 진단 시스템으로, 불량을 감지하고 대체 경로를 활성화합니다.

공정은 TSMC N12(주력 서버용) 또는 N3(프리미엄). SK하이닉스나 삼성이 직접 만들지 않는 이유는 DRAM과 로직 칩의 제조 공정이 완전히 다르기 때문입니다. 메모리 팹은 DRAM 전용으로 최적화되어 있고, Logic Base Die는 파운드리(위탁 제조) 전문 기술이 필요합니다. 빵집에서 아무리 잘 해도 자동차 엔진을 만들 수 없는 것과 같습니다. 이로써 HBM은 "수동 메모리"에서 "능동 메모리 시스템"으로 진화합니다. (SK하이닉스)

4.4 누가 뭘 만드나: HBM 제조 분업 구조

HBM은 한 회사가 혼자 만들지 않습니다. SK하이닉스가 메모리 스택을 완성하면, TSMC가 인터포저 위에 GPU와 함께 조립하는 분업 구조입니다.

부품담당역할
DRAM 칩 (8~16장)SK하이닉스메모리 저장
TSV (칩 관통 구리 기둥)SK하이닉스층간 수직 연결
MR-MUF (칩 접착)SK하이닉스스택 고정
Base Die (HBM4~)TSMC로직 회로 (ECC, PHY)
인터포저TSMCGPU↔HBM 수평 연결 (고속도로)
GPUNVIDIA 설계 → TSMC 제조연산

HBM 제조 분업 구조. 보라 하이라이트 = TSMC 영역.

SK하이닉스의 역할은 "메모리 스택을 완성해서 넘기는 것"까지입니다. TSMC가 인터포저 위에 GPU와 HBM 스택을 나란히 올려 최종 패키지를 완성합니다.

4.5 SK하이닉스-TSMC "원팀" 체제

2024년 SK하이닉스와 TSMC는 MOU를 체결하여 HBM과 CoWoS의 통합 최적화 협력을 공식화했습니다. SK하이닉스가 HBM4 Logic Base Die를 TSMC 파운드리에 위탁 생산하는 구조입니다. 이 "원팀" 체제는 경쟁사가 단기간에 복제하기 어려운 구조적 해자입니다.

해자(Economic Moat) 완전 해설

그렇다면 삼성은 어떻게 하고 있을까요? 두 회사의 전략은 근본적으로 다릅니다.

SK하이닉스: 분업 전략

메모리(DRAM+TSV+MR-MUF)는 우리가 최고

로직/인터포저는 TSMC에 위탁

각 분야 최고끼리 조합

결과: Vera Rubin 70% 배분

삼성: 수직통합 전략

DRAM + Base Die + 인터포저를 삼성 내부에서

삼성 파운드리(I-Cube)로 자체 해결

외부 의존 없지만 파운드리 수율 열위

결과: Vera Rubin 30% 배분

SK하이닉스와 삼성은 직접 경쟁자입니다. 삼성이 SK하이닉스에 HBM 패키징을 맡기는 건 불가능합니다. 그렇다고 TSMC에 맡기면 SK하이닉스와 같은 공급사에 의존하게 됩니다. TSMC 캐파가 부족해지면 원팀 파트너인 SK하이닉스가 우선 배정받을 가능성이 높고, 삼성은 후순위가 됩니다. 삼성이 자체 파운드리로 해결하려는 건 이 구조적 제약 때문입니다.

현재까지의 결과: 각 분야 최고와 손잡는 분업이, 모든 것을 혼자 중간 수준으로 하는 수직통합보다 결과가 좋았습니다. Vera Rubin 배분 70:30이 이를 수치로 보여줍니다.

5. 열과의 전쟁: 16층 적층의 물리적 한계

12개, 16개 칩을 쌓으면 가장 심각한 문제는 "열"입니다. DRAM은 동작할 때 열을 발생시키고, 그 열은 위로 전달됩니다. 최상단 die가 가장 뜨겁고, JEDEC 동작 온도 한계(105°C)를 넘으면 오류가 발생합니다.

이불 12겹을 덮고 자는 상황을 떠올려 보세요. 체온(칩의 열)이 빠져나가야 하는데, 이불 한 겹 한 겹(에폭시)이 단열재 역할을 합니다. 이불이 많을수록 안쪽은 더 뜨거워지죠. HBM의 열 문제가 정확히 이 구조입니다.

5.1 열은 위로만 빠진다

HBM 스택에서 열은 주로 상단의 히트 스프레더(heat spreader)를 통해 외부로 방출됩니다. 문제는 die 사이의 underfill 소재가 열전도율이 낮다는 것입니다. EMC(에폭시 몰딩 컴파운드)의 열전도율은 약 0.5~2 W/mK에 불과합니다. 구리(~400 W/mK)의 수백 분의 1입니다. 구리가 금속 고속도로라면, 에폭시는 솜이불인 셈입니다. 열이 빠져나가야 하는데 솜이불이 12겹이나 쌓여 있는 거죠.

결과적으로, 최하단 die에서 발생한 열이 12개 층의 underfill을 거쳐 상단까지 전달되는 과정에서 큰 온도 구배가 발생합니다. 8-Hi 스택에서 top die와 bottom die의 온도차는 10~15°C, 16-Hi에서는 이것이 더 심해집니다.

16-Hi 스택 열 분포 (Die 번호 → 온도)
~80°C
~83°C
~87°C
~91°C
~95°C
Die 1 (최하단)
Die 4
Die 8
Die 12
Die 16 (최상단)

출처: 개념적 시각화. 실제 온도는 동작 패턴과 냉각 조건에 따라 달라짐.

5.2 MR-MUF의 열 관리 비밀

세대별 열 방출 개선율 (이전 세대 대비)
+36%
+10%
HBM2E vs HBM2
HBM3E vs HBM3 (MR-MUF2)

출처: SK하이닉스

출처: SK하이닉스

SK하이닉스의 MR-MUF는 TC-NCF 대비 열 방출이 우수합니다. MR-MUF2(HBM3E 적용)는 HBM3 대비 열 방출 성능이 +10%, HBM2E 대비 +36% 개선되었습니다. 에폭시 몰딩 컴파운드의 조성을 세대마다 개선하여 열전도율을 높이고 있습니다.

5.3 JEDEC 775 μm: 높이가 결정하는 모든 것

775 μm는 약 0.78 mm입니다. 명함 한 장(약 0.3 mm)보다 약간 두꺼운 정도. 이 안에 16장의 칩 + 접착제 + Base Die + 히트 스프레더를 전부 넣어야 합니다.

⚠️ 16-Hi 이상이 기존 방식으로 불가능한 이유: JEDEC 775 μm 높이 제한 안에 16개 이상을 넣으려면 다이 두께를 30 μm 이하로 더 줄여야 합니다. 하지만 30 μm 이하에서는 wafer handling이 극도로 어렵고, micro-bump 구조도 물리적 한계에 도달합니다. Hybrid Bonding(범프 제거)만이 20-Hi 이상을 가능하게 합니다.

이것은 SK하이닉스와 삼성 모두에게 해당하는 한계입니다. MR-MUF든 TC-NCF든, micro-bump를 사용하는 방식으로는 20-Hi 이상이 물리적으로 불가능합니다. bump pitch가 20 μm 이하로 줄어들면 bump 간 단락(short) 위험이 급증하기 때문입니다. 3장에서 다룬 Hybrid Bonding만이 bump를 없애서 층간 두께를 1/5로 줄이고, 775 μm 안에 20층 이상을 넣을 수 있습니다. SK하이닉스는 이미 12-Hi Hybrid Bonding 검증을 완료(2026.4)한 반면 삼성은 아직 양산 검증 단계에 있어, 이 전환에서도 SK하이닉스가 선행하고 있습니다.

5.4 수냉 전환과 HBM의 미래

NVIDIA의 차세대 플랫폼 Vera Rubin은 TDP가 1,800~2,300W로, 에어쿨링이 물리적으로 불가능합니다. 100% 수냉(DLC: Direct Liquid Cooling)이 필수입니다. rack당 열밀도가 40~175 kW에 달하며, 이는 데이터센터 냉각 인프라의 근본적 전환을 의미합니다.

HBM 관점에서 수냉은 기회입니다. heat spreader에 직접 냉각수가 닿으면, 스택 상단의 열 제거 효율이 크게 개선되어 더 높은 적층도 가능해집니다.

수냉 전환 자체는 SK하이닉스와 삼성 모두에게 동등하게 적용됩니다. 수냉은 서버 인프라의 변화이지 HBM 제조사의 기술이 아니기 때문입니다. 하지만 수냉이 열어주는 "더 높이 쌓기" 기회에서는 차이가 납니다. 더 높은 적층(20-Hi 이상) = Hybrid Bonding 필수이고, SK하이닉스가 검증에서 선행 중입니다. 같은 적층 수에서도 MR-MUF가 TC-NCF보다 칩 내부의 열전도율이 높으므로, 같은 수냉 환경에서도 SK하이닉스 쪽이 칩 내부 온도가 더 낮아 안정성 우위를 유지합니다.

6. HBM 진화의 타임라인: 투자자가 봐야 할 것

6.1 세대 전환이 만드는 투자 기회

도입부의 세대별 로드맵을 투자 관점에서 다시 보겠습니다. HBM은 매 세대마다 적층 수가 증가합니다(8→12→16→20). 적층 수가 늘면 스택당 용량과 대역폭이 올라가고, 제조 난이도도 높아지므로 스택당 단가(ASP)가 함께 상승합니다. HBM3E에서 HBM4로의 전환 시 ASP 30~50% 상승이 전망됩니다. 수량이 정체하더라도 세대 전환에 따른 ASP mix 효과가 매출을 방어하는 구조입니다.

6.2 양산 선점 = 시장 지배

SK하이닉스의 전략은 단순합니다. AI 시대 핵심 세대(HBM3 이후)에서 "세계 최초 NVIDIA 인증"을 달성하고, 그 선점으로 점유율을 유지하는 선순환 구조입니다.

2014
HBM1
SK하이닉스 TSV 최초 적용
2020
HBM2E
삼성 양산 선행
2022.6
HBM3
SK하이닉스 세계 최초 양산
2024.3
HBM3E
SK하이닉스 세계 최초 양산
2025.3
HBM4 샘플
SK하이닉스 세계 최초
2025.9
HBM3E 인증
삼성 NVIDIA HBM3E 인증 획득
2026.2
HBM4 양산
삼성 세계 최초 상업 출하

출처: SK하이닉스 뉴스룸, 삼성전자 뉴스룸, TrendForce. HBM2는 삼성(2018), HBM2E는 삼성(2020) 선행.

HBM4에서 삼성이 양산을 선행(2026.2)했지만, NVIDIA Vera Rubin 배분은 SK하이닉스 70% : 삼성 30%입니다. "먼저 양산"과 "물량 확보"는 별개입니다. NVIDIA가 새 HBM 공급사를 인증하는 데 6~18개월이 소요되며, 수년간 축적된 관계와 수율 실적이 배분을 결정합니다.

6.3 다음 전쟁터: HBM4E와 그 너머

HBM4E(2027년)는 두 가지 측면에서 전환점입니다. 첫째, Hybrid Bonding이 처음 양산에 적용됩니다. 둘째, 1c nm 공정이 DRAM에 적용됩니다.

Hybrid Bonding 경쟁에서 누가 앞서고 있는지가 핵심입니다.

SK하이닉스

12-Hi Hybrid Bonding 검증 완료 (2026.4)

HBM4E 샘플: 2026년 하반기

양산 목표: 2027년

Advanced MR-MUF에서 전환 준비 완료

삼성

양산 검증 단계 (미완료)

HBM4E 샘플링: 2026년 하반기 계획

양산 시점: 미정

TC-NCF에서 전환 필요

현재 기술(MR-MUF vs TC-NCF)에서 뒤처진 삼성이, 다음 기술(Hybrid Bonding)에서도 뒤처지는 패턴이 반복되고 있습니다. SK하이닉스는 이미 12-Hi Hybrid Bonding 검증을 마쳤으며, HBM4E 샘플을 2026년 하반기에 출하할 예정입니다. (Seoul Economic Daily)

더 먼 미래에는 PIM(Processing-In-Memory) 기술이 대두됩니다. SK하이닉스의 AiMX는 메모리 내부에 연산 유닛을 통합하여 데이터 이동 자체를 없애는 접근입니다. Memory Wall의 궁극적 해결책이 될 수 있습니다.

6.4 기술이 답하는 세 가지 투자 질문

이 글에서 해부한 4중 공정(TSV, MR-MUF, 인터포저, 열 관리)을 이해하면, SK하이닉스 투자에서 가장 자주 나오는 세 가지 질문에 기술적 근거를 갖고 답할 수 있습니다.

삼성이 따라잡을 수 있는가?

삼성은 빠르게 좁히고 있습니다. 데이터가 그것을 보여줍니다.

HBM 시장 점유율 추이
54%
39%
62%
17%
~52%
~29%
SK하이닉스 2024
삼성 2024
SK하이닉스 Q2 2025
삼성 Q2 2025
SK하이닉스 2026E
삼성 2026E

출처: TrendForce, Counterpoint Research, Astute Group

삼성 점유율은 V자를 그렸습니다. 2024년 39%에서 HBM3E 인증 실패로 Q2 2025에 17%까지 추락했다가, 2025년 9월 NVIDIA 인증을 획득하고 반등했습니다. 2026년 2월에는 HBM4를 SK하이닉스보다 먼저 상업 출하(세계 최초)하며, 2026년 점유율은 28~30%까지 회복이 전망됩니다. (Astute Group, KED Global)

삼성의 추격을 가능하게 한 세 가지: (1) DRAM 코어 재설계로 발열 문제의 근본 원인을 해결, (2) NVIDIA의 공급 다변화 전략(단일 공급사 70% 의존은 NVIDIA에게도 리스크), (3) HBM4 선제 양산으로 Vera Rubin 플랫폼 30% 배분 확보.

그러나 "먼저 양산"과 "물량 확보"는 별개입니다. Vera Rubin 배분은 SK하이닉스 70% : 삼성 30%입니다. 삼성이 양산 시점을 앞섰지만 실제 배분에서는 여전히 2배 이상 격차가 있습니다. (Semicone)

그렇다면 SK하이닉스의 구조적 우위는 정확히 어디에 있는가? 이 글에서 확인한 내용을 종합하면, 3중 구조입니다.

💡 핵심: SK하이닉스의 우위는 3중 구조다.

현재 기술: MR-MUF 수율 3~4배 (60~70% vs 10~20%). 핵심 소재(에폭시)를 Namics와 독점 계약으로 묶어놓았다. 삼성은 전환 자체가 막혀있다. (3장)

다음 세대: Hybrid Bonding 검증에서도 SK하이닉스가 선행(2026.4 완료 vs 삼성 미완료). 현재 기술에서 뒤처진 삼성이 다음 기술에서도 뒤처지는 패턴이 반복된다. (3.4장, 6.3장)

생태계: SK하이닉스는 TSMC 원팀(분업). 삼성은 경쟁 관계 때문에 자체 파운드리로 해결해야 한다(수직통합). 각 분야 최고끼리 조합하는 쪽이 혼자 다 하는 쪽을 이기고 있다. (4.5장)

하나를 따라잡아도 나머지 둘이 남는다. Vera Rubin 배분(70:30)이 이 3중 격차를 반영한다.

HBM 수요가 둔화되면?

범용 DRAM의 사이클은 단순합니다. 수요가 줄면 가격이 내리고, 가격이 내리면 매출이 줍니다. 하지만 HBM은 다른 동학이 작동합니다.

6.1에서 다룬 것처럼, HBM은 매 세대마다 적층 수가 증가하면서 스택당 단가(ASP)가 함께 상승합니다. 수량이 정체하더라도 세대 전환에 따른 ASP mix 효과가 매출을 방어하는 구조입니다. 가격 하락기에는 원가가 승부를 가릅니다. 5장에서 다룬 것처럼, MR-MUF의 수율 우위(60~70% vs 10~20%)는 곧 원가 구조적 우위입니다. 동일한 가격 하락이 왔을 때, 수율이 높은 SK하이닉스가 마진을 더 오래 방어할 수 있습니다.

NVIDIA 의존도가 리스크인가?

SK하이닉스의 HBM4 공급에서 NVIDIA 비중이 약 70%에 달합니다. 하지만 이것이 "NVIDIA 전용 부품을 만든다"는 뜻은 아닙니다. 4장에서 다룬 것처럼, HBM4의 Logic Base Die는 JEDEC 표준(JESD270-4) 인터페이스를 따릅니다. AMD MI400, Google TPU v7, Amazon Trainium3, Microsoft Maia 모두 같은 HBM4를 채택합니다.

NVIDIA가 자체 메모리를 만들 가능성도 사실상 없습니다. DRAM 제조에는 수십조 원의 팹 투자와 수십 년의 공정 노하우가 필요합니다. NVIDIA는 GPU 설계 회사이지 메모리 제조사가 아니며, 팹리스 모델을 포기할 경제적 동기가 없습니다.

결국 진짜 리스크는 "NVIDIA 의존"이 아니라 "AI 인프라 투자 자체의 둔화"입니다. 하이퍼스케일러들이 AI Capex를 줄이면 HBM 수요 전체가 영향을 받습니다. 이 시나리오에 대한 방어력은 질문 2에서 다룬 ASP mix 효과와 원가 우위에 있습니다.

기술을 이해하면 같은 질문에도 답이 달라집니다. 기술 구조를 모르면 "삼성이 따라잡을 수도 있겠지"로 끝나지만, 4중 공정의 누적 효과를 알면 "구조적 격차"라는 판단에 도달합니다. 이것이 기술 분석이 투자 판단의 기초가 되는 이유이며, 📈000660SK하이닉스 종목 분석에서 이 기술적 우위가 밸류에이션에 어떻게 반영되는지 확인할 수 있습니다.

HBM은 단순한 '빠른 메모리'가 아니다. 물리학의 한계를 매 세대 돌파하는 공정 기술 그 자체다.
  • TSV 관통 + 웨이퍼 박형화(30 μm) + MR-MUF 패키징 + 인터포저: 4중 공정이 동시에 성공해야 HBM이 작동한다
  • SK하이닉스의 우위는 3중 구조: ① 현재 기술(MR-MUF + 소재 독점) ② 다음 세대(Hybrid Bonding 선행) ③ 생태계(TSMC 원팀 vs 삼성 수직통합)
  • HBM4의 "광폭 저속" 전략(2,048-bit, 8 Gbps)은 전력 효율 40% 개선이라는 구조적 도약이다
  • Hybrid Bonding(HBM4E, 2027~)이 다음 전환점: 범프를 제거하여 20-Hi 이상 적층을 가능하게 한다
  • 삼성 추격, 수요 둔화, NVIDIA 의존도: 투자자의 핵심 우려 세 가지 모두, 기술 구조를 이해하면 답이 달라진다

이 분석을 다루는 종목

SK하이닉스
SK하이닉스 주식 심층 분석
SK하이닉스 HBM 점유율 62%, AI 메모리 수혜 1위. HBM 기술 해자, 메모리 사이클, 삼성 추격 ...
삼성전자
삼성전자 주식 심층 분석
삼성전자 HBM4 세계 최초 출하, 파운드리 수율 개선으로 반격 중. 메모리 수익, 파운드리 전환, 주주환원...
관련 개념
FLOPS초당 부동소수점 연산🏭팹리스Fabless 모델🏰해자Economic Moat
추천 글
공유 심층 분석
삼성 vs SK하이닉스: HBM 전쟁의 승자는 누구인가
기술을 이해하셨다면, 삼성 vs SK하이닉스 승부를 데이터로 비교합니다
공유 심층 분석
GPU 독점은 영원한가? AI 컴퓨팅의 미래
HBM을 소비하는 GPU 독점의 구조를 함께 분석합니다
공유 심층 분석
AI 메모리의 미래: HBM 이후의 전장
HBM 이후 차세대 메모리 기술의 전망을 살펴봅니다