엔비디아 종목 분석으로 돌아가기
엔비디아

엔비디아 GPU 로드맵: Blackwell에서 Rubin까지, 아키텍처와 경쟁 지형

Blackwell에서 Rubin까지 세대별 진화, AMD MI400·커스텀 ASIC과의 경쟁 구도, 점유율 전망

마지막 업데이트: 2026-05-09
핵심 요약

엔비디아 GPU 로드맵은 Ampere(2020)에서 Rubin(2026)까지 6년간 AI 연산 성능을 160배 이상 끌어올린 기술 진화 경로다. 이 성능 도약은 공정 미세화(7nm→3nm), 듀얼다이 패키징, 정밀도 최적화(FP16→FP4)의 3축이 동시에 작동한 결과이며, $1T 이상의 수주잔고가 2027년까지 매출로 전환된다. 2년마다 5~10배 뛰는 이 세대 교체 속도가 고객의 강제 업그레이드 사이클을 만들며, 엔비디아 데이터센터 매출 성장의 구조적 엔진이다.

2년마다 스마트폰을 바꾸는 이유

2년마다 스마트폰을 바꾸는 이유를 생각해보세요. 이전 폰이 고장 나서가 아닙니다. 새 카메라, 새 칩, 새 소프트웨어가 이전 세대와는 질적으로 다른 경험을 만들어내기 때문이죠.

엔비디아의 데이터센터 GPU도 같은 논리입니다. 다만, 한 가지 결정적인 차이가 있습니다.

📱 스마트폰 교체

교체 주기: 2년

단가: 100만원

안 바꾸면: 불편함

성격: 개인의 선택

🖥️ 데이터센터 GPU 교체

교체 주기: 2년

단가: 3,000~5,000만원

안 바꾸면: 경쟁에서 탈락

성격: 기업의 생존 조건

경쟁사가 최신 GPU로 AI 모델을 훈련시키는데, 나만 이전 세대를 쓰고 있다면? 모델 학습 시간이 5배 느려지고, 추론 비용은 10배 비싸집니다. 몇 달이면 시장에서 밀려납니다.

엔비디아는 이 "강제 교체 사이클"을 2년 주기로 만들어냅니다. Ampere(2020) 이후 Hopper(2022), Blackwell(2024), Rubin(2026)까지, 매 세대 성능이 5~10배 뛰었습니다.

📈NVDA엔비디아 본문에서는 "세대 교체가 매출 성장을 만든다"는 투자 관점을 다뤘습니다. 이 글은 그 이면의 기술적 질문에 답합니다. "왜 2년마다 성능이 5배, 10배 뛰는가?" "어떤 기술적 변화가 그것을 가능하게 하는가?" "경쟁사는 이 속도를 따라갈 수 있는가?"

1. GPU 아키텍처의 진화 법칙

1.1 무어의 법칙을 넘어선 엔비디아의 법칙

무어의 법칙은 "트랜지스터 수가 2년마다 2배 증가한다"는 관찰이었습니다. 엔비디아의 AI GPU는 이 법칙을 넘어섭니다. 트랜지스터 수는 2배씩 늘지만, AI 연산 성능은 5~10배씩 뛰고 있습니다.

비밀은 간단합니다. 엔비디아는 공정 미세화 외에 두 가지 축을 더 움직이기 때문입니다.

1.2 세대별 설계 철학: 무엇이 바뀌는가

GPU 성능이 세대마다 5배씩 뛰는 것은 단일 요인이 아닙니다. 세 가지 진화 축이 동시에 작동합니다.

🔬
축 1: 공정 미세화
🧩
축 2: 패키징 혁신
🎯
축 3: 정밀도 최적화

공정 미세화만이 답이 아니다

공정이 7nm에서 3nm으로 바뀌면 트랜지스터 밀도가 약 2~3배 늘어납니다. 하지만 AI 연산 성능은 160배 뛰었습니다(A100 FP16 312T 이후 R200 FP4 50P). 이 격차의 대부분은 패키징과 정밀도 최적화에서 나옵니다.

듀얼다이: 물리적 한계를 넘는 방법

반도체 리소그래피에는 레티클(reticle) 제한이라는 물리적 한계가 있습니다. 하나의 노광 장비가 한 번에 찍을 수 있는 칩의 최대 면적이 약 858mm²입니다. A100(826mm²)은 이 한계에 거의 도달했고, 더 큰 칩을 만들 수 없었습니다.

Blackwell B200은 이 문제를 해결하기 위해 2개의 다이를 TSMC CoWoS-L(Chip-on-Wafer-on-Substrate with Local Silicon Interconnect) 패키징으로 연결했습니다. 레티클 크기의 약 6배 규모의 인터포저 위에 두 개의 GB100 다이를 탑재하고, NV-HBI(NVLink High Bandwidth Interface)로 10 TB/s의 대역폭을 확보합니다. 풀 캐시 코히런시를 유지하여, 소프트웨어 관점에서는 하나의 GPU처럼 작동합니다. (NVIDIA, TechInsights)

정밀도 진화: FP32에서 FP4까지

AI 모델 학습과 추론에는 반드시 64비트 정밀도가 필요하지 않습니다. FP16(16비트)만으로도 대부분의 딥러닝 모델이 정확도를 유지합니다. FP8(8비트)은 추론에서 거의 손실 없이 2배 처리량을 제공하고, FP4(4비트)는 대규모 추론 워크로드에서 비용을 극적으로 절감합니다.

엔비디아의 Tensor Core는 세대마다 새로운 정밀도 포맷을 추가해왔습니다. Volta(2017)에서 FP16으로 시작해, Hopper(2022)에서 FP8, Blackwell(2024)에서 FP4까지. 각 세대가 이전 세대 대비 2배 처리량을 제공하는 핵심 메커니즘입니다.

FLOPS: AI 성능의 단위 쉽게 이해하기

2. Ampere에서 Blackwell까지: 아키텍처 해부

이론은 여기까지. 이제 실제로 각 세대가 어떤 설계 변화를 가져왔는지 하나씩 해부해보겠습니다.

2020
Ampere
A100 TSMC 7nm
2022~23
Hopper
H100/H200 TSMC 4nm
2024
Blackwell
B200 듀얼다이
Q4 2025
BW Ultra
B300 HBM3e 288GB
Q2 2026
Rubin
R200 TSMC 3nm, HBM4
2028
Feynman
TSMC 1.6nm 백사이드 전력

2.1 Ampere (A100): AI GPU의 시작

A100은 AI 전용 데이터센터 GPU의 기준을 세운 제품입니다. TSMC 7nm 공정, 54.2B 트랜지스터, 80GB HBM2e 메모리. 당시로선 "거대한" GPU였지만, 지금 기준으로 보면 시작점에 불과합니다.

A100의 핵심 혁신은 3세대 Tensor Core였습니다. TF32(TensorFloat-32) 포맷을 최초 도입하여, FP32 코드를 수정하지 않고도 AI 학습 성능을 10배 끌어올렸습니다. 다만 FP8은 아직 지원하지 않았습니다. (NVIDIA Developer)

2.2 Hopper (H100/H200): Transformer Engine의 탄생

Hopper는 AI 워크로드 특화 설계의 전환점이었습니다. 4세대 Tensor CoreTransformer Engine을 탑재하여, 학습 중 FP8과 FP16 정밀도를 레이어별로 자동 전환합니다. 정확도 손실 없이 처리량을 2배로 끌어올리는 기술입니다.

H100의 FP8 성능은 ~3,958 TFLOPS. A100(FP16 기준 312 TFLOPS) 대비 12.7배 향상입니다. 공정(7nm 이후 4nm)과 정밀도(FP16 이후 FP8)의 이중 효과입니다. (NVIDIA)

H200은 H100과 동일한 GH100 다이를 사용하되, 메모리만 HBM3(80GB) 이후 HBM3e(141GB)로 업그레이드했습니다. 대역폭이 3.35 TB/s에서 4.8 TB/s43% 증가하여, 대형 언어 모델 추론 성능이 크게 향상되었습니다.

2.3 Blackwell (B200): 듀얼다이 혁신

Blackwell은 GPU 설계 역사의 분수령입니다. 레티클 한계에 도달한 후, 최초로 2개의 다이10 TB/s 대역폭으로 연결하여 하나의 GPU로 작동시켰습니다.

결과: 208B 트랜지스터(A100의 3.8배), 5세대 Tensor Core에서 FP4 지원, 180GB HBM3e, 9 PFLOPS FP4 성능. H100 대비 학습 4배, 추론 30배 향상입니다. (NVIDIA)

2.4 Blackwell Ultra (B300): 추론 시대의 전초

B300은 B200과 동일 208B 트랜지스터 다이를 사용하되, 메모리를 HBM3e 288GB60% 증가시켰습니다. FP4 성능은 15 PFLOPS(B200 대비 1.67배)입니다. (NVIDIA Developer)

B300의 진짜 의미는 "추론 특화 최적화"에 있습니다. 리즈닝 모델(o1, Claude 등)은 긴 체인 오브 생각을 생성하므로, 더 많은 메모리와 FP4 처리량이 필요합니다. B300은 이 새로운 워크로드에 최적화된 첫 GPU입니다.

세대공정트랜지스터AI 성능HBM대역폭TDP
Ampere (A100)7nm54.2B312T FP1680GB HBM2e2.0 TB/s400W
Hopper (H100)4nm80B~4,000T FP880GB HBM33.35 TB/s700W
Hopper (H200)4nm80B~4,000T FP8141GB HBM3e4.8 TB/s700W
Blackwell (B200)4NP208B9P FP4180GB HBM3e7.7 TB/s1,000W
BW Ultra (B300)N4P208B15P FP4288GB HBM3e8.0 TB/s1,400W
Rubin (R200)3nm336B50P FP4288GB HBM422 TB/s~2,000W

출처: Spheron, IntuitionLabs, NVIDIA Developer

💡 핵심: A100에서 R200까지 6년간, AI 연산 성능은 160배 이상 뛰었습니다. 트랜지스터 수는 6.2배(54B 이후 336B)에 불과합니다. 나머지 26배는 패키징(듀얼다이)과 정밀도(FP16 이후 FP4)의 조합입니다.

3. Rubin: 다음 세대는 무엇이 다른가

Rubin(R200)은 2026년 Q2 출하 예정입니다. 단순한 "다음 세대"가 아닙니다. HBM4 채택, 100% 수냉 전용, NVLink 6이라는 세 가지 패러다임 전환이 동시에 일어납니다.

3.1 스펙 해부: 왜 "5배"가 가능한가

3nm + 336B 트랜지스터

TSMC 3nm(N3P) 공정으로 전환하면서 트랜지스터 수가 Blackwell 208B에서 336B1.6배 증가합니다. 3nm 공정은 4nm 대비 트랜지스터 밀도가 약 60% 높고, 동일 성능에서 전력 소비가 25~30% 감소합니다. (Wikipedia)

Rubin은 Blackwell의 듀얼다이에서 한 단계 더 진화합니다. 컴퓨트 다이 2개 + I/O 다이 2개4-tile MCM(Multi-Chip Module) 구조입니다. 컴퓨트 스케일링과 인터커넥트/메모리 컨트롤러 스케일링을 분리하여, 각각 독립적으로 최적화할 수 있습니다. SM(Streaming Multiprocessor) 수는 224개, 6세대 Tensor Core가 FP4, FP6, FP8, FP16, BF16, TF32, FP32, FP64를 모두 지원합니다. (Tom's Hardware)

HBM4: 대역폭 혁명

Rubin의 가장 큰 기술적 도약은 HBM4 채택입니다. HBM4는 인터페이스 너비가 HBM3e의 2배2,048비트입니다.

Blackwell (B200) vs Rubin (R200) 직접 비교
HBM 대역폭
7.7 TB/s
B200
22 TB/s
R200
+186%
FP4 컴퓨팅
9 PFLOPS
B200
50 PFLOPS
R200
+456%

출처: Barrack AI, TechInsider

💡 핵심: HBM4의 인터페이스 너비 2,048비트(32채널 x 64비트)는 HBM3e(16채널 x 64비트)의 2배입니다. 흥미로운 점은, 핀 속도가 HBM3e(9.6 Gbps)보다 오히려 낮은 8.0 Gbps로 시작한다는 것입니다. "광폭 저속" 전략으로, 인터페이스를 넓혀 대역폭을 확보하면서 클럭을 낮춰 발열과 전력 밀도를 억제합니다. 비트당 에너지 소비가 HBM3e 대비 30~40% 감소합니다. (JEDEC)

100% 수냉 전용: 전력의 벽을 넘다

Rubin의 TDP는 ~1,800~2,300W입니다. B200(1,000W)의 거의 2배입니다. 일반적으로 에어쿨링은 약 700~1,000W에서 한계에 도달합니다. H100(700W)까지는 에어쿨링이 가능했지만, B200(1,000W)부터 수냉 옵션이 추가되었고, Rubin은 100% 수냉 전용으로 에어쿨링 구성 자체가 없습니다.

이것은 하드웨어만의 문제가 아닙니다. 기존 데이터센터의 냉각 인프라를 수냉으로 전환해야 하므로, 인프라 투자 비용이 상당합니다. 역설적으로, 이 전환 비용이 엔비디아의 해자가 됩니다. Rubin을 도입하려면 수냉 인프라까지 새로 구축해야 하므로, 한 번 전환하면 다른 벤더로 바꾸기 더 어려워집니다.

3.2 Vera Rubin NVL72: 칩이 아니라 시스템으로

엔비디아는 더 이상 GPU 칩만 파는 것이 아닙니다. Vera Rubin NVL72는 72개의 R200 GPU와 36개의 Vera CPU를 하나의 랙 시스템으로 통합한 제품입니다.

Vera Rubin NVL72 시스템 스펙
72x R200
GPU
36x Vera
CPU
260 TB/s
랙 대역폭
10배 절감
추론 비용 (Blackwell 대비)
MoE 모델 학습: Blackwell 대비 4배 적은 GPU로 동일 성능

출처: ServeTheHome

칩에서 시스템으로의 전환은 전략적 의미가 큽니다. GPU 칩만 팔면 경쟁사가 더 빠른 칩을 만들어 대체할 수 있지만, 시스템 전체(GPU + CPU + NVLink + NVSwitch + 소프트웨어)를 팔면 대체가 훨씬 어려워집니다. 해자(Economic Moat) 쉽게 이해하기

3.3 Rubin Ultra와 Feynman: 2027~2028 전망

Rubin Ultra(VR200U)는 2027년 Q2 출하 예정으로, Rubin의 성능 강화 버전입니다. 스펙은 아직 미공개이나, 기존 패턴(H100 이후 H200, B200 이후 B300)을 따르면 동일 다이에 메모리와 소프트웨어 최적화를 추가하는 방식이 될 것입니다.

Feynman(2028)은 TSMC A16(1.6nm) 공정을 채택할 예정입니다. 주목할 기술은 백사이드 전력 공급(Backside Power Delivery)입니다. 기존에는 트랜지스터와 전력 배선이 같은 면에 있어 서로 간섭했는데, 백사이드 전력은 전력선을 칩 뒷면으로 분리합니다. 트랜지스터의 신호 전달 효율이 높아져, 같은 전력으로 더 높은 성능을 낼 수 있습니다. (Tom's Hardware)

4. GPU 혼자는 안 된다: 풀스택의 나머지 축

GPU가 아무리 빨라져도, 수천 개의 GPU가 하나의 모델을 학습시키려면 GPU 사이의 통신, 시스템 통합, 소프트웨어 생태계가 함께 진화해야 합니다. 엔비디아의 진짜 경쟁력은 이 네 축(GPU + 인터커넥트 + 시스템 + 소프트웨어)을 한 회사에서 동시에 제공한다는 점입니다.

💡 핵심: GPU 칩 성능이 세대마다 5배 뛰어도, 인터커넥트가 병목이면 전체 시스템 성능은 통신 속도에 갇힙니다. NVLink 대역폭도 GPU와 같은 속도로 세대마다 2배씩 증가하고 있습니다. 160 GB/s(2016) → 3,600 GB/s(2026). 이 동기화된 진화가 풀스택의 핵심입니다.

각 축의 상세 분석은 전용 딥다이브에서 다룹니다.

5. 경쟁사 로드맵 비교: 1세대 뒤인가, 따라잡고 있는가

5.1 AMD MI400: 가장 직접적인 도전자

AMD는 CDNA 아키텍처로 데이터센터 GPU 시장에 도전하고 있습니다. 현재 MI325X(256GB HBM3e, 6 TB/s)가 출하 중이고, 차세대 MI400은 2026년 하반기 출시 예정입니다.

MI400은 432GB HBM4, 19.6 TB/s 대역폭, 20 PFLOPS FP8 성능을 목표로 합니다. 인상적인 수치이지만, 동시기 Rubin(R200)의 50 PFLOPS FP4, 22 TB/s와 비교하면 여전히 격차가 있습니다. (AMD)

더 근본적인 문제는 소프트웨어입니다. AMD의 ROCm은 CUDA 대비 개발자 생태계가 약 1/10 수준이며, 전환 시 컴퓨트 집중 워크로드에서 성능이 10~30% 하락합니다. ROCm 다운로드가 2025년 기준 YoY 10배 성장 중이지만, CUDA의 19년 축적을 따라잡기에는 시간이 필요합니다.

5.2 커스텀 ASIC: 특화 vs 범용

빅테크는 자체 AI 칩 개발에 속도를 내고 있습니다. GPU와 달리, 이 칩들은 특정 워크로드에 최적화된 ASIC(주문형 반도체)입니다.

기업공정메모리성능특징
GoogleTPU Trillium (v6e)-32GB/칩4.7x 이전 세대자체 모델(Gemini) 학습 특화
AmazonTrainium2-96GB HBM3e20.8 PFLOPS추론 비용 30~40% 절감 목표
AmazonTrainium33nm144GB HBM3e2.52 PFLOPS FP82027 출하 예정
MicrosoftMaia 100TSMC 5nm64GB HBM2e-Maia 200 개발 6개월 지연
MetaMTIA (4세대)--25x 컴퓨트 증가동시에 NVDA GPU 수백만개 계약

출처: Google Cloud, AWS, Tom's Hardware

주목할 패턴이 있습니다. 빅테크들은 ASIC을 개발하면서도 동시에 엔비디아 GPU를 대량 구매합니다. Meta는 수백만 개의 Blackwell + Rubin GPU 멀티이어 계약을 체결했고, Amazon은 Trainium을 개발하면서 동시에 100만 개+ 엔비디아 GPU를 추가 도입합니다. 이유는 간단합니다. ASIC은 특정 워크로드(자체 모델의 추론)에는 비용 효율적이지만, 새로운 모델 학습이나 다양한 실험에는 GPU의 범용성이 필요하기 때문입니다.

5.3 세대별 경쟁 포지션 매트릭스

항목NVDA RubinAMD MI400Google TPUTrainium3
출시 예정Q2 2026H2 2026운영 중2027
공정3nm--3nm
HBMHBM4 288GBHBM4 432GB32GB/칩HBM3e 144GB
대역폭22 TB/s19.6 TB/s--
AI 성능50P FP420P FP8-2.52P FP8
소프트웨어CUDA 19년 생태계ROCm (추격 중)JAX/XLA (자체)Neuron SDK (자체)
시스템 통합NVL72/144 풀스택OAM/UALink자체 Pod자체 Rainier
범용성범용 (학습+추론)범용자체 모델 특화AWS 고객 특화

⚠️ 경쟁 위협 평가: ASIC은 추론 시장에서 엔비디아의 점유율을 잠식할 가능성이 높습니다. 현재 학습 점유율 90%+ vs 추론 점유율 60~75%의 격차가 이를 시사합니다. 다만, 학습 시장에서의 독점적 지위는 CUDA 전환비용과 풀스택 통합으로 인해 중기(3~5년) 내 유지될 가능성이 높습니다.

6. 투자자가 봐야 할 것: 세대 교체와 매출의 관계

6.1 ASP 상승 메커니즘: 세대마다 비싸지는 이유

GPU 세대 교체가 매출 성장을 만드는 핵심 메커니즘은 ASP(평균 판매가) 상승입니다. 세대마다 성능이 5배 뛰면서 가격도 함께 올라갑니다.

R200 가격은 미공개. 추정치(dashed 바). 출처: IntuitionLabs, AceCloud

고객 입장에서 비싸 보이지만, 성능 대비 비용(TCO: Total Cost of Ownership)으로 보면 세대마다 개선됩니다. Rubin NVL72는 Blackwell 대비 추론 비용을 10배 절감합니다. 더 비싼 GPU를 사는 것이 오히려 전체 비용을 줄이는 구조입니다. 이것이 세대 교체가 "선택이 아니라 생존 조건"인 이유입니다.

6.2 교체 사이클과 수주잔고

현재 수주잔고는 엔비디아의 향후 2~3년 매출 가시성을 보여줍니다.

360만
유닛 백로그
2026 중반까지 매진
$952B
구매 약정
2027년까지 선점
$1T+
총 오더
Jensen Huang, GTC 2026

출처: NVIDIA FY2026 Q4 실적, Investing.com

교체 사이클의 투자 임팩트를 요약하면: Blackwell이 2024~2025년 매출을 견인했고, 2026~2027년에는 Rubin이 그 바톤을 이어받습니다. Rubin이 성공하면 AI 투자 슈퍼사이클이 1~2년 더 연장됩니다. 매출 전환 메커니즘의 상세는 📈NVDA엔비디아 종목 분석에서 다룹니다.

6.3 Bear 시나리오: 로드맵이 흔들리는 경우

GPU 로드맵의 투자 위험은 크게 세 가지입니다.

⚠️ 위험 1: Capex 사이클 피크

하이퍼스케일러의 AI Capex가 $700~725B(2026)로 역사적 고점입니다. 이 투자가 ROI를 보여주지 못하면, 2027~2028년 Capex 축소가 Rubin 수요에 직접 타격을 줍니다.

⚠️ 위험 2: ASIC 추론 시장 잠식

추론 시장에서 ASIC 점유율이 현재 37%입니다. Google, Amazon, Meta가 자체 추론 칩을 확대하면, 엔비디아의 추론 시장 점유율(60~75%)이 하락할 수 있습니다.

⚠️ 위험 3: 수출 규제 강화

중국 향 매출 $17.1B(FY2026 매출의 13.1%)이 규제 강화로 추가 손상될 가능성이 있습니다. FY2026 Q1에 이미 $4.5B 손상차손을 인식했습니다.

2년마다 5배, 이 속도가 해자다
  • 엔비디아의 GPU 진화는 공정 미세화 + 패키징 혁신(듀얼다이) + 정밀도 최적화(FP4)의 3축 동시 작동으로 만들어진다
  • A100(2020)에서 Rubin(2026)까지 6년간 AI 연산 성능 160배 이상 향상. 트랜지스터 수 증가(6.2배)만으로는 설명 불가
  • Rubin은 HBM4(대역폭 3배) + 100% 수냉 + NVLink 6(3.6TB/s)이라는 3중 패러다임 전환. 단순한 '다음 세대'가 아님
  • 인터커넥트(NVLink + NVSwitch + Spectrum-X)까지 포함한 풀스택 통합이 진짜 해자. GPU 칩만의 경쟁이 아님
  • AMD MI400은 가장 직접적인 도전자이나, 소프트웨어(ROCm)와 시스템 통합에서 격차 지속. ASIC은 추론 특화로 다른 게임
  • 세대 교체 이후 ASP 상승 이후 수주잔고 소진 이후 매출 인식. $1T+ 오더가 2027년까지 매출로 전환되는 기간이 투자 기회
관련 개념
FLOPS초당 부동소수점 연산🏭팹리스Fabless 모델💰SBC주식보상비용🎯ROIC투하자본수익률💵FCF잉여현금흐름🌍TAM총시장규모
추천 글
필연의 열매
팔란티어 종목 분석
GPU 위에서 작동하는 AI 소프트웨어 플랫폼의 구조를 함께 분석합니다
리서치
목표가 $200, 믿어도 될까? — 몬테카를로 시뮬레이션으로 주식의 미래를 확률로 보는 법
NVDA 적정주가를 몬테카를로 시뮬레이션으로 검증하는 방법론을 소개합니다
공유 심층 분석
GPU 독점은 영원한가? AI 컴퓨팅의 미래
GPU 독점이 영원할지, 깨질 수 있는 조건을 데이터로 분석합니다
엔비디아 상세 분석 더 보기
엔비디아 The Nvidia Way: 젠슨 황의 경영 DNA가 $5T을 만든 구조
17개 경영 원칙, 5개 클러스터 플라이휠, $0 시장 패턴. 30년간 작동한 시스템의 설계도
엔비디아 젠슨 황: The Thinking Machine, 그 인간과 사각지대
CUDA 이사회 쿠데타, AI 리스크 거부, TSMC 무계획. 시스템 이면의 날것을 본다
엔비디아 인터커넥트: NVLink에서 Spectrum-X까지
GPU 1만 개를 하나로 연결하는 기술. NVLink vs 이더넷 경쟁, UALink 위협, 네트워킹 $39B 사업의 해자
엔비디아 시스템 통합: DGX에서 AI Factory까지
칩 $40K → 시스템 $500K+ 객단가 전략. DGX vs Dell/HPE OEM 경쟁, 하이퍼스케일러 자체 설계 위협
엔비디아 CUDA 생태계: 소프트웨어가 만든 하드웨어 독점
400만 개발자, 20년간 쌓인 라이브러리. CUDA가 만든 전환비용의 구조를 분석합니다. AMD ROCm은 추격할 수 있는가?
엔비디아 AI Factory: 데이터센터가 공장이 되는 날
토큰 경제학, Vera Rubin DSX, Groq LPX, 인프라 병목. AI Factory의 설계도를 파는 유일한 회사
엔비디아 Physical AI: 로봇에게 CUDA를 깐다
로봇의 두뇌(GR00T), 눈(Cosmos), 훈련장(Newton), 몸(Jetson). 4개 플랫폼을 모두 가진 유일한 회사
엔비디아 Sovereign AI: 모든 나라가 AI 공장을 짓는 이유
3년 만에 $0→$30B. 정부는 ROI가 아니라 주권을 산다. NVIDIA가 '국가 AI 역량'을 통째로 파는 플레이북
엔비디아 자율주행: $14B 파이프라인의 조용한 성장
$14B 파이프라인의 조용한 성장. DRIVE Thor, Waymo, Tesla FSD, 중국 시장. 자율주행차를 만드는 모든 회사에게 두뇌를 팝니다.
GPU 독점은 영원한가? AI 컴퓨팅의 미래
NVIDIA 90% 독점의 구조적 원인과 AMD·커스텀 ASIC의 도전. 이 독점은 깨질 수 있는가
AI 추론 시장: 훈련의 10배 규모가 열린다
훈련에서 추론으로 무게추가 이동한다. 추론 시장의 구조와 수혜자
엔비디아 증권사 분석: 64명의 월가는 어떻게 보는가
97% Buy, 목표주가 $180~$500. 64명 월가 애널리스트의 방법론, 가정, 사각지대를 분해합니다.
엔비디아 밸류에이션 딥다이브: 적정가는 얼마인가
5개 세그먼트별 매출 적산, OP 추정, P/E 4중 검증으로 적정가를 산출합니다. 1yr Base $266. 10,000개 시나리오 시뮬레이션.