엔비디아 인터커넥트: NVLink에서 Spectrum-X까지
GPU 1만 개를 하나로 연결하는 기술. NVLink vs 이더넷 경쟁, UALink 위협, 네트워킹 $39B 사업의 해자
엔비디아 인터커넥트는 NVLink 6세대에 걸쳐 GPU 간 대역폭을 160 GB/s에서 3,600 GB/s로 22배 끌어올린 고속 통신 기술이다. Scale-up 영역에서 NVLink은 AMD xGMI 대비 4배 대역폭과 9배 연결 규모(72 GPU vs 8 GPU)로 대체 기술이 부재하며, 네트워킹 매출 $39B은 AMD 전체 매출을 초과한다. GPU보다 깊은 이 인터커넥트 해자가 엔비디아 풀스택 전략의 핵심 방어선이므로, UALink 표준과 Spectrum-X 전환 속도가 장기 경쟁 판도를 결정한다.
공장 안의 도로를 상상해보세요
일꾼이 1,000명인 공장을 상상해보세요. 모든 일꾼이 천재입니다. 그런데 일꾼들 사이의 통신 수단이 전화기 1대뿐이라면? 999명이 대기합니다. 일꾼을 10,000명으로 늘려도 전화기가 1대면 결과는 같습니다.
AI 데이터센터가 정확히 이 문제를 겪고 있습니다. GPU(일꾼)가 아무리 빨라도, GPU 사이의 데이터 통신(도로)이 느리면 전체가 멈춥니다. GPT-5 같은 거대 모델은 GPU 수만 개가 동시에 데이터를 주고받으며 학습합니다. 통신 한 번이 밀리면 수만 개 전부가 기다립니다.
인터커넥트(Interconnect)는 GPU 사이의 고속 통신 기술입니다. 칩의 연산 성능이 아무리 높아도, 인터커넥트가 병목이면 전체 시스템 성능은 통신 속도에 갇힙니다. AI 시대에 "칩 성능"만큼 "칩 간 통신 성능"이 중요해진 이유입니다.
📈NVDA엔비디아 본문에서는 인터커넥트를 4개 기술 축 중 하나로 개요 수준으로 다뤘습니다. 이 글은 그 안으로 깊이 들어갑니다. NVLink이 왜 6세대나 진화했는지, Scale-up과 Scale-out이 왜 다른 전장인지, 경쟁자들의 도전이 어느 수준인지, 그리고 NVLink Fusion이라는 전략 전환이 무엇을 의미하는지를 해부합니다.
1. 왜 인터커넥트가 GPU만큼 중요한가
1.1 GPU 1개 vs GPU 10,000개: 완전히 다른 게임
GPU 1개로 AI를 훈련하던 시절에는 인터커넥트가 필요 없었습니다. 칩 안에서 모든 연산이 끝났으니까요. 하지만 GPT-3(2020)부터 상황이 바뀌었습니다. 모델이 GPU 1개의 메모리에 담기지 않게 되었습니다.
| 모델 | 파라미터 | 필요 GPU (훈련) | GPU 간 통신 비중 |
|---|---|---|---|
| GPT-2 (2019) | 1.5B | ~8개 | 낮음 |
| GPT-3 (2020) | 175B | ~1,000개 | 중간 |
| GPT-4 (2023) | ~1.8T (추정) | ~25,000개 | 높음 |
| GPT-5 (2025) | ~10T+ (추정) | ~100,000개+ | 지배적 |
GPU 수가 늘어날수록 통신이 차지하는 비중이 기하급수적으로 커집니다. 비유하면 이렇습니다. 2명이 협업하면 통신 경로는 1개입니다. 10명이면 45개. 100명이면 4,950개. 10,000명이면 약 5,000만 개입니다. GPU 수가 선형으로 늘어도, 통신 복잡도는 제곱으로 폭증합니다.
1.2 Amdahl's Law: 통신이 전체 성능을 결정한다
컴퓨터 과학에 "Amdahl's Law"라는 법칙이 있습니다. 시스템의 전체 성능은 가장 느린 부분에 의해 제한된다는 원리입니다. GPU가 10배 빨라져도, 통신이 그대로면 전체 속도 개선은 미미합니다.
수치로 보면: GPU 연산이 전체 시간의 70%, 통신이 30%를 차지한다고 합시다. GPU를 2배 빠르게 만들면 연산은 35%로 줄지만, 통신 30%는 그대로입니다. 전체 시간은 100% → 65%로 겨우 35% 개선. GPU를 무한히 빠르게 만들어도 30% 이상은 줄일 수 없습니다. 통신이 천장입니다.
이것이 엔비디아가 GPU뿐 아니라 인터커넥트에 막대한 R&D를 투입하는 이유입니다. GPU를 빠르게 만드는 것과 GPU 간 통신을 빠르게 만드는 것은 같은 문제의 양면입니다.
2. NVLink의 진화: 10년, 6세대
2.1 세대별 스펙 비교
NVLink은 2016년 첫 등장 이후 10년간 6세대를 거치며 대역폭이 22배 증가했습니다.
출처: NVIDIA 공식, Wikipedia NVLink
| 세대 | 출시 | GPU | 링크 수 | 링크당 BW | GPU당 총 BW | PCIe 대비 |
|---|---|---|---|---|---|---|
| NVLink 1 | 2016 | P100 (Pascal) | 4 | 40 GB/s | 160 GB/s | ~5x |
| NVLink 2 | 2018 | V100 (Volta) | 6 | 50 GB/s | 300 GB/s | ~10x |
| NVLink 3 | 2020 | A100 (Ampere) | 12 | 50 GB/s | 600 GB/s | ~10x |
| NVLink 4 | 2022 | H100 (Hopper) | 18 | 50 GB/s | 900 GB/s | ~14x |
| NVLink 5 | 2024 | B200 (Blackwell) | 18 | 100 GB/s | 1,800 GB/s | ~14x |
| NVLink 6 | 2026E | R200 (Rubin) | — | — | 3,600 GB/s | — |
핵심 추세는 두 가지입니다. 첫째, 링크 수가 4개에서 18개로 증가했습니다. 전화기를 1대에서 18대로 늘린 것과 같습니다. 둘째, 각 링크의 속도도 40 GB/s에서 100 GB/s로 빨라졌습니다. 두 축이 동시에 움직여서 총 대역폭이 22배 증가한 것입니다.
2.2 NVSwitch: 모든 GPU를 직통으로 연결하는 칩
NVLink이 "도로"라면, NVSwitch는 "교차로"입니다. GPU가 8개 이상이면 일대일 직통 연결이 물리적으로 불가능합니다. NVSwitch 칩이 중앙에서 모든 GPU의 데이터를 중계합니다.
| NVSwitch 세대 | 출시 | 시스템 | 칩당 스위칭 BW | GPU 연결 수 | 핵심 변화 |
|---|---|---|---|---|---|
| 1세대 | 2018 | DGX-2 | 928 GB/s | 16 GPU | NVSwitch 첫 등장 |
| 2세대 | 2020 | DGX A100 | — | 8 GPU | NVLink 3 지원 |
| 3세대 | 2022 | HGX H100 | 25.6 Tbps | 8 GPU | SHARP 인-네트워크 연산 |
| 4세대 | 2024 | GB200 NVL72 | 14.4 TB/s | 72 GPU | 서버 밖 랙 스케일 스위칭 |
4세대에서 결정적 전환이 일어났습니다. NVSwitch가 서버 안의 칩에서 서버 밖의 독립 스위치 트레이로 이동했습니다. 이것이 GB200 NVL72를 가능하게 했습니다. 72개 GPU를 하나의 거대 GPU처럼 묶을 수 있게 된 것입니다.
GB200 NVL72의 의미: 72개 GPU가 130 TB/s 대역폭으로 풀메시 연결됩니다. 어떤 GPU에서 어떤 GPU로든 동일 속도로 데이터를 보낼 수 있습니다. 비유하면, 72명의 일꾼이 전부 직통 전화선으로 연결된 상태. AMD의 xGMI는 이것을 8개까지밖에 못 합니다.
3. Scale-up vs Scale-out: 두 개의 전장
인터커넥트는 하나의 기술이 아닙니다. 두 개의 완전히 다른 전장이 있습니다.
노드 내 GPU 간 연결
NVLink + NVSwitch
대역폭: TB/s 급
NVIDIA 독점
GB200 NVL72: 72 GPU
노드 간 / 클러스터 간
InfiniBand 또는 Ethernet
대역폭: 수백 Gbps 급
경쟁 치열
수천~수만 GPU 연결
3.1 Scale-up: NVLink의 난공불락 영역
Scale-up은 하나의 서버(또는 랙) 안에서 GPU끼리 연결하는 영역입니다. 여기서 NVLink은 사실상 독점입니다. 대체 기술이 존재하지 않습니다.
NVLink 5의 GPU당 1.8 TB/s는 PCIe Gen5(128 GB/s)의 14배입니다. 이 격차가 "NVLink 없이는 대형 모델 훈련이 불가능하다"는 현실을 만듭니다. AMD의 xGMI는 448 GB/s로 NVLink의 1/4 수준이며, 8개 GPU 한계입니다.
3.2 Scale-out: InfiniBand에서 이더넷으로
Scale-out은 서버와 서버를 연결하는 영역입니다. 여기서는 전쟁이 벌어지고 있습니다.
출처: 650 Group, Dell'Oro
2023년까지 InfiniBand가 80%를 차지했습니다. 그런데 2025년에 이더넷이 역전했습니다. Dell'Oro에 따르면 2025년 이더넷이 AI 클러스터 스위치 매출의 2/3 이상을 차지합니다. 2029년에는 91%까지 전망됩니다. (Dell'Oro)
왜 이더넷이 이기고 있을까요? 세 가지 이유입니다.
- 범용성: 이더넷 엔지니어는 전 세계에 수백만 명. InfiniBand 전문가는 희소합니다
- 비용: 이더넷 장비가 InfiniBand 대비 30~50% 저렴합니다
- 공급사 다양성: 이더넷은 Broadcom, Arista, Cisco 등 다수. InfiniBand는 NVIDIA(Mellanox) 독점
NVIDIA의 대응이 Spectrum-X입니다. AI 워크로드에 최적화된 이더넷 플랫폼으로, 표준 이더넷 대비 유효 처리율이 1.6배 높습니다. 연환산 매출이 $10B+를 돌파했습니다. (NVIDIA Spectrum-X)
NVIDIA의 양면 전략: Scale-up에서는 NVLink 독점을 유지합니다. Scale-out에서는 InfiniBand가 밀리더라도, Spectrum-X로 이더넷 시장까지 먹으려 합니다. "어떤 기술이 이기든 NVIDIA가 이긴다"는 구조를 만드는 것입니다.
3.3 네트워킹 매출: "칩의 부속품"이 아니다
NVIDIA의 네트워킹은 더 이상 부수적 사업이 아닙니다.
출처: NVIDIA IR, JPMorgan
FY2026 추정 $39B은 AMD 전체 매출($34.6B)보다 큽니다. "인터커넥트 사업"이 독립 기업 수준의 규모라는 뜻입니다.
4. 경쟁 지형: NVLink은 정말 난공불락인가
4.1 AMD xGMI: 4배 격차
AMD의 GPU 간 인터커넥트는 xGMI(Infinity Fabric)입니다. NVLink과의 격차는 명확합니다.
| NVIDIA NVLink 5 (B200) | AMD xGMI (MI300X) | 격차 | |
|---|---|---|---|
| GPU당 대역폭 | 1,800 GB/s | 448 GB/s | 4x |
| 단일 도메인 GPU 수 | 72개 (NVL72) | 8개 | 9x |
| 토폴로지 | 풀메시 (NVSwitch) | 포인트-투-포인트 | 구조적 차이 |
| 스위치 칩 | NVSwitch 4세대 | 없음 | — |
핵심 격차는 단순한 대역폭이 아닙니다. NVSwitch의 유무가 결정적입니다. AMD는 GPU끼리 직접(포인트-투-포인트) 연결합니다. GPU A가 GPU D에 데이터를 보내려면 B, C를 거쳐야 할 수 있습니다. NVIDIA는 NVSwitch가 중앙에서 모든 데이터를 중계하므로, 어떤 GPU 쌍이든 동일 대역폭으로 직통 통신합니다. (SemiAnalysis)
MI350(2025)에서 xGMI가 76.8 GB/s로 향상되었지만, 여전히 8 GPU 한계입니다. AMD가 이 격차를 좁히려면 NVSwitch에 해당하는 자체 스위치 칩이 필요하지만, 아직 발표된 바 없습니다.
4.2 UALink: 업계 연합의 도전
NVIDIA를 제외한 빅테크 전체가 모인 오픈 표준 프로젝트가 UALink입니다.
UALink 1.0 프로필
- 스펙 공개: 2025년 4월
- 대역폭: 링크당 800 Gbps (Tx + Rx)
- PHY: IEEE 802.3 이더넷 기반
- 최대 연결: 1,024 가속기
- 창립 멤버: AMD, Apple, AWS, Cisco, Google, HPE, Intel, Meta, Microsoft 등
- NVIDIA: 불참
출처: BusinessWire, UALink 1.0 스펙 PDF
800 Gbps는 NVLink 5(GPU당 1,800 GB/s = 14,400 Gbps)의 1/18 수준입니다. 스펙만 보면 1~2세대 뒤입니다. 다만 UALink의 진짜 의미는 성능이 아니라 "NVIDIA 없이도 되는 표준"을 만들겠다는 산업 의지입니다.
위협 수준은 단기적으로 낮습니다. 스펙이 공개되었을 뿐 실리콘 구현은 2026~2027년이 될 전망입니다. NVLink 5는 이미 출하 중이고, 2026년에 NVLink 6(3.6 TB/s)이 나옵니다. 격차가 좁혀지기보다 벌어지고 있습니다.
4.3 Broadcom: 이더넷의 왕
Scale-out 영역에서 NVIDIA의 가장 강력한 경쟁자는 Broadcom입니다.
| Broadcom 제품 | 역할 | 핵심 스펙 |
|---|---|---|
| Tomahawk 6 | 이더넷 스위치 ASIC | 102.4 Tbps (세계 최고) |
| Jericho4 | AI 패브릭 라우터 | 36,000 HyperPort, 100만 XPU 연결 |
Broadcom의 AI 반도체 매출은 분기 $6.2B(+66% YoY)에 달합니다. 이더넷 스위치 시장에서 80%+ 점유율을 가진 독점적 위치입니다. (Futurum)
Arista(AI 네트워킹 $750M+ 목표, 800GbE 1위)와 Cisco(Silicon One G200, 51.2 Tbps)도 Scale-out에서 경쟁하고 있습니다.
4.4 하이퍼스케일러의 자체 구축
빅테크는 NVIDIA에 의존하지 않는 자체 네트워킹을 구축하고 있습니다.
| 기업 | 자체 네트워크 | 핵심 스펙 | 비고 |
|---|---|---|---|
| Jupiter (OCS) | TPU v5p: 8,960칩, 4 Pb/s 패브릭 | 광 회선 스위칭(OCS)으로 전자 스위치 대체 | |
| Meta | RoCE v2 직접 설계 | 수만 GPU 연속 운영, 400G→800G | 혼잡 제어도 자체 개발 |
| AWS | EFA + NeuronLink | Trn2: 3.2 Tbps, Trn3: 칩당 2 TB/s | SRD 프로토콜 자체 개발 |
| Microsoft | MAIA 커스텀 | 가속기당 4.8 Tbps | 커스텀 이더넷 프로토콜 |
이들의 자체 네트워킹은 Scale-out(노드 간) 영역에 집중됩니다. Scale-up(노드 내 GPU 간)에서 NVLink을 대체하는 것은 아직 Google TPU의 ICI 정도입니다. 하이퍼스케일러가 NVLink을 우회하려면 GPU 자체를 자체 ASIC으로 대체해야 하는데, 그것은 인터커넥트가 아니라 칩 전체의 문제입니다.
5. NVLink Fusion: 열린 문, 잠긴 열쇠
2025년 5월, NVIDIA는 NVLink Fusion을 발표했습니다. NVLink을 타사 칩에도 개방하겠다는 선언입니다.
5.1 무엇을 열었나
NVLink Fusion의 구조
- 개방 범위: NVLink C2C(Chip-to-Chip) PHY + 프로토콜
- 참여 파트너: MediaTek, Marvell($2B 투자 유치), Qualcomm, Fujitsu, ARM (Neoverse)
- 용도: 타사 CPU나 가속기를 NVIDIA GPU와 NVLink으로 직결
출처: NVIDIA IR, NVIDIA Newsroom
5.2 무엇을 잠갔나
개방의 이면에는 명확한 제약이 있습니다.
| 열린 것 | 잠긴 것 |
|---|---|
| NVLink C2C PHY + 프로토콜 | NVLink 5 전체 스펙 (비공개 유지) |
| CPU 또는 가속기 1개를 타사로 대체 가능 | 연결의 종단이 반드시 NVIDIA GPU여야 함 |
| 파트너가 NVLink 호환 칩 설계 가능 | NVIDIA GPU 없는 NVLink 시스템은 불가 |
ARM과의 비교: ARM은 아키텍처 IP 전체를 라이선스합니다. 파트너가 완전히 독립적인 CPU를 설계할 수 있습니다. NVLink Fusion은 훨씬 제한적입니다. PHY만 개방하고, "NVIDIA GPU가 반드시 포함되어야 한다"는 조건을 겁니다. 파트너의 자유도는 높아지지만, NVIDIA GPU에 대한 의존은 유지됩니다.
5.3 전략적 의미
왜 NVIDIA가 폐쇄 생태계를 부분 개방했을까요?
하이퍼스케일러들이 커스텀 ASIC(자체 칩)을 강화하고 있기 때문입니다. Google TPU, Amazon Trainium, Microsoft MAIA. 이들이 자체 칩 + 자체 네트워크로 완전히 독립하면, NVIDIA는 GPU와 인터커넥트를 동시에 잃습니다.
NVLink Fusion은 이 이탈을 막는 전략입니다. "자체 CPU나 가속기를 쓰되, NVLink은 유지하세요." NVIDIA GPU와의 결합을 유지하면서 파트너의 커스텀 니즈를 수용합니다. Fabricated Knowledge는 이를 "Embrace, Extend, Extinguish(포용, 확장, 소멸)"의 "Embrace" 단계로 분석합니다. (Fabricated Knowledge)
6. 투자자가 봐야 할 것
6.1 해자 점수
| 영역 | NVIDIA 해자 | 핵심 도전자 | 해자 깊이 |
|---|---|---|---|
| Scale-up (NVLink) | 6세대 독점, NVSwitch 대체 불가 | AMD xGMI (1/4 BW, 8 GPU 한계) | ●●●● 철벽 |
| Scale-out (IB→Ethernet) | InfiniBand 지배 → Spectrum-X 전환 | Broadcom TH6, Arista, Cisco | ●●●○ 강함 (전환 리스크) |
| 네트워킹 전체 | $39B 매출 (AMD 전체 매출 초과) | UALink (스펙만 공개, 실리콘 미출시) | ●●●○ 강함 |
6.2 핵심 모니터링 지표
6.3 핵심 질문
인터커넥트의 해자는 GPU보다 깊습니다. GPU는 커스텀 ASIC이 추론 시장에서 대체하고 있지만, Scale-up 인터커넥트에서 NVLink을 대체하는 기술은 아직 없습니다. AMD xGMI는 1/4 수준이고, UALink은 스펙만 공개된 상태입니다. 가장 큰 위협은 하이퍼스케일러가 GPU 자체를 자체 ASIC으로 대체하는 것이지만, 그것은 인터커넥트의 문제가 아니라 칩 전체의 문제입니다.
- NVLink 6세대, 10년간 대역폭 22배 증가. Scale-up에서 대체 기술 부재
- Scale-out은 InfiniBand → Ethernet 전환 중. NVIDIA는 Spectrum-X로 양쪽 커버
- AMD xGMI는 NVLink의 1/4 대역폭, 8 GPU 한계. NVSwitch 대응 기술 없음
- NVLink Fusion: '개방하되 NVIDIA GPU 필수'라는 전략적 개방. ARM보다 제한적
- 네트워킹 매출 $39B은 AMD 전체 매출을 초과. 독립 사업 규모