ROCm: CUDA를 넘을 수 있는가
CUDA의 벽은 넘어야 할 벽이 아니라 돌아갈 수 있는 벽. vLLM CI 93%, MLPerf B200의 93~119%. 추론에서 충분히 좋은 대안이 되는 것이 AMD의 전략.
ROCm은 AMD GPU를 위한 오픈소스 소프트웨어 플랫폼입니다. 2025년 다운로드가 10배 증가했고, vLLM CI 통과율이 37%에서 93%로 뛰었습니다. CUDA를 대체하지 않아도 됩니다. 추론 시장에서 MLPerf 기준 NVIDIA B200의 93~119% 성능을 달성하면서, "충분히 좋은 대안"이라는 새로운 게임 규칙을 만들고 있습니다.
해자는 마르기도 합니다
성을 공격하는 방법을 상상해보세요. 성벽은 허물면 끝입니다. 하지만 해자는 다릅니다. 해자를 건너는 방법은 여러 가지입니다. 얕은 곳을 찾아 건너거나, 물을 빼거나, 다리를 놓거나.
CUDA가 바로 그런 해자입니다. 18년간 600만 개발자가 쌓아올린 생태계. 300개 이상의 라이브러리. ML 논문의 89%가 CUDA 전용. 이것은 부정할 수 없는 사실입니다.
그런데 2016년부터 "곧 대안이 나온다"던 ROCm이, 2025~2026년에 진짜로 임계점을 넘은 징후가 있습니다. 이 글에서 다루는 질문은 이것입니다.
CUDA를 넘어야 하는가, 아니면 충분히 좋아지면 되는가?
NVIDIA 편에서는 "CUDA가 왜 강한지"를 보았습니다. 이제 반대편에서, AMD가 그 벽을 어떻게 보고 있는지 봅니다. 같은 해자를 두 방향에서 보면, 벽의 두께뿐 아니라 벽의 약점도 보입니다.
난공불락의 해자 (600만 개발자)
5-Layer 소프트웨어 스택
ML 논문 89%가 CUDA 전용
탈CUDA에 10년 이상 필요
얕은 곳이 있는 해자 (추론은 vLLM만 필요)
추론에서 Layer 1~2면 충분
Triton이 해자의 물을 빼는 중
충분히 좋아지면 CUDA를 넘을 필요 없음
1. CUDA Lock-in의 해부학: 왜 떠나기 어려운가
CUDA의 lock-in은 세 겹 자물쇠로 작동합니다. 코드, 인력, 생태계. 하나만 풀어서는 탈출할 수 없습니다. 그런데 이 자물쇠의 강도는 "무슨 일을 하느냐"에 따라 완전히 달라집니다.
1.1 코드 자물쇠: 전환 비용의 본질은 "검증"입니다
"우리 파이프라인에 CUDA가 몇 줄이나 있는지 모른다." 대부분의 AI 기업에서 들을 수 있는 말입니다.
AMD의 HIP(Heterogeneous-computing Interface for Portability) 도구는 CUDA 코드를 AMD GPU용으로 자동 변환합니다. 자동 변환율은 90~99%입니다. 실제 사례를 보면, HACC은 95%, Caffe는 99.6%가 자동으로 변환되었습니다.
출처: AMD GPUOpen
숫자만 보면 인상적합니다. 그런데 진짜 비용은 나머지 1~5%에 있습니다. 자동 변환이 안 되는 영역이 무엇인지 봐야 합니다.
| 변환 불가 영역 | 설명 | 실무 영향 |
|---|---|---|
| 인라인 PTX 어셈블리 | NVIDIA GPU 전용 저수준 명령어 | 수동 재작성 필수 |
| cuDNN 직접 호출 | NVIDIA 전용 딥러닝 라이브러리 | MIOpen으로 교체 필요 |
| warp size 32 하드코딩 | NVIDIA는 32, AMD는 64 | 로직 전면 수정 |
| TensorRT 의존 | NVIDIA 전용 추론 최적화 엔진 | 대안 경로 구축 |
코드 변환 자체보다 변환 후의 검증이 진짜 비용입니다. "같은 결과가 나오는가?" + "성능이 떨어지지 않는가?"를 모든 모델, 모든 워크로드에서 확인해야 합니다. 표준 워크로드는 4~8주, 커스텀 커널에 의존하는 파이프라인은 3~6개월이 걸립니다.
1.2 인력 자물쇠: 채용이 쉬우니까 CUDA를 선택합니다
CUDA 등록 개발자는 600만+명입니다. ROCm 개발자 수는 미공개이지만, 커뮤니티 규모로 추정하면 CUDA의 1/100 이하입니다.
이 격차는 스스로를 재생산합니다. 대학에서 GPU 프로그래밍을 가르칠 때 CUDA를 사용합니다. 연구자들이 CUDA로 논문을 씁니다. ML 논문의 89%가 CUDA 전용 툴링을 명시합니다. 졸업생이 CUDA를 들고 산업에 들어오고, 기업은 "CUDA 쓸 줄 아는 사람이 넘치니까" CUDA를 선택합니다.
채용 시장이 교육을 결정하고, 교육이 다시 채용 시장을 결정합니다. 이 순환이 CUDA의 두 번째 자물쇠입니다.
1.3 생태계 자물쇠: 5층 스택에 핵심 약점이 있습니다
CUDA는 단순한 프로그래밍 언어가 아닙니다. 5개 레이어로 쌓인 소프트웨어 스택입니다.
맨 아래(CUDA Toolkit)를 교체하면 그 위의 cuDNN, TensorRT, Triton Server, NIM 전부 다시 만들어야 합니다. 이것이 CUDA가 "해자"인 이유입니다.
그런데 여기에 핵심적인 약점이 있습니다. 이 5개 레이어 전부가 필요한 워크로드는 대규모 학습뿐입니다.
추론만 하는 워크로드는 Layer 1~2 + vLLM이면 충분합니다. Layer 3(TensorRT), Layer 4(Triton Server), Layer 5(NIM)가 필요 없습니다. 워크로드에 따라 자물쇠의 개수가 다릅니다. 추론은 자물쇠 1~2개, 학습은 5개 전부입니다.
개념적 시각화. CUDA 5-Layer 스택 구조는 NVIDIA CUDA 생태계 DD 참조.
핵심: CUDA의 lock-in은 3중 자물쇠입니다. 그러나 자물쇠의 강도는 "학습"과 "추론"에서 전혀 다릅니다. 추론 시장에서 lock-in이 약하다는 것. 이것이 AMD의 기회입니다.
1장 결론: CUDA lock-in은 코드, 인력, 생태계 3중 구조입니다. 그러나 워크로드에 따라 자물쇠의 강도가 다릅니다. 학습은 5중 자물쇠(NCCL, NVLink, 커스텀 커널)로 당분간 CUDA 독점입니다. 추론은 1~2중 자물쇠(vLLM + PyTorch면 충분)로 AMD가 진입 가능한 영역입니다. 다음 질문: "AMD는 왜 이 기회를 5년간 놓쳤는가?"
2. ROCm의 5년: "곧 준비된다"의 진짜 이유
"ROCm이 곧 준비된다"는 말은 5년간 반복되었습니다. 왜 이 말이 매년 나왔고, 왜 매년 실망으로 끝났는가? 기술력 부족이 아닙니다. 우선순위의 문제였습니다.
2.1 왜 5년간 "ROCm 곧 된다"가 반복됐나?
이 질문에 답하려면 2016년 AMD의 상황을 이해해야 합니다.
2016년 AMD 주가는 $2. 파산 직전이었습니다. 리사 수가 CEO로 취임한 지 2년. 이 시기 AMD의 모든 자원은 Zen CPU 개발에 집중되어 있었습니다. 회사를 살릴 수 있는 카드는 Zen뿐이었고, GPU 소프트웨어는 사치였습니다.
ROCm 1.0은 2016년에 출시되었습니다. "Boltzmann Initiative"라는 이름으로 오픈소스 CUDA를 목표로 했습니다. 하지만 투자할 돈이 없었습니다. 데이터센터 GPU만 제한적으로 지원했고, 소비자 GPU는 완전히 배제되었습니다. 결과는 커뮤니티의 실망과 개발자 이탈의 악순환이었습니다.
| 연도 | AMD 상태 | ROCm 상태 |
|---|---|---|
| 2016 | 주가 $2, 파산 위기 | ROCm 1.0 출시 (Boltzmann) |
| 2017 | Zen 1 출시, 턴어라운드 시작 | 제한적 HPC 사용 |
| 2018~2019 | Zen 2, EPYC 성장 | 파편화된 드라이버, 불안정 |
| 2020 | Zen 3 + RDNA 2, 흑자 안착 | ROCm 4.x, 여전히 미성숙 |
AMD가 파산 위기에서 벗어나는 데 4년이 걸렸고, 그동안 ROCm은 후순위였습니다
2.2 돈은 생겼는데, 이미 늦었다?
Xilinx 인수($49B, 2022) 후 AMD는 사상 최대의 자원을 확보했습니다. 그러나 ROCm 팀은 여전히 소규모였고, CUDA 생태계는 이미 18년치를 쌓아놓은 상태였습니다.
2023년 2월, Hacker News에서 "ROCm: A Wasted Opportunity"라는 제목의 토론이 수백 개의 댓글을 모았습니다. 개발자 커뮤니티의 회의감이 결정적으로 표출된 순간이었습니다.
이 시기 ROCm 5.x의 현실은 이랬습니다. PyTorch ops가 사일런트하게 틀린 결과를 출력했습니다. vLLM 빌드가 실패했습니다. 문서는 15곳 이상에 분산되어 있었고, 통합 레퍼런스가 없었습니다. 디버깅 리소스도 부족했습니다.
그러나 이 시기에 전환의 씨앗이 뿌려졌습니다. 2023년 10월 Nod.ai를 인수했고(AI 추론 추상화), 2023년 12월에는 MI300X가 출시되었습니다(192GB HBM3). 하드웨어는 경쟁력을 갖추었습니다. 소프트웨어가 문제였습니다.
2.3 이번엔 뭐가 다른가?
Andrej Zdravkovic(AMD SVP/CSO)가 공개적으로 인정했습니다.
"ROCm was truly not a very high priority for our consumer products... that's changed."
AMD 경영진이 과거 실패를 공개 인정한 것은 드문 일입니다. 인정은 전환의 첫 단계입니다.
인정만 한 것이 아닙니다. 실제로 조직이 바뀌었습니다. 2023~2025년 사이에 AMD는 소프트웨어 역량을 인수로 채웠습니다.
| 인수 대상 | 시점 | 채우는 조각 |
|---|---|---|
| Nod.ai | 2023.10 | CUDA에서 AMD로의 전환 마찰 감소 |
| Silo AI ($665M) | 2024.08 | 유럽 최대 민간 AI 연구소, 300+ AI 과학자 |
| Brium | 2025 초 | 소프트웨어 최적화 역량 |
| Untether AI 팀 | 2025 초 | 컴파일러/커널 인재 확보 |
4건의 인수로 ROCm 생태계에 빠진 조각을 채웠습니다
R&D 투자 규모도 급증했습니다. $5.9B(2023)에서 $6.5B(2024), $8.1B(2025)로 3년간 38% 증가했습니다. 이 중 소프트웨어 비중이 눈에 띄게 늘었습니다.
출처: AMD 10-K
| 시점 | 이벤트 | 내용 |
|---|---|---|
| 2016 | ROCm 1.0 출시 | Boltzmann Initiative. 그러나 AMD는 파산 직전 |
| 2016~2020 | 파편화와 불안정 | AMD 재정 위기. GPU 소프트웨어 후순위 |
| 2023.02 | "Wasted Opportunity" | HN 토론 수백 댓글. 커뮤니티 회의감 폭발 |
| 2023.10 | Nod.ai 인수 | AI 추론 추상화 기술 확보 |
| 2023.12 | MI300X 출시 | 192GB HBM3. 하드웨어 경쟁력 확보 |
| 2024.08 | Silo AI 인수 ($665M) | 유럽 최대 민간 AI 연구소, 300+ 과학자 |
| 2025.07 | llama.cpp upstream 병합 | AMD wavefront-64 최적화 포함 |
| 2025.09 | ROCm 7.0 | "완전히 다른 제품"이라는 평가 |
| 2025.12 | vLLM ROCm CI 가동 | 전용 CI 파이프라인 시작 |
| 2026.01 | vLLM CI 93% 통과 | 2개월 만에 37%에서 56%p 개선 |
| 2026.04 | MLPerf 6.0 | B200의 93~119%. 추론에서 동급 도달 |
핵심: ROCm의 5년 지연은 기술력이 아니라 우선순위 문제였습니다. AMD가 파산 위기에서 벗어나 소프트웨어에 진짜 투자하기 시작한 것은 2023~2024년입니다. 그로부터 2년. 결과가 나타나기 시작했습니다.
2장 결론: ROCm의 "항상 곧 준비된다" 반복은 AMD의 재정 상태와 우선순위 문제였습니다. 2023~2024년 Nod.ai, Silo AI, Untether AI 인수로 소프트웨어 투자가 본격화되었습니다. AMD 경영진이 과거 실패를 공개 인정한 것은 전환의 신호입니다. 다음 질문: "2025~2026년에 실제로 무엇이 달라졌는가?"
3. 2025~2026, 무엇이 달라졌는가
vLLM CI 통과율 37%에서 93%. PyTorch 2.9 네이티브 지원. 다운로드 10배 증가. Ubuntu 공식 레포지토리 포함. 개별적으로는 사소해 보이지만, 동시에 일어나면 임계점이 됩니다.
이전 장에서 "5년간 왜 안 됐는가"를 보았습니다. 이 장에서는 "그래서 지금은 뭐가 다른가"에 답합니다. 세 가지 지표가 동시에 변했습니다.
3.1 vLLM 1등급 플랫폼: 추론 생태계의 정문에 들어갔습니다
vLLM은 LLM 추론 서빙의 사실상 표준 프레임워크입니다. PagedAttention으로 메모리 효율성을 혁신한 이 프레임워크에서 "1등급 플랫폼"이 되었다는 것은, ROCm이 추론 생태계의 정문으로 들어갔다는 의미입니다.
구체적인 수치를 보겠습니다.
출처: CraftRigs
2025년 11월, vLLM AMD CI 테스트 그룹 37% 통과. 2025년 12월 29일, 전용 ROCm CI 파이프라인 가동. 2026년 1월, 93% 통과. 2개월 만에 56%p가 개선되었습니다.
왜 이 숫자가 중요한가? vLLM으로 LLM을 서빙하는 기업은 GPU를 NVIDIA에서 AMD로 교체해도 코드 변경 없이 작동합니다. Docker 이미지 v0.14.0+에서 ROCm을 네이티브로 지원합니다. 추론 서빙의 "플러그 앤 플레이"가 현실이 된 것입니다.
1장에서 설명한 "해자의 얕은 곳"이 바로 여기입니다. 추론에서는 Layer 1~2 + vLLM이면 충분하다고 했습니다. 그 vLLM에서 93% 호환을 달성했다는 것은, 추론 시장에서 해자를 건너는 다리가 놓였다는 의미입니다.
3.2 PyTorch 네이티브: 별도 포크 없이 돌아갑니다
예전에는 ROCm에서 PyTorch를 쓰려면 별도 포크를 빌드해야 했습니다. 빌드가 실패하면 GitHub 이슈를 뒤져야 했고, 해결책이 없는 경우도 많았습니다. 이것이 2장에서 설명한 "커뮤니티 실망"의 핵심 원인이었습니다.
지금은 다릅니다.
| 프레임워크 | ROCm 지원 상태 | 설치 방법 |
|---|---|---|
| PyTorch 2.9 | 공식 upstream 백엔드 | pip install (바로 설치) |
| TensorFlow 2.19.1 | 공식 지원 | pip install |
| JAX 0.6.x | 공식 지원 | pip install |
| llama.cpp | upstream 병합 (2025.07) | 별도 포크 불필요 |
| Ollama, LM Studio | RDNA3/4 out-of-the-box | 설치만 하면 동작 |
PyTorch가 가장 중요합니다. AI 연구와 프로덕션의 사실상 표준이기 때문입니다. PyTorch 2.9에서 ROCm이 공식 upstream 백엔드로 편입되었다는 것은, "AMD GPU에서도 PyTorch가 당연히 돌아간다"는 시대가 열렸다는 뜻입니다.
llama.cpp의 upstream 병합도 주목할 만합니다. 2025년 7월에 AMD wavefront-64 최적화가 포함된 상태로 병합되었습니다. 별도 포크를 관리할 필요가 없어졌습니다. 로컬 LLM 생태계(Ollama, LM Studio)도 AMD GPU에서 즉시 작동합니다.
3.3 다운로드 10배 증가: 사용자가 실제로 늘고 있습니다
AMD Financial Analyst Day 2025에서 발표된 수치입니다. ROCm 다운로드가 전년 대비 10배 증가했습니다.
이 숫자의 배경을 분해하면 세 가지입니다.
Windows 네이티브 지원(ROCm 6.4.4, 2025 말), Ubuntu 26.04 공식 레포지토리 포함, Ollama/LM Studio 통합. 설치의 문턱이 낮아지면서 "사용해보는 사람"이 급증한 것입니다.
Hugging Face 200만 모델이 ROCm을 지원합니다. Ubuntu 26.04에서는 CUDA처럼 apt install로 설치가 가능합니다. Windows에서도 WSL 없이 RDNA3/4 GPU에서 직접 실행됩니다.
3.4 HIP: 90~99% 자동 변환의 의미와 한계
HIP(Heterogeneous-computing Interface for Portability)은 1장에서 소개한 코드 자물쇠를 푸는 도구입니다. 자동 변환율 90~99%라는 숫자는 인상적이지만, 나머지 1~5%가 전체 전환 비용의 80%를 차지합니다.
HIP에는 두 가지 도구가 있습니다.
텍스트 치환 기반
빠르지만 제한적
단순 API 이름 변경에 적합
구조적 변환 불가
AST(구문 트리) 기반
정확하지만 느림
복잡한 코드 구조 처리
타입 추론까지 가능
실무적 의미는 이렇습니다. "새로 시작하는 프로젝트"는 HIP으로 양쪽 GPU 모두 지원 가능합니다. 처음부터 HIP으로 작성하면 NVIDIA와 AMD에서 모두 돌아갑니다. 그러나 "기존 CUDA 파이프라인 이전"은 여전히 비용이 큽니다. 커스텀 커널, 인라인 PTX, cuDNN 직접 호출이 얼마나 많으냐에 따라 4~8주에서 3~6개월까지 걸립니다.
3장 결론: vLLM 93%, PyTorch 네이티브, 다운로드 10배. 개별 지표가 아닌 동시 달성이 핵심입니다. HIP 자동 변환 90~99%이지만, 커스텀 커널 의존 파이프라인은 여전히 전환 비용이 존재합니다. 이 진전은 "추론 시장"에서 가장 직접적인 영향을 미칩니다. 다음 질문: "이 진전이 실제 성능으로 이어지는가?"
4. 벤치마크의 진실: 추론에서 B200에 근접, 학습에서는 열위
소프트웨어가 좋아졌다는 것은 확인했습니다. 그런데 정말 중요한 것은 성능입니다. "실제로 빠른가?" MLPerf Inference 6.0이 그 답을 줍니다.
"NVIDIA가 이긴다"도 "AMD가 이긴다"도 아닙니다. "어떤 워크로드냐에 따라 다르다"가 정확한 답입니다.
4.1 MLPerf 6.0: 최초의 공정한 비교
MLPerf는 업계 표준 벤치마크입니다. 2026년 4월 결과에서 MI355X는 B200과의 격차를 "단일 자릿수 퍼센트"로 좁혔습니다. 일부 워크로드에서는 역전했습니다.
출처: AMD MLPerf 6.0, StorageReview. B200 = 100%
Interactive(실시간 대화형) 워크로드에서 MI355X가 B200을 19% 앞섰습니다. GPT-OSS-120B Server에서는 15% 앞섰습니다. 이것이 뜻하는 바를 정확히 짚겠습니다.
Interactive와 Server는 챗봇, AI 어시스턴트처럼 실시간으로 응답해야 하는 워크로드입니다. 추론 서빙의 핵심 시나리오입니다. 바로 이 시나리오에서 AMD가 NVIDIA를 넘었습니다.
MI355X 클러스터(11노드, 87 GPU)는 Llama 2 70B에서 100만 tok/s를 달성했습니다. Scale-out 효율은 93~98%입니다. 파트너 결과가 AMD 공식 결과의 1~4% 이내라서, "실험실 수치가 아닌 실전 수치"라는 점도 확인되었습니다.
핵심: Interactive(실시간 대화형) 워크로드에서 MI355X가 B200을 19% 앞섰습니다. 챗봇, AI 어시스턴트 등 추론 서빙에서 AMD가 실질적 경쟁력을 갖추었다는 의미입니다.
4.2 추론 vs 학습: 워크로드별 격차가 이야기를 바꿉니다
전체 그림을 보겠습니다. "ROCm이 CUDA의 몇 %인가?"라는 질문에 하나의 숫자로 답할 수 없습니다. 워크로드에 따라 완전히 다릅니다.
| 워크로드 | CUDA 대비 ROCm | 핵심 변수 |
|---|---|---|
| LLM 추론 (저지연, 배치 1~4) | 70~80% | TensorRT-LLM 최적화 차이 |
| LLM 추론 (고처리량, 배치 64+) | 90~95% | vLLM/PyTorch 레벨에서 격차 축소 |
| MLPerf 추론 (단일 노드) | 93~119% | 워크로드 유형에 따라 역전 가능 |
| 대규모 학습 | ~77% | RCCL < NCCL, 인터커넥트 열위 |
| 일반 컴퓨트 | 75~85% | 개선 추세 |
출처: ThunderCompute, AMD MLPerf, Spheron
패턴이 보이시나요? 추론으로 갈수록 격차가 줄고, 학습으로 갈수록 격차가 벌어집니다.
추론에서 격차가 좁은 이유는 명확합니다. 추론은 메모리 대역폭 바운드입니다. AMD의 대용량 HBM(MI300X 192GB, MI355X 288GB)이 직접적 장점입니다. 큰 모델을 한 장에 올릴 수 있습니다. H100은 80GB이므로 70B 모델을 서빙하려면 2장이 필요합니다. MI300X는 1장이면 충분합니다.
학습에서 격차가 큰 이유도 명확합니다. 학습은 멀티GPU 통신이 핵심입니다. NVIDIA의 NVLink + NCCL 수직 통합이 AMD의 Infinity Fabric + RCCL보다 현저히 우위입니다. 이 격차는 단기간에 좁히기 어렵습니다.
1장의 비유로 돌아가면, 추론은 "해자가 얕은 곳"이고 학습은 "해자가 깊은 곳"입니다. 벤치마크 숫자가 이 비유를 정량적으로 확인해줍니다.
4.3 TCO: 약간 느려도 훨씬 쌉니다
성능이 90~95%인데 가격이 15~40% 저렴하다면? TCO(총소유비용) 계산은 AMD 쪽으로 기울어집니다.
MI300X 클라우드 온디맨드 가격은 $1.50~2.50/hr입니다. H100 SXM5 대비 15~40% 저렴합니다.
여기에 메모리 용량 차이가 더해집니다. MI300X는 192GB, H100은 80GB. 70B 모델을 서빙할 때 MI300X는 1장으로 충분하지만 H100은 2장이 필요합니다. NVLink 인터커넥트 복잡성도 제거됩니다. 실질 TCO 절감은 50%를 넘을 수 있습니다.
TensorWave는 AMD 전용 네오클라우드로 $100M 시리즈A(AMD Ventures 참여)를 유치하여 AMD GPU 전용 인프라를 구축하고 있습니다. AMD GPU만으로 클라우드 사업이 가능한 시대가 열린 것입니다.
4장 결론: MLPerf 6.0에서 MI355X는 B200의 93~119% 성능을 기록했습니다. 추론에서 "동급"에 도달했습니다. 학습에서는 여전히 약 23% 열위입니다. RCCL/인터커넥트가 병목입니다. TCO에서 AMD가 15~40% 우위이므로, 추론 TCO에서 AMD가 유리합니다. 다음 질문: "이 격차 구도는 투자자에게 무엇을 의미하는가?"
5. CUDA를 넘을 필요가 없는 이유: "충분히 좋은 대안"의 경제학
4장까지의 논의를 종합하면, AMD의 전략이 뚜렷하게 보입니다. "CUDA를 대체하는 것"이 아닙니다. "CUDA가 필수가 아닌 영역에서 충분히 좋은 대안이 되는 것"입니다. 그리고 그 영역, 추론 시장이 빠르게 커지고 있습니다.
5.1 하이퍼스케일러의 듀얼소싱: 왜 "2위면 충분한가"
하이퍼스케일러가 AMD를 채택하는 이유는 "NVIDIA보다 나아서"가 아닙니다. "NVIDIA 하나에만 의존하면 위험하니까"입니다.
| 듀얼소싱 동기 | 하이퍼스케일러 사례 |
|---|---|
| 공급 리스크 분산 | Meta: NVIDIA + AMD + 자체 ASIC 3원화 |
| 가격 협상력 | AMD GPU 존재만으로 NVIDIA 할인 레버리지 |
| 워크로드 최적화 | 추론은 AMD(TCO 우위), 학습은 NVIDIA(성능 우위) |
| 규제/관세 대응 | 공급선 다변화 필요성 |
구체적인 숫자가 이것을 뒷받침합니다.
Meta는 6GW AMD Instinct GPU 배치에 합의했고(2026.02), 2026년 추론 워크로드의 30%를 MI350에 배치할 예정입니다. Oracle은 MI450 50,000개 슈퍼클러스터를 2026년 Q3에 배치합니다. Microsoft Azure는 ND MI300X v5 인스턴스로 Azure OpenAI Service 프로덕션 워크로드를 처리합니다.
핵심을 짚겠습니다. AMD GPU는 "CUDA를 넘어서" 채택되는 것이 아니라, "NVIDIA에만 의존하지 않기 위해" 채택되고 있습니다. 이것이 "2위"의 경제학입니다.
5.2 추론 시장이 게임을 바꿉니다
학습은 한 번, 추론은 수십억 번. AI 시장이 성숙할수록 추론의 비중이 커집니다.
1장에서 설명한 자물쇠 개수의 차이를 투자 관점에서 보겠습니다.
CUDA 5-Layer 전부 필요
NCCL + NVLink 필수
전환 비용 3~6개월
당분간 CUDA 독점
vLLM + PyTorch면 충분
메모리 대역폭 바운드
전환 비용 4~8주
AMD가 진입 가능한 영역
AI 모델 배포가 확산될수록 추론 수요가 학습 수요보다 빠르게 증가합니다. 그리고 추론은 CUDA 의존도가 낮은 영역입니다. 시장 자체가 AMD에 유리한 방향으로 이동하고 있습니다.
5.3 Triton: 해자의 물을 빼는 배수관
1장의 비유에서 CUDA를 해자라고 했습니다. OpenAI의 Triton은 그 해자의 물을 빼는 배수관입니다.
Triton은 Python으로 GPU 커널을 작성하면 NVIDIA PTX와 AMD AMDGCN 양쪽으로 자동 컴파일하는 도구입니다. MIT 라이선스 오픈소스입니다.
개념적 시각화. Triton은 OpenAI 개발 오픈소스 프로젝트(MIT 라이선스).
핵심 포인트는 이것입니다. Triton은 PyTorch 2.0+ compile 모드의 기본 백엔드입니다. PyTorch를 사용하는 연구자와 엔지니어가 torch.compile()을 쓰면, 그 뒤에서 Triton이 GPU 커널을 생성합니다. NVIDIA에서든 AMD에서든. "한 번 작성, 양쪽 하드웨어에서 실행"이 자연스럽게 실현됩니다.
CUDA 고유 커널을 직접 작성할 이유가 줄어들고 있습니다. 새로 작성되는 코드가 Triton 기반으로 갈수록, CUDA 해자의 물이 조금씩 빠집니다. 기존 CUDA 커널을 Triton으로 재작성하는 비용은 여전히 존재하므로 점진적 전환이지만, 방향은 명확합니다.
한계도 있습니다. 기존 CUDA 커널을 Triton으로 재작성하는 비용은 여전히 존재합니다. 그리고 Triton의 프로덕션 채택률에 대한 정량 데이터는 아직 없습니다. 그러나 PyTorch compile의 기본 백엔드라는 사실만으로, 장기적으로 CUDA 의존도를 구조적으로 약화시키는 힘입니다.
5.4 AMD의 소프트웨어 인수: 생태계를 삽니다
2장에서 AMD의 인수 전략을 타임라인으로 보았습니다. 여기서는 각 인수가 ROCm 생태계에서 어떤 "빠진 조각"을 채우는지 봅니다.
Nod.ai는 CUDA에서 AMD로의 전환 마찰을 줄이는 추론 추상화 기술입니다. Silo AI($665M)는 유럽 최대 민간 AI 연구소로, 300명 이상의 AI 과학자가 AMD에 최적화된 LLM을 직접 제작합니다. "AMD GPU에서 잘 돌아가는 모델"이라는 생태계 콘텐츠를 채우는 역할입니다. Brium은 소프트웨어 최적화 역량, Untether AI 엔지니어링 팀은 컴파일러/커널 인재를 확보하는 인수입니다.
NVIDIA의 소프트웨어 투자는 "해자를 유지하기 위해"입니다. AMD의 소프트웨어 투자는 "해자를 건너기 위해"입니다. 목적이 다르기 때문에 투자 규모가 작아도 효율이 높을 수 있습니다.
5.5 투자자 관점: 증권사 사각지대를 채웁니다
📈AMDAMD 증권사 분석에서 "ROCm 생태계 성숙도의 정량적 평가 부재"가 사각지대로 지적되었습니다. 이 글이 그 사각지대에 대한 답을 제시합니다.
| 지표 | 수치 | 판정 |
|---|---|---|
| vLLM CI 패스율 | 93% | 프로덕션 레디 |
| MLPerf 추론 (vs B200) | 93~119% | 동급 |
| 다운로드 증가 | YoY 10배 | 채택 가속 |
| Meta 추론 배치 | 30% | 대규모 검증 |
| PyTorch 지원 | upstream 네이티브 | 생태계 통합 |
| HIP 자동 변환 | 90~99% | 부분 호환 |
| 학습 성능 (vs CUDA) | ~77% | 열위 |
| 커스텀 커널 호환 | 부분적 | 전환 비용 존재 |
요약하면, ROCm은 추론에서 프로덕션 레디입니다. 학습에서는 아직 열위입니다. AMD GPU 채택은 추론 주도로 확대될 것입니다.
핵심: CUDA를 넘을 필요가 없다는 것은 "CUDA가 약해서"가 아닙니다. 추론 시장이라는 새로운 전쟁터에서, "2위지만 충분히 좋은" 대안이 되는 것만으로 AMD GPU의 채택을 가속할 수 있기 때문입니다. Meta의 30%가 그 증거입니다.
5장 결론: CUDA를 대체할 필요 없습니다. 추론에서 "충분히 좋은 대안"이면 됩니다. 하이퍼스케일러는 듀얼소싱을 원하고, AMD는 그 "제2의 선택지" 역할을 채우고 있습니다. Triton은 장기적으로 CUDA 해자를 구조적으로 약화시키는 힘입니다. 남은 리스크: 학습 시장에서의 열위(RCCL, 인터커넥트), 커스텀 커널 호환성입니다.
- CUDA lock-in은 건재합니다. 18년, 600만 개발자, 89% 논문. 이 해자는 쉽게 마르지 않습니다
- 그러나 해자의 깊이는 워크로드에 따라 다릅니다. 추론은 얕고, 학습은 깊습니다
- ROCm은 2025~2026년에 추론에서 임계점을 넘었습니다. vLLM 93%, MLPerf B200의 93~119%, Meta 30% 배치
- 학습에서는 여전히 약 23% 열위입니다. RCCL/인터커넥트가 병목입니다
- AMD의 전략: CUDA를 대체하지 않고, 추론 시장에서 "충분히 좋은 2위"로 채택을 확대합니다