엔비디아 CUDA 생태계: 소프트웨어가 만든 하드웨어 독점
400만 개발자, 20년간 쌓인 라이브러리. CUDA가 만든 전환비용의 구조를 분석합니다. AMD ROCm은 추격할 수 있는가?
엔비디아 CUDA는 19년간 축적된 600만+ 개발자, 900개+ 라이브러리로 구성된 GPU 소프트웨어 플랫폼으로, AI 학습 시장 점유율 90% 이상의 핵심 해자다. AMD ROCm은 성능 격차를 3~30%까지 좁혔지만 생태계 규모가 1/10 수준이며, 추론 시장에서만 Custom ASIC이 2033년까지 19%로 성장할 전망이다. CUDA 해자의 지속성이 엔비디아 밸류에이션의 가장 중요한 전제이므로, 추상화 레이어(Triton, vLLM)의 성숙 속도가 장기 투자 판단의 핵심이다.
왜 모든 AI 연구자가 같은 도구를 쓰는가
컴퓨터를 새로 사면 대부분의 사람이 윈도우를 설치합니다. 맥을 쓰는 사람도 있고, 리눅스를 고집하는 사람도 있지만, 전 세계 PC의 72%는 윈도우를 사용합니다. 왜? 모든 프로그램이 윈도우에서 돌아가니까요. 워드도, 엑셀도, 게임도 전부.
AI 세계에서 CUDA는 윈도우와 같은 위치입니다. AI를 학습시키려면 GPU가 필요하고, GPU를 돌리려면 CUDA가 필요합니다. PyTorch도, TensorFlow도, JAX도 전부 CUDA 위에서 돌아갑니다. AI 연구자가 논문을 쓸 때, 스타트업이 모델을 학습시킬 때, 하이퍼스케일러가 데이터센터를 구축할 때, 선택지는 사실상 하나입니다.
이 글은 하나의 질문에 답합니다: 이 독점은 영원한가?
엔비디아의 GPU가 빠르다는 건 누구나 알지만, 정작 투자자가 이해해야 할 핵심은 "왜 더 빠른 칩이 나와도 갈아타지 못하는가"입니다. 그 답은 칩이 아니라 소프트웨어에 있습니다.
📈NVDA엔비디아 본문에서는 CUDA를 4개 기술 축 중 하나로 개요 수준에서 다뤘습니다. 이 글은 그 안으로 깊이 들어갑니다. CUDA가 정확히 어떤 구조로 되어 있는지, 왜 19년간 아무도 따라잡지 못했는지, 도전자들의 현재 위치는 어디인지, 그리고 이 해자에 균열이 생길 수 있는 시나리오는 무엇인지를 해부합니다.
1. CUDA란 무엇인가
이 챕터에서는 CUDA의 본질을 정의하고, 소프트웨어 스택 구조를 5개 레이어로 분해하며, 생태계의 현재 규모를 숫자로 확인합니다.
1.1 GPU는 원래 AI 칩이 아니다
GPU(Graphics Processing Unit)는 이름 그대로 "그래픽 처리 장치"입니다. 원래 게임 화면의 수백만 픽셀을 동시에 계산하기 위해 만들어졌습니다. AI와는 아무 관련이 없었죠.
그런데 AI 학습에는 행렬 곱셈이 수십억 번 필요합니다. CPU는 이 연산을 순차적으로 처리합니다. 한 번에 하나씩. GPU는 수천 개의 작은 코어가 동시에 처리합니다. 즉, GPU의 "대량 병렬 처리" 능력이 AI에 딱 맞았던 겁니다.
문제는 GPU가 "그래픽 전용"이었다는 점입니다. AI 연산을 시키려면 GPU에게 "그래픽 말고 행렬 곱셈을 해라"고 말할 수 있는 언어가 필요했습니다. 그 언어가 바로 CUDA입니다.
CUDA (Compute Unified Device Architecture)
GPU를 범용 연산 장치로 사용할 수 있게 해주는 소프트웨어 플랫폼. 2007년 엔비디아가 공개. 개발자가 C/C++/Python으로 GPU 연산 프로그램을 작성할 수 있는 도구, 라이브러리, 런타임을 통합 제공한다.
CUDA 없이 GPU는 게임기입니다. CUDA가 있어야 GPU는 AI 엔진이 됩니다.
1.2 CUDA의 5-Layer 스택
CUDA는 단일 프로그램이 아닙니다. 5개 층으로 구성된 소프트웨어 스택입니다. 각 층은 아래 층에 의존하며, 위로 갈수록 사용하기 쉬워집니다. 이 "층층이 쌓인 구조"가 경쟁자가 따라잡기 어려운 핵심 이유입니다.
각 층의 역할
| Layer | 이름 | 역할 | 비유 |
|---|---|---|---|
| 1 | CUDA Toolkit | GPU 연산의 기초 문법. C/C++ 확장, 메모리 관리, 병렬 스레드 제어 | 운영체제의 커널 |
| 2 | cuDNN | 딥러닝 핵심 연산(컨볼루션, 어텐션, 정규화)을 GPU에 최적화 | 운영체제의 드라이버 |
| 3 | TensorRT | 학습된 모델을 저지연/고처리량으로 최적화. FP32→FP8 정밀도 교정 | 컴파일러 (코드를 기계어로) |
| 4 | Triton Server | 여러 모델을 동시에 서빙. 동적 배치, 멀티 GPU 스케줄링 | 웹 서버 (요청을 처리) |
| 5 | NIM | 사전 최적화 모델을 컨테이너 하나로 5분 배포. TensorRT+Triton 번들 | 앱스토어 (설치만 하면 끝) |
출처: NVIDIA Developer, NVIDIA Technical Blog
출처: NVIDIA Developer, NVIDIA Technical Blog
핵심을 요약하면: 1층(CUDA)을 대체하려면 2층(cuDNN)부터 5층(NIM)까지 전부 다시 만들어야 합니다. 한 층만 빼놓아도 전체 파이프라인이 작동하지 않습니다.
1.3 숫자로 보는 CUDA 생태계
| 지표 | 수치 |
|---|---|
| CUDA 기반 앱 | 3,500+ |
| CUDA Toolkit 누적 다운로드 | 4,000만+ |
| CUDA-enabled GPU 누적 설치 | 5억+ 대 |
| 최적화 라이브러리 | 600+ |
출처: TechCrunch (Computex 2023), Investing.com
출처: TechCrunch (Computex 2023), Investing.com
2007년 5개 컴포넌트로 시작한 CUDA는, 19년 뒤 900개 이상의 라이브러리로 성장했습니다. 이 숫자가 의미하는 것은 단순한 양이 아닙니다. 경쟁자가 "처음부터 다시 만들어야 하는 것"의 총량입니다.
2. 19년의 축적: CUDA는 어떻게 표준이 되었나
이 챕터에서는 CUDA가 2007년 출시부터 AI 인프라 독점까지 어떤 경로를 거쳤는지, 왜 "먼저 시작한 것"이 이토록 큰 차이를 만들었는지 추적합니다.
2.1 타임라인: 니치에서 표준으로
출처: Wikipedia, NVIDIA Blog, TechCrunch
결정적 전환점: 2012년 AlexNet
2012년 9월, 토론토 대학의 알렉스 크리제프스키(Alex Krizhevsky)가 ImageNet 챌린지에서 top-5 오류율 15.3%를 기록합니다. 2위(26.2%)를 10.9%p 격차로 압도한 결과였습니다. (Wikipedia)
AlexNet은 GTX 580 GPU 2개와 CUDA를 사용해 학습했습니다. 이 순간부터 "딥러닝 = GPU = CUDA"라는 등식이 만들어졌습니다. 전 세계 AI 연구실이 CUDA를 배우기 시작했고, 논문의 코드는 CUDA 위에서 작성되었고, 후속 연구자들은 이 코드를 그대로 가져다 썼습니다.
2.2 프레임워크 종속: 모든 길은 CUDA로 통한다
AI 개발자가 직접 CUDA를 쓰는 경우는 드뭅니다. 대부분은 PyTorch, TensorFlow, JAX 같은 프레임워크를 씁니다. 문제는 이 프레임워크들이 내부적으로 CUDA에 의존한다는 것입니다.
출처: NVIDIA Framework Support Matrix
개발자가 import torch 한 줄을 칠 때, 그 아래에서는 cuDNN이 컨볼루션을 실행하고, cuBLAS가 행렬 곱셈을 처리합니다. 개발자 본인은 CUDA를 "쓰고 있다"는 의식 없이, 이미 CUDA 생태계 안에 있는 겁니다.
이것이 윈도우 비유와 완벽히 대응하는 지점입니다. 사용자가 직접 Windows API를 호출하지 않아도, 모든 앱이 Windows 위에서 돌아가는 것처럼.
2.3 교육부터 장악한 생태계
엔비디아는 CUDA를 "제품"이 아닌 "표준"으로 만들기 위해 교육에 집중 투자했습니다.
| 프로그램 | 규모 | 효과 |
|---|---|---|
| 대학 커리큘럼 채택 | 460+ 기관 | 졸업생이 CUDA를 '모국어'로 학습 |
| DLI (Deep Learning Institute) | 월 수천 명 수강 | CUDA 기반 AI 인력 재생산 |
| University Ambassador 프로그램 | 전 세계 운영 | 하드웨어 그랜트 + 교육 지원 |
| NVIDIA Developer Program | 600만+ 등록 | 커뮤니티 네트워크 효과 |
출처: NVIDIA Programs for Educators, NVIDIA Blog
출처: NVIDIA Programs for Educators, NVIDIA Blog
학생이 대학에서 CUDA를 배우고, 졸업 후 회사에서 CUDA를 사용하고, 그 회사의 코드베이스가 CUDA에 종속되면서, 다음 세대 개발자도 CUDA를 배워야 합니다. 이것이 19년간 반복된 결과입니다.
3. 전환 비용: 왜 떠나지 못하는가
이 챕터에서는 "더 좋은 대안이 나와도 왜 갈아타지 않는가"의 구조적 원인을 3가지 축으로 분석합니다.
전환 비용(Switching Cost)
기존 플랫폼에서 대안으로 이전할 때 발생하는 총 비용. 금전적 비용뿐 아니라, 시간, 성능 저하, 인력 재교육, 기회비용을 모두 포함한다.
3.1 코드 재작성 비용: 19년치 자산
AI 연구자가 CUDA를 버리려면, 단순히 프레임워크를 바꾸는 게 아닙니다. 그 프레임워크 아래에 깔린 모든 최적화 코드를 다시 작성해야 합니다.
PyTorch의 핵심 연산 라이브러리인 ATen은 수십만 줄의 CUDA 커널로 구성되어 있습니다. FlashAttention, xFormers 같은 커스텀 커널도 CUDA로 작성되었습니다. 대형 모델의 학습 파이프라인(Megatron-LM, DeepSpeed)도 CUDA 최적화에 깊이 의존합니다.
출처: 위 수치는 '대체해야 할 총량'을 나타냅니다. 경쟁자가 칩 하나 만드는 것으로는 넘을 수 없는 벽입니다.
위 수치는 "대체해야 할 총량"을 나타냅니다. 경쟁자가 칩 하나 만드는 것으로는 넘을 수 없는 벽입니다.
3.2 성능 패널티: 최적화 격차
설령 대안 플랫폼에서 코드를 돌릴 수 있더라도, 성능이 떨어집니다. CUDA 커널은 19년간 아키텍처별로 최적화되었기 때문입니다.
🎯 cuDNN 자동 커널 선택
⚡ Tensor Core 직접 제어
🔧 FP8/FP4 정밀도 최적화
성능: 100% (기준)
🎯 HIP 호환 레이어
⚡ Matrix Core 지원
🔧 FP8 지원 (제한적)
성능: 70~97% (워크로드별)
출처: Tom's Hardware (MLPerf 4.1)
MLPerf Inference 4.1 벤치마크에서 MI300X 8개는 Llama 2 70B 오프라인 추론에서 23,512 tokens/s를 기록했습니다. 같은 조건에서 H100 8개는 24,323 tokens/s. 이 특정 벤치마크에서는 3.3% 차이로 좁혀졌지만, 복잡한 학습 워크로드에서는 격차가 10~30%로 벌어집니다.
대규모 AI 학습에서 10%의 성능 차이는 수백만 달러의 전력 비용 차이를 의미합니다. Meta의 Llama 3 학습에 사용된 GPU가 24,000개였다는 것을 생각하면, 10%는 "작은 차이"가 아닙니다.
3.3 인재 풀: 채용 시장이 잠근 자물쇠
기업이 AI 엔지니어를 채용할 때, 채용 공고에 "CUDA 경험"이 명시됩니다. PyTorch 사용 경험은 곧 CUDA 생태계 경험입니다.
이것이 만드는 악순환: 기업이 CUDA 경험자를 채용 → 팀의 코드베이스가 CUDA에 종속 → 다음 채용에서도 CUDA 경험 요구 → 개발자가 CUDA를 학습하는 인센티브 강화 → CUDA 생태계 확대
대학에서도 마찬가지입니다. 460개 이상의 기관이 CUDA 커리큘럼을 채택했다는 것은, 매년 졸업하는 AI 엔지니어의 대다수가 "CUDA 네이티브"라는 의미입니다. (NVIDIA Higher Education)
4. 도전자들: CUDA 독점을 깨려는 시도
이 챕터에서는 CUDA의 독점에 도전하는 4가지 경로를 분석합니다. 각 도전자의 현재 위치와 구조적 한계를 평가합니다.
4.1 AMD ROCm: 가장 직접적인 도전자
AMD의 ROCm(Radeon Open Compute)은 CUDA의 가장 직접적인 경쟁자입니다. HIP(Heterogeneous-compute Interface for Portability)라는 호환 레이어를 통해 CUDA 코드를 AMD GPU에서 실행할 수 있게 합니다.
| 항목 | CUDA | ROCm |
|---|---|---|
| 출시 | 2007 | 2016 (9년 늦음) |
| 최신 버전 | 13.x | 7.2.3 |
| 개발자 생태계 | 600만+ | 공개 수치 없음 (추정 1/10) |
| 프레임워크 지원 | PyTorch, TF, JAX (네이티브) | PyTorch, TF, JAX (플러그인) |
| 최신 GPU | B200 (Blackwell) | MI325X (256GB HBM3e) |
| MLPerf 결과 | H100 = 24,323 t/s | MI300X = 23,512 t/s |
| 다운로드 성장 | — | YoY 10x |
| 클라우드 채택 | AWS, Azure, GCP, OCI | Azure, Oracle |
ROCm의 빠른 성장은 인정해야 합니다. ROCm 7.x 시리즈가 2025년 9월부터 빠르게 릴리스되고 있고(최신 7.2.3, 2026-05-04), 다운로드 수는 전년 대비 10배 성장했습니다. (AMD FAD 2025) 세계 상위 10대 AI 기업 중 7개사가 AMD Instinct를 배포하고 있습니다.
특히 주목할 벤치마크가 있습니다. DeepSeek R1 추론에서 8×MI300X가 고동시성 구간(750 동시 쿼리)에서 ~4,100 tokens/s를 달성하며, 8×H200의 ~3,250 tokens/s를 25~35% 앞섰습니다. MI300X의 192GB HBM이 H200의 141GB보다 많아, 더 많은 동시 요청을 처리할 수 있기 때문입니다. 단, 저동시성(16쿼리 이하)에서는 H200이 여전히 우위입니다. (dstack.ai)
하지만 "특정 벤치마크에서 성능이 비슷해졌다"는 것과 "생태계를 대체할 수 있다"는 것은 전혀 다른 차원의 이야기입니다.
4.2 Custom ASIC: 하이퍼스케일러의 자체 칩
Google, Amazon, Meta는 자체 AI 칩을 개발합니다. 이들은 "CUDA를 대체"하려는 것이 아니라, "자사 워크로드에 최적화된 칩"을 만들어 비용을 줄이려는 전략입니다.
| 기업 | 칩 | 핵심 스펙 | SDK | 외부 채택 |
|---|---|---|---|---|
| Ironwood (TPU v7) | 4,614 TFLOPS(FP8), 192GB HBM, 9,216칩 Pod | JAX/XLA, TorchTPU (신규) | Anthropic 100만 칩 계약 | |
| Amazon | Trainium3 | 2.52 PFLOPS(FP8), 144GB HBM3e, 144칩 UltraServer | Neuron SDK | Rainier (Trn2 50만칩) |
| Meta | MTIA v2 (Artemis) | TSMC 5nm, 128GB HBM, 90W/칩 | 자체 컴파일러 | 내부 전용 (수십만 개 배포) |
| Microsoft | MAIA 100 | 5nm, 64GB HBM2e, 0.8 PFLOPS(BF16) | 자체 프로토콜 | 내부 전용 |
주목할 점이 두 가지 있습니다.
첫째, 이 ASIC들은 각각 자체 SDK(JAX/XLA, Neuron SDK, 자체 컴파일러)를 사용합니다. CUDA 생태계 밖에서 독자 생태계를 구축하는 전략이지만, 외부 확산은 어렵습니다. Google이 2026년 4월 TorchTPU를 발표하며 PyTorch 네이티브 지원을 시작했지만, TrendForce에 따르면 Google Cloud TPU에 관심을 보이는 외부 고객은 전체의 약 1%에 불과합니다. (TrendForce)
둘째, 자체 칩을 개발하면서도 NVIDIA GPU를 대량 구매합니다. Meta는 Blackwell + Rubin 수백만 GPU 멀티이어 계약을 체결했고, Amazon은 P6e(GB200 NVL72) 인스턴스를 동시에 출시했습니다. "CUDA 대체"가 아니라 "CUDA 의존도 관리"가 실제 목표입니다.
4.3 소프트웨어 우회: CUDA 위를 추상화하는 시도
"칩을 바꾸는 것이 어렵다면, 소프트웨어 레이어를 하나 더 올려서 칩에 상관없이 돌아가게 하자." 이것이 소프트웨어 우회 전략입니다.
OpenAI Triton 컴파일러
Triton은 Python으로 GPU 커널을 작성할 수 있게 해주는 컴파일러입니다. CUDA C++ 없이도 고성능 커널을 만들 수 있어, CUDA 의존도를 줄이는 것처럼 보입니다.
하지만 핵심적인 사실: Triton이 생성한 코드는 NVIDIA GPU에서 실행될 때 결국 PTX(CUDA 어셈블리)로 컴파일됩니다. Triton은 CUDA를 대체하는 것이 아니라, CUDA 위에서 더 편하게 코드를 작성하는 도구입니다. (PyTorch/XLA Docs)
다만 Triton의 전략적 의미는 있습니다. AMD ROCm 6.2+ 공식 지원이 확인되었고, Intel도 별도 레포(intel-xpu-backend-for-triton)를 운영합니다. "Triton으로 작성 → 어떤 GPU에서든 실행" 경로가 열리고 있습니다. GitHub Stars 19,200개, 최신 v3.7(2026-05-07). (GitHub)
PyTorch torch.compile + TorchInductor
PyTorch 2.0의 torch.compile은 Python 코드를 자동으로 최적화된 커널로 컴파일합니다. 내부적으로 TorchInductor가 Triton 커널을 자동 생성합니다. 개발자가 CUDA를 직접 작성할 필요가 줄어든다는 점에서, 간접적으로 CUDA 의존도를 완화합니다.
163개 오픈소스 모델 기준 93% 동작 성공률, 평균 43% 학습 속도 향상. (PyTorch 2.x) 하지만 역시, 최종 실행은 CUDA 스택 위에서 이루어집니다.
MLIR/XLA: 컴파일러 레벨의 추상화
Google이 주도하는 MLIR(Multi-Level Intermediate Representation)과 XLA(Accelerated Linear Algebra)는 "하드웨어에 독립적인 중간 표현"을 목표로 합니다. 같은 코드가 TPU에서도, GPU에서도, CPU에서도 최적화되어 실행되는 것이 비전입니다.
XLA:GPU는 현재 NVIDIA GPU에서 PTX 이미터를 사용합니다. 즉, GPU에서 실행할 때는 여전히 CUDA 스택(ptxas)이 필요합니다. (OpenXLA) CUDA를 완전히 우회하는 것이 아니라, "CUDA 위에서 더 효율적으로 쓰는" 도구인 셈입니다.
4.4 하드웨어 중립 추론 스택: vLLM과 SGLang
가장 실질적으로 CUDA 의존도를 낮추고 있는 것은 칩이나 컴파일러가 아니라, 하드웨어 중립 추론 엔진입니다.
vLLM(UC Berkeley)은 PagedAttention 기술로 LLM 추론 효율을 극적으로 개선한 오픈소스 엔진입니다. 핵심은 하드웨어 추상화입니다. NVIDIA GPU, AMD GPU, Google TPU, AWS Trainium, Intel Gaudi 등 12개 이상의 플랫폼을 지원합니다. GitHub Stars 80,100개, 월간 다운로드 716만회. 2025년 PyTorch Foundation 공식 프로젝트로 편입되었습니다. (GitHub)
SGLang(Stanford/Berkeley)은 RadixAttention으로 KV 캐시를 자동 재사용하여 평균 86.4% prefix-cache hit rate를 달성합니다. H100에서 Llama 3.1 8B 추론 시 vLLM 대비 +29% 높은 처리량(16,200 vs 12,500 tokens/s)을 기록합니다. 전 세계 40만 GPU 이상에서 운영 중이며, xAI, AMD, NVIDIA, LinkedIn, Cursor가 채택했습니다. (GitHub)
💡 핵심: vLLM/SGLang이 중요한 이유는, 개발자가 "이 모델을 돌리고 싶다" → vLLM 설치 → GPU 종류와 상관없이 실행. 이 경험이 보편화되면 "어떤 GPU를 사느냐"의 결정에서 CUDA 락인이 약해집니다. 다만 NVIDIA GPU에서 실행할 때 내부적으로는 여전히 CUDA 스택을 거칩니다.
4.5 종합 평가: 각 도전자의 현재 위치
| 도전자 | 접근 방식 | CUDA 위협 수준 | 핵심 제약 |
|---|---|---|---|
| AMD ROCm | 직접 대체 (HIP 호환 레이어) | 중기 위협 | 생태계 규모 1/10, 학습 벤치마크 열세 |
| Google TPU | 독자 생태계 (JAX/XLA) | 낮음 (GCP 한정) | 2027년까지 외부 판매 불가, JAX 점유율 낮음 |
| AWS Trainium | 독자 생태계 (Neuron SDK) | 낮음 (AWS 한정) | 범용 생태계 아님, 특정 고객 종속 |
| Meta MTIA | 내부 전용 추론칩 | 최소 | 외부 판매 없음, 추론만 지원 |
| OpenAI Triton | 추상화 (CUDA 위 레이어) | 장기 위협 | NVIDIA GPU에선 여전히 CUDA/PTX 필요 |
| vLLM/SGLang | 하드웨어 중립 추론 엔진 | 중기 위협 | 추론에만 적용. 학습은 여전히 CUDA 필수 |
| Intel oneAPI/SYCL | 오픈 표준 대체 | 최소 | AI GPU 시장 부재, 채택률 극소 |
5. CUDA의 취약점: 영원한 해자는 없다
앞선 4개 챕터에서 CUDA의 강점을 분석했습니다. 이 챕터에서는 균형 잡힌 시각을 위해, CUDA 해자가 약화될 수 있는 시나리오를 투자자 관점에서 검토합니다.
5.1 추론 시장의 분화: 학습과 추론은 다른 게임이다
AI의 두 축: 학습(Training)과 추론(Inference). 학습은 모델을 만드는 과정이고, 추론은 만들어진 모델을 실행하는 과정입니다.
학습에서 엔비디아의 지위는 압도적입니다. 시장 점유율 90% 이상. (Silicon Analysts) 하지만 추론 시장에서는 60~75%로 낮아집니다. 왜? 추론은 학습보다 "범용성"이 덜 필요하기 때문입니다.
학습은 다양한 모델 아키텍처를 실험해야 하므로 CUDA의 범용 라이브러리가 필수입니다. 하지만 추론은 "이미 정해진 한 모델을 가능한 싸게 돌리는" 것이 목표입니다. 이 경우, 해당 모델에 특화된 Custom ASIC이 GPU보다 전력 효율이 높을 수 있습니다.
Bloomberg Intelligence는 Custom ASIC의 시장 점유율이 2024년 8%에서 2033년 19%로 성장할 것으로 전망합니다. (Bloomberg Intelligence)
5.2 엣지 AI: CUDA가 약한 영역
CUDA는 데이터센터의 대형 GPU에 최적화되어 있습니다. 스마트폰, IoT 기기, 자동차 같은 엣지 환경에서는 CUDA가 사실상 작동하지 않습니다.
모바일 AI 추론에서는 Vulkan Compute, Metal(Apple), WebGPU 같은 대안이 작동합니다. ONNX Runtime Web의 WebGPU 백엔드는 RTX 3060에서 SAM encoder를 19배 가속하는 성과를 보여주었습니다. (Microsoft)
다만 엣지 AI 시장이 성장해도, 이것이 데이터센터에서의 CUDA 지위를 직접 위협하지는 않습니다. 두 시장은 분리되어 있습니다.
5.3 오픈소스 추상화의 장기 위협
가장 큰 장기 위협은 "CUDA 위의 추상화 레이어가 충분히 성숙해지면, 개발자가 CUDA를 의식하지 않게 되는 것"입니다.
현재 진행 중인 흐름:
- PyTorch
torch.compile→ 자동으로 Triton 커널 생성 → 개발자가 CUDA 커널을 직접 쓸 일이 줄어듦 - Triton 컴파일러 → AMD ROCm 6.2+ 공식 지원, Intel 별도 백엔드 → "Triton으로 쓰면 어디서든 실행" 가능성
- XLA/MLIR → 하드웨어 독립 컴파일 → TPU, GPU, ASIC 통합 타겟
- vLLM/SGLang → 하드웨어 중립 추론 엔진이 12+ 플랫폼 지원 → 추론 배포에서 GPU 선택의 자유도 증가
이 네 가지가 10년 뒤 충분히 성숙하면, "CUDA를 직접 쓰는 개발자"의 비중이 줄어들 수 있습니다. 하지만 이 추상화 레이어들이 NVIDIA GPU에서 실행될 때 여전히 CUDA 스택(PTX, cuDNN)을 거친다는 점은 변하지 않습니다. 그리고 학습(Training) 워크로드에서는 이 추상화가 아직 미성숙합니다.
⚠ 투자자가 모니터링해야 할 위험 시나리오:
① ROCm + Triton 조합이 "CUDA 없이 PyTorch 실행"을 완전히 실현하는 시점 ② 추론 시장에서 Custom ASIC 점유율이 25%를 넘어서는 시점 ③ vLLM/SGLang이 비NVIDIA GPU에서 NVIDIA 동등 성능을 달성하는 시점 ④ 주요 AI 프레임워크가 "CUDA 선택사항화"를 공식 선언하는 시점
5.4 투자자 관점: 시장 점유율 전망
출처: 출처: Silicon Analysts, Bloomberg Intelligence. 점선 바는 전망치.
출처: Silicon Analysts, Bloomberg Intelligence. 점선 바는 전망치.
핵심 해석: 엔비디아의 점유율이 92%에서 75%로 "하락"해도, 전체 시장이 $200B 이상으로 폭발적으로 확장되므로 매출 절대값은 오히려 증가합니다. 위협은 "점유율 하락" 자체가 아니라, "점유율 하락 속도가 시장 성장 속도를 초과하는 시나리오"입니다.
6. 결론
- 학습 시장에서 CUDA의 지위는 향후 5년간 대체 불가능하다. 19년 축적 + 450만 개발자 + 900개 라이브러리의 조합은 어떤 단일 경쟁자도 복제할 수 없다
- 추론 시장에서는 점진적 침식이 발생한다. Custom ASIC(TPU, Trainium)이 특정 워크로드에서 비용 효율을 증명하고 있으며, 2033년까지 19% 점유율로 성장 전망
- 소프트웨어 추상화(Triton, torch.compile, XLA)가 장기적으로 CUDA 의존도를 낮추지만, 현재 이 모든 추상화의 실행 경로는 여전히 CUDA/PTX를 거친다. 완전한 탈CUDA는 10년 이상의 시간이 필요