구글 클라우드와 TPU 수직통합
GCP는 칩(TPU)·모델(Gemini)·플랫폼(Vertex)을 모두 자체 보유해 OPM을 2년 만에 9.4%→32.9%로 끌어올렸습니다. TPU 원가우위는 시한적, 데이터·Workspace 락인은 지속적. 이 비대칭이 적정가를 가릅니다.
Google Cloud의 차별점은 "AI를 싸게 판다"가 아니라, 칩(TPU)·모델(Gemini)·플랫폼(Vertex)을 한 회사가 한 팀처럼 공동설계한다는 것 하나에 응축됩니다. 이 수직통합이 마진을 만들고(칩), 수요를 끌고(모델), 고객을 묶습니다(플랫폼). 2년 만에 분기 매출이 +63% 성장해 $20.0B에 이르렀고, 영업이익률은 9.4%에서 32.9%로 올랐습니다. 다만 세 층의 해자 수명은 서로 다릅니다. 마진을 만드는 칩 우위가 가장 시한적이고, 고객을 묶는 플랫폼 락인이 가장 오래갑니다. 저마진 TPU 하드웨어 직판 믹스가 커지며 외부 애널리스트(UBS·Goldman Sachs)는 향후 20%대 후반으로의 마진 압축을 기본 시나리오로 봅니다.
Google Cloud는 자체 AI 가속기 TPU, 자체 모델 Gemini, AI 플랫폼 Vertex를 한 회사가 공동설계한 수직통합 클라우드입니다. 2년 만에 분기 매출이 +63% 성장해 $20.0B에 이르렀고, 영업이익률은 9.4%에서 현재 32.9%로 올랐습니다. 다만 이 마진은 저마진 TPU 직판 믹스가 커지며 향후 20%대 후반으로 압축될 것이라는 게 외부 전망입니다. AWS와 Azure가 못 가진 칩과 모델의 동시 보유가 핵심 차별점입니다.
이 글이 끝까지 따라가는 질문은 하나입니다. Google Cloud는 어떻게 만년 3위에서 가장 빠르게 크는 클라우드가 됐고, 그 동력은 얼마나 오래갈까?
만년 3위가 가장 빨리 크기 시작했다
클라우드 3위 GCP의 분기 매출 성장률이 1위 AWS의 3배를 넘었습니다. 숫자만 보면 이변이지만, 그 뒤에는 "남의 칩을 사서 빌려주는 장사"에서 "내 칩으로 내 모델을 돌려 빌려주는 장사"로의 구조 전환이 있습니다. 그 전환이 무엇이고, 얼마나 오래갈지가 이 글 전체의 줄기입니다.
먼저 숫자부터 봅니다. Google Cloud 분기 매출은 Q1 2024 $9.6B에서 Q1 2026 $20.0B로 2년 만에 2배가 됐고, 마지막 분기 성장률은 +63%입니다 (9to5Google). 같은 시기 1위 AWS는 +18%대, 2위 Azure는 +33%였습니다 (Q3 2025 비교 기준, tech-insider). 가장 큰 사업자가 가장 천천히 크고, 가장 작은 3위가 가장 빨리 크는, 통상의 규모 논리와 반대되는 그림입니다.
더 놀라운 건 영업이익률입니다. 2년 전 GCP는 클라우드에서 거의 돈을 못 벌었습니다(OPM 9.4%, Q1 2024). 그게 Q1 2026에 32.9%가 됐습니다 (9to5Google). 매출은 2배 됐는데 마진은 3배 넘게 벌어졌습니다. 보통 클라우드 사업은 데이터센터를 먼저 짓고 한참 뒤에 마진이 따라오는데, GCP는 그 마진 곡선이 유독 가파릅니다. 무엇이 이 곡선을 만들었는지가 3장의 주제입니다.
출처: SEC 8-K 분기 공시, 9to5Google
이 글은 그 수직통합이 어떻게 마진과 성장을 동시에 만들었는지, 그리고 그 동력이 얼마나 오래갈지를 봅니다. 다만 미리 못박아 둘 균형이 하나 있습니다. GCP의 절대 점유율은 여전히 시장 3위이고, 1위 AWS와는 약 2배 격차입니다 (AWS 28% vs GCP 14%, Synergy Q1 2026). 이 글이 다루는 건 "추격 가속"이지 "역전"이 아닙니다.
식당 체인으로 비유하면 이렇습니다. 대부분의 클라우드 체인은 식자재(AI 칩)를 NVIDIA라는 한 곳에서 사옵니다. GCP는 다릅니다. 식자재 공장(TPU)을 직접 운영하고, 그 공장에서 만든 재료로 자기만의 시그니처 메뉴(Gemini)를 만들어, 손님(고객)에게 멤버십(Vertex·Workspace)으로 묶어 팝니다. 이 글은 그 식당 체인을 층층이 분해합니다.
1. 수직통합 3층, 칩·모델·플랫폼을 한 팀이 설계한다
Google Cloud를 매출 한 덩어리로 보면 본질을 놓칩니다. 칩·모델·플랫폼 세 층은 점유율·마진·해자 성격이 서로 다르며, GCP의 차별점은 이 세 층을 한 회사가 공동설계한다는 사실 하나로 응축됩니다. AWS도 Azure도 세 층을 모두 자가 보유하지는 못합니다. 이 장은 그 세 층을 분리하고, "공동설계"가 왜 쉽게 복제되지 않는 조합인지를 봅니다.
1.1 왜 세 층으로 나눠 봐야 하는가
"Google Cloud가 AI로 잘 나간다"는 말은 너무 뭉툭합니다. 잘 나가는 이유를 알려면 세 개의 서로 다른 층을 분리해야 합니다. 각 층이 하는 일이 다르고, 무너지는 속도도 다르기 때문입니다.
첫째는 칩 층입니다. AI 연산을 처리하는 하드웨어인 TPU를 GCP가 직접 설계해, NVIDIA에 내야 할 마진을 건너뜁니다. 이 층은 마진을 만드는 엔진입니다. 둘째는 모델 층입니다. 그 칩 위에서 도는 자체 AI 모델 Gemini가 여기에 해당합니다. AWS는 자체 플래그십 모델이 없고, Azure는 OpenAI 모델에 의존하는데, GCP는 칩과 모델을 모두 자기 것으로 가집니다. 이 층은 칩과 플랫폼을 잇는 차별점입니다. 셋째는 플랫폼 층입니다. Vertex, Gemini Enterprise, Workspace처럼 고객이 실제로 손에 쥐고 쓰는 도구와 워크플로우입니다. 데이터와 업무가 여기 쌓이면 옮기기 어려워집니다. 이 층은 고객을 묶는 해자입니다.
식당 체인 비유로 다시 보면, 식자재 공장(칩)이 원가를 낮추고, 시그니처 레시피(모델)가 손님을 끌고, 멤버십(플랫폼)이 손님을 붙잡습니다. 세 가지를 다 가진 체인은 드뭅니다.
| 층 | GCP 자산 | 점유율 성격 | 마진 성격 | 해자 성격 |
|---|---|---|---|---|
| ① 칩 (TPU) | TPU v6e·v7 | 외부 점유 미미·내부 100% | 마진 엔진 | 시한적 |
| ② 모델 (Gemini) | Gemini 3.x·DeepMind | 추격 차별점 | 가격결정력 보조 | 중간 |
| ③ 플랫폼 (Vertex) | Vertex·Gemini Enterprise·Workspace | 점유 획득 엔진 | SW 마진 보조 | 강(전환비용·데이터 락인) |
세 층은 점유율·마진·해자 성격이 모두 다르다. 마진을 만드는 칩 층이 가장 시한적이고, 고객을 묶는 플랫폼 층이 가장 지속적이다.
1.2 "공동설계"가 진짜 무기인 이유
세 층을 각각 가진 것보다 중요한 건, 세 층을 같은 팀이 동시에 설계한다는 점입니다. 자산을 나란히 보유하는 것과, 그 자산을 한 지붕 아래에서 서로를 보며 깎는 것은 전혀 다른 일입니다.
보통의 회사는 칩 회사(NVIDIA), 모델 회사(OpenAI), 플랫폼 회사가 따로입니다. 각자 자기 인터페이스에 맞춰 협상하고 끼워 맞춥니다. 칩 설계팀은 어떤 모델이 위에서 돌지 모른 채 범용으로 설계하고, 모델팀은 주어진 칩에 모델을 욱여넣습니다. 반면 Google은 칩(TPU)을 설계하는 팀, 컴파일러(JAX/XLA)를 만드는 팀, 모델(Gemini·DeepMind)을 만드는 팀이 한 지붕 아래 있습니다. 칩을 설계할 때 "우리 모델이 이런 연산을 많이 쓴다"를 알고 설계하고, 컴파일러가 "우리 칩의 내부 구조"를 알고 연산을 배치합니다.
💡 핵심: GCP의 차별점은 "자체 칩을 가졌다"가 아니라 "자체 칩 + 자체 플래그십 모델 + 성숙한 컴파일러 스택을 한 팀처럼 함께 굴린다"입니다. 칩 한 층이 아니라 세 층이 함께 어우러진 합주가 핵심입니다.
이 공동설계가 만드는 구체적 이득은 2장(실효 연산 비율과 추론 특화)에서 기술적으로 풀어냅니다. 여기서는 "이게 왜 경쟁사가 쉽게 못 따라오는 조합인가"만 짚습니다. 칩만 만드는 회사(AWS Trainium도 칩은 있습니다)는 자체 플래그십 모델이 없고, 모델이 강한 회사(OpenAI)는 자체 칩이 없습니다. 칩과 모델과 성숙한 컴파일러를 동시에, 그것도 한 팀처럼 굴리는 곳은 현재 Google이 유일에 가깝습니다.
그렇다면 흔히 나오는 반론 하나를 먼저 받아두는 게 정직합니다. "수직통합이 좋다는 건 누구나 안다. AWS도 Trainium·Inferentia로, Azure도 Maia로 자체 칩을 만든다. GCP만의 것이 아니다." 맞습니다. 자체 칩 자체는 이제 하이퍼스케일러(대형 클라우드 사업자)의 공통 전략입니다. 그래서 이 글은 GCP의 차별점을 "자체 칩 보유"가 아니라 "자체 칩 + 자체 플래그십 모델 + 성숙한 컴파일러 스택의 조합 성숙도"로 좁혀 정의합니다. 이 조합이 약해지는 조건은 5장에서 명시적으로 못박습니다.
1장 결론: GCP는 한 덩어리가 아니라 세 층으로 봐야 한다.
- 칩·모델·플랫폼 세 층은 마진·해자 성격이 다르다. 칩은 마진 엔진이지만 시한적, 플랫폼은 마진 보조이지만 가장 지속적이다.
- 차별점은 "자체 칩 보유"가 아니라 "자체 칩 + 자체 모델 + 성숙한 컴파일러를 한 팀이 공동설계"하는 조합 성숙도다.
- 다음 장은 그 칩(TPU)이 왜 같은 전력에서 더 싸게 도는지를 해부합니다.
2. TPU 해부, 왜 같은 전력에서 더 싸게 도는가
TPU(Tensor Processing Unit, 텐서 처리 장치)는 범용 GPU와 달리 행렬곱 하나에 칩 전체를 몰아준 ASIC(주문형 반도체)입니다. 범용성을 버린 대가로 같은 전력과 실리콘에서 더 많은 유효 연산을 뽑습니다. v7 Ironwood에서 추론 전용으로 갈라진 것은 시장 무게중심이 학습에서 추론으로 옮겨가는 흐름에 하드웨어를 맞춘 선택입니다. 이 장은 그 칩이 어떻게 원가를 낮추는지를 봅니다.
2.1 시스토릭 어레이, 범용성을 버린 칩
GPU가 만능 요리사라면, TPU는 한 가지 요리(행렬곱)만 극단적으로 잘하는 전문 요리사입니다. 메뉴 수를 줄인 대신, 그 한 메뉴를 누구보다 빠르고 싸게 냅니다.
TPU는 행렬곱(MatMul)에 특화된 ASIC입니다. AI 모델 연산의 대부분이 행렬곱이라, 이걸 시스토릭 어레이(MXU, Matrix Multiply Unit)라는 격자 회로로 극대화합니다. v7 Ironwood의 MXU는 256×256 격자로, 한 사이클에 65,536번의 곱셈-누산을 처리합니다 (SemiAnalysis). 데이터가 격자 안을 한 칸씩 흘러가며 곱하고 더하는 구조라, 한 번 채워 넣으면 멈추지 않고 연산이 파도처럼 전파됩니다.
범용성을 버린 대가로 얻는 게 효율입니다. GPU는 그래픽과 범용 연산까지 처리하는 회로를 품고 있어, AI 연산만 놓고 보면 일부 회로가 "놀고" 있습니다. TPU는 그 회로 면적을 행렬곱에 다 써서, 같은 전력과 실리콘 면적에서 더 많은 유효 연산을 뽑습니다. 여러 칩을 하나로 묶는 방식도 다릅니다. TPU는 광대역 칩간 인터커넥트(ICI, Inter-Chip Interconnect)로 수백 개 칩을 한 덩어리(Pod)로 묶습니다. v6e Trillium은 256칩을 2D 토러스 구조로 연결해 포드 단위로 234.9 PFLOPS를 냅니다 (Google Cloud 공식 문서).
개념적 시각화입니다. 실제 MXU는 256×256 격자이며, 그림은 데이터가 격자를 흐르는 구조를 6×6으로 단순화한 것입니다. 출처: SemiAnalysis, Google Cloud 공식 문서.
2.2 세대 도약, Trillium에서 Ironwood로
TPU는 세대를 거듭하며 성능이 크게 뛰었습니다. 6세대 Trillium(v6e)에서 7세대 Ironwood(v7)로 넘어오며 무엇이 달라졌는지를 한 표로 봅니다.
| 항목 | TPU v6e (Trillium, 6세대) | TPU v7 (Ironwood, 7세대) |
|---|---|---|
| GA(일반 가용) | 2024 | 2025-11 |
| 피크 성능/칩 | BF16 918 TFLOPS · INT8 1,836 TOPS | FP8 약 4,614 TFLOPS · BF16 약 2,300 TFLOPS(추정) |
| HBM(고대역폭 메모리) | 32GB · 1,638 GiBps | 192GB HBM3E · 약 7.4 TB/s |
| 용도 | 학습·추론 겸용 | 추론 특화 |
| 세대 개선 | v5e 대비 칩당 4.7배, 에너지효율 +67% | v6 대비 약 10배(Google 발표) |
출처: Google 공식 문서, SemiAnalysis. v7은 추론 전용으로 갈라졌고 HBM 용량이 6배로 뛰었다.
여기서 공학적으로 주목할 두 가지가 있습니다.
첫째, 추론 전용으로 갈라진 v7입니다. v6 Trillium까지는 한 칩이 학습과 추론을 모두 처리했습니다. v7 Ironwood는 추론 전용으로 설계됐습니다. 이건 시장이 바뀌고 있다는 신호입니다. 모델을 만드는 학습은 일회성이지만, 만든 모델을 쓰는 추론은 사용자가 질문할 때마다 반복됩니다. 토큰 하나당 단가 경쟁이 벌어지는 추론에서, 자체 칩의 원가 우위가 곧바로 수익으로 바뀝니다. 시장 무게중심이 학습에서 추론으로 옮겨가는데, Google은 거기에 맞춰 칩을 따로 깎은 것입니다.
둘째, HBM 6배 점프(32→192GB)입니다. 추론의 병목은 연산보다 메모리입니다. 큰 모델을 서빙하려면 메모리에 모델과 대화 맥락(KV 캐시)을 올려둬야 합니다. v7의 HBM3E 192GB는 큰 모델을 더 적은 칩으로 서빙하게 해줍니다. 칩 하나가 처리하는 토큰이 늘면, 토큰당 원가가 또 내려갑니다. 메모리를 키운 게 곧 단위원가를 낮추는 일이 되는 셈입니다.
출처: Google 공식 문서, SemiAnalysis
2.3 진짜 무기는 스펙이 아니라 컴파일러다
스펙 표만 보면 TPU의 피크 성능은 NVIDIA 최신 GPU와 비슷하거나 약간 못 미칩니다 (SemiAnalysis는 v7 피크 FLOPS가 GB200 대비 약 10% 낮다고 봅니다). 그런데도 GCP가 원가 우위를 주장하는 근거는 스펙이 아니라 다른 데 있습니다.
TPU의 진짜 차별점은 칩 스펙이 아니라 칩과 컴파일러를 같은 팀이 동시에 설계한다는 점입니다. JAX/XLA 컴파일러(연산 그래프를 칩에 맞게 번역해 배치하는 소프트웨어)가 TPU의 시스토릭 어레이와 ICI 토폴로지를 알고 연산을 배치합니다. 그 결과 MFU(Model FLOP Utilization, 모델이 실제로 쓴 연산 비율)가 높아집니다.
⚙️ MFU가 왜 중요한가: 스펙 시트의 TFLOPS는 "이론상 최대 속도"이고, MFU는 "실제로 쓴 비율"입니다. 칩이 아무리 빨라도 MFU가 낮으면 절반이 놀고 있는 셈입니다. 100km/h를 낼 수 있는 차도 신호에 자꾸 걸리면 평균 속도가 40km/h인 것과 같습니다. 컴파일러가 신호를 줄여 평균 속도를 끌어올리는 역할을 합니다.
SemiAnalysis는 JAX/XLA 스택에서 NVIDIA Blackwell 대비 높은 MFU 달성 가능성을 지적합니다 (SemiAnalysis). 이게 NVIDIA의 CUDA 락인에 대응하는 Google의 비대칭 무기입니다. NVIDIA의 해자가 "개발자가 CUDA에 익숙해서 못 떠난다"라면, Google의 무기는 "우리 칩과 우리 컴파일러가 한 몸이라 실효 성능을 더 뽑는다"입니다.
다만 여기서 정직하게 양면을 둬야 합니다. "스펙은 비슷한데 컴파일러로 실효 성능을 더 뽑는다"는 건 Google 측 주장만으로 단정할 수 없습니다. 외부 벤치마크는 다르게 나옵니다. 실제로 Artificial Analysis의 추론 토큰당 비용 지표에서는 NVIDIA가 TPU v6e 대비 약 5배 우위로 보고됩니다 (Artificial Analysis).
⚠️ 이 모순을 어떻게 읽을 것인가: 내부 TCO에선 TPU가 싸고, 외부 토큰당 비용 지표에선 NVIDIA가 앞섭니다. 이 모순은 세대(v6e vs v7)·워크로드(학습 vs 추론)·MFU 가정의 차이에서 옵니다. 그래서 이 글은 TPU 원가 우위를 "Google 내부 TCO 기준(v7 추론)"으로 한정해 서술하고, "범용 토큰당 비용 우위는 미해결"임을 함께 둡니다. 한쪽 숫자만 들고 과신하지 않는 게 이 주제를 정직하게 다루는 방법입니다.
2장 결론: TPU의 원가 우위는 스펙이 아니라 칩+컴파일러 한 몸에서 온다.
- TPU는 행렬곱에 특화된 ASIC으로, 범용성을 버린 대신 같은 전력에서 유효 연산을 더 뽑는다.
- v7 Ironwood는 추론 전용으로 갈라지고 HBM을 6배 키웠다. 토큰당 원가를 낮추는 방향이다.
- 피크 스펙은 NVIDIA와 비슷하지만, 컴파일러로 실효 성능(MFU)을 끌어올리는 게 진짜 무기다. 단 외부 토큰당 비용 지표는 반대 신호도 있어, 우위는 "v7 추론·내부 TCO"로 한정한다.
3. 마진의 정체, OPM 9.4%에서 32.9%를 분해한다
2년 만에 클라우드 영업이익률이 23.5%p 뛴 것은 매출 2배만으로 설명되지 않습니다. 네 동인(자체칩 원가우위·규모의 경제·추론 믹스·하드웨어 직판)으로 분해하면, 세 동인이 마진을 올리고 한 동인은 오히려 누르는 비대칭이 보입니다. 단 "TPU 단독 기여 몇 %p"는 회사가 공시하지 않아 누구도 단정할 수 없습니다. 이 장은 단정할 수 있는 것과 못 하는 것을 구분합니다.
3.1 관측된 사실, 가파른 급등
먼저 다툼의 여지가 없는 관측 사실입니다. 분기별 Cloud 영업이익률은 다음처럼 움직였습니다.
출처: SEC 8-K 분기 공시 2차 대조, 9to5Google
2년 만에 +23.5%p입니다. 같은 기간 매출은 분기 $9.6B에서 $20.0B로 2배가 됐습니다. 규모가 커지면 고정비가 분산되어 마진이 오르는 건 자연스럽습니다. 하지만 규모의 경제만으로 23.5%p 전부를 설명하기는 어렵습니다. 데이터센터를 더 알차게 돌렸다는 것만으로 마진이 3배 넘게 벌어지지는 않습니다. 나머지는 무엇일까요.
3.2 네 동인으로 분해, 부호와 확실성
마진 급등은 복합 원인입니다. 각 동인이 마진을 올리는지 내리는지(부호)와 얼마나 확실한지(확실성)만 분리합니다. 가중치는 단정하지 않습니다. 회사가 세그먼트별 칩 원가와 믹스를 공시하지 않기 때문입니다. 정직한 분석은 "몇 %p"를 지어내는 게 아니라, 방향이 분명한 것과 측정 불가한 것을 가르는 데서 시작합니다.
| 동인 | 부호 | 확실성 | 메커니즘 |
|---|---|---|---|
| A. TPU 자체칩 원가우위 | (+) 큼 | 중상 | NVIDIA GPU 마진과 범용 오버헤드를 건너뛰어 컴퓨트 원가 절감 |
| B. 규모의 경제 | (+) 큼 | 상 | 매출 2배, 데이터센터·판관비 고정비 분산 |
| C. 추론 믹스 전환 | (+) 중 | 중 | v7 추론특화 + HBM 192GB로 칩당 토큰↑ → 단위원가↓ |
| D. TPU 하드웨어 직판 | (−) 하방 압력 | 중 | 매출은 키우지만 하드웨어는 SW보다 마진이 낮아 OPM을 명시적으로 누름 |
세 동인(A·B·C)이 마진을 올리고, 한 동인(D)이 누른다. 각 동인의 정확한 기여 %p는 회사 미공시로 귀속 불가.
여기서 가장 중요한 통찰은 D가 마진을 누른다는 점입니다. Anthropic에 TPU를 직접 판 약 $10B 규모의 하드웨어 매출(400,000칩, SemiAnalysis)은 매출을 키우지만, 하드웨어 마진은 클라우드 서비스 마진보다 낮습니다. 즉 "OPM이 더 올랐을 수도 있는데 직판이 눌렀다"가 가능한 해석입니다. 마진 급등을 단순히 "TPU 덕분"으로 읽으면 이 비대칭을 놓칩니다. 같은 TPU가 자가소비될 때는 마진을 올리지만, 외부에 하드웨어로 팔릴 때는 마진을 끌어내리는 양면이 있는 것입니다.
개념적 시각화입니다. 화살표 길이는 방향(밀거나 누르는)을 나타낼 뿐, 정확한 기여분(%p)이 아닙니다. 회사가 세그먼트별 칩 원가·믹스를 공시하지 않아 가중치는 측정 불가입니다.
그래서 외부 합의는 현재 32.9%를 마진의 천장으로 봅니다. UBS는 Google Cloud 영업이익률이 저마진 TPU 하드웨어로의 매출 쏠림 때문에 2027년 27.3%로 하락할 것으로 전망했고(ts2.tech), Goldman Sachs도 Cloud EBIT 마진을 2026년 25.4%, 2027년 27.9%, 2028년 29.9%로 잡아 20%대 후반에 머물 것으로 봅니다(같은 기사). 회사 CFO 역시 "TPU 하드웨어 매출은 출하 시점에 따라 분기마다 변동한다"고 밝혔습니다(The Register). 다시 말해 32.9%는 안정적 런레이트가 아니라 출하 타이밍과 직판 믹스에 휘둘리는 숫자이고, 동인 D는 향후 마진을 끌어내리는 방향으로 작동한다는 것이 외부의 기본 시나리오입니다.
3.3 원가 우위의 정량 앵커, 그리고 그 한계
자체 칩이 원가에 주는 효과의 크기를 가늠할 앵커가 하나 있습니다. SemiAnalysis 분석에 따르면 v7 Ironwood의 전체 소유비용(TCO, Total Cost of Ownership)이 NVIDIA GB200 대비 약 44% 낮습니다(Google 내부 기준). 그리고 외부 고객(Anthropic)에게 GCP로 임대할 때의 가격은 GB300 NVL72 대비 효과 PFLOP당 약 30% 낮은 수준입니다 (SemiAnalysis).
이 두 숫자는 기준이 다릅니다. 44%는 자가소비 시 원가 절감률(GB200 대비, Google 내부 기준)이고, 30%는 외부 고객에게 임대할 때의 가격 인하율(GB300 NVL72 대비)입니다. 비교 대상 NVIDIA 제품(GB200 vs GB300)도, 측정 성격(원가 절감 vs 가격 인하)도 달라서, 두 비율을 빼서 단일 마진 지표로 환원할 수 없습니다. "44 빼기 30 = 14"라는 식의 계산은 성립하지 않습니다.
다만 방향은 분명합니다. Google은 자가소비할 때 컴퓨트 원가를 크게 낮춰 마진으로 챙기고, 외부에 임대할 때도 NVIDIA 기반 경쟁사보다 싸게 주면서 마진을 남길 수 있습니다. 이게 가격을 내려도 마진이 나는 이중 우위입니다(정확한 마진 폭은 기준이 달라 정량화 불가). 추론 단가 경쟁이 격화될수록 NVIDIA에 의존하는 경쟁사 대비 GCP의 마진 방어선이 깊습니다.
흥미로운 방증 하나가 있습니다. OpenAI는 TPU를 배포하지도 않은 채 협상 카드로만 쓰고도 NVIDIA 플릿 전체에서 약 30% 비용을 절감했다고 합니다 (SemiAnalysis). TPU가 "Google이 쓰는 칩"을 넘어 NVIDIA 가격결정력을 견제하는 시장 변수가 됐다는 뜻입니다. TPU의 존재 자체가 NVIDIA 가격을 누르는 압력으로 작동하는 셈입니다.
⚠️ 이 숫자들에 반드시 따라붙는 한계: ① TCO 44%는 Google 내부 주장이지 1차 공시가 아닙니다. 방향은 믿되 소수점은 믿지 마십시오. ② TPU 단독 OPM 기여 몇 %p는 귀속 불가입니다(회사 미공시). "복합 원인 중 큰 한 축"이 우리가 말할 수 있는 최대치입니다. ③ 내부 44%와 외부 30%는 기준(원가/가격, GB200/GB300)이 달라 빼서 단일 마진(14%p)으로 만들 수 없습니다. 방향만 유효합니다.
3장 결론: 마진 급등은 복합 원인이고, 천장은 시한부일 수 있다.
- OPM 23.5%p 급등은 매출 2배만으로 설명 안 된다. A(자체칩)·B(규모)·C(추론믹스)가 밀고, D(하드웨어 직판)가 누른다.
- TPU 단독 기여 %p는 회사 미공시로 측정 불가. "복합 원인 중 큰 한 축"이 최대치다.
- 외부 합의(UBS 2027 27.3%, GS 20%대 후반)는 현 32.9%를 천장으로 보고 압축을 기본 시나리오로 깐다.
4. 점유율 추격, 신규 풀에서의 독식과 2배 격차
GCP는 가장 빠르게 크는 풀(신규 AI 워크로드)에서 풀스택 가격-성능으로 점유를 가져옵니다. 성장률은 3사 중 1위지만 절대 점유율은 여전히 3위이고, 1위와는 약 2배 격차입니다. "추격 가속"이지 "역전"이 아닙니다. 그리고 점유율 숫자 자체가 측정기관마다 달라, 단일 분기·단일 기관으로 추세를 단정하면 안 됩니다. 이 장은 추격의 실체와, 그 추격 서사를 약화시키는 두 함정을 함께 봅니다.
4.1 현재 위치, 3위지만 가장 빠른
직접 확인한 Synergy Research의 Q1 2026 점유율은 다음과 같습니다.
출처: Synergy Research Q1 2026 (직접 확인)
전체 시장은 분기 $128.6B 규모로 +35% 성장 중이고, 연환산 런레이트가 처음으로 $500B를 넘었습니다(같은 출처). GCP는 이 14% 안에서 가장 빠르게 자라는 사업자입니다. 절대 점유율은 14%(Synergy Q1 2026, 1차 확인)이지만, 측정기관·분기에 따라 13~14%로 엇갈려 점유율 % 자체의 추세 방향은 단정하지 않습니다. 추격을 더 확실히 보여주는 신호는 점유율 숫자가 아니라 성장률 갭입니다. GCP 매출 성장률 +63%는 시장 성장률 +35%를 28%p나 웃돕니다.
식당 체인으로 보면, 전체 외식 시장이 커지는 가운데 신규로 생기는 손님(AI 워크로드)을 GCP가 더 많이 잡아채고 있는 그림입니다. 다만 기존 단골(레거시 워크로드)은 여전히 1위 체인(AWS)에 묶여 있습니다. 새로 들어오는 손님은 GCP가 많이 받지만, 이미 자리 잡은 손님은 잘 안 옮긴다는 뜻입니다.
4.2 기술이 점유율로 전환되는 경로
기술 우위가 그냥 점유율이 되지는 않습니다. 어떤 경로로 전환되는지를 봅니다.
| 메커니즘 | 점유 효과 | 근거 |
|---|---|---|
| 풀스택 가격-성능 | 신규 AI 워크로드 획득 | TCO 30~44% 우위 → 대형 AI랩 유입(Anthropic 100만칩 계약) |
| Gemini 모델 차별화 | AWS와의 차별점 | AWS는 자체 플래그십 모델 부재, GCP는 칩+모델 원스톱 |
| Vertex / Gemini Enterprise | 엔터프라이즈 시트 확장 | 유료 시트 8M+, QoQ +40%, Workspace 통합 |
| 대형 딜·백로그 | 미래 점유 선점 (단 단일 고객 집중·순환 리스크) | RPO(백로그) Q1 2026 $462B, QoQ +92%. 단 40%+가 Anthropic 단독 약정 |
가장 강력한 동력은 신규 AI 워크로드 풀에서의 독식 능력이다. 단 백로그는 질을 따져야 한다(4.3).
가장 강력한 점유 동력은 신규 AI 워크로드 풀에서의 독식 능력입니다. AI는 클라우드 성장의 절반을 차지하는 가장 빠른 풀인데, 여기서 풀스택 가격-성능이 직접 작동합니다. Anthropic의 TPUv7 100만칩 계약(직판 40만 + GCP 임대 60만, SemiAnalysis)이 대표 사례입니다. 또한 백로그(RPO, 잔여계약의무)는 미래 점유를 보여줍니다. Q1 2026 $462B는 GCP 연매출(약 $80B ARR)의 약 6배로, 수요 가시성이 비정상적으로 높습니다 (TIKR). 엔터프라이즈 쪽에서도 Gemini Enterprise 유료 시트가 8M+(2,800개+ 기업, QoQ +40%, electroiq)로 늘고, Vertex AI에는 Gemini와 Claude를 포함한 200개+ 모델이 올라가 있습니다 (uibakery).
4.3 두 개의 함정, 측정기관 괴리와 백로그의 질
여기서 두 가지를 정직하게 짚어야 합니다. 둘 다 "GCP가 잘 나간다"는 서사를 약화시키는 방향입니다. 좋은 분석은 자기에게 유리한 숫자만 모으지 않습니다.
함정 1, 점유율은 누가 재느냐에 따라 다릅니다. Synergy 기준 GCP는 14%지만, Canalys·Omdia 같은 다른 기관 기준으로는 10~12%대로 더 낮게 잡힙니다. 분모(어디까지를 클라우드로 보느냐)가 기관마다 다르기 때문입니다. 단일 기관·단일 분기로 추세를 단정하면 점유율을 2~4%p 과대 또는 과소평가할 수 있습니다. 이 글은 시계열 일관성이 우수한 Synergy를 기준으로 삼되, 괴리 자체를 리스크로 명시합니다.
함정 2, 백로그 $462B는 질을 따져야 합니다. 세 가지를 봐야 합니다.
⚠️ 백로그 $462B를 액면 그대로 읽으면 안 되는 세 이유
① 일부는 클라우드가 아닙니다. Q1 2026 백로그가 한 분기에 +$222B 급증한 원인을 Alphabet CFO는 "엔터프라이즈 AI 수요 + TPU 하드웨어 판매 포함"이라고 밝혔습니다 (The Register). 백로그의 일부는 클라우드 서비스가 아니라 TPU 하드웨어 직판 약정이라, 이 부분을 빼야 "순수 클라우드 수요"가 보입니다.
② 한 고객에 쏠려 있습니다. Anthropic 단독 약정($200B)이 GCP 공시 백로그의 40%를 넘습니다 (letsdatascience). 이 $200B는 5년 클라우드 약정 전체 규모이고, TPU 100만칩 계약 $52B는 그 약정의 컴퓨트 하드웨어 컴포넌트로 추정되는, 스코프가 다른 수치입니다. 단 $200B가 공시 RPO $462B에 전액 포함되는지는 Alphabet이 분해를 공개하지 않아 미확정이며, "40%+"는 letsdatascience 추정 기준입니다.
③ 그 고객이 순환 관계입니다. Google은 Anthropic에 최대 $40B를 투자해 지분 약 14%를 쥔 주주이자, DeepMind로 직접 경쟁하는 상대입니다. Google이 댄 투자금이 TPU 구매로 돌아오고, 그 TPU가 모델을 돌려 매출이 다시 투자를 회수하는 구조입니다 (CNBC). 백로그를 액면 그대로 "독립적인 외부 클라우드 수요"로 읽으면 부풀려진 그림을 보게 됩니다.
이 두 함정 때문에, 이 글은 점유율 % 한 분기 숫자가 아니라 성장률 우위를 더 신뢰도 높은 신호로 봅니다. 점유율 %는 분모(전체 시장)가 더 빨리 커지면 떨어질 수도 있는 노이즈가 있지만, +63% vs +35%라는 성장률 갭은 더 안정적으로 추격을 보여줍니다. 단정은 "역전"이 아니라 "추격 가속"까지입니다.
4장 결론: 추격은 실재하지만 "역전"은 아니다.
- GCP는 3위(14%)지만 신규 AI 워크로드 풀에서 풀스택 가격-성능으로 독식한다. 성장률 갭 +63% vs +35%가 추격의 핵심 신호다.
- 점유율 %는 측정기관마다 10~14%로 엇갈리고, 백로그 $462B는 하드웨어 직판 혼입·단일 고객(Anthropic 40%+)·순환구조로 질을 할인해야 한다.
- 그래서 추격의 단정은 "역전"이 아니라 "가속"까지다.
5. 해자의 수명, 어느 층이 먼저 무너지는가
세 층의 해자는 수명이 다릅니다. 마진을 만드는 칩 우위가 가장 시한적이고(NVIDIA 도약·경쟁 자체칩·세대 노후화), 고객을 묶는 플랫폼 락인이 가장 오래갑니다(전환비용·데이터 중력). "지금 OPM 32.9%가 영구하다"는 가정은 위험합니다. 외부 애널리스트(UBS·GS)는 오히려 향후 20%대 후반으로의 하락을 기본 시나리오로 깔아둡니다. 이 장은 무엇이 이 그림을 깨뜨리는지를 먼저 못박습니다.
5.1 해자 3종의 시한성 비대칭
| 해자 원천 | 강도 | 시한성 | 무너뜨리는 힘 |
|---|---|---|---|
| TPU 원가우위 (마진 엔진) | 강(현재) | 시한적 | NVIDIA 효율 도약·경쟁 자체칩 추격·세대 노후화 |
| 풀스택 조합 | 강 | 중기 견고 | 경쟁사가 모델+칩 동시 확보 시 희석 |
| Gemini 모델 | 중 | 6~12개월 주기 변동 | 경쟁 모델 추월 |
| Vertex·Workspace 데이터 락인 | 강 | 가장 지속적 | 전환비용·데이터 중력(SW형 해자) |
핵심은 비대칭이다. 마진을 만드는 해자(칩)가 가장 빨리 무너지고, 점유를 유지하는 해자(데이터 락인)가 가장 오래간다.
여기서 핵심은 비대칭입니다. 마진을 만드는 해자(TPU 원가우위)가 가장 빨리 무너질 수 있고, 점유를 유지하는 해자(데이터 락인)가 가장 오래갑니다. 칩은 세대가 노후화되고, NVIDIA가 따라잡고, 경쟁 자체칩이 추격합니다. 반면 한 번 Workspace·Vertex에 데이터와 업무가 쌓인 고객은 쉽게 떠나지 못합니다.
식당 체인으로 보면, 식자재 공장의 원가 우위(칩)는 경쟁 체인도 공장을 지으면 따라오지만, 손님이 멤버십에 쌓아둔 예약·취향·이력(플랫폼)은 옮기기 번거롭습니다. 그래서 현재의 고마진은 시한부일 수 있고, 고객 유지력은 더 구조적이라는 게 이 글의 핵심 균형입니다.
5.2 이 판단이 틀렸다면 무엇이 관측되는가
투자 판단에서 가장 정직한 자세는 "내가 틀렸다면 무엇이 보일까"를 먼저 박아두는 것입니다. 아래는 이 글의 핵심 주장(TPU 해자가 강하고 마진 기여가 크다)이 무너질 조건입니다.
| 반증 조건 | 추적 지표·임계값 | 무엇을 뒤집나 |
|---|---|---|
| NVIDIA가 추론 토큰당 비용 우위를 유지·확대 | Artificial Analysis 토큰당 비용: v7 GA 이후에도 NVIDIA 우위 지속 시 | 마진 기여(3장)가 과대평가였음 |
| Cloud OPM이 매출 성장에도 정체·하락 | OPM 2개 분기 연속 하락 또는 30% 이탈 (UBS 2027 27.3%·GS 20%대 후반) | 마진 동인이 일회성(직판·믹스)이었음 |
| 하이퍼스케일러 자체칩이 GCP 가격-성능 우위 소거 | AWS Trainium·Azure Maia가 동등 TCO 달성 + 고객 이탈 | 조합 성숙도 해자의 수명 단축 |
| Gemini 모델이 경쟁에 추월당함 | 주요 벤치마크에서 Gemini 플래그십이 2위권 밖 이탈 지속 | 칩+모델 조합의 점유 획득 엔진 약화 |
| 백로그의 질 저하 (단일 고객·지급능력) | Anthropic 멀티소싱·이탈 또는 자금 사정 악화로 $200B 약정 차질 | 백로그 40%+ 단일 고객 의존·순환구조가 외부 수요 테제를 약화 |
가장 임박하고 치명적인 건 첫 번째다. 3장의 마진 논리 전체가 'TPU 실효 경제성이 NVIDIA보다 낫다'에 걸려 있다.
이 중 가장 임박하고 치명적인 건 첫 번째입니다. 3장의 마진 기여 논리 전체가 "TPU 실효 경제성이 NVIDIA보다 낫다"에 걸려 있는데, Artificial Analysis 지표에는 "추론 토큰당 비용은 NVIDIA가 약 5배 우위"라는 반대 신호가 공존합니다. 이 모순은 세대·워크로드·MFU 가정 차이에서 옵니다. 그래서 이 글은 처음부터 마진 우위를 "v7 추론·Google 내부 TCO"로 한정했습니다.
실무적으로는 분기마다 모든 지표를 다 볼 필요는 없습니다. 세 가지 센서만 봐도 충분합니다. 첫째, 분기 Cloud OPM이 30% 아래로 두 분기 연속 빠지는가. 둘째, Artificial Analysis의 v7 추론 토큰당 비용이 NVIDIA를 앞서는가. 셋째, 백로그(RPO)의 분기 성장이 멈추거나 직판 비중이 마진을 희석하는가. 이 세 개가 마진·점유·수요 가시성의 핵심 센서입니다. 나머지는 이 셋이 흔들릴 때 보조로 확인하면 됩니다.
5장 결론: 고마진은 시한부, 고객 유지력은 구조적.
- 세 해자의 수명은 비대칭이다. 칩 원가우위(마진 엔진)가 가장 시한적, 데이터 락인이 가장 지속적이다.
- "OPM 32.9% 영구" 가정은 위험하다. 외부 합의는 20%대 후반 압축을 기본 시나리오로 깐다.
- 핵심 센서 셋: ① Cloud OPM 30% 2분기 연속 이탈 ② v7 추론 토큰당 비용 vs NVIDIA ③ RPO 성장·직판 비중.
이 글이 다룬 수직통합의 정량적 함의(매출 성장률·점유율 게인·마진 천장)를 종합해 적정가로 환산한 분석은 별도의 글에서 다룹니다.
주요 데이터 한눈에
마지막으로 이 글에서 쓴 핵심 수치를 한 표에 모읍니다. 모든 숫자는 출처와 함께 묶었습니다.
| 항목 | 수치 | 출처 |
|---|---|---|
| Google Cloud 분기 매출 | Q1 2024 $9.6B → Q1 2026 $20.0B (+63% YoY) | 9to5Google |
| Cloud OPM 궤적 | 9.4%(Q1'24) → 30.1%(Q4'25) → 32.9%(Q1'26) | SEC 8-K, 9to5Google |
| 클라우드 점유율(Synergy Q1'26) | AWS 28% / Azure 21% / GCP 14% | Synergy (직접 확인) |
| 전체 클라우드 시장 | 분기 $128.6B, +35% YoY, 런레이트 $500B+ | Synergy (직접 확인) |
| TPU v7 (Ironwood) | FP8 약 4,614 TFLOPS/칩, HBM3E 192GB, v6 대비 약 10배 | SemiAnalysis |
| Ironwood TCO vs GB200 (내부) | 약 44% 낮음 (원가 기준) | SemiAnalysis |
| Ironwood 임대가 vs GB300 (외부) | 약 30% 낮음 (가격, 효과 PFLOP당) | SemiAnalysis |
| Anthropic TPU 계약 | TPUv7 100만칩(직판 40만 ~$10B + 임대 60만 ~$42B). 5년 약정 전체 $200B는 스코프 다름 | SemiAnalysis |
| 클라우드 백로그(RPO) | Q1 2026 $462B (QoQ +92%) | TIKR |
| 추론 토큰당 비용(반대 신호) | NVIDIA가 TPU v6e 대비 약 5배 우위(추론 지표) | Artificial Analysis |
단일소스 표기 유지: TPU TCO(SemiAnalysis 내부 기준), Anthropic $200B(letsdatascience 추정·RPO 전액 포함 여부 미확정).
- GCP는 만년 3위지만 신규 AI 워크로드 풀에서 풀스택 가격-성능으로 독식해, 2년 만에 분기 매출 +63%·OPM 9.4%→32.9%를 만들었다.
- 마진 급등은 복합 원인이다. 자체칩·규모·추론믹스가 밀고, 저마진 TPU 직판이 누른다. TPU 단독 기여 %p는 회사 미공시로 측정 불가다.
- 세 해자의 수명은 비대칭이다. 칩 원가우위가 가장 시한적이고, Vertex·Workspace 데이터 락인이 가장 지속적이다.
- 외부 합의(UBS·GS)는 현 32.9%를 천장으로 보고 20%대 후반 압축을 기본 시나리오로 깐다. 추격의 단정은 "역전"이 아니라 "가속"까지다.