학습 vs 추론(Training vs Inference)이란 무엇인가요?

학습은 AI 모델이 데이터로 능력을 기르는 과정, 추론은 학습된 모델로 답을 내는 과정입니다. 엔비디아 점유율은 학습 90%+ vs 추론 60~75%로 갈라집니다. 두 워크로드의 차이, 비용 구조, 함정 3가지를 의사 비유로 설명합니다.

학습 vs 추론(Training vs Inference)이란? 차이, 비용 구조, 투자 관점

핵심 요약

학습(Training)은 AI 모델이 대량의 데이터를 보며 능력을 기르는 과정이고, 추론(Inference)은 학습이 끝난 모델로 실제 답을 내는 과정이다. 2026년 전체 AI 컴퓨트의 약 3분의 2가 추론이다. 엔비디아 점유율은 학습 90% 이상, 추론 60~75%로 갈라져 있어, 두 시장의 승자는 다를 수 있다.

의대 6년 등록금과 30년 진료비, 어느 쪽이 클까

의사 한 명이 되는 데는 한 번에 큰돈이 듭니다. 의대 6년, 등록금과 생활비로 약 2억 원이 들어간다고 해봅시다. 끝나면 졸업장, 즉 능력이 남습니다.

의사로 일하는 데는 매번 작은 돈이 듭니다. 진료 한 건에 5만 원. 건당으로는 교육비의 4,000분의 1입니다. 그런데 하루 30건, 연 250일, 30년을 쌓으면 환자들이 그 능력에 지불한 진료비 총액은 약 112억 원이 됩니다. 교육비 2억 원의 56배입니다.

한 번의 교육비 vs 누적 진료비

2억 원

5만 원

112.5억 원

의대 6년 교육비

한 번

진료 1건

건당

진료 30년 누적

5만 원 × 30건 × 250일 × 30년

출처: 가상 시나리오, 자체 계산

AI도 정확히 이 구조입니다. 모델을 만드는 학습은 한 번에 큰돈이 드는 교육이고, 만든 모델을 쓰는 추론은 건당 작은 돈이 평생 쌓이는 진료입니다.

핵심 대조를 정리하면 이렇습니다.

교육(학습): 한 번에 큰돈, 끝나는 시점이 있다. 능력을 만드는 단계
진료(추론): 건당 작은 돈, 끝나는 시점이 없다. 능력으로 일하는 단계
결론: 건당 비용이 작다고 시장이 작은 게 아니다. 누적되는 쪽이 결국 더 커진다

그리고 하나 더. 의대(교육 시장)에서 돈을 버는 회사와 병원 장비(의료 시장)에서 돈을 버는 회사는 다른 회사입니다. AI에서도 마찬가지일 수 있습니다. 이것이 이 글의 핵심 질문입니다.

학습과 추론이란 무엇인가

학습(Training): AI 모델에 대량의 데이터를 보여주며 내부 파라미터(가중치)를 조정해, 정확한 출력을 내도록 능력을 기르는 과정. 추론(Inference): 학습이 끝난 모델이 새로운 입력에 대해 예측, 분류, 생성 등 실제 답을 만드는 과정 (NVIDIA Blog).

앞의 비유로 치면 학습이 의대 6년, 추론이 매일의 진료입니다. 챗봇에 질문을 던질 때 일어나는 일은 전부 추론입니다. 혁명의 해부학 8편의 비유로는 학습이 발전소 건설, 추론이 콘센트에서 전기 쓰기입니다.

⚠️ 용어 주의: 한국어 "추론"은 두 가지 영어 단어의 번역어로 쓰입니다. 이 글의 추론은 inference, 즉 학습된 모델을 실행하는 단계입니다. 요즘 뉴스에 나오는 "추론 모델"은 reasoning model, 즉 답하기 전에 혼자 길게 생각하는 모델 유형을 말합니다. 헷갈리지 않아도 됩니다. reasoning 모델이 길게 생각하는 그 과정조차, 기술적으로는 전부 inference(실행) 단계에서 일어나는 일입니다.

왜 두 단계로 나뉘는가

AI 모델의 실체는 수천억 개의 숫자(가중치) 덩어리입니다. 이 숫자들을 데이터에 맞게 조정하는 게 학습이고, 조정이 끝난 숫자들로 계산을 한 번 돌리는 게 추론입니다.

학습은 정답과의 오차를 거꾸로 전파해 가중치를 계속 고치는 작업(역전파)이라 연산량(FLOPS로 측정합니다)이 압도적으로 크고, GPU 수만 개를 몇 달씩 한 덩어리로 묶어야 합니다. 추론은 고정된 가중치로 앞 방향 계산 한 번이면 되므로, 칩 한두 개나 노트북, 휴대폰에서도 돌아갑니다 (NVIDIA Blog).

🎓 학습 = 의대 6년

1회성 대규모 프로젝트입니다. 데이터로 가중치를 조정하며 능력을 만듭니다. GPU 수만 개를 수개월 묶는 공사라서, 시작과 끝이 있습니다.

🩺 추론 = 매일의 진료

상시 운영입니다. 고정된 가중치로 질문이 들어올 때마다 답을 만듭니다. 서비스가 살아있는 한 24시간 돌아가고, 끝이 없습니다.

왜 중요한가: 같은 회사인데 점유율이 90%와 60~75%로 갈라진다

이 구분을 모르면 뉴스가 모순으로 보입니다. "엔비디아가 AI 칩 90% 독점"이라는 기사와 "구글, 아마존 자체 칩이 엔비디아를 위협"이라는 기사가 같은 날 뜨기 때문입니다. 어느 쪽을 믿어야 할까요.

둘 다 사실입니다. 다른 시장 이야기일 뿐입니다. 📈NVDA엔비디아의 점유율은 학습 시장에서 90% 초과, 추론 시장에서 60~75%로 갈라져 있습니다 (Silicon Analysts).

NVIDIA 점유율: 학습 vs 추론

90%+

60~75%

학습 (Training)

추론 (Inference)

출처: Silicon Analysts 추정

학습은 GPU 수만 개를 한 덩어리로 묶는 결합력이 결정적이라 진입장벽이 극강이고, 추론은 칩 한두 개로 돌아가 우회로(자체 칩, 경쟁 소프트웨어)가 이미 들어와 있기 때문입니다. "AI 칩 시장"이라는 한 단어로 뭉뚱그리는 순간 판단이 불가능해집니다. 학습과 추론을 분리해야 뉴스가 읽힙니다.

균열이 난 쪽이 커지는 쪽이다

투자자가 이 구분을 알아야 하는 두 번째 이유입니다. 추론은 전체 AI 컴퓨트에서 차지하는 비중이 빠르게 커지고 있습니다 (Deloitte TMT Predictions 2026).

전체 AI 컴퓨트 중 추론 비중

약 1/3

약 절반

약 2/3

2023

2025

2026E

출처: Deloitte TMT Predictions 2026

경쟁이 격화되는 시장(추론)이 점점 커지고, 독점이 견고한 시장(학습)의 비중이 줄어드는 구조입니다. 추론 시장 자체의 크기와 돈의 흐름은 별도의 심층 분석에서 다룹니다.

🔬AI 추론 시장: 훈련의 10배 규모가 열린다

2026년 추론이 훈련을 역전하는 구조, $/token 경제학, 투자자가 봐야 할 지표까지. 시장 심층 분석.

→

어떻게 보는가: 학습과 추론을 구분하는 법

세 가지로 구분합니다. 워크로드의 성격, 비용 곡선의 방향, 그리고 뉴스에 나온 단어가 어느 시장 것인지입니다.

구분법 1: 공사인가, 운영인가

구분	학습 (Training)	추론 (Inference)
성격	1회성 대규모 (프로젝트)	상시 운영 (24시간 서비스)
빈도	모델당 한 번이 기본 (사후학습·재학습은 추가 반복)	질문이 들어올 때마다, 무한 반복
규모	GPU 수만 개를 한 덩어리로 수개월	칩 1~2개, 휴대폰에서도 가능
결정 변수	클러스터 결합력, 총연산력	토큰당 비용, 전력 효율, 지연시간
병목	컴퓨트 + 네트워킹	메모리 대역폭
끝	있다 (모델 완성)	없다 (서비스가 살아있는 한)

출처: NVIDIA Blog, SemiAnalysis

여기서 토큰이란 AI가 글을 읽고 쓰는 최소 단위입니다. 추론 시장의 가격표가 "100만 토큰당 몇 달러"로 매겨지기 때문에, 추론의 경쟁력은 결국 토큰당 비용 싸움이 됩니다.

구분법 2: 비용 곡선의 방향이 정반대다

학습 비용은 오릅니다. 프론티어 모델(각 시점의 최첨단 대형 모델)의 최종 학습 비용은 2016년 이후 연 2.4배(추정 범위 2.0~3.1배)씩 상승했고, 현 추세면 2027년에는 학습 한 번에 $1B를 넘습니다 (Epoch AI).

추론 비용은 폭락합니다. 동일 성능 기준으로 연 약 10배씩 떨어집니다(LLMflation). GPT-3 수준 성능의 토큰 비용은 3년 만에 1,000분의 1이 됐습니다 (a16z). 교차 측정으로도 GPT-3.5급 추론 비용이 2년 새 약 280배 하락했습니다 (Stanford AI Index 2025).

같은 'AI 비용'인데 방향이 정반대다

학습비는 매년 2.4배 오르고, 동일 성능 추론비는 매년 약 1/10이 된다

↑ 학습 비용 (연 2.4배)

2.4x

5.8x

13.8x

학습은 입장권이 비싸지고, 추론은 단가가 녹는다

↓ 동일 성능 추론 비용 (연 약 1/10)

1/10

1/100

1/1,000

기준연도

1년 후

2년 후

3년 후

개념적 시각화입니다. 막대가 사라질 만큼 떨어지는 것이 추론비의 실제 추세입니다. 학습비는 Epoch AI(연 2.4배), 추론비는 a16z LLMflation(연 약 10배 하락) 기준.

출처: Epoch AI, a16z

의미를 짚으면 이렇습니다. 학습은 갈수록 극소수만 낼 수 있는 입장권이 됩니다(진입장벽 상승). 추론은 갈수록 단가 싸움이 됩니다(원가 경쟁). 같은 "AI 비용"인데 산업의 성격이 정반대로 갈라지는 것입니다.

구분법 3: 이 뉴스는 어느 시장 이야기인가

뉴스에 이 표현이 보이면	시장	읽는 법
"GPU 수만 장을 단일 클러스터로", "프론티어 모델 학습 비용", "NVLink·인터커넥트"	학습	1회성 공사 수주. 결합력 강자(현재 NVIDIA)에 유리한 뉴스
"토큰 가격 인하", "API 요금", "추론 전용 칩", "온디바이스 AI"	추론	상시 운영의 단가 경쟁. 커스텀 칩과 전력 효율 이야기
"커스텀 ASIC", "자체 칩 배치"	주로 추론	하이퍼스케일러의 침투는 추론부터 시작됩니다
"기가와트 데이터센터 착공", "AI 칩 시장 전망 $XXXB"	혼합	데이터센터는 학습용도 추론용도 짓습니다. 어느 워크로드용인지, 합산인지 분리인지부터 확인

여기서 NVLink란 엔비디아가 GPU 여러 개를 하나처럼 묶는 연결 기술이고, ASIC(Application-Specific Integrated Circuit, 주문형 반도체)이란 특정 작업 전용으로 설계한 칩입니다.

실제 기업에서 보는 학습 vs 추론

세 장면이 이 구분의 실전 의미를 보여줍니다. 한 회사의 두 점유율, 추론부터 침투하는 커스텀 칩, 그리고 추론의 병목인 메모리입니다.

NVIDIA: 한 회사, 두 개의 점유율

항목	수치	비고
학습 점유율	90% 초과	GPU 수만 개 결합력(NVLink)이 결정적
추론 점유율	60~75%	커스텀 실리콘과 CPU 경쟁 침투
전체 가속기 점유율	87%(2024) → 75%(2026E)	점유율은 하락
가속기 매출	$100B(2024) → $150B+(2026E)	시장이 더 빨리 커져 절대액은 증가

출처: Silicon Analysts 추정

핵심은 마지막 두 줄입니다. 점유율 하락과 매출 증가가 동시에 일어납니다. "독점 균열"과 "사상 최대 실적"이 모순이 아닌 이유가 여기 있습니다. 시장 전체가 점유율 하락보다 빠르게 크고 있기 때문입니다.

커스텀 ASIC: 침투는 추론부터 시작된다

하이퍼스케일러(아마존, 구글, 마이크로소프트, 메타 같은 초대형 클라우드 사업자)의 자체 칩이 대표적입니다. Google TPU, AWS Trainium, Microsoft Maia, Meta MTIA 같은 커스텀 ASIC은 연 44.6% 성장이 전망됩니다. 범용 GPU(연 16.1%)의 약 2.8배 속도입니다 (Introl).

커스텀 ASIC vs 범용 GPU: 성장률 전망 (~2033)

연 44.6%

연 16.1%

커스텀 ASIC

TPU·Trainium·Maia·MTIA

범용 GPU

출처: Introl 전망

규모를 보여주는 단일 사례로, Anthropic은 Claude의 추론용으로 Google TPU(Ironwood)를 100만 개 규모로 확보했습니다. 커스텀 ASIC으로는 최초의 100만 개 단위 단일 고객 사례입니다 (Introl).

왜 추론부터일까요. 추론은 칩 한두 개 단위로 돌아 결합력(NVLink)의 효력이 약하고, 자기 워크로드에 맞춘 칩으로 토큰당 비용만 낮추면 되기 때문입니다. 학습은 여전히 NVIDIA 우위입니다. 참고로 이 ASIC들은 대부분 설계만 하고 생산은 파운드리에 맡기는 팹리스 방식으로 만들어지며, 하이퍼스케일러의 거대한 Capex가 이 침투의 자금줄입니다.

SK하이닉스: 추론의 병목은 메모리다

LLM 추론에서 토큰을 만들어내는 단계는 연산이 아니라 메모리 대역폭에 묶입니다. 고정된 가중치와, 대화가 길어질수록 커지는 작업 기억(KV 캐시)을 초당 테라바이트 속도로 반복해서 읽어야 하는데, 대역폭이 모자라면 GPU가 계산 대신 대기를 합니다 (SemiAnalysis).

그래서 추론 비중이 커질수록 HBM(High Bandwidth Memory, 고대역폭 메모리)의 전략적 지위가 올라갑니다. 데이터센터급 추론 칩은 NVIDIA GPU든 하이퍼스케일러 ASIC이든 대부분 HBM을 싣습니다. 📈000660SK하이닉스가 추론 시대의 길목에 서 있는 이유입니다. 다만 전부는 아닙니다. SRAM 기반 추론 칩(Groq 등)이나 휴대폰 안에서 도는 온디바이스 추론은 HBM을 쓰지 않습니다.

흔한 함정 3가지

함정 1: "추론은 싸다니까, 추론 시장은 작은 시장이다"

건당 비용과 총비용을 혼동하는 것입니다. 진료 한 건 5만 원이 30년 쌓이면 의대 등록금을 압도하듯, 추론은 무한 반복되는 운영이라 총량이 학습을 넘어섭니다.

실제로 2026년 전체 AI 컴퓨트의 약 2/3가 추론이고, 추론 최적화 칩 시장만 $50B를 넘습니다 (Deloitte).

건당 비용이 싼 것과 시장이 작은 것은 다릅니다. 추론은 끝나지 않는 운영이라, 누적 총량은 추론이 학습을 넘어섭니다.

함정 2: "학습에서 이긴 회사가 추론도 당연히 이긴다"

두 시장의 결정 변수가 다릅니다. 학습은 수만 개 칩의 결합력, 추론은 토큰당 비용과 전력과 메모리 대역폭입니다. 종목이 다르면 우승자가 다를 수 있습니다.

같은 NVIDIA인데 학습 90%+ vs 추론 60~75%라는 숫자가 그 증거입니다 (Silicon Analysts). 커스텀 ASIC은 추론을 타깃으로 연 44.6%씩 자랍니다 (Introl).

단, 역도 성립하지 않습니다. "추론에서 갈라졌으니 독점이 끝났다"도 성급합니다. NVIDIA는 차세대 칩으로 추론 점유율 회복을 직접 노리고 있고, 그 결과는 앞으로의 데이터가 답합니다(혁명의 해부학 8편의 반증 조건).

학습 시대의 성적표로 추론 시대의 승자를 단정하지 마세요. 결정 변수가 다른 두 경기입니다. 단, "독점이 끝났다"는 단정도 똑같이 성급합니다.

함정 3: "추론이 2/3가 된다는 전망 수치를 액면대로 믿는다"

비중 전망은 기관마다 정의(컴퓨트 사이클, 지출, 전력)와 시점이 제각각입니다. Deloitte는 2026년 컴퓨트의 약 2/3이 추론이라 보고, 다른 집계는 2026년 AI 인프라 지출의 55%라 하고, 또 다른 시장조사는 클라우드 추론 용량이 2033년에야 학습을 추월한다고 봅니다. 같은 질문에 답이 2026년에서 2033년까지 벌어집니다.

게다가 추론 단가가 연 10배씩 떨어지고 사용량은 폭증하는 시장이라, 전망의 전제가 빠르게 낡습니다. 비중 수치를 인용할 때는 기관명, 측정 대상, 시점을 함께 확인하세요. TAM의 CAGR을 읽을 때와 같은 원칙입니다.

"추론이 N%"라는 전망은 기관과 정의와 시점에 따라 2026년에서 2033년까지 벌어집니다. 숫자보다 방향(추론 비중 확대)을 믿으세요.

이 개념이 쓰인 종목 분석

혁명의 해부학 8편: 컴퓨트, GPU 독점은 영원한가이 구분이 투자 판단에 쓰이는 본편 엔비디아(NVDA) 종목 분석학습·추론 점유율과 밸류에이션 SK하이닉스 종목 분석추론의 메모리 병목과 HBM

학습은 한 번 짓는 공사, 추론은 평생 도는 운영이다

학습은 모델이 데이터로 능력을 기르는 1회성 대규모 과정, 추론은 학습된 모델로 답을 내는 상시 운영입니다.
두 시장의 결정 변수가 다릅니다. 학습은 클러스터 결합력, 추론은 토큰당 비용과 전력과 메모리 대역폭입니다.
비용 곡선이 정반대입니다. 학습비는 연 2.4배 오르고, 동일 성능 추론비는 연 약 10배 떨어집니다.
그래서 승자가 갈릴 수 있습니다. NVIDIA 점유율은 학습 90%+, 추론 60~75%입니다.
"추론이 전체의 N%"라는 전망은 기관과 정의와 시점마다 다릅니다. 숫자가 아니라 방향을 믿으세요.