FLOPS(초당 부동소수점 연산)이란 무엇인가요?

FLOPS는 'GPU가 1초에 몇 번 계산하는가'를 나타내는 성능 단위입니다. H100 약 2,000 TFLOPS, B200 9,000 TFLOPS. TOPS와의 차이, 세대별 비교를 정리합니다.

FLOPS란? 뜻, GPU 성능 단위, TOPS와의 차이

핵심 요약

FLOPS(Floating Point Operations Per Second)는 컴퓨터가 1초에 수행하는 소수점 연산 횟수로, GPU 성능을 측정하는 핵심 단위다. 스마트폰은 약 1 TFLOPS, AI 데이터센터 GPU는 수천 TFLOPS, 약 1,000배 차이다. AI 모델 학습에 필요한 연산량이 매년 폭증하면서, FLOPS가 곧 AI 산업의 화폐가 되었다.

두 공장에 투자한다면

여러분이 두 공장에 투자한다고 해봅시다.

	공장 A	공장 B
인력	직원 10명	로봇 100대
하루 생산량	1,000개	1,000,000개
초당 생산량	~0.01개	~12개

어느 공장이 더 생산적인지 판단하려면, "1초에 몇 개를 만드는가"만 보면 됩니다. 직원 수나 공장 크기는 중요하지 않습니다. 오직 초당 생산량이 생산성의 척도입니다.

GPU도 같은 논리입니다. GPU의 "초당 생산량"이 바로 FLOPS입니다. 다만 GPU가 만드는 것은 빵이 아니라 "소수점이 있는 숫자의 계산"입니다. 1초에 계산을 더 많이 할수록 AI를 더 빠르게 훈련시킬 수 있습니다.

1초에 얼마나 계산하나?

장치별 연산 속도 비교

장치	초당 계산	FLOPS 단위
스마트폰	~1조 번	~1 TFLOPS
게이밍 PC GPU	~30조 번	~30 TFLOPS
AI GPU (A100)	~312조 번	312 TFLOPS
AI GPU (B200)	~9,000조 번	9 PFLOPS

AI 연산 기준 TFLOPS. 1 TFLOPS = 1조(10¹²) 연산/초. 1 PFLOPS = 1,000 TFLOPS.

스마트폰에서 AI GPU까지, 연산 속도의 차이는 수천 배에서 수만 배입니다. 이 차이를 숫자로 비교할 수 있게 해주는 것이 FLOPS입니다.

FLOPS란 무엇인가

FLOPS(Floating Point Operations Per Second, 초당 부동소수점 연산): 컴퓨터가 1초에 소수점이 있는 숫자를 계산할 수 있는 횟수. GPU의 "연산 속도"를 나타내는 표준 단위입니다.

"Floating Point(부동소수점)"은 소수점 위치가 고정되지 않은 숫자입니다(예: 3.14, 0.0001). AI 모델의 가중치(weights)가 모두 이 형태이기 때문에, AI 성능 = 부동소수점 연산 속도입니다.

이름이 복잡해 보이지만 본질은 간단합니다. "1초에 소수점 계산을 몇 번 하는가." 이것 하나입니다. FLOPS가 높을수록 더 빠른 GPU이고, 더 큰 AI 모델을 더 빨리 훈련시킬 수 있습니다.

GPU를 만드는 회사(NVIDIA, AMD)도, GPU를 사는 회사(Microsoft, Google)도, GPU에 투자하는 투자자도 모두 FLOPS를 기준으로 성능을 비교합니다. 반도체 업계에서 FLOPS는 "공통 언어"입니다.

왜 투자자가 FLOPS를 알아야 하나

FLOPS를 모르면 GPU 성능을 비교할 방법이 없습니다. 남는 건 가격뿐입니다. 가격만으로는 좋은 투자 판단을 할 수 없습니다.

이걸 모르면 가격밖에 볼 게 없다

FLOPS를 모르면

가격만 보는 투자자

• "H100이 $30K이니 비싸겠지"
• "AMD가 더 싸니까 좋지 않아?"
• 가격만 비교 → 본질을 놓침

FLOPS를 알면

성능 대비 가격을 보는 투자자

• "H100은 A100보다 13배 빠른데 가격은 2배"
• "TFLOPS당 달러로 세대별 효율을 비교"
• 성능/가격 비율로 비교 → 본질

가격이 2배 오른 GPU가 성능은 13배 좋아졌다면, 실질적으로 TFLOPS당 비용이 85% 싸진 것입니다. FLOPS를 알면 이런 계산이 가능해집니다.

4년 만에 160배, 이 속도가 해자다

NVIDIA의 데이터센터 GPU 성능은 4년 만에 160배 이상 향상되었습니다. 아래 차트는 이 진보의 규모를 비례적으로 보여줍니다.

NVIDIA GPU 세대별 AI 성능

TFLOPS (비례 축적)

312

4,000

9,000

50,000

A100

H100

B200

R200

출처: A100의 312 TFLOPS는 R200의 50,000 대비 0.6%에 불과하여 차트에서 거의 보이지 않습니다. 출처: NVIDIA Blackwell, GTC 2026. A100은 FP8 미지원으로 FP16 기준.

A100(312 TFLOPS)의 바는 차트에서 거의 보이지 않습니다. 이것이 4년간 기술 진보의 규모입니다. NVIDIA가 2년마다 세대를 교체하며 쌓아온 이 속도가, 경쟁사가 쉽게 따라올 수 없는 해자입니다.

해자(Economic Moat) 쉽게 이해하기

💡 핵심: FLOPS는 투자자에게 "기술 진보의 속도"를 숫자로 보여주는 도구입니다. 세대별 FLOPS 향상 폭이 곧 그 회사의 기술 경쟁력입니다.

FLOPS 리더십이 매출과 주가를 만든다

NVIDIA의 FLOPS 리더십은 추상적인 기술 우위가 아닙니다. 매출과 직결됩니다. 데이터센터 매출은 FY2023 $15.0B에서 FY2025 $115.2B로 2년간 8배 성장했습니다. 이 기간은 정확히 H100이 시장을 장악한 시기와 겹칩니다.

FLOPS 리더십의 3단계 전환

단계	메커니즘	NVIDIA 실적
① FLOPS 우위	세대별 3~10배 성능 향상	A100→H100: 13배 (FP8 기준)
② 가격 결정력	GPU 단가 인상 + 수요 초과	ASP $15K→$30K+, 납기 1년 대기
③ 재무 성과	매출·이익률 동시 상승	GM 57%→75% (FY23→FY25)

이 구조를 이해하면 왜 새 GPU 아키텍처 발표가 주가 카탈리스트인지 알 수 있습니다. H100이 본격 출하된 FY2024부터 FY2025까지 2년간, NVIDIA 데이터센터 매출은 $15B에서 $115B로 폭발했습니다. 가격을 2배 올렸는데도 수요가 넘쳤고, 그 결과 매출총이익률이 57%에서 75%로 뛰었습니다.

출처: NVIDIA FY2025 실적 발표, FY2023 실적 발표. ASP는 공식 미공개, 산업 리포트 종합 추정치.

FLOPS 격차가 시장 점유율을 만든다

NVIDIA의 AI GPU 시장 점유율은 87%입니다. AMD는 6%에 불과합니다. 이 압도적 격차의 출발점은 FLOPS입니다.

AI GPU 시장 점유율 (2024년, 매출 기준)

87%

NVIDIA

기타

AMD

FLOPS 우위는 시작일 뿐입니다. CUDA 생태계(400만 개발자, 3,500개 앱)가 이 우위를 고착시킵니다. 고객은 더 높은 FLOPS 때문에 NVIDIA를 처음 선택하고, CUDA 때문에 떠나지 못합니다. FLOPS가 "들어오는 문"이라면, CUDA는 "나가지 못하는 벽"입니다.

출처: Silicon Analysts (2024년 AI 가속기 매출 기준). 기타는 Google TPU, Amazon Trainium, Intel Gaudi 등 커스텀 ASIC 포함.

FLOPS를 읽는 법

단위 체계: T, P, E

FLOPS 숫자는 워낙 크기 때문에 접두사를 붙여 줄입니다. 킬로미터(km)가 1,000미터인 것처럼, TFLOPS는 1조 FLOPS입니다.

단위 변환

1 PFLOPS

1,000

TFLOPS

연산 횟수

10¹⁵

회/초

한글로

1,000조

회/초

투자자가 자주 만나는 단위는 세 가지입니다.

단위	크기	어디서 만나나
TFLOPS	10¹² (1조)	개별 GPU 칩 스펙 (A100 312, H100 3,958)
PFLOPS	10¹⁵ (1,000조)	최신 AI GPU (B200 9 PFLOPS), 슈퍼컴퓨터
ExaFLOPS	10¹⁸ (100경)	GPU 수백 개 랙 시스템 (GB200 NVL72: 1.44 ExaFLOPS)

참고: GFLOPS(10⁹, 기가), MFLOPS(10⁶, 메가) 등도 있지만 현대 AI GPU 논의에서는 거의 사용되지 않습니다.

정밀도가 바뀌면 숫자도 바뀐다

FLOPS를 비교할 때 가장 주의할 점이 있습니다. 같은 GPU라도 "숫자를 얼마나 정밀하게 계산하느냐"에 따라 FLOPS가 달라집니다. 정밀도를 낮추면 한 번에 더 많은 계산을 처리할 수 있기 때문입니다.

H100 하나로 보는 정밀도별 FLOPS

같은 칩인데 정밀도에 따라 230배 차이

정밀도	비트	TFLOPS	용도
FP64	64비트	~34	과학 시뮬레이션
FP32	32비트	~67	범용 연산
FP16 / BF16	16비트	~990	AI 훈련
FP8	8비트	~3,958	AI 추론
FP4	4비트	~7,916	경량 추론

출처: NVIDIA H100 데이터시트. Tensor Core, Sparsity 미적용 기준.

같은 H100인데 FP64(34)에서 FP4(7,916)까지 230배 차이가 납니다. GPU 스펙을 비교할 때 "어떤 정밀도 기준인가"를 반드시 확인해야 합니다.

앞서 GPU 세대별 차트에서 A100은 FP16, H100과 B200은 FP8, R200은 FP4 기준이었습니다. 순수하게 같은 정밀도로만 비교하면 "160배"보다 작아질 수 있습니다. 그래도 세대별 진보가 압도적이라는 사실은 변하지 않습니다.

FLOPS만으로 GPU를 비교할 수 없다

FLOPS는 GPU의 "계산 속도"만 측정합니다. 하지만 실제 AI 워크로드에서는 "데이터를 얼마나 빨리 공급하는가"도 중요합니다. 이것이 메모리 대역폭(Memory Bandwidth)입니다.

✅ 건강한 비교

FLOPS + 메모리 대역폭

H100: 4,000 TFLOPS
+ 메모리 3.4 TB/s

MI300X: 2,600 TFLOPS
+ 메모리 5.3 TB/s

MI300X가 메모리 대역폭에서 1.6배 우세. 대형 모델 추론에서 유리할 수 있습니다.

⚠️ 위험한 비교

FLOPS만

H100: 4,000 TFLOPS
MI300X: 2,600 TFLOPS

"H100이 1.5배 빠르다"

메모리 병목을 무시한 판단. 실제 워크로드에서는 결과가 다를 수 있습니다.

출처: NVIDIA H100, AMD MI300X 공식 스펙. FP8 기준 TFLOPS.

AI 추론 워크로드의 상당 부분은 "메모리 병목(memory-bound)"입니다. GPU가 계산을 기다리는 게 아니라, 메모리에서 데이터가 올 때까지 기다리는 상황이 자주 발생합니다. 이런 경우 TFLOPS보다 메모리 대역폭(TB/s)이 실질적인 성능을 좌우합니다.

FLOPS/달러: 세대마다 가성비가 좋아진다

FLOPS를 이해했으면 투자자의 진짜 질문으로 넘어갑시다. "성능이 좋은 건 알겠는데, 가격도 올리는 회사를 왜 고객이 계속 사는가?" 답은 FLOPS/달러에 있습니다.

$1,000당 TFLOPS (세대별 가성비)

단위: TFLOPS / $1,000 (높을수록 가성비 좋음)

20.8

131.9

225.0

A100

H100

B200

A100에서 B200으로 단가는 2.7배 올랐지만, $1,000당 TFLOPS는 11배 좋아졌습니다. 구매자 입장에서 B200은 A100보다 TFLOPS당 91% 저렴합니다.

💡 핵심: FLOPS/달러 개선은 "고객에게 가치 전달"과 "자사 매출총이익률 상승"을 동시에 달성하는 구조입니다. 가격을 올려도 고객이 더 싼 FLOPS를 얻는 모순적 상황. 이것이 NVIDIA 비즈니스 모델의 핵심입니다.

출처: ASP는 NVIDIA 공식 미공개. Tom's Hardware, IntuitionLabs, Northflank 종합 추정치. 각 세대 최고 AI 학습 정밀도 기준(A100=FP16, H100=FP8, B200=FP4). 정밀도가 다른 비교이므로 방향성 참고용입니다.

흔한 함정

함정 1: "TFLOPS가 높으면 무조건 빠르다"

스펙시트의 TFLOPS가 2배라고 실제 성능이 2배가 되지는 않습니다. GPU가 아무리 빨라도, 메모리가 데이터를 충분히 빠르게 공급하지 못하면 GPU는 대부분의 시간을 기다리며 보냅니다.

이것을 "compute-bound vs memory-bound"라고 합니다. AI 훈련은 대체로 compute-bound(연산이 병목)이지만, AI 추론은 대체로 memory-bound(메모리가 병목)입니다. 추론 시장이 훈련 시장보다 훨씬 커질 것으로 전망되는 지금, TFLOPS만 보는 것은 절반만 보는 것입니다.

TFLOPS는 "이론적 최대 계산 속도"입니다. 실제 AI 워크로드에서는 메모리 대역폭, 인터커넥트 속도, 소프트웨어 최적화가 함께 성능을 결정합니다. TFLOPS 하나만으로 GPU를 평가하지 마세요.

함정 2: "FP4가 FP32보다 118배 빠르니까 FP4가 더 좋다"

H100 기준으로 FP4는 7,916 TFLOPS, FP32는 67 TFLOPS입니다. 숫자만 보면 FP4가 118배 빠릅니다. 하지만 이것은 정밀도를 버린 대가입니다.

⚠️ 정밀도가 낮을수록 계산 결과의 오차가 커집니다. FP4로 AI를 훈련하면 모델 품질이 크게 떨어질 수 있습니다. 맞춤복(FP64)과 기성복(FP4)의 차이입니다.

FP4/FP8은 추론(이미 완성된 AI 모델을 실행하는 것)에 적합합니다. 훈련(AI 모델을 학습시키는 것)에는 FP16/BF16 이상의 정밀도가 필요합니다. 용도별로 적합한 정밀도가 다르기 때문에, "FP4 FLOPS가 높다"는 것이 "모든 작업에서 빠르다"를 의미하지 않습니다.

GPU 스펙을 비교할 때는 같은 정밀도끼리 비교하세요. FP8 vs FP8, FP16 vs FP16으로 맞춰야 공정한 비교입니다. 서로 다른 정밀도의 FLOPS를 비교하는 것은 100m 달리기 기록과 마라톤 기록을 비교하는 것과 같습니다.

함정 3: "스펙시트 숫자가 실제 성능이다"

GPU 제조사가 발표하는 FLOPS는 이론적 최대치(peak performance)입니다. 실제 워크로드에서는 이 수치의 50~70%만 활용되는 경우가 많습니다.

게다가 같은 하드웨어라도 소프트웨어 최적화에 따라 실제 성능이 크게 달라집니다. NVIDIA의 CUDA는 15년 이상 최적화를 축적한 생태계이고, AMD의 ROCm은 상대적으로 역사가 짧습니다. 스펙시트의 TFLOPS가 비슷해도 실제 벤치마크에서는 차이가 날 수 있습니다.

스펙시트는 이론적 최대치입니다. 실제 성능을 확인하려면 MLPerf 같은 독립 벤치마크 결과를 함께 확인하세요. "TFLOPS가 같으면 성능도 같다"는 것은 "엔진 마력이 같으면 랩타임도 같다"는 것만큼 틀린 말입니다.

이 개념이 쓰인 종목 분석

엔비디아(NVDA) 종목 분석H100→B200 FLOPS 비교

FLOPS는 GPU의 연산 속도다.

FLOPS = 1초에 소수점 계산을 몇 번 하는가. GPU 성능 비교의 표준 단위
같은 칩도 정밀도(FP64~FP4)에 따라 FLOPS가 230배 이상 달라진다. 비교 시 정밀도 기준 확인 필수
FLOPS만으로 GPU를 판단하면 안 된다. 메모리 대역폭, 소프트웨어 생태계까지 함께 봐야 진짜 성능이 보인다
투자자에게 FLOPS는 "세대별 기술 진보 속도"와 "경쟁사 격차"를 수치로 비교하는 도구다
FLOPS 리더십 → 가격 결정력 → 매출총이익률 상승. 이 연결 고리가 GPU 투자 판단의 핵심 논리다