딥시크(DeepSeek)는 무엇을 '빼서' 세상을 흔들었나
작은 중국 팀이 1/10 비용으로, 무료로, 모든 레시피를 공개하며 만든 AI.
그 충격의 정체를 '무엇을 더했나'가 아니라 '무엇을 뺐나'로 분해합니다.
딥시크(DeepSeek)는 671B 파라미터 중 토큰당 37B만 켜는 MoE 구조, 기억을 압축하는 MLA 어텐션, 모범 풀이 없이 정답만 채점하는 순수 강화학습으로 학습과 추론 비용을 경쟁사의 약 1/10로 낮춘 중국 AI입니다. 2025년 1월 27일 이 모델이 무료로 공개되자 엔비디아 시가총액이 하루에 약 $589B 증발했습니다. 핵심은 새 부품을 더한 것이 아니라, 업계가 필수라 믿은 부품을 떼어낸 것이었습니다.
프롤로그. 6천억 달러가 증발한 날
2025년 1월 27일, 미국 증시가 열리자 📈NVDA엔비디아 주가가 하루 만에 약 17% 빠졌습니다. 시가총액으로는 약 $589B가 증발했고, 이는 보도 기준으로 미국 증시 사상 단일 종목 하루 최대 손실로 기록되었습니다 (보도 기반 수치이며 독립 검증은 미완입니다, Tom's Hardware). 방아쇠를 당긴 것은 실적도, 규제도 아니었습니다. 며칠 전 중국의 한 작은 팀이 공개한 AI 모델 하나였습니다.
그 모델의 이름은 딥시크였습니다. 충격의 크기는 세 가지가 겹쳐 만들어졌습니다. 첫째, 성능이 미국 최상위 모델과 견줄 만했습니다. 둘째, 그걸 경쟁사의 약 1/10 비용으로 만들었다고 했습니다. 셋째, 그 모든 것을 무료로, 그리고 만드는 방법까지 통째로 공개했습니다.
여기서 대부분의 기사는 "중국이 미국을 따라잡았다"거나 "천재들이 기적을 만들었다"는 이야기로 갔습니다. 이 글은 다른 길로 갑니다. 딥시크가 한 일을 자세히 뜯어보면, 그것은 무언가를 더 똑똑하게 발명한 이야기가 아니라, 업계가 "이건 반드시 있어야 한다"고 믿어온 부품들을 하나씩 떼어낸 이야기에 가깝습니다.
한 가지는 미리 정직하게 짚고 가겠습니다. 무언가를 떼어내려면 그 빈자리를 메우는 영리한 장치를 같이 더해야 했습니다. 그래서 이 글이 말하는 뺄셈의 알맹이는, 무엇을 더했느냐가 아니라 '무엇을 빼도 되는지를 알아낸' 영리함입니다. 떼어낸 자리마다 작고 효율적인 보상 장치가 들어갔고, 그 교환의 결과가 1/10이라는 숫자였습니다.
이 글은 세 가지를 차례로 추적합니다. 첫째, 딥시크는 무엇을 뺐는가 (1장, 2장, 3장). 둘째, 그 뺄셈이 왜 업계의 통념을 깼는가. 셋째, 그래서 정말로 흔들린 것은 무엇이었는가 (4장, 5장). 그리고 마지막에, 그들이 끝내 빼지 못한 단 하나를 봅니다.
엔지니어의 시선으로 읽겠습니다. 우리는 AI를 만드는 사람들이고, 이런 사건은 "주가가 어떻게 됐나"보다 "설계가 무엇을 증명했나"로 읽힐 때 가장 많은 것을 알려줍니다. 주가는 첫날의 감정이고, 설계는 그 뒤로도 남는 사실이기 때문입니다.
1장. 첫 번째 뺄셈: 일을 다 켜지 않는다 (MoE)
1.1. 똑똑해지려면 뇌를 키워야 하는데, 키우면 비용이 터집니다
AI 모델이 똑똑해지는 가장 확실한 방법은 파라미터(뇌의 신경망 연결 개수)를 늘리는 것입니다. 연결이 많을수록 더 많은 지식과 패턴을 담을 수 있기 때문입니다. 그런데 여기에 함정이 있습니다. 전통적인 모델, 업계 용어로 dense 모델(밀집 모델, 질문 하나에 신경망 전체가 빠짐없이 동원되는 구조)은 질문 하나에 답할 때마다 뇌 전체를 처음부터 끝까지 통째로 가동합니다.
비유하자면 환자가 손가락을 베여 와도 병원의 모든 의사가 한꺼번에 달려드는 것과 같습니다. 안과 의사도, 신경외과 의사도, 마취과 의사도 전부 호출됩니다. 뇌를 두 배로 키우면, 손가락을 베인 환자 한 명을 보는 데도 두 배의 의사가 동원됩니다. 똑똑해질수록 질문 하나당 비용이 정비례로 커집니다.
이것이 거대 모델의 근본 딜레마였습니다. 성능을 올리려면 모델을 키워야 하는데, 키우는 만큼 매 질문의 비용이 같이 부풀어 올랐습니다. 업계는 이 비례 관계를 자연법칙처럼 받아들였습니다. "큰 모델은 원래 비싸다"가 상식이었습니다.
1.2. 671개를 알지만, 일은 37개만 시킨다
딥시크는 이 딜레마를 MoE(Mixture of Experts, 혼합 전문가) 구조로 풉니다. 뇌 전체를 통째로 굴리지 않고, 여러 명의 "전문가"로 나눈 뒤 질문마다 일부만 깨웁니다.
딥시크-V3는 총 671B(6,710억) 파라미터를 가지고 있지만, 토큰(단어 조각) 하나를 처리할 때 실제로 켜지는 것은 37B(370억)뿐입니다 (DeepSeek-V3 Technical Report, arXiv:2412.19437). 비율로 보면 약 5.5%만 일합니다. 나머지 94.5%는 그 토큰에 대해서는 잠들어 있습니다.
출처: DeepSeek-V3 Technical Report (arXiv:2412.19437)
한 문장으로 줄이면 이렇습니다. 지식은 671개, 일하는 건 37개. 종합병원으로 비유하면, 병원 안에는 모든 진료과가 다 갖춰져 있지만(671B의 지식), 접수처가 환자의 증상을 보고 해당 전문의 몇 명만 호출하는 것입니다(토큰당 37B). 심장 환자에게 정형외과 의사까지 부르지 않습니다. 모든 과가 존재한다는 것과, 환자 한 명에게 모든 과가 달려든다는 것은 전혀 다른 이야기입니다.
여기서 핵심 부품이 하나 등장합니다. 어떤 전문가를 깨울지 정하는 라우터(router, 접수처 역할을 하는 작은 신경망)입니다. 라우터는 들어온 토큰을 보고 "이건 수학 전문가와 코드 전문가에게 보내자"라고 즉석에서 판단해 길을 터줍니다. 아래 그림이 그 구조입니다.
개념적 시각화입니다. 실제 V3는 라우팅 전문가 256개 중 토큰당 8개에 공유 전문가 1개를 더해 활성화합니다. 그림은 구조를 단순화해 8개로 표현했습니다. 출처: DeepSeek-V3 Technical Report (arXiv:2412.19437).
1.3. "GPU는 어차피 사놨는데, 켜진 양이 왜 비용인가요?"
이 글의 독자가 가장 막히는 지점이 여기입니다. "GPU(그래픽 처리 장치, AI 연산을 담당하는 칩)는 어차피 한 번 사두면 그만 아닌가요? 켜진 파라미터가 적든 많든 GPU는 똑같이 돌아가는데, 왜 그게 비용을 줄이죠?"
핵심은 비용의 단위입니다. AI 추론(inference, 학습이 끝난 모델이 실제 질문에 답하는 과정)의 비용은 GPU를 "몇 대 샀나"가 아니라 "GPU를 몇 시간 굴렸나(GPU-시간)"로 매겨집니다. GPU는 시간당 요금을 받는 택시와 같습니다. 택시를 한 대 불러놨다고 공짜가 아니라, 미터기가 시간으로 돌아갑니다. 자기 GPU를 쓰더라도 전기료와 기회비용이 시간으로 흐릅니다.
질문 하나에 671B를 다 켜면 그 한 질문을 처리하는 데 GPU 시간이 길게 듭니다. 37B만 켜면 같은 GPU로 같은 시간에 훨씬 많은 질문을 처리합니다. 즉 처리량(throughput, 같은 시간에 끝내는 일의 양)이 올라가고, 질문 하나당 GPU-시간이 줄어드니 단가가 내려갑니다. 택시 미터기를 훨씬 느린 속도로 돌린 셈입니다.
여기서 정직하게 짚을 것이 하나 있습니다. 줄어드는 것은 "연산(계산량)"이지 "메모리"가 아닙니다. 질문마다 37B만 켜더라도, 어떤 전문가가 호출될지 미리 알 수 없으므로 671B 전체를 GPU 메모리(VRAM)에 항상 올려두어야 합니다. 그래서 MoE는 GPU의 "대수"는 줄여주지 못합니다. 큰 모델을 돌리려면 여전히 많은 GPU가 필요합니다. MoE가 줄이는 것은 "질문 하나를 처리하는 데 드는 계산 시간"이지, "장비를 몇 대 갖춰야 하나"가 아닙니다.
이 구분이 1장과 2장을 가르는 핵심입니다. 켜는 연산량 자체는 671 대 37, 즉 약 18분의 1로 줄어듭니다. 그런데도 이 글 전반에서 말하는 비용 절감이 18분의 1이 아니라 10분의 1 수준에 그치는 이유가 바로 여기 있습니다. 671B를 통째로 메모리에 올려둬야 하는 부담은 그대로이기 때문입니다. 연산은 거의 다 뺐지만 메모리는 못 뺐고, 그 못 뺀 메모리 문제는 2장이 따로 풉니다.
1.4. 인기 전문가 쏠림을, 벌점 없이 잡는다
MoE에는 고질적인 병이 있습니다. 학습을 하다 보면 몇몇 인기 전문가에게만 일이 쏠립니다. 똑똑한 전문가에게 자꾸 일을 주니 그 전문가만 더 똑똑해지고, 나머지는 놀게 됩니다. 그러면 671B 중 일부만 제대로 학습되어 모델 전체가 비효율적이 됩니다. 비싼 전문의를 잔뜩 고용해놓고 몇 명만 과로하고 나머지는 대기실에서 노는 병원과 같습니다.
기존 해법은 "벌점"이었습니다. 학습 목표에 보조 손실(auxiliary loss)이라는 항을 하나 더 붙여서, 일이 한쪽으로 쏠리면 모델에 벌점을 줍니다. 문제는 이 벌점이 "정답을 잘 맞히자"는 본래 목표와 충돌한다는 것입니다. 균형을 강제할수록 성능이 깎입니다. 업계는 이 트레이드오프를 어쩔 수 없는 것으로 받아들였습니다. 골고루 쓰게 만들면 똑똑함을 잃고, 똑똑하게 두면 쏠린다는 딜레마였습니다.
딥시크-V3는 이 벌점 자체를 떼어냅니다. 보조 손실 없는 부하 분산(auxiliary-loss-free load balancing)이라는 방식입니다 (DeepSeek-V3 Technical Report, arXiv:2412.19437). 전문가마다 "치우침 보정값(bias)"이라는 손잡이를 하나씩 달아두고, 일이 쏠리면 그 전문가의 손잡이를 살짝 내려 덜 호출되게, 일이 없으면 살짝 올려 더 호출되게 합니다. 마치 방마다 온도조절기를 달아 자동으로 균형을 맞추는 것과 같습니다.
핵심은 이 손잡이가 "정답을 맞히자"는 본래 목표를 건드리지 않는다는 점입니다. 균형 맞추기와 성능 내기를 분리했고, 추가 비용은 거의 들지 않습니다. 업계가 당연하다고 믿은 "균형의 대가로 성능을 깎는다"는 전제를 떼어낸 것입니다. 프롤로그에서 말한 보상적 덧셈, 즉 뺄셈의 빈자리를 메우는 영리한 장치가 바로 이 손잡이입니다.
일이 쏠리면 모델에 벌점
정답 목표와 충돌
균형을 강제할수록 성능 깎임
전문가별 보정값만 조절
정답 목표는 안 건드림
성능 유지, 추가 비용 거의 없음
1장 결론: 첫 번째 뺄셈은 연산을 뺀 것이었습니다.
결론부터 말하면, 딥시크는 큰 뇌를 작게 굴리는 법을 찾았습니다.
- 닻: 671B를 알지만 토큰당 37B만 일한다(MoE). 비용 단위는 GPU-시간이라, 켜진 양이 줄면 처리량이 오르고 단가가 내린다.
- 닻: 전문가 쏠림은 벌점이 아니라 손잡이(bias)로, 성능을 깎지 않고 거의 공짜로 잡았다.
- 단서: 줄어든 건 연산이지 메모리가 아니다. GPU 대수는 그대로다. 그래서 절감은 18분의 1이 아니라 10분의 1 수준이고, 남은 메모리 문제는 2장이 푼다.
2장. 두 번째 뺄셈: 기억을 다 들고 있지 않는다 (MLA)
2.1. 대화가 길어질수록 메모가 산더미로 쌓입니다
1장에서 연산은 줄였지만 메모리는 못 줄였습니다. 그 메모리를 가장 많이 잡아먹는 범인이 KV 캐시(Key-Value Cache, 모델이 지나간 단어마다 만들어 보관하는 중간 계산 메모)입니다.
언어 모델은 다음 단어를 예측할 때, 지금까지 나온 모든 단어를 매번 다시 참고합니다. 그런데 매번 처음부터 다시 계산하면 너무 느리니, 각 단어를 처리하면서 만든 중간 결과(Key와 Value)를 "메모"처럼 저장해둡니다. 이것이 KV 캐시입니다. 이미 적어둔 메모가 있으면 다시 계산하지 않아도 되니, 속도를 위한 저장입니다.
문제는 대화가 길어질수록 이 메모가 쌓인다는 것입니다. 문서 한 권을 통째로 넣거나 긴 대화를 이어가면, 단어 하나하나에 대한 메모가 산더미가 됩니다. 이 메모를 보관할 메모리도, 매 단어마다 이 산더미를 읽어오는 시간도 모두 비용입니다. 긴 맥락을 다루는 AI일수록 이 부담이 치명적이었습니다. 똑똑한 비서일수록 회의 내용을 빠짐없이 받아적느라 손이 묶이는 셈입니다.
출처: 개념적 시각화 (맥락 길이에 정비례로 누적되는 메모 부피)
2.2. 메모를 통째로 들지 말고, 압축해서 들자
딥시크의 해법은 MLA(Multi-head Latent Attention, 다중 헤드 잠재 어텐션)입니다. 단어마다 큰 메모를 통째로 보관하는 대신, 작은 "압축 벡터"로 눌러서 저장하고, 실제로 쓸 때 다시 펼칩니다.
회의록을 떠올리면 쉽습니다. 모든 발언을 토씨 하나 안 빼고 받아적으면(기존 KV 캐시) 종이가 산더미가 됩니다. 대신 속기사가 핵심만 압축 기호로 적어두고(압축 벡터), 나중에 필요할 때 그 속기를 풀어 문장을 복원합니다(펼치기). 보관하는 종이의 양이 확 줄어듭니다. 프롤로그에서 말한 보상적 덧셈이 바로 이 압축 벡터입니다. 기억을 떼어낸 빈자리를, 눌러 담는 영리한 장치로 메운 것입니다.
이 압축이 얼마나 강력했는지를 보여주는 정확한 수치가 하나 있습니다. 단, 이 수치의 출처를 정확히 짚어야 합니다. 딥시크-V2 논문은 직전 모델인 DeepSeek 67B와 비교해 KV 캐시를 93.3% 줄였다고 보고합니다 (DeepSeek-V2, arXiv:2405.04434). 즉 흔히 인용되는 "KV 캐시 90% 이상 감소"는 V2를 67B와 비교한 수치이며, 우리가 1장에서 본 V3 기술 보고서에는 이 퍼센트 수치가 등장하지 않습니다. 같은 MLA 계열 기술이지만, 인상적인 90%대 숫자는 "V2 대 67B" 비교에 귀속해야 정확합니다.
출처: DeepSeek-V2 (arXiv:2405.04434), 비교 대상 = DeepSeek 67B
개념적 시각화입니다. 출처: DeepSeek-V2 (arXiv:2405.04434).
2.3. 빨라진 건 계산이 빨라서가 아니라, 읽어올 게 줄어서입니다
여기서 흔한 오해 하나를 풀어야 합니다. MLA가 줄인 것은 "입력으로 넣을 수 있는 맥락의 길이"가 아닙니다. 맥락은 똑같이 길게 넣을 수 있습니다. 줄어든 것은 "단어 하나당 들고 있어야 하는 메모의 부피"입니다. 책을 짧게 읽으라는 게 아니라, 같은 책을 더 얇은 노트에 요약해 들고 다니라는 것입니다.
그리고 더 중요한 오해가 있습니다. 모델이 빨라진 이유는 "계산을 덜 해서"가 아닙니다. 추론에서 다음 단어를 생성하는 단계는 사실 계산보다 데이터 이동이 병목인 구간, 전문 용어로 memory-bound(메모리 대역폭 한계, 칩의 계산 속도가 아니라 데이터를 메모리에서 읽어오는 속도가 발목을 잡는 상태)입니다. GPU가 계산은 순식간에 하는데, 매 단어마다 그 산더미 같은 KV 캐시를 메모리에서 읽어오는 데 시간이 걸립니다.
MLA로 메모를 압축하면, 매 단어마다 읽어올 데이터가 줄어들고, 그래서 빨라집니다. 계산기를 빠르게 한 게 아니라, 계산기에 갖다 줄 종이 더미를 줄인 것입니다. 일하는 사람의 손이 빨라진 게 아니라, 그 사람 책상에 쌓인 서류 더미가 얇아져서 일이 빨라진 것과 같습니다.
2.4. 이 압축은 '원본 복원'이 아니라 '다음 단어 맞히기'를 위한 것입니다
MLA의 누르기와 펼치기 구조는 오토인코더(autoencoder, 데이터를 작게 압축했다가 원래대로 복원하도록 학습하는 신경망)와 닮았습니다. 누르기는 인코더, 펼치기는 디코더에 해당합니다. 그런데 결정적 차이가 있습니다.
일반적인 오토인코더는 "원본을 최대한 똑같이 복원하기"를 목표로 학습합니다. 반면 MLA의 압축은 그 자체를 따로 복원 학습시키지 않습니다. 모델 전체의 단 하나의 목표, 즉 "다음 단어를 잘 맞히기"를 위해 학습되는 과정에서 압축 방식이 함께 정해집니다. 그 결과 이 압축은 "원본 메모를 충실히 되살리는 것"이 아니라 "어텐션이 다음 단어 예측에 실제로 필요로 하는 정보만 보존하는 것"이 됩니다.
전문적으로는 PCA(주성분 분석), 즉 데이터에서 중요한 축만 남기고 나머지는 버리는 기법에 가깝습니다. 회의록을 그대로 복사하는 속기가 아니라, "다음 결정을 내리는 데 필요한 정보만" 남기는 요약에 가깝습니다. 버릴 건 버리고, 예측에 쓸모 있는 축만 남기는 압축입니다.
2장 결론: 두 번째 뺄셈은 메모리를 뺀 것이었습니다.
결론부터 말하면, 딥시크는 기억을 다 들지 않고 눌러 들었습니다.
- 닻: 단어마다 쌓이는 메모(KV 캐시)를 압축 벡터로 눌러 저장한다(MLA). 빨라진 이유는 연산이 아니라 읽어올 데이터가 줄어서다(memory-bound).
- 닻: 이 압축은 원본 복원이 아니라 '다음 단어 맞히기'에 필요한 것만 남긴다.
- 단서: 인상적인 'KV 90%+ 감소'는 V2를 67B와 비교한 수치이며, V3 보고서에는 이 퍼센트가 없다.
1장(연산)과 2장(메모리)을 합치면, 사람들이 말하던 '1/10 비용 추론'의 정체가 드러납니다.
3장. 세 번째 뺄셈: 스스로 깨치게 둔다 (순수 강화학습 + 공개)
3.1. 답을 바로 말하지 않고, 생각하고 말하는 모델
2024년 하반기, AI에 새로운 종류가 등장합니다. 추론 모델(reasoning model)입니다. 기존 모델이 질문을 받으면 답을 곧바로 뱉었다면, 추론 모델은 답하기 전에 "생각"을 펼칩니다. 문제를 쪼개고, 중간 단계를 적고, 검산하고, 그다음 최종 답을 냅니다. 사람이 수학 문제를 풀 때 연습장에 끄적이는 과정과 같습니다.
이 방식으로 수학과 코딩 같은, 정답이 명확한 영역에서 성능이 폭발적으로 올랐습니다. 답을 바로 내뱉는 대신 연습장을 길게 쓰게 했더니, 어려운 문제를 푸는 능력이 확 뛴 것입니다. 첫 주자는 OpenAI의 o1이었습니다. 그런데 o1이 "어떻게" 그렇게 생각하도록 학습되었는지, 그 비법은 철저히 비밀이었습니다. 업계는 "프론티어 추론 능력은 소수가 쥔 비밀"이라고 받아들였습니다.
3.2. 모범 풀이 0장, 정답만 채점했더니 스스로 검산을 시작했다
딥시크는 여기서 가장 비싼 재료를 뺍니다. 모범 풀이입니다.
추론을 가르치는 상식적인 방법은, 사람이 잘 푼 풀이 과정을 잔뜩 보여주며 따라 하게 하는 것입니다(지도 학습). 그런데 좋은 풀이 데이터를 사람이 만드는 것은 매우 비쌉니다. 박사급 인력이 문제 하나하나에 모범 풀이를 써줘야 하기 때문입니다. 딥시크는 이걸 통째로 뺐습니다. 모범 풀이를 한 장도 주지 않고, 모델이 스스로 푼 답에 대해 "정답이냐 오답이냐"만 채점하는 순수 강화학습(pure RL)으로 학습시킵니다. 이렇게 만든 것이 R1-Zero입니다 (DeepSeek-R1, arXiv:2501.12948).
채점 기준은 거의 둘뿐이었습니다. 답이 맞았는가(정확도 보상), 그리고 정해진 형식으로 답했는가(형식 보상). 풀이 과정의 질은 채점하지 않았습니다. 풀이는 보지 않고 정답만 채점하는, 무심한 채점관에 가깝습니다. 풀이 과정이 우아하든 지저분하든 상관하지 않고, 마지막 답이 맞으면 칭찬, 틀리면 무시였습니다.
그런데 이렇게 두자, 모델이 누가 시키지 않았는데도 스스로 검산을 하고, 막히면 "잠깐, 다시 보자"며 되돌아가고, 풀이를 길게 늘이기 시작했습니다. 논문은 이 순간을 "aha moment(아하 순간)"라고 표현합니다 (DeepSeek-R1, arXiv:2501.12948). 이 표현은 실제로 논문에 등장하는 단어입니다.
사람이 만든 모범 풀이 다량
풀이 과정을 따라 학습
데이터 제작 비용 큼
모범 풀이 0장
정답·형식만 채점
검산·되돌아가기가 저절로 창발
출처: 개념적 추세. 출처: DeepSeek-R1 (arXiv:2501.12948)
3.3. '기적'이라기엔, 창발은 원래 딥러닝의 본성입니다
여기서 이 글의 핵심 차별점 하나를 분명히 하겠습니다. 많은 기사가 "aha moment"를 AI가 스스로 의식을 깨친 기적처럼 묘사했습니다. 엔지니어의 시선으로는 과장입니다.
창발(emergence, 가르치지 않은 능력이 학습 도중 저절로 나타나는 현상)은 딥러닝에서 새로운 현상이 아니라 본성에 가깝습니다. 이미지 인식 신경망(CNN)이 학습하다 보면 아무도 가르치지 않아도 모서리와 질감을 잡아내는 필터가 생겨났고, word2vec은 단어 사이의 의미 관계를 스스로 벡터 공간에 배치했습니다. "가르치지 않은 능력이 학습 중에 나타나는 것"은 딥러닝이 늘 해오던 일입니다. 다만 CNN의 모서리나 word2vec의 의미 배치 같은 '표상의 창발'과, R1-Zero가 보인 검산·되돌아가기 같은 '절차·전략의 창발'은 현상의 층위가 다르다는 점은 구분해 둡니다.
추론 능력 역시 마찬가지일 수 있습니다. 다음 단어를 맞히는 사전학습(pre-training) 과정에서 모델은 이미 막대한 양의 추론 패턴을 흡수해 잠재적으로 가지고 있고, 그렇다면 순수 강화학습이 한 일은 능력을 무에서 창조한 것이 아니라 이미 안에 있던 것을 밖으로 끌어낸 것(elicit)이 됩니다. 현재 유력한 한 해석이 이것입니다. 다만 RL이 모델에 없던 능력을 새로 만드는지, 있던 능력을 끌어낼 뿐인지는 학계에서 아직 논쟁 중입니다. 한쪽은 RL이 사전학습 모델의 경계 안에 머문다고 보고, 다른 쪽은 그 경계를 넓힌다고 주장하며, 이를 가를 합의된 근거는 아직 없습니다 (Yue et al., arXiv:2504.13837 등). 그럼에도 분명한 것은 하나입니다. 'AI가 스스로 의식을 깨쳤다'는 식의 묘사는 과장이라는 점입니다.
그렇다면 딥시크가 정말로 새로 보여준 것은 무엇일까요. "기적"이 아니라 "통념을 깬 단순함" 두 가지입니다. 첫째, 채점이 풀이 끝에 단 1비트(정답이냐 오답이냐)만 주어졌는데도 그 희박한 보상만으로 긴 풀이의 어느 단계가 좋았는지를 모델이 학습해냈다는 점입니다. 이것을 신용 할당(credit assignment, 좋은 결과가 나왔을 때 그 공을 여러 단계 중 어디에 돌릴지 가려내는 문제)을 풀었다고 합니다. 둘째, 그러기 위해 업계가 필수라 믿던 비싼 지도 데이터와 과정 보상(process reward, 풀이 단계마다 일일이 점수를 매기는 비싼 채점)이 필요 없었다는 점입니다.
그러니 "aha moment"라는 표현도 정직하게 보면, 강렬한 마케팅 연출의 성격이 있습니다. 모델이 깨달음을 얻은 것이 아니라, 희박한 보상만으로도 추론이 끌려 나온다는 공학적 사실을 극적으로 이름 붙인 것입니다.
💡 핵심: 창발은 기적이 아니라 딥러닝의 본성입니다(CNN 모서리, word2vec). RL이 능력을 창조한 게 아니라 끌어낸 것(elicit)이라는 해석이 유력하나 학계 논쟁 중입니다. 진짜 새로운 것은 두 가지입니다. 끝에 1비트(정답/오답)만으로 신용 할당이 됐다는 것, 그리고 비싼 지도 데이터와 과정 보상이 불필요했다는 것.
3.4. 강화학습의 '코치'마저 떼어냈다 (GRPO)
딥시크는 강화학습 안에서도 부품 하나를 더 뺍니다. 코치(critic)입니다.
표준 강화학습 방법인 PPO(근접 정책 최적화)는, 학습 대상 모델 외에 "이 답이 얼마나 좋은가"를 점수 매기는 별도의 코치 모델(가치 모델, value model)을 함께 돌려야 합니다. 코치 모델도 본체만큼 크기 때문에, 학습 내내 메모리와 연산을 두 배로 잡아먹습니다. 선수 한 명을 훈련하는데 그 옆에 선수만큼 비싼 코치를 상시 붙여두는 셈입니다.
딥시크는 코치를 없앤 GRPO(Group Relative Policy Optimization, 그룹 상대 정책 최적화)를 씁니다 (DeepSeekMath, arXiv:2402.03300). 방법은 단순합니다. 같은 문제를 모델이 여러 번(한 그룹) 풀게 한 뒤, 그 그룹의 평균 점수를 기준선으로 삼아 각 답이 평균보다 잘했는지 못했는지를 상대평가합니다. 절대 점수를 매기는 코치 대신, 자기들끼리의 상대평가로 대체한 것입니다.
시험으로 비유하면, 채점관이 각 답안에 정밀한 점수를 매기는 대신, 같은 학생이 친 여러 번의 시험을 모아 평균을 내고 "이번엔 네 평균보다 잘 봤다"로 판단하는 상대평가입니다. 코치 모델이 사라지니 학습 비용이 또 내려갔습니다. 프롤로그에서 말한 보상적 덧셈이 바로 이 그룹 평균입니다. 코치를 떼어낸 빈자리를, 자기들끼리의 상대평가로 메운 것입니다.
학습 모델 + 별도 코치(critic) 모델
코치도 본체급 크기
메모리·연산 두 배
코치 없음
같은 문제를 여러 번 풀어 그룹 평균과 상대평가
학습 비용 절감
3.5. 진짜 펀치라인: OpenAI는 숨겼고, 딥시크는 통째로 공개했다
지금까지가 무엇을 뺐느냐의 이야기였다면, 마지막 뺄셈은 성격이 다릅니다. 딥시크는 "비밀"을 뺐습니다.
o1로 추론 모델 시대를 연 OpenAI는 그 방법을 공개하지 않았습니다. 모델 가중치도, 학습 레시피도 비밀이었습니다. 그런데 딥시크는 R1의 가중치를 MIT 라이선스로 공개했습니다. MIT 라이선스는 상업적 이용까지 거의 제약 없이 허용하는 가장 개방적인 라이선스입니다. 가중치를 공개한 모델을 오픈웨이트(open-weight, 학습이 끝난 모델의 신경망 수치를 누구나 내려받아 쓸 수 있게 푼 것)라고 부릅니다. 더 나아가, R1의 추론 능력을 작은 모델들에 옮겨 담은 증류 모델 6종까지 함께 풀었습니다 (DeepSeek-R1, arXiv:2501.12948). 누구나 내려받아 자기 컴퓨터에서 돌릴 수 있게 한 것입니다.
이것이 1월 27일 패닉의 진짜 뇌관입니다. 시장이 진짜로 놀란 것은 "중국이 싸게 만들었다"가 아니라 "프론티어 AI 능력이 더는 소수의 비밀이 아니다"라는 사실이었습니다. 비싼 자본과 독점적 비법이 만든 해자가 있다고 믿었는데, 그 레시피가 무료로 인터넷에 풀렸습니다. 다음 장에서 보겠지만, 이 사실이 무엇을 흔들었는지는 시장이 처음 반응한 것과는 꽤 달랐습니다.
3장 결론: 세 번째 뺄셈은 코치·데이터·비밀을 뺀 것이었습니다.
결론부터 말하면, 딥시크는 추론을 가르치는 비싼 재료를 차례로 떼어내고 그 방법을 공개했습니다.
- 닻: 모범 풀이 0장, 정답만 채점하는 순수 RL로 검산·되돌아가기가 창발했다(R1-Zero). 강화학습 코치(critic)마저 GRPO로 제거했다.
- 닻: 레시피를 MIT로 통째 공개하고 증류 6종까지 풀어, '프론티어 = 비밀'이라는 전제를 부정했다.
- 단서: 창발은 기적이 아니다. 'aha moment'에는 연출이 섞였고, 끌어냄(elicit)이 유력 해석이나 학계 논쟁 중이다.
4장. 그래서 진짜였나: 거품과 알맹이
4.1. 비용 의혹: "$6M"는 결승전 기름값이지 팀 창단비가 아닙니다
가장 많이 퍼진 숫자는 "딥시크가 단돈 약 $6M(600만 달러)로 프론티어 모델을 만들었다"였습니다. 이 숫자 자체는 거짓이 아닙니다. 하지만 그게 무엇을 가리키는지가 핵심입니다.
이 $6M는 딥시크-V3의 최종 학습 1회에 들어간 GPU 사용료를 환산한 값입니다. 그리고 논문은 이 점을 스스로 명시합니다. 이 비용은 "이전의 연구, 그리고 아키텍처·알고리즘·데이터에 대한 실험(ablation) 비용은 포함하지 않는다"고 적혀 있습니다 (DeepSeek-V3 Technical Report, arXiv:2412.19437).
비유하면 이렇습니다. $6M는 마라톤 결승전 당일 한 번 달리는 데 든 기름값입니다. 그 선수를 키운 코치진, 수년의 훈련, 수많은 실패한 실험은 빠져 있습니다. 외부 분석기관 SemiAnalysis는 딥시크의 GPU 확보를 포함한 누적 총투자를 약 $1.6B(16억 달러) 규모로 추정했습니다 (SemiAnalysis). 팀 창단부터 따지면 $1B을 훌쩍 넘는다는 뜻입니다.
판정은 명확합니다. 숫자는 진실, 해석이 과장이었습니다. 효율 혁신은 실재하지만, "600만 달러면 누구나 프론티어를 만든다"는 결론은 비용의 정의를 오해한 것입니다.
⚠️ 주의: "$6M = 프론티어"는 학습 1회 GPU 사용료입니다. 논문 자체가 "이전 연구·실험 비용 제외"를 명시합니다. 총투자는 $1B 이상 수준(SemiAnalysis 추정 약 $1.6B)입니다. 결승전 기름값과 팀 창단비는 다릅니다.
4.2. 칩 의혹: '밀수 H100'은 미입증, 확실한 건 규제가 효율을 낳았다는 것
두 번째 의혹은 칩입니다. "사실은 미국이 수출 금지한 최고급 칩(H100)을 몰래 들여와 만든 것 아니냐"는 주장입니다.
이 주장은 입증되지 않았습니다. 익명의 당국자 발언 수준에서 제기되었고, 엔비디아는 공식적으로 부인했습니다 (Tom's Hardware). 반면 확실하게 확인되는 사실은 정반대 방향을 가리킵니다. 딥시크는 미국이 중국 수출용으로 성능을 낮춘 H800 칩을 사용했고, 이 칩은 H100 대비 칩 간 통신 속도(NVLink 대역폭)가 의도적으로 제한되어 있었습니다(업계 분석 기준, 약 900GB/s에서 약 400GB/s 수준으로, Philisun).
칩 사이로 데이터를 빠르게 주고받지 못하니, 딥시크는 통신을 최소화하는 학습 기법을 짜낼 수밖에 없었습니다. 1장과 2장에서 본 연산·메모리 절감의 상당 부분이 이 제약에서 나왔습니다. 규제가 효율을 죽인 게 아니라, 오히려 효율 혁신을 강제한 셈입니다. 손발을 묶었더니 더 영리하게 움직이는 법을 배운 것입니다.
4.3. 증류 의혹: 정황은 짙어졌지만, 법적으로는 미확정입니다
세 번째 의혹은 증류(distillation)입니다. 큰 선생 모델의 출력을 받아 작은 학생 모델을 학습시키는 기법인데, 의혹의 핵심은 딥시크가 OpenAI 같은 경쟁사 모델의 출력을 허락 없이 받아 학습했느냐입니다.
2026년 들어 이 의혹의 정황은 짙어졌습니다. 미국 하원의 한 보고서는 딥시크가 경쟁사 모델을 증류했을 "매우 높은 확률"이 있다고 평가했고(보고서 자체가 위법으로 단정하지는 않았습니다) (Mintz, House Select Committee 보고서), Anthropic은 자사 모델에 대한 가짜 계정 약 24,000개와 약 1,600만 건의 의심 요청 정황을 언급했습니다 (CNBC).
그러나 정확히 선을 그어야 합니다. 미 법무부(DOJ)의 소송은 제기되지 않았고, 딥시크는 의혹을 부인합니다 (Rest of World). 따라서 현재 상태를 가장 정확히 표현하면 "법적으로 미확정"입니다. 정황은 있으나 확정된 위법은 아직 없습니다.
그리고 이 의혹의 범위도 정확히 한정해야 합니다. 증류 의혹은 "학습 데이터를 어디서 얻었느냐"는 데이터 출처에 관한 것이지, 3장에서 본 순수 강화학습 추론이라는 방법론 자체를 베꼈다는 것이 아닙니다. 데이터 출처가 문제라 하더라도, GRPO로 코치를 없애고 정답만으로 추론을 끌어낸 설계의 독창성은 그와 별개로 견고합니다.
| 의혹 | 주장 | 실제 | 판정 |
|---|---|---|---|
| 비용 | "$6M로 프론티어" | 학습 1회 GPU 사용료, 총투자 $1B 이상 | 숫자는 진실, 해석이 과장 |
| 칩 | "밀수 H100으로 제작" | 미입증(엔비디아 부인), H800 통신 제한은 사실 | 규제가 효율을 강제 |
| 증류 | "경쟁사 출력 도용" | 정황 짙으나 소송 없음, 딥시크 부인 | 법적 미확정 (데이터 출처 의혹 ≠ 방법론 표절) |
4.4. 종합: 물리법칙을 깬 게 아니라, 업계의 믿음을 부정했다
| 거품 (과장) | 알맹이 (실재) | |
|---|---|---|
| 비용 | "$6M면 누구나 프론티어" | 학습 효율 혁신은 진짜 (MoE·MLA·FP8) |
| 능력 | "AI가 스스로 깨친 기적" | 희박한 보상만으로 추론을 끌어낸 것은 진짜 |
| 독점 | "중국이 미국을 추월" | 프론티어가 비밀이 아니라는 증명은 진짜 |
| 출처 | (증류 정황) | 순수 RL 추론 설계의 독창성은 별개로 견고 |
한 줄로 정리하면 이렇습니다. 딥시크는 물리법칙을 깬 것이 아니라, 업계가 "반드시 비싸야 하고, 반드시 비밀이어야 한다"고 믿어온 비용·데이터·비밀을 부정하고, 그 방법을 통째로 공개했습니다. 새로운 자연법칙을 발견한 게 아니라, 낡은 믿음의 유효기간이 끝났음을 증명한 것입니다.
4장 결론: 거품을 걷어내도 알맹이는 남습니다. 효율 혁신과 공개는 진짜입니다.
- 닻: 비용은 진실이고 해석이 과장이었다. 밀수 칩은 미입증이며, 규제가 오히려 효율을 강제했다.
- 닻: 핵심은 '필수라는 믿음'의 부정이다. 비싸야 한다는 믿음, 비밀이어야 한다는 믿음을 떼어냈다.
- 단서: 증류는 법적 미확정이며, 데이터 출처 의혹이지 방법론 표절이 아니다.
5장. 무엇이 정말 흔들렸나
5.1. 같은 사실, 정반대 두 독법
1월 27일의 패닉은 하나의 사실을 두 갈래로 읽으면서 벌어졌습니다.
비관론(Bear)의 독법은 이렇습니다. AI를 1/10 비용으로 만들 수 있다면, 그만큼 GPU가 덜 필요하고, 엔비디아의 수요와 해자에 균열이 생긴다. 그래서 주식을 팔았습니다. "싸게 만들 수 있으면 덜 산다"는 단순한 직관입니다.
낙관론(Bull)의 독법은 정반대였습니다. AI가 싸지면 더 많은 곳에서 더 많이 쓰게 되어, 총 수요는 오히려 폭발한다. 이것이 제번스 역설(Jevons Paradox, 자원을 쓰는 효율이 좋아지면 오히려 그 자원의 총소비가 늘어나는 역설)입니다. 공교롭게도 마이크로소프트 CEO 사티아 나델라가 패닉 당일 제번스 역설을 직접 언급하며 이 독법을 내놓았습니다 (Fortune).
한 가지만 미리 짚어둡니다. 제번스 역설은 어디서나 성립하는 보편 법칙이 아니라, 수요의 가격탄력성에 기댄 현상입니다. 값이 내릴 때 수요가 그 이상으로 폭발할 때만(반등이 충분히 클 때만) 총소비가 늘어납니다. 그러니 어느 독법이 맞았는지는 선언이 아니라 데이터로 가려야 합니다.
AI가 싸지면 GPU 덜 필요
엔비디아 해자에 균열
팔 이유
AI가 싸지면 더 많이 쓴다
제번스 역설로 총수요 폭발
살 이유
나델라가 1월 27일 당일 제번스 역설을 직접 언급하며 낙관 독법을 대표했습니다.
5.2. 1년 뒤, 데이터는 Bear 독법을 지지하지 않았다
판단의 좋은 점은 시간이 지나면 데이터가 채점한다는 것입니다. 1월 27일 이후의 데이터는 한 방향을 가리켰습니다.
빅테크의 연간 설비투자(capex)는 줄기는커녕 폭증했습니다. 2025년 약 $300B 수준(마이크로소프트·구글·메타·아마존 4사 합산)에서 2026년 약 $660B에서 $690B 규모(오라클을 포함한 5사 가이던스 종합치)로, 거의 2배에 가까운 폭증이 예고되었습니다 (Futurum, ValueAdd VC). 📈NVDA엔비디아는 패닉 이후 오히려 신고가를 경신했고, 데이터센터 부문 매출은 FY2027 1분기(2026년 4월 26일 종료)에 약 $75.2B으로 전년 동기 대비 약 92% 늘었습니다 (엔비디아 IR).
무엇보다 추론(inference) 수요가 터졌습니다. 모델 라우팅 플랫폼 OpenRouter 기준으로 2025년 말 추론형 토큰 비중이 50%를 넘어섰고 (OpenRouter), 업계는 추론이 앞으로 학습 대비 훨씬 큰 연산 수요를 끌어낼 것으로 전망했습니다 (Introl). 딥시크가 추론을 싸게 만들자, 모두가 추론을 더 많이 쓰기 시작한 것입니다.
증기기관의 역사가 이미 보여준 일입니다. 제번스가 19세기에 관찰한 것이 바로 이것이었습니다. 증기기관이 효율적이 될수록 석탄 소비는 줄지 않고 폭발적으로 늘었습니다. 더 싸지니 더 많은 곳에서 썼기 때문입니다. AI 연산도 적어도 첫 1년은 같은 길을 갔습니다. '효율이 곧 수요 파괴'라는 Bear의 단정은, 적어도 첫 1년 동안은 들어맞지 않았습니다.
출처: Futurum·ValueAdd VC (빅테크 capex 가이던스 종합). 2025는 4사, 2026은 오라클 포함 5사라 집계 범위가 달라 단순 비례 해석에 주의.
단, 이 채점은 1년치 데이터에 기댄 잠정 결과입니다. 첫째, 같은 capex 폭증을 정반대로, 즉 과잉투자로 읽는 시각도 병존합니다. 일부 기관 분석은 AI 설비투자를 19세기 철도, 2000년대 초 통신망의 과잉건설에 빗대며 버블 가능성을 경고합니다 (Man Group). 둘째, capex 폭증이 딥시크 때문이라는 인과도 확인되지 않았습니다. 빅테크의 투자 확대는 1월 27일 쇼크 이전부터 이미 진행 중이었고, 딥시크와 capex 증가를 직접 잇는 연결은 입증된 바 없습니다 (Futurum).
적어도 첫 1년, 시장은 Bear에 표를 주지 않았습니다. 단 이는 1년치 데이터입니다.
5.3. 진짜 흔들린 건 'AI 추세'가 아니라 '가치를 먹는 층'
그렇다면 딥시크는 아무것도 안 흔든 걸까요. 아닙니다. 흔든 것은 "AI가 계속 클 것인가"가 아니라 "그 가치를 누가 먹는가"였습니다. 두 가지 이동이 일어났습니다.
첫째, 오픈웨이트가 모델 층 자체를 범용재화(commodity, 어디서 사든 비슷해서 가격 외에는 차별점이 없어진 물건)로 만들기 시작했습니다. 최고 수준에 근접한 모델을 누구나 무료로 받아 돌릴 수 있다면, "모델을 가졌다"는 것 자체로는 더 이상 비싼 값을 받기 어렵습니다.
둘째, 가치의 무게중심이 학습(training)에서 추론(inference)으로 옮겨갔습니다. 모델을 만드는 한 번의 거대한 학습보다, 그 모델을 매일 수십억 번 굴리는 추론이 실제 돈이 흐르는 곳이 되었습니다. 공장을 짓는 일보다, 그 공장이 매일 찍어내는 제품에 돈이 붙기 시작한 것입니다.
여기서 범위를 정직하게 밝혀둡니다. 가치가 밀려간 방향은 아래(칩·자본)만이 아닙니다. 위쪽, 즉 모델을 쓰는 애플리케이션·제품 층으로도 가치가 올라갔습니다. 가치는 양 끝에 쌓이고 가운데 모델 층이 얇아지는 모양에 가깝습니다. 이 글은 인프라·모델 스택의 이동에 초점을 두지만, 모델 위 앱 층 역시 가치가 모이는 또 하나의 자리이고(증류 분쟁이 드러내듯 독점 학습데이터 층, 추론을 빠르게 돌리는 소프트웨어 층도 마찬가지입니다), 그 해부는 이 글의 범위를 넘어섭니다.
5.4. 그리고 남은 천장: 지정학과 신뢰
기술이 뛰어나고 공짜라고 모두가 마음 놓고 쓰는 것은 아닙니다. 딥시크에는 비용·성능과 별개의 천장이 있습니다.
민감한 정치 주제에 대해 딥시크 모델은 답변을 회피하는 경향이 보고되었습니다. 한 평가에서는 검열성 질문의 약 85%를 거부했습니다 (Promptfoo). 데이터 측면에서는, 한국 개인정보보호위원회(PIPC)가 2025년 4월 딥시크가 이용자 동의 없이 데이터를 중국(바이트댄스 자회사 등)으로 전송한 사실을 공식 확인했습니다 (Korea Times). 그 결과 미국 해군, 의회, 국방부, NASA, 다수의 주정부 등 여러 기관이 정부 기기에서 딥시크 사용을 금지했습니다 (TechCrunch).
여기서 정직한 뉘앙스 하나를 짚겠습니다. 딥시크는 오픈웨이트라서, 데이터 전송 우려는 모델을 자기 서버에서 직접 돌리면 우회할 수 있습니다. 그러나 검열과 가치관은 다릅니다. 그것은 서버가 아니라 모델의 가중치 자체에 학습되어 박혀 있습니다. 어디서 돌리든 따라옵니다.
그래서 메시지는 이렇습니다. 비용과 성능은 필요조건이지 충분조건이 아닙니다. 딥시크-기술(공개된 방법과 가중치)은 전 세계로 퍼질 수 있지만, 딥시크-회사가 그 가치를 직접 포착하는 데에는 신뢰라는 천장이 있습니다. 싸고 강하지만 원산지를 못 믿는 제품과 같습니다.
⚠️ 신뢰 천장: 검열성 질문 약 85%를 거부했습니다(Promptfoo). 한국 PIPC는 무동의 데이터의 중국 전송을 공식 확인했습니다(2025년 4월). 미 해군·의회·국방부·NASA와 다수 주정부가 정부 기기에서 사용을 금지했습니다. 데이터 전송은 직접 구동으로 우회할 수 있으나, 검열과 가치관은 가중치에 박혀 따라옵니다.
5.5. 그들이 끝내 빼지 못한 것: 스케일의 벽
이 글은 뺄셈으로 시작했습니다. 마지막은 그들이 끝내 빼지 못한 것으로 닫겠습니다.
차세대 대형 모델(흔히 R2로 불리던) 출시가 계속 지연되었습니다. 보도에 따르면, 중국산 화웨이 어센드(Ascend) 칩으로 학습을 시도했으나 실패했고, 학습 데이터와 고급 GPU 부족이 겹쳤으며, 결국 브랜딩을 V4 쪽으로 돌렸습니다. 지연되는 사이 점유율 일부를 알리바바의 Qwen 등에 내주었습니다 (TrendForce). 정확히 한정하면, 딥시크가 망한 것이 아닙니다. V4는 내놓았습니다. 다만 "다음 프론티어 단계"에서 스케일의 벽에 막혔습니다.
이 벽에는 세 겹의 논리가 겹쳐 있습니다.
첫째, 그들을 똑똑하게 만든 바로 그 칩 제약이 다음 단계의 천장이 되었습니다. 통신이 제한된 칩으로 효율을 짜내는 데는 성공했지만, 더 큰 모델을 학습하려면 결국 더 많은, 더 빠른 연산이 필요했습니다. 국산(화웨이 어센드) 칩만으로 다음 프론티어 스케일을 학습하는 데서 막혔고, 제약이 만든 영리함은 제약된 연산 아래의 다음 스케일업 앞에서 한계를 드러냈습니다.
둘째, 해자의 본질은 "남이 못 들어오게 막는 것"인데, 효율 기술을 공개해버린 순간 그것은 해자가 아니라 모두의 입장료를 낮추는 일이 되었습니다. 오픈소스로는 남을 막을 수 없습니다. 마라톤에 비유하면, 딥시크가 푼 효율 기술은 우승 트로피나 사다리의 첫 칸이 아니라, 모두에게 나눠준 입장권이었습니다.
셋째, 가장 역설적인 부분입니다. 더 큰 모델을 만들려다 칩 제약에 막혔다는 사실은, 적어도 수출규제 아래의 딥시크에게는 연산이 여전히 병목임을 보여줍니다. 엔비디아 주식을 떨어뜨린 바로 그 팀이, 제약 속에서 연산의 벽을 자기 한계로 만난 셈입니다. 다만 이것을 '연산은 어디서나 보편적 병목'이라는 법칙으로 넓혀 읽을 수는 없습니다. 앞서 본 스케일의 벽은 화웨이 칩과 GPU·데이터 부족이라는 중국 수출규제 고유의 제약에서 온 것이고, 잘 자본화된 미국 랩에는 그대로 적용되지 않기 때문입니다.
개념적 시각화입니다. 출처: 본문 종합.
가치는 세 곳으로 밀려났습니다. 첫째, 칩과 연산입니다. 둘째, 스케일을 감당하는 자본입니다. 셋째, 유통과 신뢰입니다. 그리고 풀려버린 모델 가중치 그 자체는 범용재화가 되었습니다.
단, 한 가지는 구분해야 합니다. 가중치가 범용재화가 됐다는 것과, 프론티어급 오픈모델을 계속 찍어내는 능력이 범용재화가 됐다는 것은 다른 이야기입니다. 그 생산 능력과 거기서 따라오는 분배력, 그리고 개발자들의 인지·선택(누가 먼저 떠올리고 쓰는가)은 오히려 별개의 해자가 될 수 있습니다. 딥시크가 가중치를 공짜로 풀고도 엔터프라이즈 도입률이 오른 것이 그 방증입니다 (TechRT).
그럼에도 '모델 가중치를 가졌다'는 사실만으로 값을 받던 시대는 저물었습니다. 효율은 입장권이지 해자가 아닙니다.
5장 결론: 딥시크는 망한 게 아니라, 다음 프론티어 단계에서 스케일의 벽에 막혔습니다 (V4는 냈습니다).
- 닻: 효율을 공개해 해자가 아니라 모두의 입장료를 낮췄다. 오픈소스로는 남을 막을 수 없다.
- 닻: 가치는 칩·연산 / 스케일·자본 / 유통·신뢰로 밀려났고, 모델 가중치 자체는 범용재화가 됐다.
- 단서: 칩 제약이 영리함을 낳았지만 다음 단계의 천장이 됐다. 단 이 벽은 수출규제 고유 제약이지 보편 법칙이 아니다. 프론티어 오픈모델 생산력·분배력·개발자 인지는 별개의 해자가 될 수 있다.
- 첫 번째 뺄셈(MoE): 671B를 알지만 토큰당 37B만 켠다. 연산을 뺐습니다.
- 두 번째 뺄셈(MLA): 기억을 압축 벡터로 눌러 든다. 메모리를 뺐습니다 (KV 93.3% 감소는 V2 대 67B 기준).
- 세 번째 뺄셈(순수 RL + 공개): 모범 풀이·코치·비밀을 뗐습니다. 레시피를 MIT로 공개했습니다.
- 진짜 흔들린 것: AI 추세가 아니라 가치를 먹는 층이었습니다. 효율은 입장권이지 해자가 아닙니다.