경험을 쥔 자: 데이터는 곡괭이가 아니라 빈 칸이다
로봇 데이터는 강력한 해자일 수 있습니다. 그러나 따로 살 수 있는 곡괭이는 아닙니다. 데이터는 로봇을 많이 배치한 자에게 번들로 붙어 나오는 부산물이라, '데이터 종목'을 따로 사려는 것 자체가 범주를 잘못 짚은 것이기 때문입니다. 이 칸은 사는 칸이 아니라 피하는 칸입니다. 로봇이 배울 경험은 인터넷에 없어 누군가 직접 만들어야 하고, 그래서 데이터는 이 시리즈에서 자본으로 단숨에 못 사는 가장 까다로운 병목입니다. 그러나 그 병목을 막는 자리에 좁은 문이 서지 않습니다. 누구나 모으는 범용 데이터(집기·놓기)는 수집 단가가 2년 만에 65% 무너지고 합성과 오픈 데이터셋에 잠식되며, 합성이 못 넘던 강체 조작에 이어 변형물체와 촉각의 벽마저 2026년 들어 연쇄로 밀립니다. 마지막까지 버티는 배포특화 데이터마저 로봇을 많이 배치한 자에게 따라올 뿐이고, 그 배치 자체가 계약제조로 복제됩니다. 8편이 새로 더하는 발견은 바로 이 하향 누수입니다. 데이터의 가치는 데이터에 고이지 않고 아래의 배치와 하드웨어로 흘러내린다는 것입니다. 그래서 데이터를 가장 많이 쥔 기업은 전원 비상장이고, 깨끗이 살 상장사가 없습니다.
그 해자는 따로 살 수 있는 게 아닙니다.
데이터는 따로 살 수 있는 곡괭이가 아닙니다.
로봇을 많이 배치한 자에게 번들로 붙는 부산물이라, '데이터 종목'을 따로 사려는 것 자체가 범주를 잘못 짚은 것입니다. 이 칸은 사는 칸이 아니라 피하는 칸입니다.
로봇 데이터가 그렇게 중요하다면, 그 데이터를 가장 많이 쥔 회사를 사면 되지 않을까요. 그런데 그런 회사들에는 이상한 공통점이 하나 있습니다. 거의 전부 비상장이라는 것입니다. 왜 그런지 따라가기 전에, 이 시리즈가 무엇을 해 왔는지 한 줄로 짚겠습니다. 곡괭이란 누가 이기든 반드시 거쳐야 하는 좁은 길목, 그래서 통행료가 고이는 자리를 말합니다(그 골드러시 유래는 곡괭이를 판 자들에 정리해 두었습니다). 그 관점으로 로봇의 몸을 부위별 '칸'으로 갈라, 어느 칸에 가치가 고이는지를 한 칸씩 발굴해 왔습니다. 이번에 열 칸은 데이터입니다.
직전 편 「로봇의 뇌」는 한 가지 이상한 사실 앞에서 멈췄습니다. 로봇의 판단을 담은 모델(VLA, 보고 듣고 몸을 움직이는 비전·언어·행동 통합 모델)이 대부분 공짜로 풀렸는데, 정작 그 모델을 공짜로 푼 회사들의 기업가치는 수백억 달러로 폭발하고 있다는 것입니다. 모델이 공짜라면, 시장은 모델을 사는 것이 아닙니다. 모델 뒤에 잠긴 무언가를 사는 것이고, 그 무언가가 모델을 길들인 독점 경험 데이터라는 데까지 7편은 다리를 놓고 멈췄습니다 (7편: 로봇의 뇌).
이 편은 그 데이터 부위를 통째로 엽니다. 그리고 미리 결론을 말하면, 데이터는 우리가 따로 살 수 있는 곡괭이가 아닙니다. 데이터가 로봇을 배치한 자에게 번들로 붙는 부산물이라, 가치가 데이터에 고이지 않고 그 아래의 배치와 하드웨어로 흘러내리기 때문입니다. 이 글은 "데이터가 로봇의 마지막 해자"라는 통념을 해부해, 데이터에는 따로 떼어 살 좁은 문이 서지 않음을 입증합니다. 7편이 모델 뒤의 데이터로 가치가 흐른다는 다리를 놓았다면, 8편이 새로 더하는 발견은 그 데이터에서 가치가 다시 아래로 새어나가고 그 배치마저 복제된다는 하향 누수입니다(7편에는 "데이터는 빈 칸"이라는 명제가 없습니다). 4편에서 "롤러스크류는 가장 단단한데 깨끗이 살 수 없다"고 했던 것과 결론의 모양은 닮았지만, 이 편이 하려는 일은 단순 반복이 아닙니다. 왜 하필 데이터에는 곡괭이가 서지 않는지, 그 메커니즘을 규명하는 것이 8편의 페이로드입니다.
잣대는 자매 시리즈 「각자도생」 7편에서 세우고 이 시리즈가 부위마다 이어 온 세 관문입니다 (3편: 몸의 해부학). 첫째, 데이터는 진짜 병목인가. 둘째, 그 병목에 곡괭이가 서고, 선다면 시한 대비 단단한가. 셋째, 그 곡괭이를 우리가 살 수 있는가. 세 관문의 답이 차례로 데이터를 빈 칸으로 몰아갑니다. 데이터는 까다로운 병목이 맞고, 그래서 모두가 탐내지만, 곡괭이가 서는 자리는 좁고 빠르게 줄어들며, 그 마지막 자리조차 따로 살 수 없습니다.
1장. 데이터는 자본이 아니라 배치로만 풀리는 병목이다
로봇이 무언가를 배우려면 경험이 있어야 합니다. 그런데 언어모델이 인터넷의 글을, 비전모델이 인터넷의 이미지를 긁어 배운 것과 달리, 로봇이 배울 경험(무엇을 보고 몸을 어떻게 움직였는가)은 인터넷에 거의 없습니다. 요리법 책을 아무리 많이 읽어도 칼질의 손감각은 배워지지 않는 것과 같습니다. 누군가 로봇을 직접 움직여 한 동작씩 만들어야 그 경험이 생깁니다. 이 차이가 데이터를 까다로운 병목으로 만듭니다.
1.1 격차의 크기: 인터넷에 없는 경험
숫자가 그 격차를 보여줍니다. 오늘 쓸 수 있는 공개 로봇 데이터는 대표적인 DROID와 Open X-Embodiment를 다 합쳐도 약 5,000시간에 불과합니다. 같은 시기 언어모델은 수조 개의 토큰으로, 비전모델은 수십억 장의 이미지로 배웁니다 (Scale AI). 자릿수 자체가 다릅니다. 버클리의 켄 골드버그 교수는 이 격차를 더 날카롭게 표현합니다. 대표 로봇 모델 π0가 학습한 로봇 데이터가 사람 한 명의 1년치 분량이라면, 언어모델 Qwen이 학습한 텍스트는 사람 12만 명의 1년치에 해당해, 둘 사이에 약 10만 배의 격차가 있다는 것입니다 (골드버그 교수 추정, Science Robotics).
10만 배라는 숫자가 잘 와닿지 않는다면 이렇게 생각하면 됩니다. 언어모델은 인류가 인터넷에 쏟아 둔 글을 통째로 물려받아 출발선에 섭니다. 로봇은 그 출발선에 설 인터넷이 없어, 자기가 움직일 경험을 한 동작씩 손으로 쌓아 올려야 합니다. 같은 'AI'라는 이름을 달고 있어도, 한쪽은 도서관을 물려받았고 다른 쪽은 백지에서 시작하는 셈입니다.
자율주행과 비교하면 더 또렷합니다. UBS의 한 애널리스트는 "자율주행은 수십억 마일의 도로 데이터에 기대지만, 복잡한 환경에서 움직이는 휴머노이드의 운영 데이터는 극히 희소하다"고 말합니다 (Xinhua). 한쪽은 이미 수십억 마일을 쌓아 두었고, 다른 쪽은 거의 빈손에서 출발합니다. 휴머노이드의 경험은 아직 세상에 모이지 않은 것입니다.
1.2 단, 자본으로 못 푸는 병목이되 "유일한" 병목은 아니다
이 병목이 특별한 이유는, 돈으로 단숨에 풀리지 않기 때문입니다. 컴퓨팅 병목은 자본으로 풉니다. GPU 클러스터는 상업적으로 사 올 수 있고, 엔지니어는 더 많이 고용하면 됩니다. 그러나 데이터는 다릅니다. 한 분석은 이렇게 적습니다. "더 많은 자본은 더 많은 하드웨어를 사고 더 많은 엔지니어를 고용할 수 있지만, 존재하지 않는 학습 데이터를 만들어낼 수는 없다" (TechTimes). 세상에 아직 모이지 않은 경험은, 돈을 아무리 부어도 그 자리에서 생겨나지 않습니다. 누군가 로봇을 움직여 시간을 들여 모아야만 쌓입니다. 데이터가 자본이 아니라 시간과 배치로만 풀리는 병목이라는 점, 이것이 다음 두 관문의 답을 미리 비춥니다.
다만 데이터가 자본으로 못 푸는 병목이라고 해서 "로봇 산업의 유일하거나 최강의 병목"이라는 뜻은 아닙니다. 관절을 움직이는 정밀 액추에이터나 희토류 자석은 공급사 과점과 지정학이 거는 다른 종류의 병목이라, 이 시리즈가 4편(관절)에서 따로 잽니다. 데이터의 성격은 그것들과 달리 시간과 배치로 풀린다는 데 있고, 바로 그 성격이 함정입니다.
개념적 시각화. 막대 길이는 자릿수 격차를 개념적으로 표현한 것이다. (출처: Scale AI 공개데이터 5,000시간 · Goldberg Science Robotics 추정 · TechTimes)
1장 결론: 데이터는 자본으로 단숨에 못 사고 시간과 배치로만 쌓이는 병목이다. 단 로봇 산업의 유일·최강 병목이라고 과장하지는 않는다.
- 격차의 크기: 공개 로봇 데이터는 DROID와 OXE를 합쳐 약 5,000시간뿐이다. 언어모델은 수조 토큰, 비전모델은 수십억 이미지로 배운다. 골드버그 교수는 약 10만 배 격차로 본다.
- 자본으로 못 푼다: "존재하지 않는 학습 데이터는 자본으로 만들어낼 수 없다." 경험은 시간과 배치로만 쌓인다.
- 단 "유일 병목"은 아니다: 액추에이터·희토류 자석은 공급사 과점·지정학이 거는 다른 종류의 병목으로 4편(관절)이 따로 잰다. 데이터의 성격은 "배치로 풀리는 병목"이라는 점이다.
- 바로 이 "배치로 풀린다"는 성격이 함정이다. 그래서 곡괭이가 데이터 자체에 서는지, 아니면 배치로 새어나가는지를 2장과 3장이 잰다.
2장. 곡괭이가 세 방향에서 깎이고, 마지막 벽도 밀린다
병목이 까다로우면 곡괭이도 단단할 것 같습니다. 그러나 데이터가 희소한 것과 그 데이터를 독점할 수 있는 것은 다릅니다. 희소함은 누구나 모을 수 있게 되는 순간 곧 풀립니다. 실제로 데이터 곡괭이는 한 덩어리가 아닙니다. 누구나 모으는 범용 데이터는 세 방향에서 동시에 깎이고, 마지막까지 버티는 배포특화 데이터조차 그 벽이 2026년 들어 밀리기 시작했습니다.
2.1 잠식 ①: 수집 단가가 무너진다
첫째 잠식은 가격입니다. 사람이 로봇을 원격조종해 한 동작씩 데이터를 모으는 작업을 텔레오퍼레이션이라 합니다. 그 시간당 단가가, 한 업계 집계에 따르면 2024년 초 약 340달러에서 2025년 4분기 136달러로, 2026년 3월에는 118달러까지 떨어졌습니다. 약 65퍼센트의 하락입니다 (SVRC State of Robotics 2026, TechTimes). 이 수치는 데이터 수집을 사업으로 하는 실리콘밸리 로보틱스 센터(SVRC)의 자체 집계라 독립 검증된 1차 통계는 아니지만, 하락의 방향은 여러 정황과 맞물립니다. 리더-팔로워 방식의 수집 하드웨어가 2,000달러 아래로 내려왔고, 라벨링 도구와 데이터 포맷이 표준화되면서 같은 한 시간의 데이터를 점점 싸게 모을 수 있게 된 것입니다.
규모도 빠르게 붙습니다. 중국 쓰촨의 한 데이터 수집 센터는 완전 가동 시 하루 1만 5천 건, 연간 300만 건의 데이터를 찍어낼 것으로 전망됩니다 (Xinhua). 누구나 싸게, 많이 모을 수 있게 되면, 그렇게 모은 범용 데이터로는 통행료를 받을 좁은 문을 세울 수 없습니다.
2.2 잠식 ②: 합성데이터가 조작의 벽까지 넘기 시작한다
둘째 잠식은 시뮬레이터가 찍어내는 합성데이터입니다. 사람이 한 동작씩 모으는 실세계 데이터와 달리, 시뮬레이터(컴퓨터 속 가상 물리 공간) 안에서는 경험을 폭발적인 양으로 생성할 수 있습니다. 엔비디아의 한 로봇 학습 파이프라인은 75만 개가 넘는 합성 궤적(시간으로 환산하면 6,500시간)을 만들어 학습에 썼는데, 같은 모델이 쓴 실제 텔레오퍼레이션 데이터는 88시간이었습니다. 시간으로 따지면 합성이 실세계를 약 74대 1로 압도한 것입니다 (NVIDIA Isaac GR00T N1, arXiv).
그동안 실세계 데이터의 마지막 보루로 여겨진 것이 손으로 물건을 정교하게 다루는 조작이었습니다. 2025년까지의 조사는, 다리로 걷는 로코모션은 시뮬레이터에서 배워 실세계로 거의 그대로 옮겨지지만, 조작은 데이터 부족과 시뮬레이션 충실도의 한계로 여전히 제한적이라고 봤습니다 (Sim-to-Real 서베이, arXiv). 그런데 2026년 5월, 그 벽이 밀리기 시작했습니다. 한 연구(DexSim2Real)는 비전·언어 모델을 시뮬레이션의 사실성을 평가하는 심판으로 써서 시뮬레이터를 실세계에 맞춰 보정한 뒤, 실세계 시연 데이터를 단 한 건도 쓰지 않고(이것을 제로샷이라 합니다) 접촉이 많은 손 조작 6종에서 평균 78.2퍼센트의 성공률을 냈습니다. 이는 사람 시연으로 배운 기존 방법(66.1퍼센트 등)을 능가하고, 시뮬과 실세계의 성능 격차를 8.3퍼센트까지 좁힌 결과입니다 (DexSim2Real, arXiv). 실세계 데이터가 없어도 조작을 가르칠 수 있다는 신호입니다.
2.3 잠식 ③: 오픈 데이터셋이 기본을 상품화한다
셋째 잠식은 공개 데이터셋입니다. 누군가 모은 데이터를 누구나 가져다 쓰도록 풀어 두면, 그 데이터로는 더 이상 좁은 문을 세울 수 없습니다. 백과사전이 비싼 지식이던 시절이 있었지만, 위키피디아가 그것을 누구나 공짜로 쓰는 공유 자산으로 바꾸자 백과사전을 파는 사업이 사라진 것과 같습니다. 로봇 데이터에서도 같은 일이 벌어지고 있습니다.
허깅페이스의 로봇 데이터 허브 르로봇(LeRobot)에 올라온 데이터셋은 2024년 말 1,145개에서 2026년 5월 5만 8천여 개로 약 50배 늘었습니다 (TechTimes). 22종의 로봇과 527개 스킬을 통합한 Open X-Embodiment, 76,000개 궤적을 담은 DROID 같은 대형 공개 데이터셋도 나란히 자랍니다 (OXE, DROID). 한 업계 집계는 2026년 1분기를 "오픈소스 로봇 학습 스택이 조용히 양산 등급(production-grade)에 올라선 분기"로 부릅니다 (SVRC). 집기와 놓기 같은 기본 동작의 데이터가 공유 풀에 쌓이면, 그 기본 데이터로는 누구도 통행료를 받지 못합니다.
2.4 마지막까지 버티는 데이터조차, 독립 곡괭이는 아니다
세 방향의 잠식 끝에 무엇이 남을까요. 한때는 변형물체와 촉각이 합성으로 넘을 수 없는 실세계 데이터의 마지막 요새로 여겨졌습니다. 그러나 2026년 들어 그 벽마저 연쇄로 밀리고 있습니다. 강체 조작을 제로샷으로 넘은 DexSim2Real에 이어, 같은 해 천 같은 변형물체 조작을 순수 합성 데이터로 학습해 실세계에서 약 90퍼센트의 제로샷 성공률을 낸 연구(SIM1)가 나왔고 (SIM1, arXiv), 촉각과 힘이 핵심인 손 조작을 시뮬레이션만으로 배워 실세계로 옮기는 연구들(Tac2Real, 다지 손 힘 제어)도 잇따랐습니다 (Tac2Real, arXiv, force-based dexterous, arXiv). 강체에서 변형물체로, 다시 촉각으로 벽이 차례로 무너지는 흐름입니다. 물론 이들은 통제된 랩 환경의 특정 과제에 한정되고 비정형 실제 현장으로의 일반화는 아직 입증되지 않았지만, 방향은 분명합니다. 마지막 요새조차 영구적이지 않습니다.
그래서 이 마지막 데이터를 "단단한 곡괭이"라 부르면 함정에 빠집니다. 곡괭이는 대체 불가능성이 오래 가는 자리인데, 방금 봤듯 그 벽은 후퇴하는 방어선이기 때문입니다. 게다가 이 데이터는 그 로봇이 그 현장에 실제로 깔려 일해야만 나오는 배포특화 데이터(특정 배치 현장에 맞춰진 경험)입니다. 데이터를 따로 쥔 것이 아니라 배치를 쥔 것이고, 다음 장에서 보듯 그 배치 자체가 복제됩니다. 한 업계 보고서가 배포특화 데이터를 "지속적인 경쟁 자산(durable competitive asset)"이라 부르긴 하지만 (SVRC), 그 지속성은 영구가 아니라 가장 늦게 잠식되는 순서를 뜻할 뿐입니다.
1편이 세운 지속성 원칙이 이 자리를 정확히 비춥니다. 1편은 가치가 "대체 불가능성이 오래 유지되는 좁은 길목"에만 고이고, 표준화·양산되면 한때의 곡괭이도 흔한 흥정칩으로 무너진다고 했습니다 (1편: 지속성 원칙). 7편은 이 원칙을 두 층으로 재정식화했습니다. 한번 올라서면 되돌아가지 않는 차원과, 오르내리며 진동하는 수위입니다. 그 프레임으로 보면, 처음에는 배포특화 데이터의 축적을 비가역의 차원으로 보고 싶지만, 합성이 그 벽을 밀고 배치가 복제되는 한 이 데이터조차 순수한 차원이 아니라 진동하는 수위에 가깝습니다. 데이터에 단단히 고이는 경제적 해자는, 가장 늦게까지 버티는 자리에서도 끝내 서지 않습니다.
개념적 시각화. 위 세 줄(범용 잠식)과 아래 한 줄(연쇄로 밀리는 마지막 벽)이 모두 곡괭이가 서지 않음을 가리킨다. (출처: SVRC 단가·2층구조 · GR00T 약 74:1 · DexSim2Real·SIM1 · TechTimes LeRobot)
2장 결론: 데이터에는 좁은 문이 서지 않는다. 범용 데이터는 세 방향에서 깎이고, 마지막까지 버티는 배포특화 데이터조차 독립 곡괭이가 못 된다.
- 잠식 ① 단가: 텔레오퍼 수집 단가가 2024년 초 $340에서 2026년 3월 $118로 약 65% 하락(한 업계 집계 SVRC).
- 잠식 ② 합성: 시뮬레이터 합성이 실세계를 시간 기준 약 74:1로 양적 압도한다. 더해서 2026년 들어 강체 조작(DexSim2Real 제로샷 78.2%)에서 변형물체(SIM1 제로샷 약 90%), 촉각(Tac2Real·다지 손 힘 제어)으로 벽이 연쇄로 밀린다.
- 잠식 ③ 오픈: 공개 데이터셋 폭증(LeRobot 1,145→58,000+ 약 50배)으로 기본 동작이 상품화된다.
- 마지막 벽도 독립 곡괭이가 아니다: 촉각·변형물체의 배포특화 데이터가 가장 늦게까지 버티지만(랩 한정·일반화 미입증이라 즉각 붕괴는 아니다), ① 그 벽이 연쇄로 밀리는 중이고 ② 배치의 부산물이라 배치를 쥔 것이지 데이터를 쥔 게 아니다.
- 지속성 원칙(1편)을 7편이 차원·수위로 재정식화한 프레임으로 보면, 배포특화 데이터조차 순수 차원(비가역)이 아니라 합성·배치가 미는 수위(진동)에 가깝다. 그래서 다음 질문은 "누가 배치를 쥐고, 우리가 살 수 있는가"다.
3장. 데이터는 부품이 아니라 배치의 그림자, 그 배치도 복제된다
마지막 데이터가 배치의 부산물이라면, 그것을 어떻게 사야 할까요. 여기서 8편의 칼날이 완성됩니다. 배포특화 데이터는 따로 사는 부품이 아닙니다. 로봇을 많이 배치한 자에게 따라오는 그림자이고, 그 그림자는 따로 떼어 팔리지 않습니다.
3.1 데이터 곡괭이는 곧 배치 곡괭이다, 그런데 배치가 복제된다
피규어의 한 문장이 이 구조를 정확히 보여줍니다. "우리 로봇 무리(fleet)가 커질수록, 우리는 헬릭스(자사 AI 모델)를 위한 더 많은 데이터를 만들어낸다" (Figure AI). 데이터는 따로 사 오는 것이 아니라, 로봇을 많이 깔수록 그 로봇들이 일하면서 저절로 만들어내는 것입니다. 그래서 데이터 곡괭이는 독립된 부품이 아니라 배치 곡괭이의 그림자입니다. "데이터를 가진 회사"를 따로 찾으려는 것은 범주를 잘못 짚은 것입니다.
여기서 가장 강한 반론을 정면으로 받습니다. 로보틱스에서는 하드웨어는 복제돼도, 오래 도는 과제특화 데이터 루프(많이 배치할수록 더 좋은 데이터가 모이고, 그 데이터가 로봇을 더 똑똑하게 만들어 다시 더 많이 배치되는 데이터 플라이휠)는 따라잡기 어렵다는 주장입니다. 실제로 현장에 배치된 로봇이 2주 만에 모은 데이터로 책 식별 성능을 32퍼센트에서 71.8퍼센트로 끌어올린 사례처럼 (Robot-Powered Data Flywheel, arXiv), 데이터 플라이휠은 실제로 강력합니다. 그런데 이 강한 반론을 그대로 인정해도 8편의 결론은 흔들리지 않습니다. 오히려 단단해집니다. 데이터 루프가 정말 복제 불가능한 진짜 해자라고 인정하더라도, 그 해자는 로봇을 배치한 자(피규어·테슬라·알파벳)에게 번들로 붙어 있어 따로 떼어 살 수 없기 때문입니다. 데이터가 강력한 해자임을 인정할수록, '데이터 종목을 따로 산다'는 시도가 범주를 잘못 짚은 것이라는 결론은 더 강해집니다.
덧붙이면 그 배치마저 빠르게 흔해지는 중입니다. 2026년 중국 휴머노이드 출하는 약 94퍼센트 늘 것으로 전망되고 (TrendForce), 포장설비를 만들던 회사가 로봇 위탁생산으로 전환하기도 했습니다(데이터 단독으로는 강한 해자가 드물다는 분석과도 맞습니다, a16z). 다만 이는 보조 논거일 뿐, 데이터 루프가 강력하든 아니든 배치에 번들로 붙어 따로 살 수 없다는 핵심은 그대로입니다.
3.2 그래서 깨끗이 살 수 있는 자가 없다
그 그림자를 가장 많이 쥔 기업부터 보면, 공통점이 하나 있습니다. 전원 비상장입니다. 휴머노이드에 자기 데이터를 쌓는 피규어 AI(기업가치 약 390억 달러), 로봇 불문 범용 데이터를 모으는 피지컬 인텔리전스(약 110억 달러 협상 보도), 가정용 로봇을 준비하는 1X, "옴니바디드"를 표방하는 스킬드 AI(약 140억 달러)가 모두 비상장입니다 (Figure Series C, TechCrunch PI, TechCrunch Skild). 짚어둘 것은, 이 수백억 달러가 '데이터값'이 아니라는 점입니다. 배치·로봇·모델을 통째로 쥔 값이고, 데이터만 떼어 팔리지 않는 이유가 바로 여기 있습니다.
상장된 기업으로 눈을 돌리면, 데이터를 많이 쥔 곳은 있지만 데이터가 본업이 아닙니다. 아마존은 100만 대 규모의 로봇을 물류 현장에서 운영하지만 그 데이터는 내부 물류용이고 외부에 라이선스하지 않습니다. 구글은 오픈 데이터셋을 주도하지만 본체는 광고 회사입니다. 중국의 UBTech·유니트리·아지봇은 출하 속도가 빠르지만 적자이거나 갓 상장 문턱이고, 수집 데이터가 국가정보법상 정부 접근 대상이 될 수 있다는 리스크를 안습니다.
데이터를 모으는 인프라 쪽도 마찬가지입니다. 데이터 회사 하면 가장 먼저 떠오르는 스케일 AI(Scale AI)부터가 비상장이고, 메타가 지분 약 49퍼센트를 인수해 중립적 공급자라는 위치마저 흔들렸습니다. 그나마 상장된 데이터 엔지니어링 회사가 로봇 데이터로 사업을 넓히며 재평가받는 중인데, 데이터 라벨링 업력이 긴 이노데이타(나스닥 INOD)가 대표적으로 최근 1년 새 시가총액이 크게 뛰었습니다(시총·성장률은 2차 출처라 본문은 정성으로만 다룹니다). 다만 이 회사가 하는 로봇 데이터는, 이미지가 무엇을 담고 있는지 픽셀 단위로 분류해 표시하는 컴퓨터비전 주석(annotation) 작업입니다(예: 주방 로봇이 재료를 식별하도록 이미지를 라벨링하는 일) (Innodata). 이것은 8편이 마지막 벽이라 한 실세계 조작·촉각 데이터 수집과는 다른 영역이고, 이미지 주석은 합성 생성과 오픈 데이터셋에 똑같이 노출되는 범용 작업이라 2장에서 본 세 방향 잠식을 그대로 맞습니다. 곧 상장된 데이터 인프라는 있지만, 순수하게 실세계 조작 데이터를 쥔 상장 pure-play는 사실상 없습니다. 직접 못 사는 대신 간접 노출(이들에 투자한 상장 모회사나 인프라)이 길일 수 있는데, 그게 누구인지는 9편 종합에서 가립니다.
3.3 가장 유력해 보이는 후보, 테슬라의 정직한 한계
배치왕이면서 상장돼 있고 로봇에 진심인 후보가 딱 하나 있습니다. 테슬라입니다. 자율주행 fleet가 누적 100억 마일, 하루 2,900만 마일의 주행 데이터를 쌓고 있고 (Electrek), 휴머노이드 옵티머스까지 같은 데이터 플라이휠에 올리려 합니다. 플라이휠의 잠재력만 보면 단연 1위입니다.
그러나 정직하게 적어야 할 한계가 둘입니다. 첫째, 인류 최대의 fleet 데이터를 쌓고도 완전자율은 아직 도달하지 못했습니다. 같은 보도는 100억 마일이라는 라운드 넘버가 "마케팅 마일스톤일 뿐, 곧 레벨 4 자율주행 스위치를 켠다는 뜻은 아니다"라고 못 박습니다 (Electrek). 둘째, 그 100억 마일은 2차원 도로 주행 데이터이고, 8편이 마지막 벽이라 한 3차원 손 조작·촉각 데이터와는 분포가 다릅니다. 주행 데이터가 옵티머스의 손 조작으로 전이된다는 것은 테슬라의 주장(통합 신경망 시뮬레이터)일 뿐, 실증으로 검증되지 않았습니다. 옵티머스 자체도 데이터 수집용으로 일부 가동될 뿐, 일론 머스크 본인이 최근 "아직 생산적인 일을 하지 않는다"는 취지로 기대를 낮췄습니다(머스크 발언, 출처 확인 진행 중). 곧 테슬라는 데이터 플라이휠의 잠재력은 1위이되, 그 잠재력이 돈 되는 해자로 돌아간다는 실증은 아직 나오지 않았습니다.
개념적 시각화. 기업가치는 보도 기준(PI·INOD 등은 협상·2차 출처 포함). 가치 누수는 아래(배치·하드웨어)가 주, 위(7편이 컴퓨트로 넘긴 흐름)가 부다. (출처: 본문 각 절 출처 종합)
3장 결론: 데이터는 따로 사는 부품이 아니라 배치의 그림자이고, 그 배치마저 복제된다. 그래서 순수 실세계 조작 데이터 상장 pure-play는 사실상 없다.
- 데이터 플라이휠은 배치에서 나온다. 피규어가 직접 말한다. "fleet가 커질수록 헬릭스를 위한 데이터가 더 만들어진다." 데이터를 가진 회사를 따로 찾는 건 범주 오류다.
- 그런데 배치도 복제된다: 2026 중국 휴머노이드 출하 +94% 전망, 포장설비 회사도 위탁생산으로 진입. 배치가 계약제조로 풀리면 데이터 선점 이익도 옅어진다(a16z: 데이터 단독은 약한 해자).
- 데이터 집중기업은 전원 비상장(피규어·피지컬 인텔리전스·1X·스킬드). 상장된 곳은 데이터가 본업 아님(아마존 내부물류·구글 광고·중국 리스크). 상장 데이터 인프라(INOD)는 컴퓨터비전 주석이라 조작 수집과 다르고 합성·오픈에 동일 노출.
- 유일한 후보 테슬라조차 100억 마일로도 자율 미달이고, 그 2D 주행 데이터의 3D 조작 전이는 테슬라 주장일 뿐 미검증, 옵티머스도 "아직 생산적 일을 안 한다"(머스크).
- 결국 가치는 데이터에 고이지 않고 주로 아래의 배치·하드웨어로 흘러내린다(위로 새는 몫은 7편이 컴퓨트로 넘긴 흐름에 합류). 4편(롤러스크류 "못 산다")과 결론은 닮았으나, 이 편은 "왜 데이터엔 곡괭이가 안 서는가"를 규명했다.
결론: 데이터는 곡괭이가 아니라, 가치가 새어나가는 빈 칸이었다
데이터 부위를 세 관문에 대고 재 보니, 결과가 한 방향을 가리켰습니다. 데이터는 자본으로 단숨에 못 사고 시간과 배치로만 쌓이는 까다로운 병목이 맞습니다. 그래서 모두가 탐냅니다. 그러나 그 병목에 좁은 문이 서지 않습니다. 범용 데이터는 수집 단가가 2년 만에 65퍼센트 무너지고, 합성과 오픈 데이터셋에 잠식됐습니다. 마지막 보루였던 조작마저 합성이 넘기 시작했고, 아직 남은 촉각·변형물체의 배포특화 데이터조차 후퇴하는 방어선일 뿐입니다. 그리고 그 마지막 데이터는 배치의 부산물이라, 배치가 계약제조로 복제되는 만큼 따라올 수 없는 자리가 못 됩니다.
이것이 8편이 한 일입니다. "데이터가 로봇의 마지막 해자"라는 통념을 세 관문으로 해부해, 데이터에는 따로 떼어 살 좁은 문이 서지 않음을 입증했습니다. 데이터는 곡괭이가 아니라, 그 가치가 다시 새어나가는 빈 칸이었습니다. 가치는 주로 아래로, 로봇을 만들고 깔아 두는 배치와 하드웨어로 흘러내리고, 위로 새는 몫은 7편이 이미 컴퓨트로 넘긴 그 흐름에 합류합니다. 8편이 새로 더한 것은 이 하향 누수, 곧 데이터의 가치가 배치와 하드웨어로 흘러내리고 그 배치마저 복제된다는 발견입니다.
1편의 지속성 원칙으로 닫습니다. 1편은 곡괭이도 표준화·양산되면 무너진다며 장악력의 지속성이 관건이라 했고, 7편이 이를 차원과 수위로 재정식화했습니다. 그 프레임으로 보면 데이터에는 한번 올라서면 되돌아가지 않는 차원이 잘 보이지 않습니다. 배포특화 데이터의 축적을 차원으로 보고 싶었지만, 합성이 그 벽을 밀고 배치가 복제되는 한 그것조차 진동하는 수위에 가까웠습니다. 곧 데이터는 가장 단단할 듯했으나, 곡괭이가 끝내 서지 않는 자리였습니다.
| 분류 | 길목 | 강도 | 쥔 주체(실명) |
|---|---|---|---|
| □ 가장 늦게 잠식 | 배포특화 실세계 데이터 (촉각·변형물체) | 독립 곡괭이 아님 (벽이 연쇄로 무너지는 중: 강체→변형물체→촉각 · 배치 의존 · 가치가 배치·하드웨어로 누수) | 비상장: Figure·Physical Intelligence·1X·Skild / 대기업 일부: Tesla·Amazon |
| □ 잠식되는 데이터 | 범용·기본 데이터 (집기·놓기·강체 조작) | 시한부 (단가 65%↓ · 합성 약 74:1·조작 제로샷 침식 · 오픈 50배 상품화) | 오픈 데이터셋(운영주체): LeRobot(HuggingFace)·Open X-Embodiment(학계 컨소시엄)·DROID(학술) |
| □ 배치(데이터 모체) | 로봇 fleet 배치 = 데이터 발생원 | 복제됨 (계약제조·중국 출하 +94% · 데이터=배치 부산물이라 독립 안 됨) | Tesla(전이 미검증)·Figure·중국 양산 |
| · 인프라(다른 영역) | 데이터 라벨링·관리 | 약 (컴퓨터비전 주석 · 합성·오픈에 동일 노출 · 실세계 조작 수집 아님) | 상장 INOD(이미지 주석) / 비상장 Scale·Encord |
| · 수집장비(조연) | 텔레오퍼레이션 키트 | 약 (진입장벽 붕괴 $2,000 미만) | Trossen(ALOHA) / 중국 리더-팔로워 |
로봇 경험 데이터에서 곡괭이의 자리를 찾은 결과. 어느 분류에도 단단한 독립 곡괭이가 서지 않는다(초록 행 없음). 데이터는 따로 살 수 있는 부품이 아니라 배치에 따라오는 부산물이고, 가치는 주로 배치·하드웨어로 흘러내린다(위로 새는 몫은 7편이 컴퓨트로 넘긴 흐름). 강도는 곡괭이(길목) 장악력이지 투자 매력도가 아니며, 곡괭이는 싼 주식과 다르고, 종목 추천이 아니다. 기업가치·지분은 보도 기준(협상·추정·2차출처 포함). (출처: 본문 각 절 출처 종합)
📖 다음 편 예고: 몸은 누구 것이 되나
여덟 편에 걸쳐 로봇의 몸을 부위별로 갈랐습니다. 데이터는 빈 칸이었고, 그 가치는 아래로 배치와 하드웨어로 흘러내리고 위로는 7편이 컴퓨트로 넘긴 흐름에 합류했습니다. 그렇다면 그렇게 흘러간 가치는 결국 어디에 고이는가. 마지막 편은 여덟 편의 발굴을 한 장의 지도로 종합해, 무엇이 따라올 수 없는 곡괭이이고 무엇이 신기루인지 가립니다.
데이터는 곡괭이가 아니라, 가치가 새어나가는 빈 칸이었다. 배치한 자에게 번들로 붙는 부산물이라 따로 살 수 없다. 가치는 주로 아래의 배치·하드웨어로 흘러내린다(위로 새는 몫은 7편이 컴퓨트로 넘긴 흐름). 사는 칸이 아니라 피하는 칸이다.
- 병목은 까다롭다: 공개 로봇 데이터는 DROID+OXE 합쳐 약 5,000시간뿐(LLM은 수조 토큰). "존재하지 않는 데이터는 자본으로 못 만든다." 단 액추에이터·자석 같은 공급망 병목(4편)과는 다른, 배치로 풀리는 종류다.
- 곡괭이가 안 선다: 범용 데이터는 세 방향에서 깎인다. 수집 단가 $340→$118(65%↓·SVRC), 합성이 약 74:1 양적 압도에 더해 강체 조작(DexSim2Real 78.2%)에서 변형물체(SIM1 제로샷 약 90%)·촉각까지 벽이 연쇄로 밀린다. 오픈 데이터셋도 50배 폭증. 마지막 요새조차 영구적이지 않다.
- 데이터는 배치의 그림자다: 피규어가 직접 말한다. "fleet가 커질수록 데이터가 더 만들어진다." 데이터 루프가 강력하든 아니든 배치에 번들로 붙어 따로 살 수 없다. '데이터 종목을 따로 산다'는 범주 오류다(배치 자체도 중국 출하 +94%로 흔해지는 중).
- 그래서 깨끗이 살 수 없다: 데이터 집중기업은 전원 비상장(피규어·피지컬 인텔리전스·1X·스킬드), 상장된 곳은 데이터가 본업 아닌 대기업·중국. 상장 데이터 인프라(INOD)는 컴퓨터비전 주석이라 다른 영역. 순수 실세계 조작 데이터 상장 pure-play는 0. 테슬라조차 100억 마일로도 자율 미달·2D→3D 전이 미검증.
- 지속성 원칙(1편)·재정식화(7편 차원/수위): 데이터에는 비가역의 차원이 잘 안 보인다. 배포특화 축적조차 합성·배치가 미는 수위(진동)에 가깝다. 가치는 데이터에 고이지 않고 새어나간다. 강도는 곡괭이 장악력이지 투자 매력도가 아니다.