Physical AI는 어디인가: 혁명의 단계와 거품의 좌표

2024년 한 해에만 로봇 54만 대가 공장에 들어갔습니다.
그런데 어떤 로봇 회사는 매출이 0입니다.

산업 로봇 (선배 세대)

50만 대+

매년 꾸준히 설치 · 누적 466만 대 (사전 프로그래밍)

휴머노이드 (진짜 Physical AI)

$39B

Figure 기업가치 · 밸류가 실적을 크게 앞섬

가트너가 본 휴머노이드

10년+

주류 채택까지 · 혁신촉발기

한 단어 아래에 자동화의 여러 세대가 섞여 있습니다. 선배 세대는 이미 돈을 벌지만,
1편이 정의한 진짜 Physical AI(VLA)는 이제 막 출발선에 있습니다. 단계를 재는 자가 없으면 둘을 착각합니다.

→ 혁명의 단계를 측정합니다

Physical AI(피지컬 AI)가 지금 거품이냐 실재냐는 질문에는 단일한 답이 없습니다. 세대마다 다르기 때문입니다. 'Physical AI'라는 한 단어 아래에는 하나의 기술이 아니라 자동화의 여러 세대가 섞여 있습니다. 선배 세대인 산업 로봇팔(정해진 동작만 반복하는 사전 프로그래밍 기계)은 2021년 연 50만 대를 돌파한 뒤 매년 50만 대 이상이 꾸준히 설치되는 성숙기이고 (IFR World Robotics 2025), 외과의가 100% 조종하는 수술 로봇은 연 310만 건을 수행하는 생산성 고원입니다 (Intuitive Surgical). 그러나 이들은 1편이 정의한 진짜 Physical AI인 자율지능, 곧 VLA(Vision-Language-Action: 본 것과 들은 말을 곧바로 행동으로 바꾸는 로봇 파운데이션 모델, 한 분야의 토대가 되는 범용 거대 모델)가 아닙니다. 그 진짜 Physical AI의 대표인 휴머노이드는 기업가치 390억 달러(Figure)에 매출은 이제 막 시작된, 밸류에이션이 실적을 크게 앞서는 혁신촉발기에 있습니다 (Figure Series C). 선배 세대의 성숙이 이 가장 어린 세대를 보증하지는 않으며, 단계를 재는 자로 세대별 좌표를 찍어야 실재와 거품이 갈립니다. 이 글은 그 자를 만들고, 응용마다 좌표를 찍고, 그 자의 눈금이 어디까지 올라갈 수 있는지를 봅니다.

프롤로그: 같은 단어, 정반대의 좌표

같은 'Physical AI'를 두고 누구는 "로봇 혁명은 이미 와 있다"고 하고, 누구는 "전부 거품"이라고 합니다. 한 단어에 정반대의 진단이 붙는 것입니다. 이상한 일입니다.

앞선 1편에서 우리는 디지털 세계를 정복한 지능이 물리 세계로 넘어오는 흐름은 거스르기 어렵다고 결론지었습니다. 자본과 기술과 정책이 동시에 같은 방향을 가리켰으니까요. 그러나 방향이 필연이라는 것과, 지금 그 방향의 어디쯤 와 있는지는 전혀 다른 질문입니다. 그리고 바로 이 두 번째 질문에서 진단이 갈립니다.

왜 갈릴까요. 'Physical AI'라는 한 단어가 좌표가 정반대인 것들을 한 자루에 담고 있기 때문입니다. 한쪽 끝에는 2024년 한 해에만 약 54만 대가 공장에 설치된 산업 로봇이 있습니다 (IFR World Robotics 2025). 다른 쪽 끝에는 공개된 매출은 거의 없는데 기업가치만 390억 달러인 휴머노이드 회사(Figure)가 있습니다 (Figure Series C). 한쪽은 25년간 검증된 실재이고, 다른 한쪽은 기대가 실적을 한참 앞질러 달리는 신생입니다. 그런데 둘을 같은 이름으로 부르며 "Physical AI가 거품이냐"고 한 번에 물으니, 보는 사람이 어느 쪽을 떠올리느냐에 따라 답이 정반대로 나오는 것입니다. 사과와 오렌지를 같은 봉지에 담아 놓고 "이 과일은 신가요"라고 묻는 것과 같습니다.

그래서 "Physical AI는 거품인가"라는 질문 자체가 잘못 세워졌습니다. 거품이냐 실재냐를 묻기 전에, 단계를 재는 자(尺)를 손에 들고 응용마다 좌표를 따로 찍어야 합니다. 그래야 실재를 거품으로, 거품을 실재로 착각하지 않습니다. 이 글은 그 자를 먼저 만들고(1막), 응용마다 좌표를 찍고(2막), 그 자의 눈금이 어디까지 올라갈 수 있는지(3막)를 봅니다. 안개 낀 산을 두고 정상이 가깝다 멀다 맨눈으로 다투는 대신, 지도를 펴 들고 능선의 어디쯤인지를 짚는 작업입니다.

1막. 단계를 재는 자: 모든 혁명은 같은 곡선을 그린다

좌표를 찍으려면 먼저 자가 있어야 합니다. 그런데 그 자가 어떤 도구인지부터 분명히 해 둘 필요가 있습니다. 단계를 잰다는 것은 어떤 기술이 옳은지 그른지를 채점하는 일이 아니라, 그 기술이 혁명의 곡선 위 어디에 서 있는지를 표시하는 일입니다. 이 막에서는 그 자가 어떻게 생겼는지, 그리고 그 자가 무엇을 가리키고 무엇을 가리키지 못하는지를 봅니다.

1.1 자는 이미 만들어져 있다

다행히 자는 새로 만들 필요가 없습니다. 「혁명의 해부학」 시리즈가 이미 만들어 두었습니다. 모든 기술 혁명은 빈 땅에서 제멋대로 자라는 것이 아니라, 놀랍도록 비슷한 곡선을 그리며 같은 단계를 밟습니다. 철도가 그랬고, 전기가 그랬고, 닷컴이 그랬습니다. 그 반복되는 모양을 두 사람이 각각 정리해 두었습니다.

첫 번째 자는 경제지리학자 장폴 로드리그(Jean-Paul Rodrigue)가 정리한 버블의 4국면입니다. 새로운 기술은 소수의 전문가만 아는 잠입기에서 시작해, 대중이 알아채는 인식기를 거쳐, 모두가 달려드는 광기로 치닫고, 결국 붕괴를 맞습니다. 두 번째 자는 더 잘 알려진 가트너의 하이프 사이클입니다. 기술은 혁신촉발기에 등장해, 과열 정점에서 기대가 부풀 대로 부풀고, 환멸의 골짜기로 추락했다가, 계몽의 경사로를 타고 천천히 올라와, 마지막에 생산성 고원에 안착합니다.

두 자는 같은 산을 다른 쪽에서 그린 등산로 지도와 같습니다. 로드리그의 "광기"는 가트너의 "과열 정점"이고, 로드리그의 "붕괴"는 가트너의 "환멸의 골짜기"입니다. 결국 같은 봉우리와 같은 골짜기를 다른 이름으로 부르고 있을 뿐입니다. 그래서 우리는 둘을 겹쳐 하나의 자로 씁니다.

개념적 시각화입니다. 가트너 하이프 사이클(5단계)과 장폴 로드리그의 버블 4국면을 겹쳐 하나의 자로 표현했습니다. 「혁명의 해부학」 2편 「지금 AI는 어디인가」에서 디지털 AI를 과열 정점(광기의 망상)으로 판정한 결과를 봉우리에 표시했습니다.

다만 한 가지는 정직하게 짚고 갑니다. 하이프 사이클은 검증된 과학 모델이 아닙니다. 학계에서는 그 이론적 토대와 예측력이 빈약하다는 비판이 오래전부터 있었고, 모든 기술이 이 곡선을 똑같이 밟는 것도 아닙니다 (Wikipedia: Gartner hype cycle 비판). 그러니 이 곡선은 밀리미터까지 재는 정밀한 눈금자가 아니라, 안개 속에서 지형의 큰 윤곽을 잡아 주는 지도로만 씁니다. 정밀한 측정은 곡선이 아니라, 우리가 그 위에 직접 대는 세 개의 잣대(실적·밸류에이션 대 실적·현장 재현)가 제공합니다. 곡선은 위치를 보여주고, 잣대는 그 위치를 검증합니다. 이 역할 분담을 기억해 두면, 뒤에서 좌표를 찍을 때 "곡선이 그렇다더라"가 아니라 "데이터가 그렇다"로 말할 수 있습니다.

1.2 단계는 "맞다/틀리다"가 아니라 "지금 어디냐"다

이 자가 가르쳐 주는 가장 중요한 사실은, 단계가 "맞다/틀리다"의 문제가 아니라는 것입니다. 어떤 기술이 혁신촉발기에 있다는 말은 그 기술이 "틀렸다"는 뜻이 아닙니다. 단지 아직 정상에서 멀고, 과열 정점과 환멸의 골짜기를 통과해야 한다는 위치 정보일 뿐입니다. 반대로 생산성 고원에 있다는 말은 그 기술이 "완벽하다"는 뜻이 아니라, 이미 검증을 끝내고 조용히 돈을 벌고 있다는 위치 정보입니다. 단계는 점수가 아니라 좌표입니다.

이것이 왜 중요할까요. 안개 낀 산을 두고 "정상이 가깝다 멀다"를 맨눈으로 다투는 것과, 지도를 펴 들고 "지금 우리는 능선의 어디쯤이고 어느 갈림길을 지났는가"를 짚는 것은 전혀 다른 일이기 때문입니다. 단계의 자는 "로봇이 뜨냐 마냐"라는 소모적 논쟁을, "이 응용은 지금 능선의 어느 지점에 있는가"라는 답할 수 있는 질문으로 바꿔 줍니다. 그 지점을 정밀하게 확정하는 것은 앞서 말한 세 잣대의 몫입니다.

「혁명의 해부학」 2편은 이 자로 디지털 AI를 측정해, 지금 디지털 AI가 하이프 사이클의 과열 정점, 곧 광기의 망상 단계에 있다고 판정했습니다. 그렇다면 물리 AI는 어디일까요. 여기서 결정적인 발견이 등장합니다. 물리 AI는 한 점에 있지 않습니다. 같은 곡선 위에 여기저기 흩어져 있습니다. 그것을 좌표로 찍는 것이 2막입니다.

💡 투자 함의: 같은 "AI 로봇"이라는 이름이 붙어 있어도, 혁신촉발기의 기업과 생산성 고원의 기업은 위험도 기대수익도 정반대입니다. 이름이 아니라 단계를 봐야 합니다.

1막 결론: 단계의 자는 새로 만들 필요가 없다. 모든 혁명이 같은 곡선(하이프 사이클 + 버블 4국면)을 그리기 때문이다. 단계는 옳고 그름이 아니라 위치이며, 디지털 AI는 지금 그 곡선의 정점(광기)에 있다.

자는 둘을 겹쳐 쓴다. 로드리그의 광기 = 가트너의 과열 정점, 로드리그의 붕괴 = 가트너의 환멸 골짜기.
단계는 "맞다/틀리다"가 아니라 "지금 어디냐"라는 측정값이다. 정밀 측정은 곡선이 아니라 세 잣대가 한다.
투자 함의: 이름이 아니라 단계를 봐야 한다. 다음은 이 자로 물리 AI의 좌표를 찍는다.

2막. 좌표를 찍는다: Physical AI는 하나가 아니다

먼저 한 가지를 분명히 해 둡니다. 지금부터 좌표를 찍을 네 응용은 "같은 기술의 다른 진도"가 아니라, "몸이 일을 대신하는 자동화"라는 큰 줄기에서 갈라져 나온 서로 다른 세대입니다. 같은 종목을 1학년부터 4학년까지 추적하는 것이 아니라, 나이가 제각각인 형제들을 한자리에 세워 키를 재는 일에 가깝습니다.

맏이인 1세대는 정해진 동작만 반복하는 산업 로봇팔(사전 프로그래밍)이고, 둘째인 2세대는 바닥의 QR 코드와 마커를 따라 길을 찾는 자율이동 로봇(AMR, 스스로 정해진 경로를 따라 움직이는 운반 로봇)입니다. 그 옆에는 외과의가 콘솔에서 100% 조종하는 텔레오퍼레이션(원격 조종) 수술 로봇이 있는데, 이것은 자율 판단이 아니라 사람 손의 연장입니다. 그리고 가장 어린 막내가, 1편이 진짜 Physical AI로 정의한 VLA 자율지능(본 것과 들은 말을 스스로 행동으로 바꾸는 모델)이며, 휴머노이드가 그 대표 주자입니다.

이 구분이 왜 중요할까요. 단계의 자를 같은 계보의 네 세대에 대면, "선배가 정상에 올랐으니 막내도 곧 오른다"는 착시를 피할 수 있기 때문입니다. 맏형이 대학을 졸업했다고 막내가 곧 졸업하는 것은 아닙니다. 선배 세대의 성숙은 "물리 세계에서 로봇이 돈을 번다"는 존재 증명일 뿐, 자율지능이라는 막내가 같은 길을 갈 것이라는 보증이 아닙니다. 이제 세 잣대로 세대별 좌표를 찍습니다.

2.1 실재와 거품을 가르는 세 개의 잣대

좌표를 찍으려면 눈금이 필요합니다. 어떤 응용이 실재인지 거품인지를 가르는 잣대를 셋으로 정리합니다. 인상이나 분위기가 아니라, 이 세 가지에 데이터를 대입해 좌표를 찍습니다.

실재와 거품을 가르는 세 잣대. 이후 네 세대의 좌표를 이 셋으로 측정합니다. (HiveWorks Invest 자체 분석 틀)

첫째, 실적이 있는가. 매출과 설치 대수 같은 실제 숫자가 나오는 응용은 실재 쪽입니다. 화려한 데모 영상만 있고 팔린 기록이 없으면 거품 쪽입니다. 둘째, 밸류에이션이 실적을 앞서는가. 기업가치가 매출보다 수십, 수백 배 앞서 달리면 기대가 실적을 추월한 것이고, 이는 과열의 신호입니다. 셋째, 데모가 통제환경 밖에서 재현되는가. 무대 위에서 한 번 성공한 시연과, 통제되지 않은 현장에서 매일 같은 성능을 내는 것은 전혀 다릅니다. 이제 이 세 잣대를 네 개의 대표 응용에 차례로 댑니다.

2.2 선배 세대(산업·수술 로봇): 정상에 올랐지만, 진짜 자율지능은 아니다

가장 오른쪽 끝, 곧 생산성 고원에는 1세대 산업 로봇이 있습니다. 공장의 로봇팔은 2021년 처음 연 50만 대를 넘어선 뒤, 2022년 약 55만 대, 2024년 약 54만 대(542,076대)로 해마다 50만 대 이상이 꾸준히 설치되고 있습니다. 2022년이 역대 최고치였으니, 이것은 신기록을 매년 경신하는 폭발이라기보다 높은 고원에서의 안정적 정체에 가깝습니다. 지금 공장에서 돌아가는 누적 대수는 약 466만 대에 이릅니다 (IFR World Robotics 2025). 한국은 제조 노동자 1만 명당 로봇이 1,220대로 밀도 세계 1위입니다 (IFR Robot Density). 데모 영상이 아니라 실측이며, 성장은 끝났어도 매일 돈을 버는 전형적인 성숙기 좌표입니다.

물류 로봇도 같은 자리입니다. 아마존은 창고에 이미 약 100만 대의 로봇을 돌리고 있습니다 (Amazon). 다만 이 100만 대의 다수는 QR 코드와 마커를 따라 정해진 경로를 움직이는 2세대 자율이동 로봇(AGV/AMR)이지, 본 것을 스스로 판단해 손으로 조작하는 VLA 자율지능이 아닙니다 (AGV Network). 가트너 역시 창고용 자율이동로봇(AMR)을 계몽의 경사로에 놓고, 2~5년 내 주류 채택으로 봅니다 (Gartner).

더 오른쪽, 이미 고원에 안착한 사례가 수술 로봇입니다. 인튜이티브 서지컬의 다빈치(da Vinci) 수술 로봇은 2025년 한 해에 약 310만 건의 수술을 수행했고, 설치된 장비는 1만 1천여 대, 연매출은 100억 달러를 넘었습니다 (Intuitive Surgical 2025 실적). 단 여기에 결정적인 단서가 붙습니다. 다빈치는 외과의가 콘솔에서 100% 조종하는 마스터-슬레이브 텔레오퍼레이션이며, 자율 판단에 의존하지 않습니다 (SRI Teleoperator System). 자율 수술은 아직 동물 사체를 대상으로 한 연구 데모 단계입니다 (Inside Precision Medicine). 즉 다빈치는 "사람 손의 정밀한 연장"이지 자율지능이 아닙니다.

여기서 혼동을 미리 막아 둡니다. 세 번째 잣대(현장 자율 재현)는 애초에 자율을 목표하는 세대에만 의미가 있습니다. 자율을 노리지도 않는 다빈치를 같은 줄에 세워 "자율이 안 된다"고 깎는 것은 부당합니다. 다빈치가 실재인 이유는 자율지능이어서가 아니라, "로봇이라는 몸이 물리 세계에서 사람의 일을 안정적으로 대신하고 돈을 번다"는 것을 25년간 증명했기 때문입니다.

이 선배들이 보여주는 사실이 중요합니다. "로봇은 다 거품"이라는 말은 분명 틀렸습니다. 몸을 가진 자동화의 한쪽 끝에는, 검증을 끝내고 매일 돈을 버는 실재가 분명히 있습니다. 그러나 정반대 착시도 경계해야 합니다. 이들의 성숙은 "물리 세계에서 로봇이 돈을 번다"는 존재 증명일 뿐, 1편이 정의한 진짜 Physical AI인 자율지능이 같은 정상에 오른다는 보증이 아닙니다. 선배가 정상에 있다고 막내도 거기 있는 것은 아닙니다. 그 막내는 어디에 있을까요.

2.3 로보택시: 환멸의 골짜기를 통과하는 중

곡선 한가운데, 환멸의 골짜기에는 로보택시가 있습니다. 그리고 여기서 가장 극적인 장면이 나옵니다. 같은 로보택시 안에서도 운명이 갈립니다. 같은 골짜기에 떨어졌는데, 하나는 그 안에서 사라지고 하나는 건너편으로 기어 올라갔습니다.

한쪽은 골짜기에서 사라졌습니다. GM의 크루즈(Cruise)는 2023년 보행자 충돌 사고 이후 운행이 중단되었고, 2024년 12월 GM이 자금 지원을 전면 중단하며 로보택시 사업을 접었습니다 (CNBC). 환멸의 골짜기에서 살아 나오지 못한 전형입니다.

다른 한쪽은 골짜기를 건넜습니다. 구글의 웨이모(Waymo)는 2024년 5월 주 5만 회였던 유료 탑승이 2026년 3월 주 50만 회로 약 2년 만에 10배가 되었고, 10개 도시에서 운행하며 누적 자율주행이 1억 마일을 넘었습니다 (TechCrunch). 연환산 매출은 약 3억 5천만 달러 수준이고, 2026년 2월에는 단일 라운드에서 160억 달러를 조달하며 기업가치 1,260억 달러에 이르렀습니다 (Waymo). 같은 골짜기에서 하나는 죽고 하나는 건너편 경사로를 오르기 시작한 것입니다.

로보택시가 가르쳐 주는 것은, 환멸의 골짜기가 옥석을 가리는 구간이라는 사실입니다. 「혁명의 해부학」이 말한 그대로입니다. 방향이 맞아도 골짜기에서 대부분이 사라지고, 건너는 자만 살아남습니다. 골짜기는 혁명의 끝이 아니라, 진짜와 가짜를 거르는 체입니다.

2.4 휴머노이드: 혁신촉발기, 곧 광기의 초입

곡선의 가장 왼쪽, 이제 막 봉우리를 향해 오르기 시작한 혁신촉발기에 계보의 막내가 있습니다. 1편이 진짜 Physical AI로 정의한 VLA 자율지능, 그 대표 주자인 휴머노이드입니다. 선배들과 달리 이 막내는 사전 프로그래밍도 텔레오퍼레이션도 아닌, 본 것을 스스로 판단해 처음 보는 일을 해내는 것을 목표로 합니다. 바로 그래서 가장 어렵고, 가장 어립니다. 세 잣대를 차례로 대 보면 거품의 신호가 선명합니다.

첫째 잣대, 밸류에이션이 실적을 앞섭니다. 휴머노이드 회사 피규어(Figure)는 2024년 2월 기업가치 26억 달러였는데 (PR Newswire), 2025년 9월 390억 달러를 인정받았습니다 (Figure Series C). 1년 반여 만에 약 15배입니다. 그런데 같은 기간 공개된 독립 매출은 없습니다. 로봇 두뇌 모델을 만드는 피지컬 인텔리전스(Physical Intelligence)도 56억 달러로 평가받았지만 상업 배포 실적은 없고, 공동창업자는 "상업화 타임라인은 미정, 연구가 우선"이라고 말합니다 (Bloomberg).

둘째 잣대, 데모가 통제환경 밖에서 재현되지 않습니다. 테슬라가 2024년 10월 공개한 옵티머스 시연에서, 로봇들이 사람과 대화하고 음료를 건넨 장면은 상당 부분 사람이 원격 조종한 것이었습니다. 테슬라 엔지니어링 수석도 "어느 정도 사람의 도움을 받았다"고 인정했습니다 (TechCrunch). 무대 위 데모와 현장의 자율은 다릅니다.

셋째 잣대, 전문가들이 거품을 경고합니다. 로봇공학의 원로 로드니 브룩스(iRobot 공동창업자)는 사람의 영상만으로 로봇에게 손재주를 가르치려는 시도를 "순수한 판타지"라 부르며, 인간 손의 촉각 수용체 1만 7천 개를 따라가지 못한다고 지적합니다 (TechCrunch). 중국 NDRC도 150개 넘는 기업이 동질적인 휴머노이드를 쏟아내며 자본이 혁신보다 과대광고를 좇는다고 경고했습니다 (Interesting Engineering). 가트너도 휴머노이드를 혁신촉발기에 놓고 주류 채택까지 10년 이상으로 보지만, 이는 1막에서 말한 대로 보조 참고일 뿐입니다. 좌표의 확정은 우리가 직접 댄 세 잣대의 실측으로 합니다 (Gartner).

다만 정직하게 덧붙여야 합니다. 휴머노이드가 전부 매출 0의 신기루인 것은 아닙니다. 진짜 진척이 섞여 있습니다. 사실 무대 위 데모에서 사람이 로봇을 원격 조종하던 바로 그 시기에, BMW 공장에서는 피규어의 휴머노이드가 11개월 동안 부품 9만 개를 99% 넘는 정확도로 묵묵히 쌓고 있었습니다 (Repairer Driven News). 어질리티 로보틱스의 디짓(Digit)도 아마존 창고에서 98%의 성공률로 10만 개 넘는 화물 상자를 옮겼습니다 (Agility Robotics). 결정적으로, 2025년 출하 1위 유니트리(Unitree)는 이미 흑자로 돌아섰습니다. 2025년 매출 약 2억 5천만 달러(전년비 +335%), 조정 순이익 약 9천만 달러로 첫 흑자를 냈고, 휴머노이드 5,500대를 팔면서도 총마진을 약 60%로 지켰습니다 (Rest of World, Humanoids Daily). 그러니 "매출 0"이라는 진단은 Figure 한 곳에는 맞아도 이 세대 전체로는 틀립니다.

단, 흑자의 결을 정직하게 봐야 합니다. 유니트리 매출의 상당 부분은 자율 노동을 대체하는 VLA가 아니라 연구·교육용 플랫폼과 로봇개에서 나옵니다 (eWeek). 그래서 핵심은 "매출이 있느냐 없느냐"가 아니라, "밸류에이션이 실적을 얼마나 앞서느냐"입니다. Figure는 매출이 거의 없는데 기업가치가 390억 달러이고, 유니트리는 흑자이되 평균판매가가 1~2년 만에 약 70% 떨어졌습니다(2023년 약 8만 5천 달러에서 2024년 약 2만 5천 달러). 기대가 실적을 크게 앞선다는 간극, 그것이 거품의 정의입니다.

유니트리는 "매출 0" 진단은 깨뜨렸지만 거품 진단은 깨뜨리지 못합니다. 거품의 잣대는 매출의 유무가 아니라 밸류와 실적의 간극이기 때문입니다.

이제 좌표를 가트너가 아니라 세 잣대의 실측으로 확정합니다. 첫째, 실적은 이미 시작됐습니다(유니트리 흑자, 출하 급증). 둘째, 밸류에이션은 실적을 크게 앞섭니다(거품 신호). 셋째, 현장 자율 재현은 일부만 검증됐습니다(아마존·BMW 파일럿은 진짜지만, 무대 데모는 조작 논란). 2025년 글로벌 휴머노이드 출하는 집계 기준에 따라 약 1만 3천에서 5만 대, 전년비 약 +250%에서 +480%로 늘었습니다 (Bloomberg, BusinessWire/SAG). 세 잣대를 종합하면, 좌표는 평온한 정점이 아니라 거품 신호를 안고 가파르게 오르는 오르막의 초입입니다.

2.5 좌표 지도: 하나의 자, 네 개의 다른 위치

세대별로 찍은 좌표를 하나의 곡선 위에 모으면, 이 편의 핵심 발견이 한눈에 드러납니다. 흥미로운 규칙이 보입니다. 자율성이 낮은 선배일수록 정상에, 자율성이 높은 막내일수록 출발선에 있습니다. 자율성과 좌표가 거꾸로 가는 것입니다.

HiveWorks Invest 자체 분석입니다. 단계는 가트너 하이프 사이클을 기준으로 했고, 좌표 데이터는 IFR·Intuitive Surgical·Waymo·Figure·Gartner를 종합했습니다.

같은 발견을 표로 정리하면, 세대마다 세 잣대의 결과가 어떻게 다른지가 한 줄씩 또렷하게 보입니다.

세대(자율성)	단계	① 실적	② 밸류 vs 실적	③ 현장 자율 재현	좌표
산업·물류 로봇 (사전프로그래밍·마커)	계몽경사로~고원	50만 대+/년·누적 466만	실적 기반	자율 아님(정해진 동작)	실재
수술 로봇 da Vinci (텔레오퍼레이션)	생산성 고원	연 310만 건·매출 $10B	실적 기반	자율성 0(외과의 100% 조종)	실재
로보택시 (부분 자율)	환멸골짜기 통과	Waymo 주 50만 회 / Cruise 폐기	갈림	Waymo 10개 도시 자율	옥석 갈림
휴머노이드 (VLA 자율지능·막내)	혁신촉발기	출하 1.3만~5만 대·Unitree 흑자	밸류가 실적을 크게 앞섬(Figure $39B·매출 거의 0)	아마존·BMW 파일럿만 검증	거품 신호

'로봇'이라는 한 단어 아래 자동화의 네 세대. 자율성이 높아질수록 좌표는 출발선 쪽으로 내려갑니다. (출처: IFR, Intuitive Surgical, Waymo, Figure, Gartner)

주 1: 세 번째 잣대(현장 자율 재현)는 자율을 목표하는 세대(로보택시·휴머노이드)에만 적용합니다(2.2 다빈치 단락 참조). 주 2: 휴머노이드 평균판매가가 1~2년 만에 약 70% 하락(약 $85K에서 $25K)했는데도 마진 60%를 유지하는 것은, 거품 신호와 별개로 양산·원가절감이 실재한다는 반대 방향 신호입니다.

이 지도가 말하는 것은 분명합니다. "Physical AI는 새벽이냐 정점이냐"라는 질문 자체가 잘못 세워졌다는 것입니다. 자율을 목표하지 않는 선배 세대(산업·수술 로봇)에게는 이미 한낮이지만, 1편이 정의한 진짜 Physical AI인 자율지능에게는 이제 막 동튼 새벽입니다. 그리고 선배가 한낮이라는 사실은 막내의 새벽을 한낮으로 끌어올려 주지 않습니다. 세대가 다르기 때문입니다. 하나의 답은 없습니다.

단, 막내 세대에는 선배와 결정적으로 다른 점이 하나 있습니다. 1편에서 본 "거인의 어깨"입니다. 1세대 산업 로봇은 맨땅에서 25년을 쌓았지만, VLA 세대는 디지털 파운데이션 모델과 웹 지식, 그리고 교차체현 학습(cross-embodiment, 한 로봇에서 모은 시연이 다른 모든 로봇을 개선하는 공유 데이터 플라이휠)을 상속받습니다 (VLA survey). 구글 딥마인드의 제미나이 로보틱스는 일반화 벤치마크에서 기존 VLA의 2배를 넘었고 (Gemini Robotics), 피규어의 헬릭스는 처음 보는 수천 개 물체를 별도 학습 없이 다뤘습니다 (Figure Helix). 그래서 같은 새벽이라도, 막내의 일출은 산업 로봇의 1960년대보다 빠를 수 있습니다. 다만 빠른 일출이 곧 한낮 도착을 보장하지는 않습니다. 동트는 속도와 정상에 닿는 시점은 다른 문제이고, 후자는 3막에서 봅니다.

💡 투자 함의: "로봇이 뜬다"에 베팅하는 것은 세대가 다른 넷을 한 바구니에 담는 것입니다. 선배 세대의 실적을 막내(진짜 VLA)의 근거로 빌려 쓰는 순간 착시가 시작됩니다. 같은 단어에 속지 말고 세대와 좌표를 함께 봐야 합니다.

2막 결론: '로봇'은 하나가 아니라 자동화 계보의 여러 세대다. 세 잣대로 재면 자율성이 낮은 선배일수록 정상에, 자율성이 높은 막내일수록 출발선에 있다. 선배(산업·수술 로봇)는 실재(고원)이고, 1편이 정의한 진짜 Physical AI인 자율지능(휴머노이드)은 거품 신호가 짙은 혁신촉발기다.

"하나의 Physical AI 단계"는 없다. 선배 세대는 한낮, 진짜 VLA 막내는 새벽이다.
선배의 성숙은 "로봇이 물리 세계에서 돈을 번다"는 존재 증명일 뿐, 막내가 같은 정상에 오른다는 보증이 아니다(da Vinci는 자율성 0의 텔레오퍼레이션, 아마존 로봇 다수는 마커 기반).
휴머노이드는 밸류가 실적을 크게 앞선다(거품 신호). 단 "매출 0"은 아니다(출하 1위 유니트리는 이미 흑자)이고, 일부 현장 진척(아마존 98%·BMW 11개월)도 진짜다. 좌표는 가트너가 아니라 세 잣대 실측으로 도출한 "가파른 오르막 초입"이다.
거인의 어깨: 막내는 디지털 파운데이션 모델·웹 지식·교차체현 플라이휠을 상속받아, 선배보다 일출이 빠를 수 있다(단 한낮 도착은 미보장).
투자 함의: 이름이 아니라 세대와 좌표를 본다. 그렇다면 막내의 새벽은 한낮으로 이어질 것인가. 그 답을 가를 가장 큰 변수 하나(스케일링)와 그 곁의 하드웨어 천장을 3막에서 본다.

3막. 단계의 천장: 스케일링은 로봇에서도 통하는가

휴머노이드가 지금 혁신촉발기에 있다는 것은 알았습니다. 그렇다면 다음 질문은 이것입니다. 이 새벽은 한낮으로 이어질까요, 아니면 환멸의 골짜기로 굴러떨어질까요. 막내가 출발선에서 생산성 고원까지 올라설 수 있는지는, 그 위에 어떤 천장이 있는지에 달려 있습니다. 이 막에서는 그 천장 가운데 가장 큰 변수 하나(스케일링)와, 그 곁에 따로 버티고 있는 하드웨어 천장을 함께 봅니다.

3.1 디지털의 광기는 왜 정당화되었나

디지털 AI를 떠올려 봅시다. 디지털 AI도 한때 광기로 보였습니다. 그런데 그 광기는 결국 상당 부분 정당화되었습니다. 왜냐하면 스케일링 법칙, 곧 데이터와 모델과 연산을 키울수록 성능이 계단처럼 도약하는 원리가 실제로 통했기 때문입니다. 돈을 부어 데이터를 늘리면 모델이 정말로 똑똑해졌고, 그래서 부풀었던 기대가 환상이 아니라 예언이 되었습니다. 거품처럼 보이던 것이 사후에 실력으로 판명된 것입니다.

문제는 같은 일이 로봇에서도 일어날지가 아직 증명되지 않았다는 것입니다. 1편이 이 혁명의 가장 큰 미해결 변수로 남겨 둔 바로 그 질문입니다. 휴머노이드의 운명은 상당 부분 이 한 가지에 걸려 있습니다.

3.2 디지털은 호수에서 길었고, 로봇은 한 방울씩 긷는다

핵심 차이를 비유로 풀면 이렇습니다. 디지털 AI는 인터넷이라는 거대한 데이터 호수가 이미 있었습니다. 수십 년간 인류가 쌓아 놓은 글과 이미지와 영상을 그냥 퍼 담기만 하면 됐습니다. 그러나 로봇이 배워야 하는 물리적 경험, 곧 "문고리를 어느 각도로 얼마의 힘으로 돌려야 열리는가" 같은 데이터는 인터넷 어디에도 없습니다. 누군가 실제 로봇을 움직여 한 방울씩 직접 만들어야 합니다.

이 격차는 숫자로 보면 아득합니다. 대형 언어 모델은 약 300조 개의 토큰(모델이 학습하는 데이터의 최소 조각)으로 학습합니다 (Substack 분석). 반면 전 세계 로봇 조작 데이터를 다 합쳐도 약 30만 시간 수준입니다 (NVIDIA Jim Fan). 한 추산은, 언어 모델 수준의 데이터를 실제 로봇으로 모으려면 8천만 대의 로봇을 3년 내내 돌려야 한다고 봅니다 (Robotiq). 게다가 카메라로 보는 픽셀 데이터는 그나마 싸게 모을 수 있지만, 손끝에 전해지는 힘과 접촉의 신호는 어떤 웹사이트에도 없어 한 방울씩 길어야 하는 가장 희소한 자원입니다 (NVIDIA Jim Fan).

개념적 시각화입니다. 호수와 물방울의 면적 차이로 데이터 격차를 표현했습니다. (출처: Substack, Robotiq)

3.3 그래도 길이 열린다는 증거들

여기서 멈추면 절망뿐이지만, 정직하게 보면 반대편 증거도 쌓이고 있습니다. 호수가 없으면 호수를 비껴가는 우회로를 찾으면 됩니다. 그리고 그 우회로가 실제로 하나씩 뚫리고 있습니다.

첫째, 웹 지식 전이입니다. 피지컬 인텔리전스의 모델 π0.5는 한 번도 본 적 없는 가정에서 작업을 94% 성공했는데, 흥미로운 것은 웹 데이터를 빼고 학습시키면 성공률이 74%로 떨어진다는 점입니다 (arXiv 2504.16054). 인터넷의 일반 지식이 로봇의 물리 작업에도 도움이 된다는 뜻입니다. 둘째, 영상 학습입니다. 메타의 V-JEPA 2는 100만 시간 넘는 인터넷 영상으로 먼저 배운 뒤 62시간 미만의 로봇 영상만 더해, 처음 보는 물건을 집어 옮기는 작업을 65~80% 해냈습니다 (arXiv 2506.09985). 셋째, 합성 데이터(가상 시뮬레이션으로 만들어낸 학습 데이터)입니다. 엔비디아의 드림젠은 단 하나의 시연을 최대 333배로 부풀려, 가상 경험으로 실제 성능을 끌어올렸습니다 (arXiv 2505.12705). 데이터를 한 방울씩 긷되, 그 한 방울을 수백 배로 불리는 펌프가 생긴 것입니다.

게다가 데이터를 긷는 비용 자체가 빠르게 떨어지고 있습니다. 사람이 로봇을 원격 조종해 데이터를 모으는 단가는 2024년 초 시간당 약 340달러에서 2026년 3월 약 118달러로 1년여 만에 60% 넘게 내렸습니다 (SVRC 비용분석).

데이터를 긷는 비용은 빠르게 내린다 (텔레오퍼레이션 시간당, 달러)

$340

$136

-65%

$118

2024 초

2025 Q4

2026.3

출처: SVRC 로봇 데이터 수집 비용 분석 (텔레오퍼레이션 = 사람이 원격 조종해 데이터를 모으는 방식)

3.4 소프트웨어 천장: 데이터가 천장에 닿을까

우회로가 열렸다고 끝이 아닙니다. 그 길이 천장까지 닿을지는 아무도 모릅니다. 우선 데이터를 긷는 주된 방식인 원격 조종이 본질적으로 확장되지 않습니다. 로봇의 하루도 24시간뿐인데, 매 시간 사람이 반대편에 붙어 있어야 하기 때문입니다 (NVIDIA Jim Fan). 게다가 로봇의 오차를 절반으로 줄이는 데 데이터가 약 24배나 더 든다는 연구가 있어 (arXiv 2405.14005), 디지털처럼 데이터를 키우는 일이 물리 세계에서는 훨씬 가파른 비용을 요구합니다. 결정적으로 중요한 것은 양이 아니라 다양성인데, 다양성은 돈으로 빠르게 살 수 없습니다 (arXiv 2410.18647). 같은 부엌에서 컵 1만 개를 집는 것보다, 1만 개의 다른 부엌에서 컵을 한 번씩 집는 것이 훨씬 어렵고 값집니다.

3.5 하드웨어 천장: 배터리와 부품

스케일링은 천장의 전부가 아닙니다. 설령 데이터 문제가 다 풀려도, 그 위에 하드웨어라는 별도의 천장이 버티고 있습니다. 대표가 배터리입니다. 지금 휴머노이드는 한 번 충전에 90분에서 길어야 네댓 시간 남짓 움직여, 24시간 노동을 대체하기 어렵습니다 (RoboticsTomorrow). 또 로봇을 실제로 움직이는 정밀 구동 장치(액추에이터, 모터로 관절을 밀고 당기는 부품)는 휴머노이드 원가의 40~60%를 차지하는데, 그 공급망이 가장 미성숙합니다 (McKinsey).

단 이 하드웨어 천장은 고정된 벽이 아니라 빠르게 낮아지는 중입니다. 배터리는 UBTech 워커 S2처럼 3분 만에 스스로 갈아 끼우는 자율 핫스왑으로 우회되고 (New Atlas), 액추에이터는 중국이 원가를 전년비 약 40% 떨어뜨리며 양산에 들어갔습니다 (Interesting Engineering). 회전 운동을 직선 운동으로 바꾸는 고정밀 부품인 롤러스크류 한 가지만 아직 병목으로 남았습니다. 영구적인 천장이 아니라 빠르게 이동하는 프런티어인 셈입니다. 게다가 병목이 소프트웨어냐 하드웨어냐 자체가 업계에서 논쟁 중이라 (Simplexity), 운명을 데이터 한 변수로 단정하기는 더욱 어렵습니다.

소프트웨어 천장: 데이터가 천장에 닿을까

막는 것: 원격 조종은 확장 불가 · 다양성 부족(돈으로 못 삼)

뚫는 것: 웹 지식 전이 · 영상 학습 · 합성 333배 증폭

하드웨어 천장: 배터리와 부품

막는 것: 가동 90분~5h · 액추에이터가 원가 40~60% · 공급망 미성숙

뚫는 것: 3분 자율 핫스왑 · 액추에이터 원가 -40% · 롤러스크류만 잔존

두 천장 모두 빠르게 움직입니다. 어느 쪽이 먼저 닿을지는 아직 미결입니다. (출처: 본문 인용 참조)

3.6 그래서 어느 쪽이 먼저 닿을까: 미결

그래서 이 막의 결론은 정직하게 미결입니다. 천장을 넘는다는 증거(웹 전이·영상 학습·합성 증폭, 배터리 핫스왑·액추에이터 저가화)와, 천장이 여전히 높다는 증거(데이터 다양성의 한계, 접촉 신호의 희소성, 롤러스크류 같은 미해결 부품)가 양쪽 다 빠르게 움직입니다. 어느 쪽이 먼저 닿을지 우리는 단정하지 않습니다. 다만 분명한 것은, 이 천장들의 향방이 막내가 지금의 혁신촉발기에서 정점을 넘어 생산성 고원(한낮)으로 올라설지, 아니면 환멸의 골짜기에서 주저앉을지를 가른다는 것입니다.

💡 투자 함의: 막내(진짜 VLA)의 운명은 데이터 한 변수가 아니라 소프트웨어 천장과 하드웨어 천장이 함께 결정합니다. 데모의 화려함이 아니라, 두 천장이 어느 쪽부터 뚫리는지를 추적해야 합니다.

3막 결론: 디지털의 광기는 스케일링 법칙이 실제로 통해서 정당화되었다. 로봇에서도 통할지는 아직 미결이다. 통한다는 증거와 천장이 있다는 증거가 팽팽하다.

디지털은 인터넷이라는 데이터 호수가 있었지만, 로봇은 경험을 한 방울씩 긷는다(LLM의 수백만분의 1).
우회로(웹 전이·영상 학습·합성 증폭)와 비용 하락($340→$118)이 길을 열지만, 접촉 신호의 희소성과 원격조종의 비확장이 천장을 드리운다.
스케일링은 천장 중 가장 소프트웨어적인 하나일 뿐이다. 데이터가 풀려도 배터리·액추에이터·안전인증이라는 하드웨어 천장이 남는다. 단 그 천장도 고정된 벽이 아니라 빠르게 낮아지는 중이다(배터리 자율 핫스왑·액추에이터 원가 -40%).
투자 함의: 운명을 데이터 한 변수로 단정하지 말고, 소프트웨어와 하드웨어 천장이 어느 쪽이 먼저 뚫리는지를 함께 추적하라.

결론: 새벽이냐 정점이냐, 좌표에 따라 다르다

"Physical AI는 새벽인가 정점인가." 이 글을 시작한 질문에 이제 답할 수 있습니다. 단일한 답은 없습니다. 세대에 따라 다릅니다. 자율을 목표하지 않는 선배 세대(산업·수술 로봇)에게는 이미 한낮을 지난 생산성 고원이지만, 1편이 정의한 진짜 Physical AI인 자율지능(휴머노이드)에게는 밸류에이션만 정점에 가 있고 실적은 산기슭에 머문 새벽입니다. 그 사이에 부분 자율의 로보택시가 옥석이 갈리는 골짜기를 지나고 있습니다. 같은 단어로 부르지만 세대가 다르고 좌표가 다르므로, 진단도 달라야 합니다. 그리고 선배의 한낮이 막내의 새벽을 보증하지 않는다는 것이, 이 글이 단계의 자로 얻은 가장 중요한 결론입니다.

2막 좌표 지도의 요약본입니다. 같은 곡선 위에서 네 세대가 새벽부터 한낮까지 흩어져 있습니다.

그렇다면 거품으로 보이는 휴머노이드는 그냥 피하면 되는 걸까요. 그렇지 않습니다. 하이프의 역사가 경고하는 것이 하나 있습니다. 일론 머스크는 2013년부터 2025년까지 완전 자율주행의 도래를 열네 번 약속했고, 전부 빗나갔습니다 (Wikipedia: 머스크의 자율주행 예측 목록). 시점을 맞히는 일은 거의 불가능합니다. 그러나 「혁명의 해부학」이 가르쳐 준 더 중요한 교훈은, 거품이 터져도 곡괭이는 남는다는 것입니다. 닷컴 거품은 꺼졌지만 광케이블과 인터넷 인프라는 남아 다음 시대의 토대가 되었습니다. 회사는 죽어도 핵심은 살아남습니다.

휴머노이드 회사들의 절반이 사라진다 해도, 진짜 Physical AI 세대(VLA 자율지능)가 몸을 갖추려면 모두가 똑같이 의존해야 하는 부품과 소재와 데이터, 곧 대체 불가능성이 오래 유지되는 해자(moat)는 남습니다. 거품이 터져도 남을 곡괭이란, 바로 이 막내 세대가 어느 회사가 이기든 공통으로 거쳐야 하는 부위를 말합니다. 선배 세대가 이미 성숙시킨 부위가 아니라, 자율지능이 새로 필요로 하는 부위입니다. 그러므로 지금 할 일은 "휴머노이드가 뜨냐 마냐"를 두고 다투는 것이 아니라, 세대와 좌표를 정확히 읽고, 막내가 공통으로 의존할 그 부위가 어디인지를 미리 가려 두는 것입니다.

이 지도로 지금 당장 할 수 있는 한 가지가 있습니다. 어떤 회사를 두고 "로봇주"라는 한 이름표로 묶지 말고, 이 자로 세대(1·2세대 자동화인가, 텔레오퍼레이션인가, 진짜 VLA 자율지능인가)와 좌표(고원인가, 골짜기인가, 출발선인가)를 먼저 분류해 두는 것입니다. 그 분류만으로도 선배의 실적을 막내의 근거로 빌려 쓰는 착시를 절반은 걷어낼 수 있습니다.

이 글은 단계를 측정하는 데까지 왔습니다. 다음 편에서는 그 다음 질문으로 들어갑니다. 거품이 터져도 남을 부위, 곧 가치가 고이는 곡괭이는 몸의 어디에 있는가. 지능이 몸을 얻는다는 것을 관절과 근육과 눈과 뇌와 경험으로 분해해, 가치가 어느 부위에 귀착되는지를 그리는 투자 지도입니다.

📖 다음 편 예고: 「몸의 해부학: 곡괭이는 어느 부위에 있는가」

휴머노이드와 로보택시의 승자는 미정입니다. 그러나 그들이 모두 의존하는 부위가 있습니다. 지능이 몸을 얻는다는 것을 관절(구동)·근육과 뼈(소재·동력)·눈과 피부(감각)·뇌(엣지 추론)·경험(데이터) 다섯 부위로 분해해, 가치가 어느 부위에 고이는지를 그립니다. 거품이 터져도 남을 곡괭이를 부위로 찾는 첫걸음입니다.

Physical AI는 어디인가: 한 장 요약

'로봇'이라는 한 단어 아래에는 자동화의 여러 세대가 섞여 있다. 단계의 자로 세대별 좌표를 찍어야 실재와 거품이 갈린다.

단계는 옳고 그름이 아니라 위치다(하이프 사이클은 정밀 과학이 아니라 지형 지도이고, 정밀 측정은 세 잣대가 맡는다).
'로봇'은 한 점이 아니라 계보의 여러 세대다. 자율성이 낮은 선배(산업·수술 로봇)는 실재(고원), 부분 자율 로보택시는 옥석이 갈리는 골짜기, 1편이 정의한 진짜 VLA 자율지능(휴머노이드)은 밸류가 1년 반여 만에 15배 뛰며 실적을 크게 앞선 혁신촉발기다.
선배의 성숙은 존재 증명일 뿐, 막내(자율지능)를 보증하지 않는다(da Vinci는 자율성 0의 텔레오퍼레이션).
막내의 운명은 스케일링을 포함한 천장 변수들(데이터·배터리·액추에이터·안전인증)에 달렸고, 병목이 어디냐조차 아직 미결이다.
거품이 터져도 막내 세대가 공통으로 의존할 곡괭이는 남는다. 시점은 못 맞혀도(머스크의 14번 빗나간 약속), 세대와 좌표는 읽을 수 있다.