허깅페이스 르로봇 해커톤 후기
본 블로그의 주인장들은 이번 허깅페이스의 르로봇 월드와이드 해커톤의 서울 호스트를 맡았습니다. 너무 재밌었고, 그 과정들과 후기를 남깁니다. 현장은 다큐 형식의 작은 영상을 만들었으니 한번 봐주세요.
계기
저는 LLM 만 하고 있었고, Action 모델은 사실 관심이 없었습니다, 준호는 1년 정도 로봇에 AI 를 넣는 일을 하고 있었죠. 허깅페이스에서 르로봇 플랫폼을 만들고 오픈소스 로봇도 내놓으면서 한번 찍먹 해볼까 라는 생각으로 시도 해봤습니다. 이게 25년 4월 입니다. 처음으로 로봇을 조립하고 학습시키고 일을 시키는 순간은 라이브로 다 남겨놨습니다.
해보니까 너무 재밌더라고요. 다음엔 뭘 해볼까 고민을 하고 있던 찰나. 허깅페이스에서 직접 글로벌로 해커톤을 열고, 각 지역의 로컬 호스트를 모집한다는 공지를 봤습니다. 그래서 지원했죠.
준비
해커톤을 직접 열려고 했는데, 이제 장소가 필요합니다. 사람들이 로봇을 들고 올텐데 이를 설치하고 동작시킬 장소가 좀 커야할 것 같아요. 그냥 노트북만 들고오는게 아니니까요. 제가 마침 이때 휴가여서 도쿄에 있었습니다. 그래서 도쿄에 다른 호스트에게 연락하고 견학을 갔죠.
아주 작은 랩실 정도의 공방 이더라고요, 그래서 정 안되면 나도 그냥 우리집에서 소규모로라도 해야지 라는 생각으로 확정하고 추진했습니다.
주변에 연락을 돌렸습니다, 아주 감사하게도 제 고객 중 한 회사인 SK mySUNI 에서 흔쾌히 장소 대여를 허락해 주셨습니다. 장소를 후원해주신 것이죠.
SK mySUNI 는 장소가 아주아주아주 좋거든요. 덕분에 너무 좋은 환경에서 해커톤을 할 수 있었습니다. 종각역이랑 연결된 그랑서울 건물 꼭대기에 남산뷰, 공간도 넓고, 책상도 조명도 너무 잘 꾸며져 있습니다.
제일 중요한 공간이 확보 되었고, 또 현장이 넓어서 꽤 많은 인원을 수용할 수 있었습니다. 허깅페이스에서는 공간 몇명이나 받을 수 있냐고 물어보더군요. 그래서 일단 50명이라고 잡았습니다. 사실 100명도 받을 수 있긴 했는데, 저희가 직접 통제 가능한 인원을 생각해서 50명을 최대 인원으로 잡고 모집을 시작했습니다.
모집은 저희가 운영하는 유투브에서 홍보하고, 관련 오픈 카톡방에 한번 남겼습니다. 허깅페이스의 월드와이드 해커톤 페이지에도 올라가 있었고요.
그리고는, 후원을 모집했습니다. 여러 회사들에게 연락했는데, 감사하게도 또 다른 제 고객사인 패스트캠퍼스에서 흔쾌히 후원을 해주셨고, 로봇AI 스타트업인 리얼월드에서도 후원을 해주셨습니다. 덕분에 티셔츠도 제작하고, 오신 분들에게 다과, 야식, 음료 이런 것들을 해드릴 수 있었어요.
특이한 점 하나는 중국의 로봇회사인 agileX 에서 먼저 연락을 주셔서 PiperARM + 그리퍼를 서울 행사의 1등 상품으로 후원해주셨습니다. 처음엔 사기인가? 생각도 들었는데 직접 화상 회의도 하고 한국에 유통사도 있더라고요. 참고로 그 유통사인 위고로보틱스에서도 참가자분이 있었습니다.
티셔츠랑 1등 상품인 로봇이 행사 바로 전날에서야 받을 수 있었어서 고생을 좀 했네요. 금요일 저녁에 퇴근하고, 비 맞으면서 가산디지털단지에가서 딱 1시간 남기고 티셔츠를 급박하게 픽업했습니다. 고생한 기억이 가장 강하게 남는군요.
하나 까다로웠던 점은 현장이 SK 그룹의 보안 사업장 이었기 때문에, 참가자 분들을 직접 연락하고 소속 정보를 받아 등록을 했어야 했습니다. 허깅페이스를 통해서만 알게되어 등록하신 분들한테는 저희가 연락 방법이 매끄럽지 못했던 것이 좀 곤란했었는데 다행히 잘 해결이 되었습니다.
행사 현장
토요일 새벽부터 와서 현장 셋팅하고 참가자분들 모시고, 글로벌 화상 회의 (방송) 셋업하고 정신이 없었네요. 다들 일찍 잘 와주셨고, 건물 앞에서는 우리 채널의 PD인 lonzi 가 잘 안내 해줘서 문제 없이 행사를 시작할 수 있었습니다.
행사를 시작하고, 참가자 분들이 셋업을 시작했습니다. 허깅페이스의 르로봇 플랫폼은 SO ARM 101 이라는 오픈 소스 로봇을 입문으로 합니다. 대부분 이 로봇을 조립해 오거나, 아니면 오셔서 조립할 거라고 생각을 했는데... 시작하자마자 놀랐습니다. 이런 난생 처음 보는 로봇을 보았기 때문이죠.
거대한 로봇입니다. 처음 첨부한 유투브 영상에 움직임도 찍혀있는데, 아주 안정적입니다. 기계적으로 그냥 우월합니다. 물론 우월한 로봇들은 이 세상에 많죠. 그런데 이 로봇이 허깅페이스의 오픈소스 플랫폼과 호환도 되고 학습시킨 AI 모델도 돌릴 수 있다는게 놀라웠습니다.
만드신 분은 시각예술작가 윤지현 교수님이십니다, 당시에는 시각예술작가라고만 말씀을 주셔서 몰랐었는데 제 모교인 연대 교수님이시더라고요. 밑에서 더 이야기 하죠.
어쨌든 저는 사전에 기획한대로 처음 조립을 해보시는 분들과 함께 조립세션을 진행했습니다.
2팀을 제외한 모든 팀분들은 로봇을 이미 조립해서 오셨습니다. 2팀과 함께 로봇을 조립했고요. 이 로봇이 SO ARM 101 입니다.
조립 세션을 위해 무급 스태프이자 제 여자친구인 기릿님 (제조업 엔지니어) 에게 미리 조립을 시켜봤습니다. 덕분에 조립 세션을 잘 리드해 주었고, 오후에 모두 조립이 잘 끝났습니다.
혹시 몰라서 직접 3d 프린터로 여러 부품들을 찍어왔는데요. 아주 다행이었어요. 사실 조립 세션에 필요할 거라고 생각했는데, 멀쩡한 로봇들이 좀 부러지더라고요.
허깅페이스와의 글로벌 소통도 재미있었습니다. 전세계의 모든 로컬 지부들이 다 들어와서 줌 회의를 했고요. 허깅페이스의 르로봇 리더인 remi cadene 도 있었고요. 아마 참가자 분들은 작업하시느라 정신 없으셨을텐데, 운영진인 저희는 그래도 오다가다 소통을 해서 재미있었네요. 직접 방문했었던 도쿄의 온라인으로 무라타상도 봤고요, 해당 온라인 회의는 허깅페이스의 공식 유투브 채널에서 계속 생중계 되었습니다.
호스트인 JC (준호) 와 PD lonzi (진호) 는 돌아다니면서 모든 팀들의 인터뷰를 했습니다. 저희가 궁금했어요. 참가자분들은 어떤 분들이고, 왜 오셨고, 어떤 목표를 가지셨는지 잘 알 수 있었던 것 같아서 좋았습니다.
야식 & 밤샘
운영진인 저희는 총 4명이었기에 2명씩 교대를 했습니다. 저는 밤 10시 야식 쉨쉑을 책임 졌는데요. 그 때 까지는 제가 가능한 만큼 돌아다니면서 많은 팀들의 어려움을 해결해 드리고자 노력했습니다. 어쨌든 저는 먼저 해본 경험이 있고, 또 LLM 을 오래했기 때문에 GPU 나 이런 것이 좀 익숙했습니다. 많은 분들이 저희 예상과는 다르게 LLM 쪽 보다는 로봇 쪽에서 오셨어서 이런 부분에 도움을 드릴 수 있었습니다. 사실 저는 로봇의 기계적인 부분은 전혀 모르거든요... 오히려 많이 배웠죠.
후원 받은 금액으로 야식과 음료 (핫식스 + @) 는 넉넉히 챙겨드릴 수 있었습니다. 모든 식사를 다 챙겨드릴 수는 없어서 아쉬웠네요.
저는 새벽 2시쯤에 교대를 했고요, 절반 정도는 그래도 막차 시간쯤해서 쉬러 가셨던 것 같고, 절반정도는 정말 밤을 새고 작업을 하셨던 것 같아요. 아무래도 GPU 에 학습은 돌려 놓고 쉬는게 효율적이긴 하죠.
저는 다음날 오전에 돌아왔습니다.
글로벌 라이브 데모!
재밌는 사건이 하나 발생 했습니다. 허깅페이스에서 Day 2 낮에 갑자기 시간대가 맞는 지역별로 온라인 데모를 하겠냐고요. 아시아 지역이 시간이 제일 빨랐기 때문에 아시아 끼리 데모를 준비했습니다, 현장에서 당장 데모가 가능한 팀, 글로벌에 어필을 하고 싶은 팀을 찾으러 다녔습니다.
다행히 씬그립과 형님들 팀에서 데모가 가능해서 먼저 하기로 했습니다, 당장 데모가 가능할만한 팀이 한 팀 (112 팀) 더 있었는데, 점심식사를 가서 전화를 드렸습니다. 좀 급박해서 우선 시간이 안될 것 같다고 결정이 났습니다.
글로벌 데모가 너무 잘 되었고 포포먼쓰까지 완벽했습니다, 중국 동관에서 먼저 데모를 했는데 비교해서 너무 화질도, 음질도, 데모도 완벽했기에 글로벌 수상도 할 수 있겠다는 생각이 처음으로 들었던 것 같아요. 사실 글로벌에서 다른 지역이 얼마나 잘하는지 전혀 감이 없었거든요.
다른 지역들이 데모를 하던 중, 112팀이 식사하고 돌아왔고 다행히 여유가 있어서 112팀도 데모를 했습니다.
112팀도 데모가 너무 잘 되었고, 사이에 진행했던 다른 지역에 비해서 너무 잘 되었습니다. 5~8팀 정도 발표를 했었던 것 같고, 도쿄 1팀과 서울 2팀만 괜찮았었던 것 같네요.
글로벌 수준이 고만고만하구나 라는걸 느끼기도 했습니다. 아시아 &. 오세아니아 지역만 한 것이긴 하지만요. 유럽이나 북미에는 또 고수들이 있겠죠.
서울 지역의 마무리 피치
보통의 해커톤은 현장에서 피치를 하고 심사를 하고 마무리하는 것으로 알고 있습니다. 그런데 이번 해커톤은 온라인으로 글로벌하게 진행해서 영상을 만들어 올리는 것이 제출이었습니다. 그리고 지역별로 시간이 달라서 시작과 끝나는 시간이 지역마다 달랐죠. 글로벌 제출은 제출이고요.
서울 지역내에서는 따로 우리끼리 피치를 하기로 했습니다. 어쨌든 저희는 현장에 모여있고, 실물 로봇을 볼 수 있고, 참가자들끼리 의견을 공유하는 것이 좋은 의미가 될 것이라고 생각했습니다. 서울의 1등에게 따로 줄 상품도 있었고요.
여기서 부터는 사실 영상을 봐야하는데요.
씬그립과 형님들
핸드폰으로 색깔을 표기하면 그 색깔의 판을 집어 꼽는 데모입니다. Pick and place 인데, 색으로 멀티태스킹을 하는 데모죠. 그리고 집어야할 손잡이랑 넣어야할 핀이 꽤 작습니다. 정교하기도 해야하죠.
너무 잘 되었습니다. 성공률이 체감상 90퍼센트 정도? 이렇게 잘 되는 것은 처음 봤어요. 로봇을 자세히 보시면 그립과 카메라가 자체제작이니다. 씬그립 이라는 회사에서 직접 만드신 것입니다.
팀 소개를 잠시 하자면, 삼성중공업 에서 오래 일하셨던 전직장 동료분들께서 팀으로 오셨고요. 현직으로는 씬그립 창업자이자 대표님, 그리고 한남대, 한국 폴리텍 대학의 교수님들 이십니다.
ACT, 50에피소드, 60k training 모델입니다.
모두가 확신을 가지고 갈 수 있었어서 제일 좋았습니다. 이 정도로도 되는 구나. 다들 돌아가셔서 무언가 시도하실 때 확실한 성공사례를 참조해서 공격적으로 투자할 수 있으니까요.
ACT 모델인데도 vision input으로 멀티태스킹 하는 것도 증명했고요.
첨언하자만, 현장에서 GROOT 1.5 도 학습을 시도하셨거든요. 이걸 성공하는 것을 끝까지 못 한게 아쉬웠습니다. 클라우드로 GPU 대여하는 것도 알려드리서 바로 결제하셔서 학습도 돌리셨는 데, 아마 시간이 모자랐던 것 같아요. 조금만 시간이 더 있었으면 다른 실험 결과도 확실히 알았을 텐데 하는 아쉬움이 있었습니다.
위 사항들을 고려하여 서울의 1등으로 선정하였습니다. 압도적인 성공률의 데모와 커스텀 하드웨어의 기여도, 모두 다 1등으로서 모자람이 없었던 것 같아요.
현장이 마무리 되고 한국 시간 기준 3일 정도 후에 글로벌 수상이 완료 되었는데요.
MOS
모기/나방을 잡는 모델입니다. MOS 팀의 데모도 엄청 잘 됩니다. 수상 결과 부터 말씀드리자면 글로벌 TOP 9을 차지했습니다.
MOS 의 경우는 커뮤니티에서 조직된 4명이 모인 팀입니다. 저희가 편한 운영을 위해서 오픈카톡방을 미리 개설했습니다. 허깅페이스는 공식적으로 디스코드에서 대회 공지와 소통을 하지만, 한국인 특성상 디스코드가 그리 활성화 되어있지는 않으므로 카톡방을 만들고 가능하면 다들 들어오시라고 했습니다. 여기서 참가자분들끼리 자발적으로 구성 하신 팀입니다. 특히 최재훈 님께서 적극적으로 소통을 너무 잘 해주셔서 협업의 위대함(?) 같은 것을 배울 수 있었습니다.
오셔서 2 세트 조립부터 시작하셨습니다. 저는 개인적으로 1모델 바이메뉴얼 (양손조작) 을 추천 드렸는데, 이를 시도해 보았으나 아쉽게도 플랫폼의 지원 문제로 성공을 하지는 못했습니다. 아마 시간이 더 있었으면 되었을 텐데 아쉬웠습니다.
모기를 잡는 모델, 모기를 집어서 버리는 모델 이렇게 2개로 2로봇 조작을 데모로 하셨습니다. 조립부터 시작해서 여기까지 도달 하신 것이 참 대단하다고 느꼈습니다.
중간중간 상황에 맞게 전략을 수정하면서 시간내에 output 완성에 도달 하는 과정까지 협업, 소통, 분업 다 너무 대단했던 것 같아요.
메트라이브, 서울대학교, 위고로보틱스, 삼성전자 이렇게 각각 다른 곳에서 모인 분들이 이렇게 잘 해낼 수 있었다는 것이 놀라울 따름입니다.
인공지능 선풍기
이 팀도 조립부터 시작해서 글로벌 Top 25 를 수상한 팀입니다. 부채질을 만들었습니다.
우선 현장이 너무 더웠어요. 날이 더웠고요. 에어컨이 잘 안 나왔습니다. 처음엔 에어컨이 주말이라 가동이 안 되어 있었고, 가동을 시켜주시긴 했는데 저녁 6시까지만 나왔습니다. 그래서 부채질을 만드셨는데, 현장에서 우리가 직면한 문제를 바로 해결하는 것을 수행하신 것이 아주 인상적이었습니다.
팀원 분들은 창업자 분들이셨는데, AI 도 로보틱스도 하셨던 분들이 아니라서 정말 처음부터 시작하셨습니다. (코딩은 두분 다 할 줄 아셨습니다.) 토요일 아침부터 일요일 오후까지 정말 처음부터 쭉 다 2명이서 해내신 것이 대단하다고 생각이 들었어요.
중간중간 모터라던가 데이터 수집이라던가 학습이라던가, 다양한 문제를 직면 했는 데, 모든 문제를 순차적으로 침착하게 해결해 나가시는 것을 보고 대단하다고 느꼈습니다. 누구나 지칠 법한 순간들이 많았는데, 포기 않고 결국 잘 해결 해내시더라고요. 이런 사람들이 창업자들이구나 싶었습니다.
Lebotica
개인적으로 가장 기대했던 팀 입니다. 가장 먼저 참가 신청하고, 하고 싶은 것도 명확하고, 이미 많은 것들을 해봤었던 팀이기 때문이죠. 로봇도 SO ARM 101 이 아니라 koch 로봇을 가져왔습니다. 참고로 koch 로봇은 작지만 더 고급 (?) 모터를 쓰는 로봇입니다.
로봇을 가지고 온 싱동님은 네이버 추천팀에서 RL 을 연구하는 분이시고, 이를 로봇에 활용해보려고 하신답니다. 링크드인 에 가면 많은 소식들을 볼 수 있어요.
현장에서는 팀원분들과 smolvla 를 도전 했고요, 완벽하지는 않았지만 배운점이 많았습니다. 우선 smolvla 이야기부터 하죠.
허깅페이스는 이번 해커톤을 앞두고 smolvla 를 발표합니다. 작은 vla 입니다. 재밌는 점은 HugginFace 에 올라온 SO ARM 을 기반으로 한 커뮤니티 데이터로 학습했다는 점입니다.
Lebotica 팀은 smolvla 를 파인 튜닝해서 prompt로 task 를 주면 그에 맞는 task 를 수행해내는지 확인 하는 일을 했습니다. 아마 이번 해커톤 참가자들이 가장 궁금한 점일 것이에요.
과연 smolvla 는 파인튜닝하면 얼마나 잘 될까? 데이터는 얼마나 필요할까? 학습은 얼마나 해야되나?
지금 시점 (해커톤 행사 기간) 에 모두가 궁금한 이 질문에 대한 답을 탐구 했습니다.
결과를 요약하면, 프롬프트로 준 명령을 이행 하는 것 됩니다. 왼쪽위 초록 공을 집으라 하면, 그 공을 집어요. 현장 데모 상황에서는 공을 완벽하게 잡지는 못했지만, 명령은 잘 이행했습니다. Failure Recover 하는 데이터가 충분하고 학습이 되었다면 무조건 성공했을 거에요. 시간 문제 였을 뿐.
쌤쌤
실물을 보자마자 놀란 압도적인 로봇입니다. 위 영상은 작가님 채널을 링크합니다. 그냥 안정적이고 반응도 빠르고 우월합니다.
로보티스의 모터와 오픈매니플레이터를 개조해서 만드셨다고 하셨습니다. 로보티스 사의 모델들이 SO ARM 에서 사용된 Feetech 사의 모터와 분쟁 같은 것이 있다고만 알고 있었는데요... 저는 개인적으로 모터에 대해 잘 모르다보니 판단할 능력이 되지는 않습니다.
작가님께 모터에 대해서 많이 배웠습니다, Lebotica 팀의 로봇도 그러하고 로보티스의 다이나미셀 모터가 비싸지만 더 다양한 스펙과 좋은 기능들을 가지고 있다고 합니다. 실물로 보고 더 확실하게 느꼈고요. 저도 로보티스의 모터에 대해 관심을 가지게 되었고 한번 살펴볼까 생각 중 입니다.
현장에서의 데모는 고양이 표정을 보고, 도장을 골라서 찍고 고양이를 괴롭히는 것 까지를 태스크로 보여주셨습니다. 중간 과정에서는 소리에 따라 고양이 표정을 바꾸는 것 까지 구현을 시도하셨고요. 태스크가 복잡하다 보니 연결 동작을 모두 완수하기는 어려웠지만, 매우 인상적이었어요.
예술 작가 분들이라 그런지 엔지니어인 우리의 관점과는 다른 의견들을 많이 내주셨던 것이 인상깊었습니다. 로봇만의 특별한 움직임을 보고 싶다던가. 허깅페이스 데이터에 독을 풀고 싶다던가...
참 세상은 넓구나 라는 생각이 새삼 들었네요.
Team 112
앞서 글로벌에 완벽한 데모를 자랑했던 112 팀의 데모입니다. 서랍을 열고, 사탕을 집고, 서랍을 닫고, 사탕을 컵에 떨구는 것 까지. 꽤 복잡한 태스크 였는데 완벽하게 수행을 했습니다.
그런데! 오후 1시 글로벌 발표에서는 잘 되었던 모든 것이 오후 5시 서울만의 현장 데모에서는 잘 안되었습니다. 달라진 것이 없는데요...
이로써 또 배운 것이 있었습니다. 112 팀에서는 여러 문제를 제보해주셨는데요, 스크류가 헐거워진다던가 하는 여러 예상 문제점들을 지적해 주셨습니다. 르로봇 구버전의 메모리 누수 문제도 있었고요. 확실한 관찰 결과는 같은 환경 같은 모델이 시간이 지났는데 갑자기 안된다는 것. 저는 개인적으로 Feetech 모터의 과열과 같은 요소가 있었을 것이라고 생각합니다. 참여자 모두가 재현성에 문제가 있을 수 있음을 알아갈 수 있는 시간이었습니다.
DR4R
DR4R 팀의 데모는 조금 특별했습니다. 우선 태스크는 젠가 블럭을 집는 pick and place 아주 전형적인 일입니다. 그렇지만 이 팀은 모델이 특이합니다.
Consistency policy 를 직접 구현해서 학습을 시키고 테스트를 했습니다. 이번 해커톤 시점에서 많이 활용되고 있는 모델은 크게 3가지 입니다. ACT, Diffusion Policy, SmolVLA. 다른 VLA 들은 사이즈가 커서 30시간안에 동작시키기는 쉽지 않죠.
이 중 Diffusion 은 N 번의 inference 를 통해 action 을 만들어내는 느린 단점이 있습니다. 이를 개선한 Consistency 모델을 직접 구현해서 테스트를 하셨습니다. 한 번의 inference 로 생성이 되기 때문에 50배 정도 빠르다고 말씀을 해 주셨고, 아쉽게도 이렇게 구현된 Consistency 모델은 실제 데모가 잘 동작하지는 못했습니다. 150 에피소드를 모았지만요. 실패 원인에 대해서는 탐구가 더 필요해 보입니다.
코끼리
시작부터 로봇이 부서지는 악재를 겪은 코끼리 팀입니다. Lebotica 팀과 같이 SmolVLA 학습을 시도 했고요, 10 에피소드 1000 스텝 학습 까지 도달하셨는데, 태스크 수행은 실패했습니다. SmolVLA 는 이미 pretrain 이 많이 되어있어서 적은 튜닝만으로도 될까 싶었으나 어림도 없었습니다. 약 30시간이라는 시간 제한내에 도달하기는 쉽지 않았던 것 같습니다.
라이브 데모까지 도달하지는 못했으나 depth 카메라 까지 동원하여 밤새 노력해주신 서울아파트설치팀, 캐스터네츠로 음악을 시도한 칠링팀 너무 아까웠네요. 촬영본 업로드를 원치 않으셔서 자세히는 언급하기가 어렵지만 야바위를 도전 했던 체커보드 팀도 멈추지 않는 시도가 인상 깊었습니다.
결과 요약
서울 지역의 행사는 축제 처럼 잘 마무리가 되었고, 모든 참여자 분들이 자유롭게 질답을 나누는 것을 보면서 다 같이 현장 데모를 하길 잘했다는 생각이 들었습니다. 모두가 좋은 정보를 공유하는 시간이 되었던 것 같아요.
결론적으로는 전 세계 44개국에서 3,000명 이상의 참가자가 함께했으며, 서울 로컬 참가자들이 글로벌 Top 8, 9, 25위에 오르는 성과를 거두었습니다.
참고로 top 30 까지 허깅페이스가 직접 뽑고 상품을 줍니다. top 10 도 허깅페이스가 뽑으나 이 안에서는 참가자 투표를 진행했습니다. 평가를 영상으로 했기 때문에 서울 지역에서 영상에 투자할 시간이 조금 만 더 있었다면 더 수상을 많이 할 수도 있지 않았을까 싶습니다. 다른 수상자들을 보니 저희가 상향 평준화가 되어있더라고요.
모든 수상자의 데모는 공지 페이지에서 보실 수 있습니다.
국내 기준으로는 아래와 같이 전통 언론에 기사도 났습니다.
외부적으로도 좋은 결과들이 도출 되었고, 내부적으로도 참가자 분들이 많은 것들을 얻어 가실 수 있었던 것 같아서 보람 찬 행사 였습니다.
기타
저희가 주최하면서 기술 외적으로 관찰한 재밌었던 점 하나만 꼽자면 식음료 였습니다. 후원 받은 금액 내에서 저희는 음료와 다과, 간단한 식사들을 준비했습니다.
첫날 아침 커피와 모카번, 첫날 밤의 쉐이크쉑 햄버거, 둘째날 아침의 고단백 빵 (스콘, 쿠키, 파운드케익). 그리고 충분한 량의 음료 (탄산수, 제로콜라, 핫식스), 각종 과자 N 종 세트.
신기한 점은 과자가 많이 남았고요, 고단백 빵은 빠르게 품절이 났습니다. 다른 행사 주최 하셨던 분들에게 문의 결과 과자는 충분하다고 생각해도 항상 모자르다고 들었는데요...
연령대가 어릴 수록, 고학력자 일 수록 과자 선호도가 떨어지고 다이어트 (고단백) 제품이 선호도가 높다는 신기한 소문을 들었습니다. 정말 그랬나 싶네요.
VLA 와 Physical AI, 미래 방향성
마지막으로 제가 생각 하는 미래를 이야기 하고자 합니다. 요즘 Physical AI 라는 키워드가 바이럴이 되고 있는데요, 왜 그럴까하면 과거에 안되던 것이 LLM 이 VLA 로 확장 되면서 될 것 같기 때문이겠죠.
Physical AI 라는 용어를 그냥 단순하게 세상과 물리적으로 상호 작용하는 AI 라고 정의 할 수도 있겠지만, 시대적 맥락을 고려하면 "World knowledge 를 잘 아는 Action Model 기반의 Embodiment 동작" 이라고 정의할 수 있겠습니다. 이것이 과거의 로보틱스 AI 에서 안되던 것이죠. 요즘 우리가 AI 라고 하면 선형 회귀를 떠올리지는 않는 것 처럼요.
새로운 Physical AI 는 빨래개기와 같은 작지만 까다로웠던 작업부터 다양한 task 를 모두 소화 하는 일반화 로봇을 가능하게 할 것이에요. 물리적인 능력보다는 지능에 초점에 맞춰져 있죠.
단순하게 생각하면 LLM 이 똑똑해 졌으니 Action 도 잘 할 것이고, Physical AI 도 잘 되겠지라고 생각할 수 있겠지만 그렇지 않습니다. LLM 이고 멀티모달리티고 잘 되는 이유가 무었인가요. 한마디로 요약하면 Scaling 입니다. 방대한 데이터를 모두 학습했기 때문인데, 문제는 Action 은 데이터가 없습니다. 글이나 이미지/영상이 아니죠.
허깅페이스의 SmolVLA 는 이러한 Action Scaling의 문제를 democratizing 으로 해결하고자 하는 첫 걸음 입니다. 로봇을, 플랫폼을 오픈소스화 하고 해커톤을 열고 사람들이 사용해서 데이터를 올리고 이걸로 다시 학습하고. 선순환 구조죠. 이번 해커톤을 통해 다양한 데이터가 또 쌓였을 것이고, 이걸로 다음 VLA 를 만들겠죠. 더 똑똑해질 것이고, 사람들을 더 사용하고, 데이터는 더 쌓이겠죠.
좋은 방향성이지만 사실 저는 많이 부족하다고 생각합니다. 사람이 데이터를 모아야하니 아무리 많은 사람들이 해도 한계가 있습니다.
Nvidia 는 world model 을 기반으로한 Digital Twin, Digital Cousin 에 초점을 맞추고 있는데, 이 방향도 좋습니다. 너무 길어져서 이쪽 방향은 본 포스트에서 생략하겠습니다만, 허깅페이스의 방향과도 시너지가 날 요소가 충분히 있습니다.
제 의견을 요약하자면, 아직 한참 남았어요. 빠르게 다가오지는 않을 것이에요. 데이터가 준비가 안되어 있어서요. 그래도 지금의 LLM 이 코딩을 정복하는 것 처럼 physical AI 가 세상을 곧 변화시킬 거에요.
마지막 광고
이번 해커톤을 계기로 운영을 위해 오픈 카톡방을 만들었는데 참가자 분들께서 서로 정보 공유와 유의미한 소통이 오가는 것을 보면서 앞으로 좋은 르로봇 커뮤니티가 될 것 같다고 생각했습니다. 관심있으신 분들은 오셔서 좋은 대화 나누면 좋겠습니다.