로봇 제어 소프트웨어의
새로운 표준을 제시합니다.
우리는 시각(Vision), 언어(Language), 행동(Action)을 통합한 VLA 기반 아키텍처를 통해, 로봇이 실제 산업 환경에서 자율적으로 작업을 수행할 수 있도록 만듭니다.
이미 여러 제조·물류 현장에서 실증을 마쳤으며, 세계 최고 수준의 로봇 학회(RSS)에서 기술 우수성을 인정받고 있습니다.
sRFM
small Robot Foundation Model
로봇이 물리적 환경에서 자율적으로 사고하고 행동할 수 있도록 설계된 경량화 범용 AI 모델입니다.
고성능 서버 없이도 온디바이스에서 실시간 추론이 가능하며, 다양한 로봇 플랫폼에 유연하게 탑재될 수 있도록 최적화되었습니다.
40%
업계 평균 대비
40% 이상의 경량
01
Vision
업계 평균 대비
40% 이상의 성능
환경 인식 및 상황 해석
로봇의 카메라 및 센서를 통해 실시간으로 주변 환경을 시각적으로 스캔합니다. 객체 인식(Object Detection), 위치 추정(Pose Estimation), 장면 이해(Scene Parsing) 등을 수행합니다.
비지도 학습 기반의 시각 인식 기술을 통해 새로운 환경에서도 빠른 적응이 가능하며, 기존 대비 객체 인식 정확도 21.3% 향상 (YOLOv5 기반 비교 기준)
명령 해석 및 작업 계획 생성
LLM 기반 언어 이해 모델과 로봇 작업계획(Planning) 알고리즘이 결합되어 작업 구조화, 순서 지정, 조건 분기 처리까지 자동 수행합니다.
기존 Rule-based 파서 대비 문장 해석 정확도 33% 향상,
복합 지시 처리 속도 약 1.8배 개선
02
Language
업계 평균 대비
40% 이상의 성능
03
Action
업계 평균 대비
40% 이상의 성능
동작 계획 수립 및 실행
앞선 판단 결과를 기반으로 경로 계획(Motion Planning) 및 로봇 동작 시퀀스를 생성합니다. 로봇팔/AGV/휴머노이드 등 하드웨어에 맞게 온디바이스에서 즉시 실행 가능한 코드로 변환
기존 시스템 대비 평균 작업 성공률 18.7% 향상, 협업 시나리오에서 실행 실패율 40% 이상 감소
투모로 로보틱스가 개발한 sRFM(slimmed Robot Foundation Model)은 범용성과 경량화, 그리고 실시간 자율성을 핵심으로 하는 차세대 로봇 지능 플랫폼입니다. 기존의 로봇 인공지능 시스템이 고성능 연산 자원에 의존하거나 특정 하드웨어에 종속되어 실제 현장 적용에 어려움을 겪는 것과 달리, sRFM은 산업 현장의 요구에 맞춘 실용적인 로봇 두뇌로 설계되었습니다.
첫 번째로, sRFM은 온디바이스(On-device) 환경에서의 실시간 작동을 전제로 만들어졌습니다. 대규모 LLM 기반 알고리즘을 컴팩트하게 경량화하여, 클라우드 서버나 외부 연산 자원 없이도 로봇 자체 기기에서 추론이 가능하도록 구성되어 있습니다. 이로 인해 인터넷 연결이 불안정한 환경에서도 안정적인 작동이 가능하며, 민감한 데이터를 외부로 전송하지 않기 때문에 보안성과 반응성 모두를 확보할 수 있습니다.

둘째, sRFM은 하드웨어에 독립적인 범용 구조를 갖추고 있습니다. ROS2, MoveIt2 등 로봇 운영 프레임워크와 네이티브로 연동되며, 특정 로봇에 최적화된 모델이 아닌 다양한 플랫폼에 유연하게 탑재할 수 있는 API 기반 구조를 지향합니다. 실제로 휴머노이드, 로봇팔, 자율주행형 물류 로봇 등 다양한 장비에 적용 테스트를 완료하였으며, 기존 플랫폼의 구조를 바꾸지 않고도 RFM을 바로 적용할 수 있는 확장성을 갖추고 있습니다.
셋째, sRFM은 단일 모달의 추론을 넘어서 VLA(Vision–Language–Action) 기반의 멀티모달 통합 지능을 구현합니다. 로봇은 카메라를 통해 환경을 인식하고(Vision), 인간의 언어로 주어진 지시를 해석(Language)한 뒤, 물리적인 작업 계획을 수립하여 실제로 실행(Action)합니다. 이 전 과정이 하나의 통합 모델 내부에서 순차적으로 처리되며, 이를 통해 인간의 명령을 자연스럽게 이해하고 상황에 따라 유연하게 반응할 수 있는 자율형 로봇이 현실화됩니다.
특히 당사는 VLA 모델 내에서 활용되는 주요 시각-언어 알고리즘으로 자체 개발한 CLIP-RT 모델을 적용하였습니다. 이 모델은 기존 대형 비전-언어 모델 대비 약 90% 이상 경량화되었지만, 작업 정확도와 지시 해석력에서는 오히려 높은 성능을 기록하며 RSS 2025에 논문으로 채택되는 등 기술적 우수성을 입증받았습니다. 실제 테스트에서 sRFM은 기존 시스템 대비 작업 성공률 18.7% 향상, 복합 지시문 해석 정확도는 33% 증가, 그리고 실행 실패율은 42.5% 감소하는 결과를 기록했습니다.
마지막으로, sRFM은 단순한 연구 성과가 아니라 산업 현장을 위한 솔루션으로 설계되었습니다. 물류, 제조, 조립, 분류 등의 환경에서 실제 기업들과 컨소시엄을 구성하여 기술을 실증하고 있으며, 이 과정에서 수집된 고품질 작업 데이터는 모델의 성능 개선과 일반화 능력 향상에 직접 기여하고 있습니다. 나아가 강화학습 기반의 안정화 기술을 통해 예기치 못한 상황에서의 오류 회피 및 동작 재계획 기능까지 확보함으로써, 안전성과 신뢰성 또한 산업 수준에 부합합니다.


