Xiaomi-Robotics-0

4.7B parameter Vision-Language-Action (VLA) model for real-time robotic execution. Scales VLA models for consumer GPUs.

Outputs 2

model

Architecture DENSE

Parameters 4.7B

paper 2026-02-13

Report on scaling Vision-Language-Action models for consumer GPUs.

embodiedmultimodalopen-weight