Robotics-0 este un model VLA dezvoltat de Xiaomi cu 4,7 miliarde de parametri, care combină capacitatea de a vedea, interpreta limbaj natural și executa acțiuni fizice complexe.
Arhitectura folosește două componente: un Visual Language Model pentru interpretarea mediului și a instrucțiunilor și un Action Expert care generează secvențe coerente de mișcări.
Modelul open-source permite comunității științifice să-l dezvolte, păstrând un echilibru între înțelegerea multimodală și execuția precisă a sarcinilor în lumea reală.