Xiaomi unifie robotique et conduite autonome avec une nouvelle IA open source

Table des matières

Xiaomi vient de dévoiler MiMo-Embodied, un modèle d’IA multimodal conçu pour combler le fossé entre la robotique domestique et la conduite autonome. Il est disponible en open source. Cette innovation promet d’améliorer considérablement la capacité des machines à percevoir et interagir avec leur environnement physique grâce à des performances surpassant les standards actuels.

L’industrie de l’IA a longtemps évolué en silos, chaque domaine développant ses propres modèles spécialisés. Les algorithmes conçus pour la robotique se concentraient principalement sur la manipulation d’objets en intérieur, tandis que ceux destinés aux véhicules autonomes géraient la navigation en extérieur. Xiaomi bouscule cette séparation avec MiMo-Embodied, présenté comme une avancée majeure en réunissant ces deux approches au sein d’une même architecture.

Ce modèle de fondation peut traiter simultanément des données visuelles, linguistiques et des commandes d’action. En rendant son code accessible sur GitHub et Hugging Face, Xiaomi veut accélérer la recherche et faciliter la création d’agents polyvalents capables d’agir dans des situations physiques très variées.

Une architecture polyvalente pour l’intelligence physique

L’intégration de modèles aussi complexes dans des applications réelles impose aux entreprises une gestion rigoureuse de leurs ressources. De la même manière qu’un indépendant réalise un calcul des charges précis pour assurer la pérennité de son activité, les ingénieurs doivent évaluer avec soin la puissance de calcul requise pour faire tourner MiMo-Embodied.

Ce modèle se distingue par sa capacité à comprendre des instructions en langage naturel et à les traduire en actions concrètes. Cette compétence est désignée sous le terme de « Vision-Language-Action ». Contrairement aux systèmes précédents qui nécessitaient des entraînements distincts pour chaque type de tâche, cette solution utilise une base commune pour exceller dans des environnements totalement différents.

Le modèle a été conçu pour maîtriser une vaste gamme de compétences, validées par des résultats supérieurs sur 29 bancs d’essai de référence. Il interprète des flux vidéo et des données spatiales pour prendre des décisions en temps réel.

Cette polyvalence repose sur une structuration précise :

  • – Robotique (Intelligence Incarnée) : excelle dans la prédiction des « affordances » (comprendre comment interagir avec un objet) ;
  • – Conduite Autonome : assure la perception de l’environnement routier, la prédiction du statut des autres véhicules ou piétons ;
  • – Généralisation : compétences acquises dans un domaine (comme la manipulation fine) renforcent les capacités dans l’autre (comme la prise de décision rapide).

Performances techniques et disponibilité du modèle

Pour atteindre ce niveau de performance, Xiaomi a mis en œuvre une stratégie d’entraînement sophistiquée combinant plusieurs sources de données. Le processus s’appuie sur des données issues du monde réel, complétées par des environnements simulés et des jeux de données génériques de vision-langage.

Cette approche hybride permet au modèle de ne pas être limité par le manque de données physiques, souvent coûteuses à collecter. Elle sert aussi à optimiser des tâches complexes comme le calcul des charges, en reproduisant fidèlement les contraintes rencontrées dans des situations réelles.

Pour affiner ses stratégies de résolution de problèmes face à des situations inédites, le système utilise également des techniques avancées comme :

  • – Le raisonnement par « chaîne de pensée » (Chain-of-Thought) ;
  • – L’ajustement par renforcement (Reinforcement Learning).

En termes de résultats bruts, MiMo-Embodied s’impose face à la concurrence. Les tests techniques révèlent qu’il surpasse les modèles existants, qu’ils soient open source ou propriétaires, sur la majorité des indicateurs clés.

Entre autres, dans les tâches de planification pour robots, il démontre une capacité supérieure à décomposer une consigne abstraite en une série de mouvements exécutables. Cette supériorité technique s’accompagne d’une volonté d’ouverture. Les poids du modèle et le code source sont entièrement disponibles pour la communauté scientifique et les industriels.

Cet article vous a-t-il été utile ?

Note moyenne 0 / 5. Votants: 0

Retrouvez ici les dernières actualités