« Réinventez demain avec l’IA »

Intelligence artificielle et robotique : grâce à SmolVLA, Hugging Face rend les modèles Vision-Langage-Action accessibles à tous.

Jeudi 12 Juin 2025

Le 3 juin dernier, Hugging Face a dévoilé SmolVLA, un modèle de robotique Vision-Language-Action en open-source. Ce modèle, de taille réduite avec seulement 450 millions de paramètres, peut être utilisé sur du matériel accessible au grand public, comme un MacBook ou une carte graphique standard, tout en conservant des performances comparables à celles de modèles beaucoup plus imposants.

L'utilisation de l'intelligence artificielle dans le domaine de la robotique est en plein développement, grâce aux avancées dans des domaines tels que la vision par ordinateur, le traitement du langage naturel et l'apprentissage par renforcement. Cette progression a été amplifiée par les modèles VLA, qui sont capables d'analyser leur environnement, de comprendre les instructions données par les humains et d'agir de façon autonome dans des environnements complexes.

Intelligence artificielle et robotique : grâce à SmolVLA, Hugging Face rend les modèles Vision-Langage-Action accessibles à tous.

Cependant, cette promesse technologique se confronte à plusieurs limitations. Premièrement, la plupart des modèles VLA existants sont extrêmement volumineux, souvent équipés de plusieurs milliards de paramètres, ce qui engendre des coûts d'entraînement très élevés et limite leur adoption dans des situations réelles. Deuxièmement, les récentes découvertes restent majoritairement propriétaires : les poids sont parfois mis à disposition, mais les informations détaillées concernant l'entraînement et les composants méthodologiques essentiels sont, la plupart du temps, inaccessibles.

SmolVLA se présente comme une solution à ces difficultés : il offre une alternative légère, ouverte et reproductible, sans pour autant sacrifier la performance.

Architecture et conception

SmolVLA a été entraîné exclusivement à partir d'ensembles de données collectées par la communauté, via la plateforme LeRobot hébergée sur Hugging Face. Son architecture est modulaire et comprend deux éléments principaux :

SmolVLM-2, un modèle léger et performant, optimisé pour le traitement de multiples images et de vidéos. Il est constitué de deux éléments complémentaires : l'encodeur visuel SigLIP et le décodeur de langage SmolLM2, qui permettent au système d'interpréter l'environnement visuel du robot et d'en produire une compréhension en langage naturel ;

Action Expert, un transformeur de 100 millions de paramètres qui prévoit les actions que le robot doit effectuer, en se basant sur les informations fournies par le VLM.

Des choix de conception spécifiques contribuent à l'efficacité du modèle :

La réduction du nombre de tokens visuels accélère l'inférence sans affecter la qualité ;

Le layer skipping permet une exécution plus rapide en évitant certaines couches du modèle ;

L'attention entrelacée optimise la circulation de l'information entre les différentes modalités ;

L'inférence asynchrone autorise la prédiction d'une action pendant l'exécution de la précédente.

Autant d'éléments qui contribuent à améliorer les performances tout en contrôlant la charge de calcul. En rendant disponible en open source le modèle, son code source, les ensembles de données d'entraînement et le matériel des robots, tout en fournissant des instructions détaillées pour garantir une reproductibilité complète, Hugging Face a pour objectif de démocratiser l'accès aux modèles VLA et d'accélérer la recherche sur les agents robotiques généralistes.

Ils nous font confiance

www.piscine-plus.fr
callicom.fr
aliceberryatelier.fr
www.dca-distribution.fr/
boutique-the-cafe.ch
bricdyonisos.com