« Réinventez demain avec l’IA »

Meta AI dévoile DINOv3, une version remaniée de ses modèles de vision artificielle, bénéficiant d'un entraînement auto-supervisé.

Jeudi 04 Septembre 2025

La division Meta AI Research a récemment présenté DINOv3, un modèle de vision artificielle élaboré via un apprentissage auto-supervisé. Ce modèle se distingue par des performances exceptionnelles dans un large éventail de missions visuelles, sans qu'il soit nécessaire de le spécialiser pour chaque tâche. Les chercheurs affirment qu'il s'agit de la première fois qu'une ossature visuelle figée unique surpasse les solutions dédiées sur diverses tâches de prédiction dense établies, notamment la détection d’objets et la segmentation sémantique.

Avec DINOv3, Meta propose une base universelle capable de générer des représentations exploitables directement, sans nécessiter d'ajustements importants. Ainsi, une seule et même architecture peut être utilisée pour la recherche d'images, l'estimation de la profondeur ou l'analyse pixel par pixel, simplement en ajoutant un module complémentaire léger approprié.

Meta AI dévoile DINOv3, une version remaniée de ses modèles de vision artificielle, bénéficiant d\'un entraînement auto-supervisé.

La plus imposante des versions de DINOv2, dévoilée par Meta AI en avril 2023, ViT-Giant (ViT-G/14), totalisait 1 milliard de paramètres. DINOv3, de son côté, comprend 7 milliards de paramètres appris sur 1,7 milliard d'images méticuleusement sélectionnées, incluant ImageNet, Mapillary et des données issues du web.

Alors que l'augmentation de la taille des modèles auto-supervisés engendre une détérioration des cartes de caractéristiques denses, nuisant à la cohérence géométrique et à la précision des tâches minutieuses, Meta Research a mis en œuvre divers mécanismes pour relever ces défis.

Par exemple, le Gram Anchoring vise à maintenir la cohérence locale des images durant un apprentissage prolongé, une problématique souvent négligée mais cruciale pour la qualité des représentations denses. De même, l'utilisation d'Axial RoPE avec jittering améliore la robustesse face aux variations de résolution ou de proportions d'image, rapprochant le modèle d'une application plus concrète dans un environnement diversifié.

Performances du modèle
DINOv3 atteint, voire dépasse, les performances des modèles faiblement supervisés ou supervisés les plus récents tels que SigLIP 2, une version de CLIP optimisée pour la classification d'images, la recherche visuelle et les tâches zero-shot, et Perception Encoder, un modèle multimodal utilisé dans des systèmes comme Gemini ou GPT-4V, sur de nombreux benchmarks de classification d'images, tout en augmentant considérablement l'écart dans les tâches de prédiction dense.

Meta propose également des déclinaisons plus réduites, obtenues par la distillation du modèle. On retrouve ainsi des versions ViT-B et ViT-L, ainsi que des architectures ConvNeXt (T, S, B, L), conçues pour s'adapter à différentes contraintes de calcul. Ces variantes conservent une part importante des performances de DINOv3, tout en rendant son utilisation accessible à un plus large éventail de chercheurs et de développeurs.

Applications concrètes
DINOv3 ouvre de nouvelles perspectives pour une vaste gamme d'applications dans des contextes où les données annotées sont rares ou coûteuses. Le World Resources Institute l'utilise pour analyser des images satellites et surveiller la déforestation, tandis qu'Orakl Oncology s'appuie sur ses représentations pour prédire les réponses thérapeutiques à partir d'images d'organoïdes. Le Jet Propulsion Laboratory de la NASA, quant à lui, l'intègre dans des systèmes de vision embarqués pour la robotique d'exploration.

Au-delà de ces exemples précis, sa polyvalence offre des possibilités dans les domaines de la santé, des véhicules autonomes, de la robotique, du commerce, de la logistique ou encore de l'industrie.

Meta met à disposition DINOv3 avec son code d'entraînement, ses modèles pré-entraînés et plusieurs modules d'évaluation, le tout sous licence commerciale. Une version spécialisée, entraînée sur des images satellites MAXAR, est également proposée. Des exemples de notebooks sont fournis pour simplifier la prise en main et l'expérimentation.

Ils nous font confiance

fpsports.fr
numismatique-or-argent.eu
www.fibreos-shop.com
carplip.fr
www.mx3.fr
www.airkompressor31.fr