Jeudi 01 Mai 2025
OVHcloud annonce officiellement le lancement de AI Endpoints, une solution cloud serverless inédite, conçue pour simplifier l'implémentation de schémas d'intelligence artificielle dans les applications et prestations professionnelles. Imaginée pour démocratiser l'utilisation de l'IA, la plateforme propose une collection de plus de 40 modèles open source, couvrant un large spectre d'applications métier.
AI Endpoints offre aux développeurs la possibilité d'accéder à des modèles de traitement automatique des langues (LLM), de création de code, de reconnaissance de la parole ou encore de production d'images, sans avoir à se préoccuper de l'infrastructure sous-jacente ni à posséder une compétence pointue en apprentissage machine. La solution s'appuie sur l'écosystème cloud souverain d'OVHcloud, garantissant un hébergement sécurisé des données en Europe, ainsi que leur protection face aux règlementations non-européennes.

La plateforme met à disposition un environnement de test (sandbox) permettant aux développeurs de se familiariser avec les capacités des modèles avant de les intégrer complètement, ainsi que des API facilitant l'incorporation dans les environnements de développement existants. Les applications visées comprennent l'automatisation du service client, l'aide à la programmation, l'extraction de texte à partir de documents non structurés, ou encore la conversion parole-texte et texte-parole. OVHcloud souligne la transparence de son approche, avec des modèles proposés en open weight, pouvant être déployés sur des infrastructures externes ou sur site en fonction des besoins des organisations.
Après une phase de prévisualisation, la solution a été progressivement améliorée avec l'ajout de nouveaux modèles, en prenant en compte les suggestions des utilisateurs (support de modèles stables, gestion plus précise des clés API…). Actuellement, AI Endpoints offre plus de 40 modèles IA open-source de dernière génération, notamment :
LLM : Llama 3.3 70B, Mixtral 8x7B, ... SLM : Mistral Nemo, Llama 3.1 8B, ... Code : Qwen 2.5 Coder 32B, Codestral Mamba Raisonnement : DeepSeek-R1 (Llama distillé) Multimodal : Qwen 2.5 VL 72B, ... Génération d'images : SDXL Voix et discours : ASR (speech-to-text), TTS (text-to-speech)
La plateforme permet l'inférence à la demande, avec une facturation basée sur la consommation, mesurée par le nombre d'unités utilisées par minute et par modèle. Hébergée dans le centre de données de Gravelines, près de Dunkerque, qui emploie un système de refroidissement à eau pour minimiser l'impact environnemental, elle est d'ores et déjà accessible en Europe, au Canada et dans la zone Asie-Pacifique.