ENDPOINT DÉDIÉ

Exécutez vos modèles,
Nous nous occupons du reste

Déployez des modèles sur des GPUs dédiés. Facturation à la seconde uniquement sur les réplicas en cours d’exécution, options GPU abordables à partir de $0.61/hr, et les problèmes d’inférence sont à notre charge.

Commencer le déploiement Voir le prix

Payez uniquement pour ce qui fonctionne

Facturation à la seconde sur les réplicas actifs. Passage à zéro, paiement zéro. Aucun frais pour les endpoints inactifs, aucun engagement minimum.

Aperçu de la facturation

3 réplicas 4090 × 2h 15m 42s en cours d’exécution

= 3 × 8,142s × $0.000608/s

= $14.85

Des GPUs pour tous les budgets

Toutes les charges de travail n’ont pas besoin d’un H200. Choisissez parmi RTX 4090, RTX 5090, H100 — adaptez le GPU à la taille de votre modèle et à votre budget.

L’inférence tombe en panne ? C’est à notre charge.

OOM, erreurs CUDA, échecs de chargement de modèle — notre équipe diagnostique et résout les problèmes. Vous obtenez une explication claire, pas une trace de pile cryptique.

Report via console or email

Our team investigates root cause

You get diagnosis + resolution

Options de déploiement

Serverless vs dédié

Choisissez le bon modèle de déploiement pour votre charge de travail

Serverless Endpoints

Pay per token
600+ models available
Zero infrastructure management
Auto-scaling included
Best for variable workloads

Recommandé pour la production

Endpoints dédiés

Isolated GPU resources
Guaranteed latency SLA
Custom models & LoRA adapters
Scale-to-zero support
Best for predictable, high-throughput workloads

Plateforme

Conçu pour les charges de travail de production

Tout ce dont vous avez besoin pour déployer, faire évoluer et gérer l'inférence IA en production.

Inférence ultra-rapide

Propulsé par des moteurs de serving optimisés sur des GPUs NVIDIA H200, H100 et RTX 4090. Latence inférieure à la seconde pour les applications en temps réel.

Mise à l'échelle automatique dynamique

Passez automatiquement de 0 à N réplicas en fonction du trafic. Définissez les réplicas min/max et le délai de réduction d'échelle pour correspondre à vos schémas de trafic.

Prise en charge des adaptateurs LoRA

Remplacez à chaud les adaptateurs LoRA sur des endpoints en cours d'exécution sans redémarrage. Déployez plusieurs variantes affinées sur un seul modèle de base.

Options GPU flexibles

Choisissez parmi NVIDIA H200, H100 et RTX 4090. Sélectionnez le parallélisme tensoriel et le nombre de GPU pour répondre aux exigences de votre modèle.

Facturation à l'heure

Facturation à l'heure GPU avec une granularité à la seconde. Mise à l'échelle à zéro en cas d'inactivité — aucun engagement minimum, aucun coût de GPU inactif.

Support entreprise

Support technique dédié, SLA personnalisés et accès prioritaire aux nouveaux types de GPU. Remises sur volume pour les grands déploiements.

Catalogue

Déployez des modèles open source populaires

Déployez en un clic les LLMs les plus populaires, ou importez votre propre modèle Hugging Face.

Workflow

Déployer en 3 étapes

Tout ce dont vous avez besoin pour déployer, faire évoluer et gérer l’inférence IA en production.

001

Choisissez votre modèle

Recherchez parmi plus de 50 000 modèles sur Hugging Face, ou collez l’URL de votre dépôt privé.

Rechercher des modèles... p. ex. Qwen2.5-7B

OCR Models: PaddleOCR、GOT-OCR、...

Reranker Models: BGE-Reranker、...

LLM Models: DeepSeek、GLM、...

002

Choisissez votre GPU

Consultez le GPU recommandé pour votre modèle. Choisissez celui qui correspond à votre budget.

RTX 4090 · $0.61/hr

H100 · $1.99/hr

H200 · $2.99/hr

Répliques

003

Déployer

Votre point de terminaison est en ligne en quelques minutes. URL compatible OpenAI prête à l’emploi.

Point de terminaison

En direct

POST

api.example.com/v1/chat/completions

Tarification

Tarification GPU transparente

GPU	VRAM	Prix / heure-GPU
NVIDIA H200 SXMPopulaire	141 GB	$2.99
NVIDIA H100 SXM	80 GB	$1.99
NVIDIA RTX 4090	24 GB	$0.61

Besoin d’une capacité réservée ou d’une tarification personnalisée ?

Parlez à notre équipe

FAQ

Foire aux questions

Per-second on running replicas only. When your endpoint is scaled to zero or stopped, you pay nothing. No minimum commitments, no idle charges.

Vous avez encore des questions ? Contacter le support

Tout ce dont vous avez besoin pour créer une IA de production.

Plus de 200 modèles, des GPUs à la demande et des environnements d’exécution d’agents sécurisés — unifiés sous une seule API. Gratuit pour commencer, évolutif à mesure que vous grandissez.

Exécutez vos modèles,Nous nous occupons du reste