ENDPOINT DEDICADO

Execute seus modelos,
Nós cuidamos do resto

Implante modelos em GPUs dedicadas. Cobrança por segundo apenas em réplicas em execução, opções de GPU acessíveis a partir de $0.61/h, e problemas de inferência ficam por nossa conta.

Começar a implantar Ver preço

Pague apenas pelo que está em execução

Cobrança por segundo em réplicas ativas. Reduza a zero, pague zero. Sem cobranças por endpoints ociosos, sem compromissos mínimos.

Prévia de cobrança

3 réplicas 4090 × 2h 15m 42s em execução

= 3 × 8,142s × $0.000608/s

= $14.85

GPUs para todos os orçamentos

Nem toda carga de trabalho precisa de uma H200. Escolha entre RTX 4090, RTX 5090, H100 — ajuste a GPU ao tamanho do seu modelo e ao seu orçamento.

Falhas na inferência? Deixa com a gente.

OOM, erros CUDA, falhas no carregamento de modelos — nossa equipe diagnostica e resolve. Você recebe uma explicação clara, não um stack trace enigmático.

Report via console or email

Our team investigates root cause

You get diagnosis + resolution

Opções de implantação

Serverless vs. Dedicado

Escolha o modelo de implantação certo para sua carga de trabalho

Serverless Endpoints

Pay per token
600+ models available
Zero infrastructure management
Auto-scaling included
Best for variable workloads

Recomendado para produção

Endpoints dedicados

Isolated GPU resources
Guaranteed latency SLA
Custom models & LoRA adapters
Scale-to-zero support
Best for predictable, high-throughput workloads

Plataforma

Criado para cargas de trabalho de produção

Tudo o que você precisa para implantar, escalar e gerenciar inferência de AI em produção.

Inferência ultrarrápida

Desenvolvido com mecanismos de serviço otimizados em GPUs NVIDIA H200, H100 e RTX 4090. Latência abaixo de um segundo para aplicações em tempo real.

Autoescalonamento dinâmico

Escale de 0 a N réplicas automaticamente com base no tráfego. Defina réplicas mín./máx. e atraso de redução de escala para corresponder aos seus padrões de tráfego.

Suporte a adaptadores LoRA

Troque adaptadores LoRA a quente em endpoints em execução, sem reinicializações. Implante várias variantes ajustadas em um único modelo base.

Opções flexíveis de GPU

Escolha entre NVIDIA H200, H100 e RTX 4090. Selecione o paralelismo de tensores e a quantidade de GPUs para atender aos requisitos do seu modelo.

Cobrança por hora

Cobrado por hora de GPU com granularidade por segundo. Escale para zero quando ocioso — sem compromisso mínimo, sem custos de GPU ociosa.

Suporte empresarial

Suporte técnico dedicado, SLAs personalizados e acesso prioritário a novos tipos de GPU. Descontos por volume para grandes implantações.

Catálogo

Implante modelos populares de código aberto

Implante com um clique os LLMs mais populares ou traga seu próprio modelo Hugging Face.

Fluxo de trabalho

Implante em 3 etapas

Tudo o que você precisa para implantar, escalar e gerenciar inferência de IA em produção.

001

Escolha seu modelo

Pesquise mais de 50 mil modelos do Hugging Face ou cole a URL do seu repositório privado.

Pesquisar modelos... ex.: Qwen2.5-7B

OCR Models: PaddleOCR、GOT-OCR、...

Reranker Models: BGE-Reranker、...

LLM Models: DeepSeek、GLM、...

002

Escolha sua GPU

Veja a GPU recomendada para o seu modelo. Escolha a que se encaixa no seu orçamento.

RTX 4090 · $0.61/hr

H100 · $1.99/hr

H200 · $2.99/hr

Réplicas

003

Implantar

Seu endpoint fica ativo em minutos. URL compatível com OpenAI pronta para usar.

Endpoint

Ativo

POST

api.example.com/v1/chat/completions

Preços

Preços transparentes de GPU

GPU	VRAM	Preço / GPU-hora
NVIDIA H200 SXMPopular	141 GB	$2.99
NVIDIA H100 SXM	80 GB	$1.99
NVIDIA RTX 4090	24 GB	$0.61

Precisa de capacidade reservada ou preços personalizados?

Fale com nossa equipe

FAQ

Perguntas frequentes

Per-second on running replicas only. When your endpoint is scaled to zero or stopped, you pay nothing. No minimum commitments, no idle charges.

Ainda tem dúvidas? Entrar em contato com o suporte

Tudo o que você precisa para criar IA de produção.

Mais de 200 modelos, GPUs sob demanda e ambientes de execução de agentes seguros — unificados em uma única API. Grátis para começar, escala conforme você cresce.

Execute seus modelos,Nós cuidamos do resto