ENDPOINT DEDICADO

Execute seus modelos,
Nós cuidamos do resto

Implante modelos em GPUs dedicadas. Cobrança por segundo apenas em réplicas em execução, opções de GPU acessíveis a partir de $0.61/h, e problemas de inferência ficam por nossa conta.

Pague apenas pelo que está em execução

Cobrança por segundo em réplicas ativas. Reduza a zero, pague zero. Sem cobranças por endpoints ociosos, sem compromissos mínimos.

Prévia de cobrança

3 réplicas 4090 × 2h 15m 42s em execução

= 3 × 8,142s × $0.000608/s

= $14.85

GPUs para todos os orçamentos

Nem toda carga de trabalho precisa de uma H200. Escolha entre RTX 4090, RTX 5090, H100 — ajuste a GPU ao tamanho do seu modelo e ao seu orçamento.

RTX 4090

24 GB

a partir de$0.61/hr

H100

80 GB

a partir de$1.99/hr

H200

141 GB

a partir de$2.99/hr

Falhas na inferência? Deixa com a gente.

OOM, erros CUDA, falhas no carregamento de modelos — nossa equipe diagnostica e resolve. Você recebe uma explicação clara, não um stack trace enigmático.

Report via console or email

Our team investigates root cause

You get diagnosis + resolution

Opções de implantação

Serverless vs. Dedicado

Escolha o modelo de implantação certo para sua carga de trabalho

Serverless Endpoints

  • Pay per token
  • 600+ models available
  • Zero infrastructure management
  • Auto-scaling included
  • Best for variable workloads
Recomendado para produção

Endpoints dedicados

  • Isolated GPU resources
  • Guaranteed latency SLA
  • Custom models & LoRA adapters
  • Scale-to-zero support
  • Best for predictable, high-throughput workloads

Plataforma

Criado para cargas de trabalho de produção

Tudo o que você precisa para implantar, escalar e gerenciar inferência de AI em produção.

Inferência ultrarrápida

Desenvolvido com mecanismos de serviço otimizados em GPUs NVIDIA H200, H100 e RTX 4090. Latência abaixo de um segundo para aplicações em tempo real.

Autoescalonamento dinâmico

Escale de 0 a N réplicas automaticamente com base no tráfego. Defina réplicas mín./máx. e atraso de redução de escala para corresponder aos seus padrões de tráfego.

Suporte a adaptadores LoRA

Troque adaptadores LoRA a quente em endpoints em execução, sem reinicializações. Implante várias variantes ajustadas em um único modelo base.

Opções flexíveis de GPU

Escolha entre NVIDIA H200, H100 e RTX 4090. Selecione o paralelismo de tensores e a quantidade de GPUs para atender aos requisitos do seu modelo.

Cobrança por hora

Cobrado por hora de GPU com granularidade por segundo. Escale para zero quando ocioso — sem compromisso mínimo, sem custos de GPU ociosa.

Suporte empresarial

Suporte técnico dedicado, SLAs personalizados e acesso prioritário a novos tipos de GPU. Descontos por volume para grandes implantações.

Fluxo de trabalho

Implante em 3 etapas

Tudo o que você precisa para implantar, escalar e gerenciar inferência de IA em produção.

001

Escolha seu modelo

Pesquise mais de 50 mil modelos do Hugging Face ou cole a URL do seu repositório privado.

Pesquisar modelos... ex.: Qwen2.5-7B
OCR Models: PaddleOCR、GOT-OCR、...
Reranker Models: BGE-Reranker、...
LLM Models: DeepSeek、GLM、...

002

Escolha sua GPU

Veja a GPU recomendada para o seu modelo. Escolha a que se encaixa no seu orçamento.

RTX 4090 · $0.61/hr
H100 · $1.99/hr
H200 · $2.99/hr
Réplicas
1

003

Implantar

Seu endpoint fica ativo em minutos. URL compatível com OpenAI pronta para usar.

Preços

Preços transparentes de GPU

GPUVRAMPreço / GPU-hora
NVIDIA H200 SXMPopular
141 GB$2.99
NVIDIA H100 SXM
80 GB$1.99
NVIDIA RTX 4090
24 GB$0.61

Precisa de capacidade reservada ou preços personalizados?

Fale com nossa equipe

FAQ

Perguntas frequentes

Per-second on running replicas only. When your endpoint is scaled to zero or stopped, you pay nothing. No minimum commitments, no idle charges.

Ainda tem dúvidas? Entrar em contato com o suporte

Tudo o que você precisa para criar IA de produção.

Mais de 200 modelos, GPUs sob demanda e ambientes de execução de agentes seguros — unificados em uma única API. Grátis para começar, escala conforme você cresce.