For agents: fetch the complete documentation index at llms.txt. Markdown is available with Accept: text/markdown and with .md URL variants.

A nuvem nativa de IApara criadores eAgentes

Execute modelos, escale GPUs e crie agentes de IA, tudo em uma única plataforma.

Comece a criar

Clique para copiar as instruções para o seu agente:

Leia https://novita.ai/docs/skill.md e siga as instruções.

Fale conosco

Confiado por

APIs DE MODELO

LLM

IMAGE

AUDIO

VIDEO

VISION

MODELO

"KIMI-K2.5"

200+models

200mslatency

99.5%uptime

APIs de Modelo sem Servidor

Execute mais de 200 modelos por meio de uma única API.
Nenhuma infraestrutura para gerenciar.

Texto, imagem, áudio, vídeo — tudo sem servidor, tudo
pronto para produção. Você chama, nós executamos. Cobrado por
token, não por hora.

Explorar Todos os Modelos

Deepseek V4 Pro

$1.74/Mt Input · $3.48/Mt Output

1048576 Context

LLM

MiniMax M2.7

$0.3/Mt Input · $1.2/Mt Output

204800 Context

LLM

GLM-5.1

$1.4/Mt Input · $4.4/Mt Output

204800 Context

LLM

Kimi K2.6

$0.95/Mt Input · $4/Mt Output

262144 Context

LLM

Gemma 4 31B

$0.14/Mt Input · $0.4/Mt Output

262144 Context

LLM

Qwen3.5-397B-A17B

$0.6/Mt Input · $3.6/Mt Output

262144 Context

LLM

Deepseek V4 Pro

$1.74/Mt Input · $3.48/Mt Output

1048576 Context

LLM

MiniMax M2.7

$0.3/Mt Input · $1.2/Mt Output

204800 Context

LLM

GLM-5.1

$1.4/Mt Input · $4.4/Mt Output

204800 Context

LLM

Kimi K2.6

$0.95/Mt Input · $4/Mt Output

262144 Context

LLM

Gemma 4 31B

$0.14/Mt Input · $0.4/Mt Output

262144 Context

LLM

Qwen3.5-397B-A17B

$0.6/Mt Input · $3.6/Mt Output

262144 Context

LLM

Deepseek V4 Pro

$1.74/Mt Input · $3.48/Mt Output

1048576 Context

LLM

MiniMax M2.7

$0.3/Mt Input · $1.2/Mt Output

204800 Context

LLM

GLM-5.1

$1.4/Mt Input · $4.4/Mt Output

204800 Context

LLM

Kimi K2.6

$0.95/Mt Input · $4/Mt Output

262144 Context

LLM

Gemma 4 31B

$0.14/Mt Input · $0.4/Mt Output

262144 Context

LLM

Qwen3.5-397B-A17B

$0.6/Mt Input · $3.6/Mt Output

262144 Context

LLM

Endpoints Dedicados

Endpoints privados. Desempenho garantido. Sem vizinhos barulhentos.

Seu modelo. Sua computação. Recursos isolados significam latência consistente em qualquer throughput. Porque produção não tem orçamento para novas tentativas.

Começar

SANDBOX DE AGENTES

agente

"coding agents"

coding agent · active

sandbox runtime

Executar suíte de testes · pytest

na fila

Escrever correção · patch aplicado

em execução

Identificar bug · ponteiro nulo na linha 84

concluído

Ler base de código · src/api/routes.py

concluído

inicialização~200ms

isolamentoFull

faturamentoper second

statusRUNNING

Sandbox de agentes

Ambientes de execução seguros e isolados. Criados para agentes que realmente fazem coisas.

Não é um notebook. Não é um contêiner que você configura por conta própria. É um ambiente criado sob medida onde agentes rodam, usam ferramentas, chamam modelos e executam tarefas — de forma limpa, isolada, sempre.

Começar

NUVEM GPU

GPU

flagship

GPU Instances

Máquinas GPU com controle total. Suas em segundos.

Implante modelos, execute inferência e treine do zero em instâncias dedicadas de GPU que você controla totalmente. Desempenho previsível. Sem recursos compartilhados. Sem surpresas.

Serverless GPU

Envie um job. Nós cuidamos do resto.

Sem instâncias para provisionar. Sem computação ociosa para pagar. A Novita aloca recursos de GPU automaticamente, escala sob carga e escala para zero quando você termina. Você paga pela execução, nada mais.

tarefa

queued

running

complete

allocating gpu resources

allocating

12%

alocado

auto

duração

0.1s

custo

$0.0001

tempo ocioso

$0.00

cluster

"Cluster-01"

CLUSTER-01 · 6 nodesNVLink · GPUDirect RDMA · PCIe

Node-01

51%

Node-02

79%

Node-03

86%

Node-05

89%

Node-06

65%

Node-07

81%

GPU 8× NVIDIA H200

GPU Memory 141 GB HBM3e per GPU

1.128TB total

Nodes 6 / 6

Interconnect NVLink 4th Gen · 900 GB/s

Network 400 Gb/s RDMA

Bare Metal

Desempenho máximo. Zero sobrecarga de abstração.

Clusters físicos dedicados de GPU para inferência em larga escala, execuções de treinamento e implantações empresariais que não podem comprometer a vazão. Quando você precisa do hardware só para você, é isso.

Por que Novita AI

Criado para IA desde o primeiro dia. Projetado para o que você realmente está construindo.

Melhor custo-benefício

Até 50% menos que os principais provedores de nuvem. Não porque cortamos custos, mas porque construímos a infraestrutura.

Criado para confiabilidade em produção

Infraestrutura estável com baixa latência, alta taxa de transferência e disponibilidade confiável em escala.

Uma plataforma para toda a stack de IA

APIs de modelos, infraestrutura de GPU e tempos de execução de agentes — tudo em uma única plataforma.

Escale com sua carga de trabalho

Comece pequeno e escale sem dificuldades, de APIs a clusters dedicados.

Suporte dedicado quando mais importa

Suporte técnico rápido de uma equipe que entende infraestrutura de IA.

Criado com Novita AI

Testimonials

Don't take our word for it.

Eu aprecio a rapidez com que a Novita AI se move para implantar modelos recém-lançados. A equipe deles costuma ser uma das primeiras a disponibilizar suporte de inferência estável e pronto para produção, muitas vezes já no primeiro dia. Essa velocidade é fundamental para toda a comunidade de IA de código aberto.

Julien Chaumond

Cofundador e CTO

A Novita tem sido uma grande ajuda para nós na Fish Audio. Sua infraestrutura de GPU confiável nos permite focar no desenvolvimento e na melhoria dos nossos modelos de conversão de texto em fala, em vez de lidar com dores de cabeça relacionadas a hardware. O suporte e o desempenho deles tornaram muito mais fácil impulsionar nosso trabalho.

Shijia Liao

Cofundador e Cientista-Chefe

A Model API da Novita foi supersimples de integrar e tem sido excelente para impulsionar nossos flashcards e quizzes baseados em IA. A plataforma cuida do trabalho pesado, para que possamos focar em criar ferramentas de aprendizado melhores para nossos usuários sem nos preocupar com infraestrutura ou problemas de escalabilidade.

Petros Christodoulou

Cofundador e CEO

Trabalhar com a Novita AI tem sido uma experiência fantástica para a Kilo. A plataforma de inferência deles nos ajuda a oferecer fluxos de trabalho de codificação com AI rápidos e confiáveis em vários LLMs, com forte desempenho no mundo real para fluxos de trabalho agênticos. E tem sido muito fácil trabalhar com a equipe! Eles estão sempre otimizando com base nos modelos e na tecnologia mais recentes — um parceiro perfeito para a Kilo Code.

Ari Messer

Diretor de Parcerias

Novidades

ANNOUNCEMENT

Macaron V1 Venti

Available on Novita AI now

LLM

$0/0 in/out MTokens | 1048576 Context

ANNOUNCEMENT

Ling-3.0-flash

Available on Novita AI now

LLM

$0/0 in/out M Tokens | 262144 Context

ANNOUNCEMENT

Deepseek V4 Pro

Available on Novita AI now

LLM

$1.6/3.38 in/out MTokens | 1048576 Context

CASE STUDY

NovitaX

Hugging Face

Novita available on Hugging Face now

CASE STUDY

NovitaX

POE

Novita models on POE now

CASE STUDY

NovitaX

LLM

Accelerate AI Inference

CASE STUDY

NovitaX

Accelerate AI Inference

ANNOUNCEMENT

Featured Blogs

insights, LLM tips, and GPU solutions

CHECK OUT THE LATEST ARTICLES

Tudo o que você precisa para criar IA de produção.

Mais de 200 modelos, GPUs sob demanda e ambientes de execução de agentes seguros — unificados em uma única API. Grátis para começar, escala conforme você cresce.

A nuvem nativa de IApara criadores eAgentes

Execute mais de 200 modelos por meio de uma única API. Nenhuma infraestrutura para gerenciar.

Endpoints privados. Desempenho garantido. Sem vizinhos barulhentos.

Ambientes de execução seguros e isolados. Criados para agentes que realmente fazem coisas.

Máquinas GPU com controle total. Suas em segundos.

Envie um job. Nós cuidamos do resto.

Desempenho máximo. Zero sobrecarga de abstração.

Don't take our word for it.

Tudo o que você precisa para criar IA de produção.

Execute mais de 200 modelos por meio de uma única API.
Nenhuma infraestrutura para gerenciar.