For agents: fetch the complete documentation index at llms.txt. Markdown is available with Accept: text/markdown and with .md URL variants.

La nube nativa de IApara creadores yAgentes

Ejecuta modelos, escala GPUs y crea agentes de IA, todo en una sola plataforma.

Empieza a crear

Haz clic para copiar las instrucciones para tu agente:

Leer https://novita.ai/docs/skill.md y sigue las instrucciones.

Habla con nosotros

Con la confianza de

APIs DE MODELOS

LLM

IMAGE

AUDIO

VIDEO

VISION

MODEL

"KIMI-K2.5"

200+models

200mslatency

99.5%uptime

APIs de modelos sin servidor

Ejecuta más de 200 modelos mediante una sola API.
Sin infraestructura que gestionar.

Texto, imagen, audio, video — todo sin servidor, todo
listo para producción. Tú lo llamas, nosotros lo ejecutamos. Facturado por
token, no por hora.

Explorar todos los modelos

Deepseek V4 Pro

$1.74/Mt Input · $3.48/Mt Output

1048576 Context

LLM

MiniMax M2.7

$0.3/Mt Input · $1.2/Mt Output

204800 Context

LLM

GLM-5.1

$1.4/Mt Input · $4.4/Mt Output

204800 Context

LLM

Kimi K2.6

$0.95/Mt Input · $4/Mt Output

262144 Context

LLM

Gemma 4 31B

$0.14/Mt Input · $0.4/Mt Output

262144 Context

LLM

Qwen3.5-397B-A17B

$0.6/Mt Input · $3.6/Mt Output

262144 Context

LLM

Deepseek V4 Pro

$1.74/Mt Input · $3.48/Mt Output

1048576 Context

LLM

MiniMax M2.7

$0.3/Mt Input · $1.2/Mt Output

204800 Context

LLM

GLM-5.1

$1.4/Mt Input · $4.4/Mt Output

204800 Context

LLM

Kimi K2.6

$0.95/Mt Input · $4/Mt Output

262144 Context

LLM

Gemma 4 31B

$0.14/Mt Input · $0.4/Mt Output

262144 Context

LLM

Qwen3.5-397B-A17B

$0.6/Mt Input · $3.6/Mt Output

262144 Context

LLM

Deepseek V4 Pro

$1.74/Mt Input · $3.48/Mt Output

1048576 Context

LLM

MiniMax M2.7

$0.3/Mt Input · $1.2/Mt Output

204800 Context

LLM

GLM-5.1

$1.4/Mt Input · $4.4/Mt Output

204800 Context

LLM

Kimi K2.6

$0.95/Mt Input · $4/Mt Output

262144 Context

LLM

Gemma 4 31B

$0.14/Mt Input · $0.4/Mt Output

262144 Context

LLM

Qwen3.5-397B-A17B

$0.6/Mt Input · $3.6/Mt Output

262144 Context

LLM

Endpoints dedicados

Endpoints privados. Rendimiento garantizado. Sin vecinos ruidosos.

Tu modelo. Tu capacidad de cómputo. Los recursos aislados implican una latencia constante con cualquier rendimiento. Porque la producción no cuenta con un presupuesto para reintentos.

Comenzar

SANDBOX DE AGENTES

agente

"coding agents"

coding agent · active

sandbox runtime

Ejecutar suite de pruebas · pytest

en cola

Escribir corrección · parche aplicado

en ejecución

Identificar error · puntero nulo en línea 84

completado

Leer base de código · src/api/routes.py

completado

inicio~200ms

aislamientoFull

facturaciónper second

estadoRUNNING

Sandbox de agentes

Entornos de ejecución seguros y aislados. Diseñados para agentes que realmente hacen cosas.

No es un notebook. No es un contenedor que configuras tú mismo. Es un entorno diseñado específicamente donde los agentes se ejecutan, usan herramientas, invocan modelos y ejecutan tareas — de forma limpia, aislada y siempre.

Comenzar

NUBE GPU

GPU

flagship

GPU Instances

Máquinas GPU con control total. Tuyas en segundos.

Implementa modelos, ejecuta inferencia, entrena desde cero, en instancias GPU dedicadas que controlas por completo. Rendimiento predecible. Sin recursos compartidos. Sin sorpresas.

Serverless GPU

Envía un trabajo. Nosotros nos encargamos del resto.

Sin instancias que aprovisionar. Sin cómputo inactivo que pagar. Novita asigna recursos GPU automáticamente, escala bajo demanda, escala a cero cuando terminas. Pagas por la ejecución, nada más.

trabajo

queued

running

complete

allocating gpu resources

allocating

12%

asignado

auto

duración

0.1s

costo

$0.0001

tiempo de inactividad

$0.00

clúster

"Cluster-01"

CLUSTER-01 · 6 nodesNVLink · GPUDirect RDMA · PCIe

Node-01

51%

Node-02

79%

Node-03

86%

Node-05

89%

Node-06

65%

Node-07

81%

GPU 8× NVIDIA H200

GPU Memory 141 GB HBM3e per GPU

1.128TB total

Nodes 6 / 6

Interconnect NVLink 4th Gen · 900 GB/s

Network 400 Gb/s RDMA

Bare Metal

Máximo rendimiento. Cero sobrecarga de abstracción.

Clústeres físicos dedicados de GPU para inferencia a gran escala, ejecuciones de entrenamiento e implementaciones empresariales que no pueden comprometer el rendimiento. Cuando necesitas el hardware solo para ti, esto es.

Por qué Novita AI

Creado para la IA desde el primer día. Diseñado para lo que realmente estás creando.

Mejor relación precio-rendimiento

Hasta un 50% menos que los principales proveedores de nube. No porque recortemos gastos, sino porque hemos construido la infraestructura.

Creado para la fiabilidad en producción

Infraestructura estable con baja latencia, alto rendimiento y disponibilidad fiable a escala.

Una plataforma para toda la pila de IA

APIs de modelos, infraestructura GPU y entornos de ejecución de agentes, todo en una sola plataforma.

Escala con tu carga de trabajo

Empieza poco a poco y escala sin problemas desde APIs hasta clústeres dedicados.

Soporte dedicado cuando más importa

Soporte técnico rápido de un equipo que entiende la infraestructura de IA.

Creado con Novita AI

Testimonials

Don't take our word for it.

Aprecio lo rápido que Novita AI se mueve para desplegar modelos recién lanzados. Su equipo suele ser de los primeros en poner en línea soporte de inferencia estable y listo para producción, a menudo desde el primer día. Esa velocidad es fundamental para toda la comunidad de IA de código abierto.

Julien Chaumond

Cofundador y CTO

Novita ha sido de gran ayuda para nosotros en Fish Audio. Su infraestructura GPU fiable nos permite centrarnos en desarrollar y mejorar nuestros modelos de texto a voz en lugar de lidiar con dolores de cabeza relacionados con el hardware. Su soporte y rendimiento nos han facilitado mucho impulsar nuestro trabajo.

Shijia Liao

Cofundador y científico jefe

La API de modelos de Novita fue muy sencilla de integrar, y ha sido excelente para impulsar nuestras tarjetas didácticas y cuestionarios basados en IA. La plataforma se encarga del trabajo pesado, para que podamos centrarnos en crear mejores herramientas de aprendizaje para nuestros usuarios sin preocuparnos por la infraestructura ni por los problemas de escalado.

Petros Christodoulou

Cofundador y CEO

Trabajar con Novita AI ha sido una experiencia fantástica para Kilo. Su plataforma de inferencia nos ayuda a ofrecer flujos de trabajo de codificación con IA rápidos y confiables en múltiples LLMs, con un sólido rendimiento en el mundo real para flujos de trabajo agénticos. ¡Y ha sido increíblemente fácil trabajar con el equipo! Siempre están optimizando en función de los modelos y la tecnología más recientes: un socio perfecto para Kilo Code.

Ari Messer

Responsable de Alianzas

Novedades

ANNOUNCEMENT

Macaron V1 Venti

Available on Novita AI now

LLM

$0/0 in/out MTokens | 1048576 Context

ANNOUNCEMENT

Ling-3.0-flash

Available on Novita AI now

LLM

$0/0 in/out M Tokens | 262144 Context

ANNOUNCEMENT

Deepseek V4 Pro

Available on Novita AI now

LLM

$1.6/3.38 in/out MTokens | 1048576 Context

CASE STUDY

NovitaX

Hugging Face

Novita available on Hugging Face now

CASE STUDY

NovitaX

POE

Novita models on POE now

CASE STUDY

NovitaX

LLM

Accelerate AI Inference

CASE STUDY

NovitaX

Accelerate AI Inference

ANNOUNCEMENT

Featured Blogs

insights, LLM tips, and GPU solutions

CHECK OUT THE LATEST ARTICLES

Todo lo que necesitas para crear IA de producción.

Más de 200 modelos, GPUs bajo demanda y entornos de ejecución seguros para agentes, unificados bajo una API. Gratis para empezar, escala a medida que creces.

La nube nativa de IApara creadores yAgentes

Ejecuta más de 200 modelos mediante una sola API. Sin infraestructura que gestionar.

Endpoints privados. Rendimiento garantizado. Sin vecinos ruidosos.

Entornos de ejecución seguros y aislados. Diseñados para agentes que realmente hacen cosas.

Máquinas GPU con control total. Tuyas en segundos.

Envía un trabajo. Nosotros nos encargamos del resto.

Máximo rendimiento. Cero sobrecarga de abstracción.

Don't take our word for it.

Todo lo que necesitas para crear IA de producción.

Ejecuta más de 200 modelos mediante una sola API.
Sin infraestructura que gestionar.