For agents: fetch the complete documentation index at llms.txt. Markdown is available with Accept: text/markdown and with .md URL variants.

Die KI-native Cloudfür Entwickler undAgenten

Führen Sie Modelle aus, skalieren Sie GPUs und erstellen Sie KI-Agenten – alles auf einer Plattform.

Jetzt loslegen

Klicken Sie, um Anweisungen für Ihren Agenten zu kopieren:

Lesen https://novita.ai/docs/skill.md und befolgen Sie die Anweisungen.

Kontaktieren Sie uns

Vertraut von

MODELL-APIs

LLM

IMAGE

AUDIO

VIDEO

VISION

MODELL

"KIMI-K2.5"

200+models

200mslatency

99.5%uptime

Serverless-Modell-APIs

Führen Sie 200+ Modelle über eine einzige API aus.
Keine Infrastruktur zu verwalten.

Text, Bild, Audio, Video — alles serverless, alles
produktionsbereit. Sie rufen es auf, wir betreiben es. Abgerechnet nach
Token, nicht nach Stunde.

Alle Modelle erkunden

Deepseek V4 Pro

$1.74/Mt Input · $3.48/Mt Output

1048576 Context

LLM

MiniMax M2.7

$0.3/Mt Input · $1.2/Mt Output

204800 Context

LLM

GLM-5.1

$1.4/Mt Input · $4.4/Mt Output

204800 Context

LLM

Kimi K2.6

$0.95/Mt Input · $4/Mt Output

262144 Context

LLM

Gemma 4 31B

$0.14/Mt Input · $0.4/Mt Output

262144 Context

LLM

Qwen3.5-397B-A17B

$0.6/Mt Input · $3.6/Mt Output

262144 Context

LLM

Deepseek V4 Pro

$1.74/Mt Input · $3.48/Mt Output

1048576 Context

LLM

MiniMax M2.7

$0.3/Mt Input · $1.2/Mt Output

204800 Context

LLM

GLM-5.1

$1.4/Mt Input · $4.4/Mt Output

204800 Context

LLM

Kimi K2.6

$0.95/Mt Input · $4/Mt Output

262144 Context

LLM

Gemma 4 31B

$0.14/Mt Input · $0.4/Mt Output

262144 Context

LLM

Qwen3.5-397B-A17B

$0.6/Mt Input · $3.6/Mt Output

262144 Context

LLM

Deepseek V4 Pro

$1.74/Mt Input · $3.48/Mt Output

1048576 Context

LLM

MiniMax M2.7

$0.3/Mt Input · $1.2/Mt Output

204800 Context

LLM

GLM-5.1

$1.4/Mt Input · $4.4/Mt Output

204800 Context

LLM

Kimi K2.6

$0.95/Mt Input · $4/Mt Output

262144 Context

LLM

Gemma 4 31B

$0.14/Mt Input · $0.4/Mt Output

262144 Context

LLM

Qwen3.5-397B-A17B

$0.6/Mt Input · $3.6/Mt Output

262144 Context

LLM

Dedizierte Endpunkte

Private Endpunkte. Garantierte Leistung. Keine störenden Nachbarn.

Ihr Modell. Ihre Rechenleistung. Isolierte Ressourcen bedeuten konsistente Latenz bei jedem Durchsatz. Denn in der Produktion gibt es kein Retry-Budget.

Loslegen

AGENT-SANDBOX

Agent

"coding agents"

coding agent · active

sandbox runtime

Testsuite ausführen · pytest

in der Warteschlange

Korrektur schreiben · Patch angewendet

läuft

Fehler identifizieren · Nullzeiger in Zeile 84

erledigt

Codebasis lesen · src/api/routes.py

erledigt

Start~200ms

IsolationFull

Abrechnungper second

StatusRUNNING

Agent-Sandbox

Sichere, isolierte Laufzeitumgebungen. Entwickelt für Agenten, die tatsächlich Dinge erledigen.

Kein Notebook. Kein Container, den Sie selbst konfigurieren. Eine speziell entwickelte Umgebung, in der Agenten ausgeführt werden, Tools nutzen, Modelle aufrufen und Aufgaben erledigen — sauber, isoliert, jedes Mal.

Loslegen

GPU-CLOUD

GPU

flagship

GPU Instances

GPU-Maschinen mit voller Kontrolle. In Sekunden für Sie bereit.

Deployen Sie Modelle, führen Sie Inferenz aus und trainieren Sie von Grund auf auf dedizierten GPU-Instanzen, die Sie vollständig kontrollieren. Vorhersehbare Leistung. Keine gemeinsam genutzten Ressourcen. Keine Überraschungen.

Serverless GPU

Reichen Sie einen Job ein. Wir erledigen den Rest.

Keine Instanzen bereitzustellen. Keine ungenutzte Rechenleistung, für die Sie bezahlen müssen. Novita weist GPU-Ressourcen automatisch zu, skaliert bei hoher Last hoch und skaliert auf null, wenn Sie fertig sind. Sie zahlen nur für die Ausführung, sonst nichts.

Job

queued

running

complete

allocating gpu resources

allocating

12%

zugewiesen

auto

Dauer

0.1s

Kosten

$0.0001

Leerlaufzeit

$0.00

Cluster

"Cluster-01"

CLUSTER-01 · 6 nodesNVLink · GPUDirect RDMA · PCIe

Node-01

51%

Node-02

79%

Node-03

86%

Node-05

89%

Node-06

65%

Node-07

81%

GPU 8× NVIDIA H200

GPU Memory 141 GB HBM3e per GPU

1.128TB total

Nodes 6 / 6

Interconnect NVLink 4th Gen · 900 GB/s

Network 400 Gb/s RDMA

Bare Metal

Maximale Leistung. Null Abstraktions-Overhead.

Dedizierte physische GPU-Cluster für Inferenz im großen Maßstab, Trainingsläufe und Enterprise-Deployments, bei denen keine Kompromisse beim Durchsatz möglich sind. Wenn Sie die Hardware ganz für sich allein benötigen, ist dies die richtige Lösung.

Warum Novita AI

Von Anfang an für AI entwickelt. Konzipiert für das, was Sie tatsächlich bauen.

Besseres Preis-Leistungs-Verhältnis

Bis zu 50 % günstiger als große Cloud-Anbieter. Nicht, weil wir Abstriche machen, sondern weil wir die Infrastruktur gebaut haben.

Für zuverlässigen Produktionsbetrieb entwickelt

Stabile Infrastruktur mit niedriger Latenz, hohem Durchsatz und zuverlässiger Verfügbarkeit in großem Maßstab.

Eine Plattform für den gesamten AI-Stack

Model APIs, GPU-Infrastruktur und Agent-Runtimes — alles auf einer Plattform.

Skalieren Sie mit Ihrer Workload

Klein anfangen und nahtlos von APIs zu dedizierten Clustern skalieren.

Dedizierter Support, wenn es darauf ankommt

Schneller technischer Support von einem Team, das AI-Infrastruktur versteht.

Entwickelt mit Novita AI

Testimonials

Don't take our word for it.

Ich schätze, wie schnell Novita AI neu veröffentlichte Modelle bereitstellt. Ihr Team gehört oft zu den ersten, die stabile, produktionsreife Inferenzunterstützung online bringen, häufig schon am ersten Tag. Diese Geschwindigkeit ist für die gesamte Open-Source-KI-Community entscheidend.

Julien Chaumond

Mitgründer & CTO

Novita war für uns bei Fish Audio eine enorme Hilfe. Ihre zuverlässige GPU-Infrastruktur ermöglicht es uns, uns auf die Entwicklung und Verbesserung unserer Text-to-Speech-Modelle zu konzentrieren, statt uns mit Hardware-Problemen herumzuschlagen. Ihr Support und ihre Leistung haben es deutlich einfacher gemacht, unsere Arbeit voranzutreiben.

Shijia Liao

Mitgründer & Chief Scientist

Die Model API von Novita ließ sich super einfach integrieren und hat sich hervorragend bewährt, um unsere KI-gestützten Karteikarten und Quizze zu betreiben. Die Plattform übernimmt die aufwendige Arbeit, sodass wir uns darauf konzentrieren können, bessere Lerntools für unsere Nutzer zu entwickeln, ohne uns um Infrastruktur- oder Skalierungsprobleme sorgen zu müssen.

Petros Christodoulou

Mitgründer und CEO

Die Zusammenarbeit mit Novita AI war für Kilo eine fantastische Erfahrung. Ihre Inferenzplattform hilft uns, schnelle und zuverlässige KI-Coding-Workflows über mehrere LLMs hinweg bereitzustellen, mit starker Leistung in der Praxis für agentische Workflows. Und die Zusammenarbeit mit dem Team war bemerkenswert unkompliziert! Sie optimieren stets auf Basis der neuesten Modelle und Technologien – ein perfekter Partner für Kilo Code.