专用端点

运行您的模型，
其余交给我们

在专用 GPUs 上部署模型。仅对运行中的副本按秒计费，实惠的 GPU 选项低至 $0.61/小时起，推理问题由我们负责。

开始部署查看价格

只为正在运行的内容付费

对活跃副本按秒计费。缩容到零，费用为零。闲置端点不收费，无最低承诺。

账单预览

3 个副本 4090 × 2小时 15分 42秒运行中

= 3 × 8,142秒 × $0.000608/s

= $14.85

适合各种预算的 GPUs

并非每个工作负载都需要 H200。可从 RTX 4090、RTX 5090、H100 中选择——根据您的模型规模和预算匹配合适的 GPU。

推理出问题？我们来负责。

OOM、CUDA 错误、模型加载失败——我们的团队会诊断并解决。您将获得清晰的解释，而不是晦涩难懂的堆栈跟踪。

Report via console or email

Our team investigates root cause

You get diagnosis + resolution

部署选项

Serverless vs 专用

为您的工作负载选择合适的部署模型

Serverless Endpoints

Pay per token
600+ models available
Zero infrastructure management
Auto-scaling included
Best for variable workloads

推荐用于生产环境

专用端点

Isolated GPU resources
Guaranteed latency SLA
Custom models & LoRA adapters
Scale-to-zero support
Best for predictable, high-throughput workloads

平台

专为生产工作负载而构建

部署、扩展和管理生产环境 AI 推理所需的一切。

极速推理

由运行在 NVIDIA H200、H100 和 RTX 4090 GPUs 上的优化服务引擎提供支持。为实时应用提供亚秒级延迟。

动态自动扩缩容

根据流量自动从 0 扩展到 N 个副本。设置最小/最大副本数和缩容延迟，以匹配您的流量模式。

LoRA 适配器支持

无需重启，即可在运行中的端点上热插拔 LoRA 适配器。在单个基础模型上部署多个微调变体。

灵活的 GPU 选项

可选择 NVIDIA H200、H100 和 RTX 4090。选择张量并行度和 GPU 数量，以匹配您的模型要求。

按小时计费

按 GPU-小时计费，精确到秒。空闲时缩容至零——无最低承诺，无空闲 GPU 成本。

企业级支持

专属技术支持、自定义 SLA，以及优先使用新 GPU 类型。大型部署可享受批量折扣。

部署热门开源模型

一键部署最热门的 LLMs，或使用你自己的 Hugging Face 模型。

工作流

3 步完成部署

在生产环境中部署、扩展和管理 AI 推理所需的一切。

001

选择你的模型

从 Hugging Face 搜索 50K+ 模型，或粘贴你的私有仓库 URL。

搜索模型... 例如 Qwen2.5-7B

OCR Models: PaddleOCR、GOT-OCR、...

Reranker Models: BGE-Reranker、...

LLM Models: DeepSeek、GLM、...

002

选择你的 GPU

查看适合你模型的推荐 GPU。选择符合你预算的 GPU。

RTX 4090 · $0.61/hr

H100 · $1.99/hr

H200 · $2.99/hr

副本数

003

部署

你的端点将在几分钟内上线。OpenAI 兼容 URL 可立即使用。

端点

已上线

POST

api.example.com/v1/chat/completions

定价

透明的 GPU 定价

GPU	VRAM	价格 / GPU-小时
NVIDIA H200 SXM热门	141 GB	$2.99
NVIDIA H100 SXM	80 GB	$1.99
NVIDIA RTX 4090	24 GB	$0.61

需要预留容量或自定义定价？

联系我们的团队

FAQ

常见问题

Per-second on running replicas only. When your endpoint is scaled to zero or stopped, you pay nothing. No minimum commitments, no idle charges.

还有疑问？联系支持团队

构建生产级 AI 所需的一切。

200+ 个模型、按需 GPUs 和安全的智能体运行时——统一在一个 API 下。免费开始，随业务增长灵活扩展。

运行您的模型，其余交给我们

只为正在运行的内容付费

适合各种预算的 GPUs

推理出问题？我们来负责。

Serverless vs 专用

Serverless Endpoints

专用端点

专为生产工作负载而构建

极速推理

动态自动扩缩容

LoRA 适配器支持

灵活的 GPU 选项

按小时计费

企业级支持

部署热门开源模型

3 步完成部署

透明的 GPU 定价

常见问题

构建生产级 AI 所需的一切。

运行您的模型，
其余交给我们