只为正在运行的内容付费
对活跃副本按秒计费。缩容到零,费用为零。闲置端点不收费,无最低承诺。
账单预览
3 个副本 4090 × 2小时 15分 42秒 运行中
= 3 × 8,142秒 × $0.000608/s
= $14.85
对活跃副本按秒计费。缩容到零,费用为零。闲置端点不收费,无最低承诺。
账单预览
3 个副本 4090 × 2小时 15分 42秒 运行中
= 3 × 8,142秒 × $0.000608/s
= $14.85
并非每个工作负载都需要 H200。可从 RTX 4090、RTX 5090、H100 中选择——根据您的模型规模和预算匹配合适的 GPU。
RTX 4090
24 GB
起$0.61/hr
H100
80 GB
起$1.99/hr
H200
141 GB
起$2.99/hr
OOM、CUDA 错误、模型加载失败——我们的团队会诊断并解决。您将获得清晰的解释,而不是晦涩难懂的堆栈跟踪。
Report via console or email
Our team investigates root cause
You get diagnosis + resolution
部署选项
为您的工作负载选择合适的部署模型
平台
部署、扩展和管理生产环境 AI 推理所需的一切。
由运行在 NVIDIA H200、H100 和 RTX 4090 GPUs 上的优化服务引擎提供支持。为实时应用提供亚秒级延迟。
根据流量自动从 0 扩展到 N 个副本。设置最小/最大副本数和缩容延迟,以匹配您的流量模式。
无需重启,即可在运行中的端点上热插拔 LoRA 适配器。在单个基础模型上部署多个微调变体。
可选择 NVIDIA H200、H100 和 RTX 4090。选择张量并行度和 GPU 数量,以匹配您的模型要求。
按 GPU-小时计费,精确到秒。空闲时缩容至零——无最低承诺,无空闲 GPU 成本。
专属技术支持、自定义 SLA,以及优先使用新 GPU 类型。大型部署可享受批量折扣。
目录
一键部署最热门的 LLMs,或使用你自己的 Hugging Face 模型。
工作流
在生产环境中部署、扩展和管理 AI 推理所需的一切。
001
选择你的模型
从 Hugging Face 搜索 50K+ 模型,或粘贴你的私有仓库 URL。
002
选择你的 GPU
查看适合你模型的推荐 GPU。选择符合你预算的 GPU。
003
部署
你的端点将在几分钟内上线。OpenAI 兼容 URL 可立即使用。
POST
api.example.com/v1/chat/completions
定价
| GPU | VRAM | 价格 / GPU-小时 |
|---|---|---|
NVIDIA H200 SXM热门 | 141 GB | $2.99 |
NVIDIA H100 SXM | 80 GB | $1.99 |
NVIDIA RTX 4090 | 24 GB | $0.61 |
需要预留容量或自定义定价?
联系我们的团队FAQ
Per-second on running replicas only. When your endpoint is scaled to zero or stopped, you pay nothing. No minimum commitments, no idle charges.
还有疑问? 联系支持团队
200+ 个模型、按需 GPUs 和安全的智能体运行时——统一在一个 API 下。免费开始,随业务增长灵活扩展。