专用端点

运行您的模型,
其余交给我们

在专用 GPUs 上部署模型。仅对运行中的副本按秒计费,实惠的 GPU 选项低至 $0.61/小时起,推理问题由我们负责。

只为正在运行的内容付费

对活跃副本按秒计费。缩容到零,费用为零。闲置端点不收费,无最低承诺。

账单预览

3 个副本 4090 × 2小时 15分 42秒 运行中

= 3 × 8,142秒 × $0.000608/s

= $14.85

适合各种预算的 GPUs

并非每个工作负载都需要 H200。可从 RTX 4090、RTX 5090、H100 中选择——根据您的模型规模和预算匹配合适的 GPU。

RTX 4090

24 GB

$0.61/hr

H100

80 GB

$1.99/hr

H200

141 GB

$2.99/hr

推理出问题?我们来负责。

OOM、CUDA 错误、模型加载失败——我们的团队会诊断并解决。您将获得清晰的解释,而不是晦涩难懂的堆栈跟踪。

Report via console or email

Our team investigates root cause

You get diagnosis + resolution

部署选项

Serverless vs 专用

为您的工作负载选择合适的部署模型

Serverless Endpoints

  • Pay per token
  • 600+ models available
  • Zero infrastructure management
  • Auto-scaling included
  • Best for variable workloads
推荐用于生产环境

专用端点

  • Isolated GPU resources
  • Guaranteed latency SLA
  • Custom models & LoRA adapters
  • Scale-to-zero support
  • Best for predictable, high-throughput workloads

平台

专为生产工作负载而构建

部署、扩展和管理生产环境 AI 推理所需的一切。

极速推理

由运行在 NVIDIA H200、H100 和 RTX 4090 GPUs 上的优化服务引擎提供支持。为实时应用提供亚秒级延迟。

动态自动扩缩容

根据流量自动从 0 扩展到 N 个副本。设置最小/最大副本数和缩容延迟,以匹配您的流量模式。

LoRA 适配器支持

无需重启,即可在运行中的端点上热插拔 LoRA 适配器。在单个基础模型上部署多个微调变体。

灵活的 GPU 选项

可选择 NVIDIA H200、H100 和 RTX 4090。选择张量并行度和 GPU 数量,以匹配您的模型要求。

按小时计费

按 GPU-小时计费,精确到秒。空闲时缩容至零——无最低承诺,无空闲 GPU 成本。

企业级支持

专属技术支持、自定义 SLA,以及优先使用新 GPU 类型。大型部署可享受批量折扣。

工作流

3 步完成部署

在生产环境中部署、扩展和管理 AI 推理所需的一切。

001

选择你的模型

从 Hugging Face 搜索 50K+ 模型,或粘贴你的私有仓库 URL。

搜索模型... 例如 Qwen2.5-7B
OCR Models: PaddleOCR、GOT-OCR、...
Reranker Models: BGE-Reranker、...
LLM Models: DeepSeek、GLM、...

002

选择你的 GPU

查看适合你模型的推荐 GPU。选择符合你预算的 GPU。

RTX 4090 · $0.61/hr
H100 · $1.99/hr
H200 · $2.99/hr
副本数
1

003

部署

你的端点将在几分钟内上线。OpenAI 兼容 URL 可立即使用。

定价

透明的 GPU 定价

GPUVRAM价格 / GPU-小时
NVIDIA H200 SXM热门
141 GB$2.99
NVIDIA H100 SXM
80 GB$1.99
NVIDIA RTX 4090
24 GB$0.61

需要预留容量或自定义定价?

联系我们的团队

FAQ

常见问题

Per-second on running replicas only. When your endpoint is scaled to zero or stopped, you pay nothing. No minimum commitments, no idle charges.

还有疑问? 联系支持团队

构建生产级 AI 所需的一切。

200+ 个模型、按需 GPUs 和安全的智能体运行时——统一在一个 API 下。免费开始,随业务增长灵活扩展。