実行中の分だけお支払い
アクティブなレプリカに対する秒単位の課金。ゼロまでスケールすれば、支払いもゼロ。アイドル状態のエンドポイントには料金がかからず、最低契約もありません。
請求プレビュー
3レプリカ 4090 × 2時間15分42秒 実行中
= 3 × 8,142秒 × $0.000608/s
= $14.85
アクティブなレプリカに対する秒単位の課金。ゼロまでスケールすれば、支払いもゼロ。アイドル状態のエンドポイントには料金がかからず、最低契約もありません。
請求プレビュー
3レプリカ 4090 × 2時間15分42秒 実行中
= 3 × 8,142秒 × $0.000608/s
= $14.85
すべてのワークロードにH200が必要なわけではありません。RTX 4090、RTX 5090、H100から選択し、モデルサイズと予算に合ったGPUを選べます。
RTX 4090
24 GB
から$0.61/hr
H100
80 GB
から$1.99/hr
H200
141 GB
から$2.99/hr
OOM、CUDAエラー、モデル読み込み失敗 — 私たちのチームが診断して解決します。不可解なスタックトレースではなく、明確な説明を提供します。
Report via console or email
Our team investigates root cause
You get diagnosis + resolution
デプロイメントオプション
ワークロードに適したデプロイメントモデルを選択
プラットフォーム
本番環境で AI 推論をデプロイ、スケール、管理するために必要なすべて。
NVIDIA H200、H100、RTX 4090 GPUs 上の最適化されたサービングエンジンによって駆動。リアルタイムアプリケーション向けにサブ秒レイテンシを実現します。
トラフィックに基づいて 0 から N レプリカまで自動的にスケールします。トラフィックパターンに合わせて最小/最大レプリカ数とスケールダウン遅延を設定できます。
実行中のエンドポイントで再起動なしに LoRA アダプターをホットスワップできます。単一のベースモデル上に複数のファインチューニング済みバリアントをデプロイできます。
NVIDIA H200、H100、RTX 4090 から選択できます。モデル要件に合わせてテンソル並列性と GPU 数を選択できます。
GPU時間単位で課金され、秒単位の粒度で計算されます。アイドル時はゼロまでスケール — 最低契約量はなく、アイドル状態の GPU コストも発生しません。
専任のテクニカルサポート、カスタム SLA、新しい GPU タイプへの優先アクセス。大規模デプロイ向けのボリュームディスカウント。
カタログ
最も人気のある LLMs をワンクリックでデプロイ、または独自の Hugging Face モデルを持ち込みます。
ワークフロー
本番環境でAI推論をデプロイ、スケール、管理するために必要なすべて。
001
モデルを選択
Hugging Faceの50K+モデルを検索するか、プライベートリポジトリのURLを貼り付けてください。
002
GPUを選択
モデルに推奨されるGPUを確認できます。予算に合ったものを選択してください。
003
デプロイ
エンドポイントは数分でライブになります。OpenAI互換URLをすぐに使用できます。
POST
api.example.com/v1/chat/completions
料金
| GPU | VRAM | 料金 / GPU時間 |
|---|---|---|
NVIDIA H200 SXM人気 | 141 GB | $2.99 |
NVIDIA H100 SXM | 80 GB | $1.99 |
NVIDIA RTX 4090 | 24 GB | $0.61 |
予約容量またはカスタム料金が必要ですか?
チームに相談するFAQ
Per-second on running replicas only. When your endpoint is scaled to zero or stopped, you pay nothing. No minimum commitments, no idle charges.
まだご質問がありますか? サポートに問い合わせる
200以上のモデル、オンデマンド GPUs、安全なエージェントランタイムを、1つの API に統合。無料で始められ、成長に合わせてスケールできます。