専用エンドポイント

モデルを実行し、
あとは私たちにお任せください

専用GPUにモデルをデプロイ。実行中のレプリカにのみ秒単位で課金、$0.61/時からの手頃なGPUオプション、推論の問題は私たちが対応します。

実行中の分だけお支払い

アクティブなレプリカに対する秒単位の課金。ゼロまでスケールすれば、支払いもゼロ。アイドル状態のエンドポイントには料金がかからず、最低契約もありません。

請求プレビュー

3レプリカ 4090 × 2時間15分42秒 実行中

= 3 × 8,142秒 × $0.000608/s

= $14.85

あらゆる予算に対応するGPU

すべてのワークロードにH200が必要なわけではありません。RTX 4090、RTX 5090、H100から選択し、モデルサイズと予算に合ったGPUを選べます。

RTX 4090

24 GB

から$0.61/hr

H100

80 GB

から$1.99/hr

H200

141 GB

から$2.99/hr

推論が停止しましたか?私たちにお任せください。

OOM、CUDAエラー、モデル読み込み失敗 — 私たちのチームが診断して解決します。不可解なスタックトレースではなく、明確な説明を提供します。

Report via console or email

Our team investigates root cause

You get diagnosis + resolution

デプロイメントオプション

サーバーレス vs 専用

ワークロードに適したデプロイメントモデルを選択

Serverless Endpoints

  • Pay per token
  • 600+ models available
  • Zero infrastructure management
  • Auto-scaling included
  • Best for variable workloads
本番環境におすすめ

専用エンドポイント

  • Isolated GPU resources
  • Guaranteed latency SLA
  • Custom models & LoRA adapters
  • Scale-to-zero support
  • Best for predictable, high-throughput workloads

プラットフォーム

本番ワークロード向けに構築

本番環境で AI 推論をデプロイ、スケール、管理するために必要なすべて。

超高速推論

NVIDIA H200、H100、RTX 4090 GPUs 上の最適化されたサービングエンジンによって駆動。リアルタイムアプリケーション向けにサブ秒レイテンシを実現します。

動的オートスケーリング

トラフィックに基づいて 0 から N レプリカまで自動的にスケールします。トラフィックパターンに合わせて最小/最大レプリカ数とスケールダウン遅延を設定できます。

LoRA アダプターサポート

実行中のエンドポイントで再起動なしに LoRA アダプターをホットスワップできます。単一のベースモデル上に複数のファインチューニング済みバリアントをデプロイできます。

柔軟な GPU オプション

NVIDIA H200、H100、RTX 4090 から選択できます。モデル要件に合わせてテンソル並列性と GPU 数を選択できます。

時間単位課金

GPU時間単位で課金され、秒単位の粒度で計算されます。アイドル時はゼロまでスケール — 最低契約量はなく、アイドル状態の GPU コストも発生しません。

エンタープライズサポート

専任のテクニカルサポート、カスタム SLA、新しい GPU タイプへの優先アクセス。大規模デプロイ向けのボリュームディスカウント。

カタログ

人気のオープンソースモデルをデプロイ

最も人気のある LLMs をワンクリックでデプロイ、または独自の Hugging Face モデルを持ち込みます。

ワークフロー

3ステップでデプロイ

本番環境でAI推論をデプロイ、スケール、管理するために必要なすべて。

001

モデルを選択

Hugging Faceの50K+モデルを検索するか、プライベートリポジトリのURLを貼り付けてください。

モデルを検索... 例: Qwen2.5-7B
OCR Models: PaddleOCR、GOT-OCR、...
Reranker Models: BGE-Reranker、...
LLM Models: DeepSeek、GLM、...

002

GPUを選択

モデルに推奨されるGPUを確認できます。予算に合ったものを選択してください。

RTX 4090 · $0.61/hr
H100 · $1.99/hr
H200 · $2.99/hr
レプリカ
1

003

デプロイ

エンドポイントは数分でライブになります。OpenAI互換URLをすぐに使用できます。

料金

透明性のある GPU 料金

GPUVRAM料金 / GPU時間
NVIDIA H200 SXM人気
141 GB$2.99
NVIDIA H100 SXM
80 GB$1.99
NVIDIA RTX 4090
24 GB$0.61

予約容量またはカスタム料金が必要ですか?

チームに相談する

FAQ

よくある質問

Per-second on running replicas only. When your endpoint is scaled to zero or stopped, you pay nothing. No minimum commitments, no idle charges.

まだご質問がありますか? サポートに問い合わせる

本番環境向けAIを構築するために必要なすべて。

200以上のモデル、オンデマンド GPUs、安全なエージェントランタイムを、1つの API に統合。無料で始められ、成長に合わせてスケールできます。