専用エンドポイント

モデルを実行し、
あとは私たちにお任せください

専用GPUにモデルをデプロイ。実行中のレプリカにのみ秒単位で課金、$0.61/時からの手頃なGPUオプション、推論の問題は私たちが対応します。

デプロイを開始料金を見る

実行中の分だけお支払い

アクティブなレプリカに対する秒単位の課金。ゼロまでスケールすれば、支払いもゼロ。アイドル状態のエンドポイントには料金がかからず、最低契約もありません。

請求プレビュー

3レプリカ 4090 × 2時間15分42秒実行中

= 3 × 8,142秒 × $0.000608/s

= $14.85

あらゆる予算に対応するGPU

すべてのワークロードにH200が必要なわけではありません。RTX 4090、RTX 5090、H100から選択し、モデルサイズと予算に合ったGPUを選べます。

推論が停止しましたか？私たちにお任せください。

OOM、CUDAエラー、モデル読み込み失敗 — 私たちのチームが診断して解決します。不可解なスタックトレースではなく、明確な説明を提供します。

Report via console or email

Our team investigates root cause

You get diagnosis + resolution

デプロイメントオプション

サーバーレス vs 専用

ワークロードに適したデプロイメントモデルを選択

Serverless Endpoints

Pay per token
600+ models available
Zero infrastructure management
Auto-scaling included
Best for variable workloads

本番環境におすすめ

専用エンドポイント

Isolated GPU resources
Guaranteed latency SLA
Custom models & LoRA adapters
Scale-to-zero support
Best for predictable, high-throughput workloads

プラットフォーム

本番ワークロード向けに構築

本番環境で AI 推論をデプロイ、スケール、管理するために必要なすべて。

超高速推論

NVIDIA H200、H100、RTX 4090 GPUs 上の最適化されたサービングエンジンによって駆動。リアルタイムアプリケーション向けにサブ秒レイテンシを実現します。

動的オートスケーリング

トラフィックに基づいて 0 から N レプリカまで自動的にスケールします。トラフィックパターンに合わせて最小/最大レプリカ数とスケールダウン遅延を設定できます。

LoRA アダプターサポート

実行中のエンドポイントで再起動なしに LoRA アダプターをホットスワップできます。単一のベースモデル上に複数のファインチューニング済みバリアントをデプロイできます。

柔軟な GPU オプション

NVIDIA H200、H100、RTX 4090 から選択できます。モデル要件に合わせてテンソル並列性と GPU 数を選択できます。

時間単位課金

GPU時間単位で課金され、秒単位の粒度で計算されます。アイドル時はゼロまでスケール — 最低契約量はなく、アイドル状態の GPU コストも発生しません。

エンタープライズサポート

専任のテクニカルサポート、カスタム SLA、新しい GPU タイプへの優先アクセス。大規模デプロイ向けのボリュームディスカウント。

カタログ

3ステップでデプロイ

本番環境でAI推論をデプロイ、スケール、管理するために必要なすべて。

001

モデルを選択

Hugging Faceの50K+モデルを検索するか、プライベートリポジトリのURLを貼り付けてください。

モデルを検索... 例: Qwen2.5-7B

OCR Models: PaddleOCR、GOT-OCR、...

Reranker Models: BGE-Reranker、...

LLM Models: DeepSeek、GLM、...

002

GPUを選択

モデルに推奨されるGPUを確認できます。予算に合ったものを選択してください。

RTX 4090 · $0.61/hr

H100 · $1.99/hr

H200 · $2.99/hr

レプリカ

003

デプロイ

エンドポイントは数分でライブになります。OpenAI互換URLをすぐに使用できます。

エンドポイント

ライブ

POST

api.example.com/v1/chat/completions

料金

透明性のある GPU 料金

GPU	VRAM	料金 / GPU時間
NVIDIA H200 SXM人気	141 GB	$2.99
NVIDIA H100 SXM	80 GB	$1.99
NVIDIA RTX 4090	24 GB	$0.61

予約容量またはカスタム料金が必要ですか？

チームに相談する

FAQ

よくある質問

Per-second on running replicas only. When your endpoint is scaled to zero or stopped, you pay nothing. No minimum commitments, no idle charges.

まだご質問がありますか？サポートに問い合わせる

本番環境向けAIを構築するために必要なすべて。

200以上のモデル、オンデマンド GPUs、安全なエージェントランタイムを、1つの API に統合。無料で始められ、成長に合わせてスケールできます。

モデルを実行し、あとは私たちにお任せください

実行中の分だけお支払い

あらゆる予算に対応するGPU

推論が停止しましたか？私たちにお任せください。

サーバーレス vs 専用

Serverless Endpoints

専用エンドポイント

本番ワークロード向けに構築

超高速推論

動的オートスケーリング

LoRA アダプターサポート

柔軟な GPU オプション

時間単位課金

エンタープライズサポート

人気のオープンソースモデルをデプロイ

3ステップでデプロイ

透明性のある GPU 料金

よくある質問

本番環境向けAIを構築するために必要なすべて。

モデルを実行し、
あとは私たちにお任せください