Model Library/Deepseek V4 Flash
DeepSeek

Deepseek V4 Flash

deepseek/deepseek-v4-flash
DeepSeek-V4-Flash is a lightweight model meticulously designed by DeepSeek to deliver the ultimate combination of lightning-fast response times and unmatched cost-effectiveness. Engineered with fewer parameters and significantly lower activation overhead, V4-Flash provides an exceptionally fast and economical API service. At its core, V4-Flash demonstrates outstanding reasoning capabilities that closely rival the V4-Pro model. While featuring a slightly streamlined repository of world knowledge, it remains highly capable of satisfying the demands of most application scenarios. In Agentic applications, V4-Flash performs on par with the Pro version when handling standard and fundamental tasks. As the premier choice for developers prioritizing high concurrency, low latency, and cost efficiency, DeepSeek-V4-Flash serves as the optimal solution for deploying large-scale, high-frequency, and lightweight AI workloads.

Fonctionnalités

API sans serveur

Documentation

deepseek/deepseek-v4-flash is available via Novita's serverless API, where you pay per token. There are several ways to call the API, including OpenAI-compatible endpoints with exceptional reasoning performance.

Sans serveur disponible

Exécutez des requêtes immédiatement, ne payez que pour l’utilisation

Entrée$0.14 / M Tokens
Lecture du cache$0.028 / M Tokens
Sortie$0.28 / M Tokens

Utilisez les exemples de code suivants pour intégrer notre API :

1from openai import OpenAI
2
3client = OpenAI(
4    api_key="<Your API Key>",
5    base_url="https://api.novita.ai/openai"
6)
7
8response = client.chat.completions.create(
9    model="deepseek/deepseek-v4-flash",
10    messages=[
11        {"role": "system", "content": "You are a helpful assistant."},
12        {"role": "user", "content": "Hello, how are you?"}
13    ],
14    max_tokens=393216,
15    temperature=0.7
16)
17
18print(response.choices[0].message.content)

Infos

Fournisseur
DeepSeek
Quantification
fp8

Fonctionnalités prises en charge

Longueur du contexte
1048576
Sortie maximale
393216
Serverless
Pris en charge
Function Calling
Pris en charge
Structured Output
Pris en charge
Reasoning
Pris en charge
API Anthropic
Pris en charge
Capacités d’entrée
text
Capacités de sortie
text

Tout ce dont vous avez besoin pour créer une IA de production.

Plus de 200 modèles, des GPUs à la demande et des environnements d’exécution d’agents sécurisés — unifiés sous une seule API. Gratuit pour commencer, évolutif à mesure que vous grandissez.