Model Library/MiniMax M2.5-highspeed
minimax/minimax-m2.5-highspeed

MiniMax M2.5-highspeed

minimax/minimax-m2.5-highspeed
MiniMax M2.5-highspeed is an accelerated SOTA model engineered for scenarios demanding extreme efficiency. It perfectly inherits the core intelligence and robust digital workspace capabilities of the standard M2.5—including its 80.2% score on SWE-Bench Verified, seamless manipulation of Office documents, and versatility in cross-software collaboration. With zero compromise on reasoning precision or logical depth, the Highspeed version delivers ultra-low latency inference through rigorous engineering optimization. This means you get more than just an intelligent assistant capable of planning and self-optimization; you gain a "high-velocity engine" that responds to high-frequency calls and processes complex document streams in near real-time, making it ideal for latency-sensitive interactive applications and large-scale automated pipelines.

Fonctionnalités

API sans serveur

Documentation

minimax/minimax-m2.5-highspeed is available via Novita's serverless API, where you pay per token. There are several ways to call the API, including OpenAI-compatible endpoints with exceptional reasoning performance.

Sans serveur disponible

Exécutez des requêtes immédiatement, ne payez que pour l’utilisation

Entrée$0.6 / M Tokens
Lecture du cache$0.03 / M Tokens
Sortie$2.4 / M Tokens

Utilisez les exemples de code suivants pour intégrer notre API :

1from openai import OpenAI
2
3client = OpenAI(
4    api_key="<Your API Key>",
5    base_url="https://api.novita.ai/openai"
6)
7
8response = client.chat.completions.create(
9    model="minimax/minimax-m2.5-highspeed",
10    messages=[
11        {"role": "system", "content": "You are a helpful assistant."},
12        {"role": "user", "content": "Hello, how are you?"}
13    ],
14    max_tokens=131100,
15    temperature=0.7
16)
17
18print(response.choices[0].message.content)

Infos

Fournisseur
MiniMax
Quantification
fp8

Fonctionnalités prises en charge

Longueur du contexte
204800
Sortie maximale
131100
Serverless
Pris en charge
Function Calling
Pris en charge
Structured Output
Pris en charge
Reasoning
Pris en charge
API Anthropic
Pris en charge
Capacités d’entrée
text
Capacités de sortie
text

Tout ce dont vous avez besoin pour créer une IA de production.

Plus de 200 modèles, des GPUs à la demande et des environnements d’exécution d’agents sécurisés — unifiés sous une seule API. Gratuit pour commencer, évolutif à mesure que vous grandissez.