pricing5 juin 2026

Le token shock et l’argument de l’inférence forfaitaire

La tarification IA au token est idéale quand on appelle un modèle de temps en temps. Elle devient un problème quand un système multi-agents raisonne en boucles, appelant les modèles des milliers de fois par tâche. C’est le token shock : une facture que personne n’avait anticipée.

La règle empirique du secteur est simple : au-delà d’environ 30 % d’utilisation GPU/LPU soutenue, la tarification à la minute ou forfaitaire bat celle au token. Les flottes d’agents franchissent vite ce seuil.

Citadea Neural vend un slice dédié et forfaitaire. Vous le dimensionnez à votre débit, et la facture cesse de bouger. Prévisible pour l’ingénierie, prévisible pour la finance.

Le token shock et l’argument de l’inférence forfaitaire

Construisez sur un cloud qui vous respecte