Quels modèles sont supportés ?

Llama 3, Mistral et d’autres modèles open-source compatibles vLLM, servis sur LPUs dédiés.

Comment fonctionne le forfait ?

Vous louez un slice LPU dédié à prix mensuel fixe, sans facturation au token, sans token shock.

Bêta

Citadea Neural

LPUs dédiés pour une inférence forfaitaire

Inférence souveraine sur LPUs dédiés, facturée au forfait, pour qu’une boucle de raisonnement d’agent ne produise jamais une facture effrayante.

Démarrer avec Neural Parler à un ingénieurdès €199/mois

Vue d’ensemble

Accélérateurs LPU (Language Processing Units) dédiés, optimisés pour une inférence à faible latence et haut débit de tokens sur des modèles open-source (Llama, Mistral, etc.). Jusqu’à 70 % d’énergie en moins que les GPU traditionnels, et une facture forfaitaire prévisible plutôt qu’au token.

LPUs dédiés, modèles open-source

Neural sert des modèles open-source comme Llama et Mistral sur des accélérateurs LPU dédiés et non partagés, avec streaming de tokens temps réel et une latence edge sous 20 ms. Les LPUs consomment jusqu’à 70 % d’énergie en moins qu’une inférence GPU comparable.

Le forfait bat le token shock

Plutôt qu’une tarification au token qui pénalise les charges d’agents à forte utilisation, Neural vend un slice mensuel prévisible. Au-delà d’environ 30 % d’utilisation soutenue, l’inférence forfaitaire est tout simplement moins chère, et toujours prévisible.

Comparé à Together AI, Fireworks, Baseten et AWS Bedrock.