Retour à produits
Bêta

Citadea Neural

LPUs dédiés pour une inférence forfaitaire

Inférence souveraine sur LPUs dédiés, facturée au forfait — pour qu’une boucle de raisonnement d’agent ne produise jamais une facture effrayante.

Vue d’ensemble

Accélérateurs LPU (Language Processing Units) dédiés, optimisés pour une inférence à faible latence et haut débit de tokens sur des modèles open-source (Llama, Mistral, etc.). Jusqu’à 70 % d’énergie en moins que les GPU traditionnels — et une facture forfaitaire prévisible plutôt qu’au token.

LPUs dédiés, modèles open-source

Neural sert des modèles open-source comme Llama et Mistral sur des accélérateurs LPU dédiés et non partagés, avec streaming de tokens temps réel et une latence edge sous 20 ms. Les LPUs consomment jusqu’à 70 % d’énergie en moins qu’une inférence GPU comparable.

Le forfait bat le token shock

Plutôt qu’une tarification au token qui pénalise les charges d’agents à forte utilisation, Neural vend un slice mensuel prévisible. Au-delà d’environ 30 % d’utilisation soutenue, l’inférence forfaitaire est tout simplement moins chère — et toujours prévisible.

Comparé à Together AI, Fireworks, Baseten et AWS Bedrock.

Ce qui est inclus

  • LPUs dédiés (non partagés)
  • Modèles open-source (Llama, Mistral)
  • Streaming de tokens temps réel
  • Tarification forfaitaire prévisible
  • Aligné EU AI Act
  • Latence edge < 20 ms

Démarrage rapide

$ citadea neural infer --model <id>

Benchmarks

-70%
Énergie vs GPU
< 20 ms
Latence P99

Cas d’usage

Inférence Llama / MistralRAG en productionChatbots entrepriseStreaming temps réel

Intégrations

OpenAI-compatible APIvLLMTGILangChain

Questions fréquentes