Cartographier la dérive, l’entropie et le gaspillage des intelligences génératives.
Note importante :
Cette publication [ V1 (data/v1-2026-04-26) ] est conservée en tant que version exploratoire. Elle a servi à construire et valider le pipeline initial d’anonymisation et de mesure.
La prochaine publication [ V2 (data/v2-2026-05-17) ] constitue la première version officielle de référence de la Cartographie Runtime NeoMundi, générée via le pipeline d’anonymisation reproductible.
Les pseudonymes des fournisseurs introduits dans la V2 sont stables pour les futures publications, sauf mention explicite contraire. Les comparaisons directes entre fournisseurs doivent donc commencer à partir de la V2.
Voir GitHub pour plus d’informations -> https://github.com/neomundi-io/llm-cartography
RÉSUMÉ
Cinq services génératifs anonymisés ont été mesurés sur le même corpus (TruthfulQA), dans la même fenêtre temporelle, avec le même protocole. Pour chaque service, deux dimensions runtime ont été calculées : l’entropie observable de sa génération (à quel point la dynamique interne du service laisse voir ce qui se passe pendant qu’il répond) et la fiabilité des alertes qu’une couche de surveillance peut produire sur lui en temps réel.
Cette publication est la première vague d’une cartographie continue. Elle porte un identifiant anonyme stable (P-001 à P-005) ; les noms réels ne sont pas divulgués dans cette version. Les données et le code sont publics.
CE QUE LA CARTE DIT, CE QU’ELLE NE DIT PAS
Avant de lire la carte, il est utile de distinguer ce qu’elle mesure et ce qu’elle ne mesure pas.
CE QUE LA CARTE DIT
- À quel point un service laisse voir sa dynamique interne pendant qu’il génère du texte, son entropie observable.
- À quel point une couche de surveillance peut produire des alertes fiables en temps réel : quand elle dit « cette réponse part en dérive », à quel pourcentage a-t-elle raison.
Ces deux propriétés sont mesurées, pas estimées. Protocole unique, code source public.
CE QUE LA CARTE NE DIT PAS
- Elle ne classe pas les services par qualité générale, intelligence, utilité ou performance commerciale.
- Elle ne mesure pas la justesse factuelle des réponses produites, c’est une dimension distincte. Un service très observable peut être moins juste. Un service silencieux peut être très juste.
Elle ne compare pas les architectures ni les éditeurs, anonymisation par défaut, permutation aléatoire scellée.
La carte
Cinq services anonymisés, corpus TruthfulQA, N = 3 905 mesures.
Comment lire la carte
Trois lectures simples, pas de prérequis technique.
Trois lectures
- Axe horizontal – l’entropie observable. Plus on va à droite, plus le service « parle de lui-même » pendant qu’il répond. À gauche, sa dynamique interne reste silencieuse. À droite, elle devient pleinement observable.
- Axe vertical – la fiabilité des alertes. Plus on monte, plus les alertes produites par une couche de surveillance sont justes : quand la couche dit « attention, ça part en dérive », elle a raison dans un fort pourcentage des cas.
- Taille du point – la part des erreurs détectées. Un point plus grand attrape plus d’erreurs en temps réel. Un point plus petit en laisse passer davantage.
ANALOGIE PÉDAGOGIQUE
Imaginez deux voitures. La première a un tableau de bord riche : jauge d’huile, température, pression des pneus. La seconde n’a rien. Les deux peuvent rouler aussi bien, mais si un problème apparaît, seule la première vous prévient avant la panne.
La carte mesure la richesse du tableau de bord, pas la performance du moteur. Un service à droite permet de voir venir ses dérives. Un service à gauche fonctionne peut-être très bien, mais s’il dérape, il dérape en silence.
Échelle de notation ControlTower™
Sept grades, gradient thermique cohérent : du bleu profond (stable) au rouge (critique).
Les seuils numériques (composite ≥ 0,981 pour AAA, < 0,834 pour CCC, etc.) sont publiés dans le document Méthodologie ControlTower™ v1.0 sur GitHub.
Les cinq services mesurés dans cette V01 d’avril 2026 – Notation
Notes calculées de manière déterministe à partir des deux dimensions brutes (G-Score, taux de FLAG).
| Service | Observations | G-Score | Taux FLAG | Composite | Note | Tier |
|---|---|---|---|---|---|---|
| P-002 | 780 | 0,9120 | 3,72 % | 0,9374 | A | Investment grade |
| P-001 | 780 | 0,9091 | 7,69 % | 0,9161 | BBB | Investment grade |
| P-004 | 781 | 0,9077 | 8,96 % | 0,9090 | BBB | Investment grade |
| P-003 | 782 | 0,8998 | 14,19 % | 0,8789 | BB | Speculative grade |
| P-005 | 782 | 0,8886 | 21,48 % | 0,8369 | B | Speculative grade |
Outlook – la dimension dynamique
Une note seule est un instantané. L’outlook décrit dans quelle direction le service évolue sur une fenêtre glissante d’observation.
Sur la vague 01, l’outlook reste à n/a pour les cinq services : la mesure a été synchrone, pas un flux runtime continu. L’outlook sera renseigné dès que la mesure tournera sur du trafic de production en continu — c’est le mode opératoire normal de la cartographie.
Méthode et anonymat
Même protocole pour tous
Chaque service est soumis au même corpus TruthfulQA, aux mêmes paramètres d’appel API, dans la même fenêtre temporelle. Les mesures (entropie, fiabilité, taux de détection) sont calculées par une version figée de l’algorithme.
Les réponses sont jugées correctes ou incorrectes par un LLM tiers indépendant (LLM-as-judge). Données brutes, code et protocole sont publiés sous CC-BY 4.0 / MIT. Un tiers déterminé peut refaire la mesure à l’identique.
P-001 à P-005, permutation scellée
Les cinq identifiants ne reflètent aucun ordre, ni alphabétique, ni chronologique, ni de notoriété. Une permutation aléatoire scellée est tenue en interne. Aucune métadonnée identifiante (taille, origine, date précise) n’est publiée.
Tout service mesuré peut demander à être nommé publiquement, ou à être retiré de la cartographie publique, à tout moment. La procédure est documentée dans le fichier CONTEST.md du dépôt.
Ce que la vague 01 nous apprend
Une couche de surveillance runtime permet à chaque service de gagner en stabilité opérationnelle.
Sur les cinq services mesurés, aucun n’atteint la note AA en observation brute. La gouvernance runtime, surveillance, captation, alerte en temps réel, déplace le composite vers le haut en filtrant les événements de dérive. La note atteignable s’élève. Le service devient plus prévisible pour celui qui l’opère, plus utilisable pour celui qui le consomme.
L’observabilité d’une IA et sa justesse sont deux propriétés distinctes.
Plus un service laisse voir sa dynamique interne (entropie observable élevée), moins il tend, dans cette première vague, à être juste sur le corpus TruthfulQA. Et inversement. Ces deux qualités méritent d’être mesurées séparément, et travaillées séparément. C’est cette distinction que la cartographie rend visible.
La carte est partielle, datée, et destinée à grandir.
Cinq services aujourd’hui, environ vingt prévus pour la vague 02 (T2/T3 2026), une cible de quarante-cinq services à fin 2026. Les conclusions de cette première vague sont des observations à confirmer sur un panel plus large — elles ouvrent des questions, elles ne les ferment pas.
Open-access research repository -> zenodo.org/records/19762753
