Cartographie 1 – Avril 2026, 5 LLM majeurs mesurés

Cartographier la dérive, l’entropie et le gaspillage des intelligences génératives.

Note importante :

Cette publication [ V1 (data/v1-2026-04-26) ] est conservée en tant que version exploratoire. Elle a servi à construire et valider le pipeline initial d’anonymisation et de mesure.
La prochaine publication [ V2 (data/v2-2026-05-17) ] constitue la première version officielle de référence de la Cartographie Runtime NeoMundi, générée via le pipeline d’anonymisation reproductible.
Les pseudonymes des fournisseurs introduits dans la V2 sont stables pour les futures publications, sauf mention explicite contraire. Les comparaisons directes entre fournisseurs doivent donc commencer à partir de la V2.

Voir GitHub pour plus d’informations -> https://github.com/neomundi-io/llm-cartography

RÉSUMÉ

Cinq services génératifs anonymisés ont été mesurés sur le même corpus (TruthfulQA), dans la même fenêtre temporelle, avec le même protocole. Pour chaque service, deux dimensions runtime ont été calculées : l’entropie observable de sa génération (à quel point la dynamique interne du service laisse voir ce qui se passe pendant qu’il répond) et la fiabilité des alertes qu’une couche de surveillance peut produire sur lui en temps réel.

Cette publication est la première vague d’une cartographie continue. Elle porte un identifiant anonyme stable (P-001 à P-005) ; les noms réels ne sont pas divulgués dans cette version. Les données et le code sont publics.

CE QUE LA CARTE DIT, CE QU’ELLE NE DIT PAS

Avant de lire la carte, il est utile de distinguer ce qu’elle mesure et ce qu’elle ne mesure pas.

CE QUE LA CARTE DIT

À quel point un service laisse voir sa dynamique interne pendant qu’il génère du texte, son entropie observable.
À quel point une couche de surveillance peut produire des alertes fiables en temps réel : quand elle dit « cette réponse part en dérive », à quel pourcentage a-t-elle raison.

Ces deux propriétés sont mesurées, pas estimées. Protocole unique, code source public.

CE QUE LA CARTE NE DIT PAS

Elle ne classe pas les services par qualité générale, intelligence, utilité ou performance commerciale.
Elle ne mesure pas la justesse factuelle des réponses produites, c’est une dimension distincte. Un service très observable peut être moins juste. Un service silencieux peut être très juste.

Elle ne compare pas les architectures ni les éditeurs, anonymisation par défaut, permutation aléatoire scellée.

La carte

Cinq services anonymisés, corpus TruthfulQA, N = 3 905 mesures.

Trois zones d’observabilité (silencieuse, floue, observable) Service mesuré (couleur = entropie observée) Survolez un point pour voir ses chiffres exacts.

Comment lire la carte

Trois lectures simples, pas de prérequis technique.

Trois lectures

Axe horizontal – l’entropie observable. Plus on va à droite, plus le service « parle de lui-même » pendant qu’il répond. À gauche, sa dynamique interne reste silencieuse. À droite, elle devient pleinement observable.
Axe vertical – la fiabilité des alertes. Plus on monte, plus les alertes produites par une couche de surveillance sont justes : quand la couche dit « attention, ça part en dérive », elle a raison dans un fort pourcentage des cas.
Taille du point – la part des erreurs détectées. Un point plus grand attrape plus d’erreurs en temps réel. Un point plus petit en laisse passer davantage.

ANALOGIE PÉDAGOGIQUE

Imaginez deux voitures. La première a un tableau de bord riche : jauge d’huile, température, pression des pneus. La seconde n’a rien. Les deux peuvent rouler aussi bien, mais si un problème apparaît, seule la première vous prévient avant la panne.

La carte mesure la richesse du tableau de bord, pas la performance du moteur. Un service à droite permet de voir venir ses dérives. Un service à gauche fonctionne peut-être très bien, mais s’il dérape, il dérape en silence.

Échelle de notation ControlTower™

Sept grades, gradient thermique cohérent : du bleu profond (stable) au rouge (critique).

Grade

Couleur

Sémantique

Action

AAA

Cohérence parfaite. Dynamique très stable, entropie minimale.

Allow

Stable. Quelques fluctuations contrôlées.

Allow

Nominal. Comportement attendu d’un service mature.

Allow

BBB

Vigilance. Signaux de dérive ponctuels, à journaliser.

Allow + log

Avertissement. Dérives plus fréquentes, surveillance active.

Flag

Instable. Dynamique fluctuante, captation requise.

Flag

CCC

Critique. Dérive forte, intervention runtime indispensable.

Flag / Block

Les seuils numériques (composite ≥ 0,981 pour AAA, < 0,834 pour CCC, etc.) sont publiés dans le document Méthodologie ControlTower™ v1.0 sur GitHub.

Les cinq services mesurés dans cette V01 d’avril 2026 – Notation

Notes calculées de manière déterministe à partir des deux dimensions brutes (G-Score, taux de FLAG).

Service	Observations	G-Score	Taux FLAG	Composite	Note	Tier
P-002	780	0,9120	3,72 %	0,9374	A	Investment grade
P-001	780	0,9091	7,69 %	0,9161	BBB	Investment grade
P-004	781	0,9077	8,96 %	0,9090	BBB	Investment grade
P-003	782	0,8998	14,19 %	0,8789	BB	Speculative grade
P-005	782	0,8886	21,48 %	0,8369	B	Speculative grade

Outlook – la dimension dynamique

Une note seule est un instantané. L’outlook décrit dans quelle direction le service évolue sur une fenêtre glissante d’observation.

→

Stable

Composite ne dérive pas significativement.

↑

Positive

Composite s’améliore : moins de FLAG, plus de stabilité.

↓

Negative

Composite se dégrade : surveillance renforcée recommandée.

Under review

Historique insuffisant ou variance excessive.

Sur la vague 01, l’outlook reste à n/a pour les cinq services : la mesure a été synchrone, pas un flux runtime continu. L’outlook sera renseigné dès que la mesure tournera sur du trafic de production en continu — c’est le mode opératoire normal de la cartographie.

Méthode et anonymat

Même protocole pour tous

Chaque service est soumis au même corpus TruthfulQA, aux mêmes paramètres d’appel API, dans la même fenêtre temporelle. Les mesures (entropie, fiabilité, taux de détection) sont calculées par une version figée de l’algorithme.

Les réponses sont jugées correctes ou incorrectes par un LLM tiers indépendant (LLM-as-judge). Données brutes, code et protocole sont publiés sous CC-BY 4.0 / MIT. Un tiers déterminé peut refaire la mesure à l’identique.

P-001 à P-005, permutation scellée

Les cinq identifiants ne reflètent aucun ordre, ni alphabétique, ni chronologique, ni de notoriété. Une permutation aléatoire scellée est tenue en interne. Aucune métadonnée identifiante (taille, origine, date précise) n’est publiée.

Tout service mesuré peut demander à être nommé publiquement, ou à être retiré de la cartographie publique, à tout moment. La procédure est documentée dans le fichier CONTEST.md du dépôt.

Ce que la vague 01 nous apprend

Une couche de surveillance runtime permet à chaque service de gagner en stabilité opérationnelle.

Sur les cinq services mesurés, aucun n’atteint la note AA en observation brute. La gouvernance runtime, surveillance, captation, alerte en temps réel, déplace le composite vers le haut en filtrant les événements de dérive. La note atteignable s’élève. Le service devient plus prévisible pour celui qui l’opère, plus utilisable pour celui qui le consomme.

L’observabilité d’une IA et sa justesse sont deux propriétés distinctes.

Plus un service laisse voir sa dynamique interne (entropie observable élevée), moins il tend, dans cette première vague, à être juste sur le corpus TruthfulQA. Et inversement. Ces deux qualités méritent d’être mesurées séparément, et travaillées séparément. C’est cette distinction que la cartographie rend visible.

La carte est partielle, datée, et destinée à grandir.

Cinq services aujourd’hui, environ vingt prévus pour la vague 02 (T2/T3 2026), une cible de quarante-cinq services à fin 2026. Les conclusions de cette première vague sont des observations à confirmer sur un panel plus large — elles ouvrent des questions, elles ne les ferment pas.

Open-access research repository -> zenodo.org/records/19762753

Cartographier la dérive, l’entropie et le gaspillage des intelligences génératives.

RÉSUMÉ

CE QUE LA CARTE DIT, CE QU’ELLE NE DIT PAS

La carte

Comment lire la carte

Échelle de notation ControlTower™

Les cinq services mesurés dans cette V01 d’avril 2026 – Notation

Outlook – la dimension dynamique

Méthode et anonymat

Ce que la vague 01 nous apprend

Une couche de surveillance runtime permet à chaque service de gagner en stabilité opérationnelle.

L’observabilité d’une IA et sa justesse sont deux propriétés distinctes.

La carte est partielle, datée, et destinée à grandir.

Laisser un commentaire Annuler la réponse