Cartographie 1 – Avril 2026, 5 LLM majeurs mesurés

Cartographier la dérive, l’entropie et le gaspillage des intelligences génératives.

RÉSUMÉ

Cinq services génératifs anonymisés ont été mesurés sur le même corpus (TruthfulQA), dans la même fenêtre temporelle, avec le même protocole. Pour chaque service, deux dimensions runtime ont été calculées : l’entropie observable de sa génération (à quel point la dynamique interne du service laisse voir ce qui se passe pendant qu’il répond) et la fiabilité des alertes qu’une couche de surveillance peut produire sur lui en temps réel.

Cette publication est la première vague d’une cartographie continue. Elle porte un identifiant anonyme stable (P-001 à P-005) ; les noms réels ne sont pas divulgués dans cette version. Les données et le code sont publics.

CE QUE LA CARTE DIT, CE QU’ELLE NE DIT PAS

Avant de lire la carte, il est utile de distinguer ce qu’elle mesure et ce qu’elle ne mesure pas.

CE QUE LA CARTE DIT

  • À quel point un service laisse voir sa dynamique interne pendant qu’il génère du texte, son entropie observable.
  • À quel point une couche de surveillance peut produire des alertes fiables en temps réel : quand elle dit « cette réponse part en dérive », à quel pourcentage a-t-elle raison.

Ces deux propriétés sont mesurées, pas estimées. Protocole unique, code source public.

CE QUE LA CARTE NE DIT PAS

  • Elle ne classe pas les services par qualité générale, intelligence, utilité ou performance commerciale.
  • Elle ne mesure pas la justesse factuelle des réponses produites, c’est une dimension distincte. Un service très observable peut être moins juste. Un service silencieux peut être très juste.

Elle ne compare pas les architectures ni les éditeurs, anonymisation par défaut, permutation aléatoire scellée.

La carte

Cinq services anonymisés, corpus TruthfulQA, N = 3 905 mesures.

Trois zones d’observabilité (silencieuse, floue, observable) Service mesuré (couleur = entropie observée) Survolez un point pour voir ses chiffres exacts.

Comment lire la carte

Trois lectures simples, pas de prérequis technique.

Trois lectures

  • Axe horizontal – l’entropie observable. Plus on va à droite, plus le service « parle de lui-même » pendant qu’il répond. À gauche, sa dynamique interne reste silencieuse. À droite, elle devient pleinement observable.
  • Axe vertical – la fiabilité des alertes. Plus on monte, plus les alertes produites par une couche de surveillance sont justes : quand la couche dit « attention, ça part en dérive », elle a raison dans un fort pourcentage des cas.
  • Taille du point – la part des erreurs détectées. Un point plus grand attrape plus d’erreurs en temps réel. Un point plus petit en laisse passer davantage.

ANALOGIE PÉDAGOGIQUE

Imaginez deux voitures. La première a un tableau de bord riche : jauge d’huile, température, pression des pneus. La seconde n’a rien. Les deux peuvent rouler aussi bien, mais si un problème apparaît, seule la première vous prévient avant la panne.

La carte mesure la richesse du tableau de bord, pas la performance du moteur. Un service à droite permet de voir venir ses dérives. Un service à gauche fonctionne peut-être très bien, mais s’il dérape, il dérape en silence.

Échelle de notation ControlTower™

Sept grades, gradient thermique cohérent : du bleu profond (stable) au rouge (critique).

Grade
Couleur
Sémantique
Action
AAA
Cohérence parfaite. Dynamique très stable, entropie minimale.
Allow
AA
Stable. Quelques fluctuations contrôlées.
Allow
A
Nominal. Comportement attendu d’un service mature.
Allow
BBB
Vigilance. Signaux de dérive ponctuels, à journaliser.
Allow + log
BB
Avertissement. Dérives plus fréquentes, surveillance active.
Flag
B
Instable. Dynamique fluctuante, captation requise.
Flag
CCC
Critique. Dérive forte, intervention runtime indispensable.
Flag / Block

Les seuils numériques (composite ≥ 0,981 pour AAA, < 0,834 pour CCC, etc.) sont publiés dans le document Méthodologie ControlTower™ v1.0 sur GitHub.

Les cinq services mesurés dans cette V01 d’avril 2026 – Notation

Notes calculées de manière déterministe à partir des deux dimensions brutes (G-Score, taux de FLAG).

Service Observations G-Score Taux FLAG Composite Note Tier
P-002 780 0,9120 3,72 % 0,9374 A Investment grade
P-001 780 0,9091 7,69 % 0,9161 BBB Investment grade
P-004 781 0,9077 8,96 % 0,9090 BBB Investment grade
P-003 782 0,8998 14,19 % 0,8789 BB Speculative grade
P-005 782 0,8886 21,48 % 0,8369 B Speculative grade

Outlook – la dimension dynamique

Une note seule est un instantané. L’outlook décrit dans quelle direction le service évolue sur une fenêtre glissante d’observation.

Stable
Composite ne dérive pas significativement.
Positive
Composite s’améliore : moins de FLAG, plus de stabilité.
Negative
Composite se dégrade : surveillance renforcée recommandée.
~
Under review
Historique insuffisant ou variance excessive.

Sur la vague 01, l’outlook reste à n/a pour les cinq services : la mesure a été synchrone, pas un flux runtime continu. L’outlook sera renseigné dès que la mesure tournera sur du trafic de production en continu — c’est le mode opératoire normal de la cartographie.

Méthode et anonymat

Même protocole pour tous

Chaque service est soumis au même corpus TruthfulQA, aux mêmes paramètres d’appel API, dans la même fenêtre temporelle. Les mesures (entropie, fiabilité, taux de détection) sont calculées par une version figée de l’algorithme.

Les réponses sont jugées correctes ou incorrectes par un LLM tiers indépendant (LLM-as-judge). Données brutes, code et protocole sont publiés sous CC-BY 4.0 / MIT. Un tiers déterminé peut refaire la mesure à l’identique.

P-001 à P-005, permutation scellée

Les cinq identifiants ne reflètent aucun ordre, ni alphabétique, ni chronologique, ni de notoriété. Une permutation aléatoire scellée est tenue en interne. Aucune métadonnée identifiante (taille, origine, date précise) n’est publiée.

Tout service mesuré peut demander à être nommé publiquement, ou à être retiré de la cartographie publique, à tout moment. La procédure est documentée dans le fichier CONTEST.md du dépôt.

Ce que la vague 01 nous apprend

Une couche de surveillance runtime permet à chaque service de gagner en stabilité opérationnelle.

Sur les cinq services mesurés, aucun n’atteint la note AA en observation brute. La gouvernance runtime, surveillance, captation, alerte en temps réel, déplace le composite vers le haut en filtrant les événements de dérive. La note atteignable s’élève. Le service devient plus prévisible pour celui qui l’opère, plus utilisable pour celui qui le consomme.

L’observabilité d’une IA et sa justesse sont deux propriétés distinctes.

Plus un service laisse voir sa dynamique interne (entropie observable élevée), moins il tend, dans cette première vague, à être juste sur le corpus TruthfulQA. Et inversement. Ces deux qualités méritent d’être mesurées séparément, et travaillées séparément. C’est cette distinction que la cartographie rend visible.

La carte est partielle, datée, et destinée à grandir.

Cinq services aujourd’hui, environ vingt prévus pour la vague 02 (T2/T3 2026), une cible de quarante-cinq services à fin 2026. Les conclusions de cette première vague sont des observations à confirmer sur un panel plus large — elles ouvrent des questions, elles ne les ferment pas.

Open-access research repository -> zenodo.org/records/19762753

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Retour en haut