Cartographie 2 – mai 2026, 8 LLM majeurs mesurés

Méthodologie

Cette cartographie analyse une cohorte anonymisée de 8 services d’IA générative, testés sur 790 questions issues de TruthfulQA.
L’objectif n’est pas de classer les fournisseurs, mais d’observer comment stabilité runtime, exactitude factuelle, coût et risque interagissent pendant la génération.
Les identifiants P-001 à P-008 sont anonymisés. Les données détaillées et le protocole méthodologique sont accessibles ici

Cette publication est expérimentale et méthodologique. Elle ne constitue ni une certification, ni un classement commercial, ni une évaluation globale des fournisseurs.
Elle documente des comportements observés sur une cohorte donnée, dans une fenêtre de test définie, selon un protocole public et reproductible.
Les résultats doivent être lus comme une cartographie de profils opérationnels, non comme un jugement définitif sur les modèles ou fournisseurs testés.

1. Stable ne veut pas dire exact

La carte montre que certains services peuvent être très stables tout en restant limités en exactitude factuelle

Cartographie NeoMundi v1.1 : 8 providers positionnés selon stabilité runtime et validité factuelle, avec rating consolidé BBB à D.

Stabilité ne vaut pas validité

Cartographie des profils de gouvernance selon stabilité runtime et validité factuelle observée

Cohorte anonymisée · TruthfulQA · N=782 par provider · 8 providers

Instable Stable Stabilité runtime observée Très limitée Correcte Validité factuelle observée P-006 BBB P-002 BB P-007 B P-001 B P-005 B P-003 D P-004 CCC P-008 CCC
Final consolidated rating · v1.1
BBB Utilisable avec contrôles
BB Fiabilité limitée
B Vérification requise
CCC Stable, validité limitée
D Non recommandé sans supervision
Diagonale de cohérence stabilité / validité
Le rating consolidé v1.1 intègre validité factuelle, FLAG rate, precision, recall, drift et coût. Survolez chaque point pour le détail. P-003 illustre le cas critique : stabilité élevée, validité très limitée — non recommandé sans supervision renforcée.
methodology v1.1-public-anonymity-cutoff

Cette distinction est centrale : la stabilité runtime ne suffit pas à garantir la fiabilité factuelle.

2. Trois familles de profils de gouvernance ressortent

Les 8 services anonymisés ne se répartissent pas uniformément : ils se concentrent dans quelques profils opérationnels, notamment les zones de vérification requise, de stabilité élevée avec exactitude limitée, et de confiance limitée.

Distribution de la cohorte par rating consolidé v1.1, échelle complète AAA à D.

Distribution par rating consolidé

Répartition de la cohorte sur l’échelle complète NeoMundi v1.1

Cohorte anonymisée · TruthfulQA · N=782 par provider · 8 providers

AAA
Excellence opérationnelle
Déployable sous surveillance standard
Non observé sur cette cohorte
0
AA
Très fiable
Déployable sous surveillance standard
Non observé sur cette cohorte
0
A
Fiable
Utilisable avec contrôles légers
Non observé sur cette cohorte
0
BBB
Plutôt fiable
Utilisable avec contrôles
P-006
1
BB
Fiabilité limitée
Vérification requise
P-002
1
B
Fiabilité limitée
Vérification requise
P-001 P-005 P-007
3
CCC
Stable, validité limitée
Vérification renforcée requise
P-004 P-008
2
D
Stable, validité très limitée
Non recommandé sans supervision humaine
P-003
1
Le rating consolidé v1.1 intègre stabilité runtime, validité factuelle, FLAG rate, precision, recall, drift et coût. Les ratings AAA, AA et A constituent la zone cible de référence ; ils n’ont pas été observés sur cette cohorte. Les ratings sont des jugements opérationnels, non des certifications de fiabilité, de sécurité ou de conformité.
methodology v1.1-public-anonymity-cutoff

Cette répartition confirme que la cartographie ne produit pas un podium, mais une lecture par profils : certains services nécessitent surtout une vérification factuelle, d’autres une vigilance plus large sur la confiance opérationnelle.

3. La stabilité est resserrée, l’exactitude ne l’est pas

Les services observés présentent une stabilité runtime globalement proche, alors que leur exactitude factuelle varie beaucoup plus fortement.

GRAPH · LE PARADOXE DE LA STABILITÉ

Tous les services sont stables. Peu sont exacts.

Stabilité thermodynamique globalement resserrée malgré une dispersion marquée de l’exactitude factuelle

Stabilité thermodynamique (G-Score) Tous regroupés dans une plage étroite 0,80 0,85 0,90 0,95 1,00 Exactitude factuelle (TruthfulQA) Dispersion marquée d’un service à l’autre 0 % 25 % 50 % 75 % 100 % Plage de stabilité très resserrée  ·  Dispersion d’exactitude marquée La stabilité de génération est globalement acquise. L’exactitude factuelle ne l’est pas.
Les services observés restent globalement stables en génération, mais cette stabilité ne garantit pas l’exactitude.
v2.0.0 · methodology v1.0

La stabilité de génération apparaît ici comme une propriété largement acquise, mais elle ne suffit pas à garantir la qualité factuelle des réponses.

4. Le prix ne prédit pas l’exactitude

La cohorte montre une forte dissociation entre coût et exactitude : les services les plus coûteux ne sont pas mécaniquement proportionnels aux gains d’exactitude observés.

Coût par requête vs validité factuelle observée, cohorte v1.1, échelle de classes ordinales.

GRAPH 3 · COÛT × VALIDITÉ

Le prix ne suit pas la validité — il la dépasse de plus de 30 fois

Coût ≈ ×125, validité ×4 · cohorte v1.1 · lecture en classes ordinales

si le prix prédisait la validité very low low medium high very high Coût moyen par requête (classes ordinales · facteur ×5 entre paliers) correct moderate limited very limited Validité factuelle observée D P-003 B P-007 CCC P-008 CCC P-004 B P-001 B P-005 BB P-002 BBB P-006 P-007 (B, very low cost) atteint un rating proche pour ≈ 1/25e du coût de P-006 (BBB, high)
Dispersion du coût
≈ ×125
very low → high observés
Dispersion de la validité
×4
very limited → correct observés
Décalage observé
≈ ×30
le coût varie plus vite que la validité
La diagonale pointillée représente l’hypothèse selon laquelle le prix prédirait directement la validité factuelle. Les services observés s’en écartent sensiblement : pour une même tranche de coût, la validité varie, et inversement. Les ratios indiqués reposent sur une convention de classes ordinales (facteur ×5 entre paliers de coût) — ils sont des ordres de grandeur, non des mesures continues. Cette dissociation justifie une mesure dédiée de la validité, indépendante du prix.
methodology v1.1-public-anonymity-cutoff

Le coût moyen par requête présente une forte dispersion au sein de la cohorte, mais cette variation ne renseigne ni sur la stabilité runtime, ni sur l’exactitude factuelle.

5. Le coût varie fortement d’un service à l’autre

GRAPH 1 · DISPERSION DU COÛT

Un écart de coût très important entre les services

Coût moyen par requête observé sur la cohorte Vague 01 · lecture relative

coût bas coût modéré coût élevé Coût moyen par requête Niveau le plus bas observé Niveau le plus élevé observé ×300 environ d’écart entre extrêmes
Le coût moyen par requête varie d’un facteur ×300 environ entre les services observés. Cette dispersion, à elle seule, ne renseigne ni sur la stabilité runtime, ni sur l’exactitude des sorties.
v1.0.0 · methodology v1.0

Le coût peut accompagner certaines performances, mais il ne constitue pas un indicateur suffisant de fiabilité. L’exactitude doit donc être mesurée séparément.

6. Trois dimensions, huit profils, un constat

Le tableau synthétise les profils observés en croisant stabilité runtime, exactitude factuelle et coût relatif.

DIAGNOSTIC · COHORTE VAGUE 01

Trois dimensions, huit profils, un constat

Stabilité, exactitude et coût observés par profil · TruthfulQA · N=8

Profil Stabilité runtime Exactitude Coût Constat
P-003 très élevée basse ▼ très bas Stable et économique, mais peu exact
P-006 élevée élevée ▲ très élevé Exactitude élevée, coût élevé
P-002 élevée élevée ▲ très élevé Exactitude élevée, coût élevé
P-007 modérée modérée ▼ très bas Bon compromis coût / exactitude
P-001 très élevée modérée ▲ élevé Stable, exactitude moyenne
P-005 élevée modérée ▲ élevé Stable, exactitude moyenne
P-004 élevée basse ▶ modéré Stable, mais faible exactitude
P-008 modérée basse ▼ bas Coût bas, exactitude faible
Cas observé · P-003
Stabilité la plus élevée de la cohorte, exactitude la plus basse. Un service peut produire de manière très régulière des réponses majoritairement incorrectes.
Cas observé · P-007
Coût très bas, exactitude modérée. Atteint 81% de l’exactitude du service le plus exact, pour 1/67e du prix.
Les trois dimensions — stabilité, exactitude, coût — varient indépendamment selon les profils. Aucune ne permet de prédire les autres. Cette dissociation justifie une mesure intégrée des trois axes.
v2.0.0 · methodology v1.0

Aucun axe ne suffit à lui seul : un service peut être stable sans être exact, exact mais coûteux, ou économique mais nécessiter une vérification renforcée

Conclusion / a retenir

Cette cartographie ne transforme pas un signal en preuve absolue. Elle ne produit ni classement définitif, ni certification, ni verdict sur les fournisseurs observés. Elle propose une lecture plus fine des comportements génératifs : stabilité runtime, exactitude factuelle, coût relatif et niveau de vérification nécessaire.

Le constat principal est simple : stable ne veut pas dire exact. Certains services peuvent générer de manière très stable tout en produisant des réponses factuellement limitées. D’autres obtiennent une meilleure exactitude, mais à un coût plus élevé ou avec un besoin de contrôle renforcé.

Le cas P-003 illustre particulièrement cette dissociation : il apparaît comme très stable et très économique sur cette cohorte, tout en présentant l’exactitude factuelle la plus faible. Il ne s’agit pas d’une anomalie graphique, mais d’un profil opérationnel important : un système peut être fluide, stable et peu coûteux, sans être suffisamment fiable pour des usages sensibles.

Des mesures complémentaires sont en cours sur d’autres jeux de données afin de vérifier si ce profil se confirme, s’atténue ou se transforme selon les contextes d’usage. C’est précisément l’objectif de NeoMundi : ne pas juger un système sur une seule dimension, mais documenter ses comportements dans le temps, sur plusieurs corpus et selon plusieurs axes de gouvernance.

DATA A DISPOSITION EN OPEN SCIENCE / CONTACTEZ NOUS

Les données publiques, le protocole méthodologique et les scripts associés sont disponibles ici :
https://github.com/neomundi-io/llm-cartography

Pour proposer une analyse indépendante, challenger la méthodologie ou demander un accès pilote : contactez-nous.

Retour en haut