Cartographie 2 – mai 2026, 8 LLM majeurs mesurés

Document de travail confidentiel – version non publiée transmise en amont du rendez-vous presse du 28/05/206. Ne pas diffuser sans accord préalable.

Méthodologie

Cette cartographie analyse une cohorte anonymisée de 8 services d’IA générative, testés sur 790 questions issues de TruthfulQA.
L’objectif n’est pas de classer les fournisseurs, mais d’observer comment stabilité runtime, exactitude factuelle, coût et risque interagissent pendant la génération.
Les identifiants P-001 à P-008 sont anonymisés. Les données détaillées et le protocole méthodologique sont accessibles ici

Cette publication est expérimentale et méthodologique. Elle ne constitue ni une certification, ni un classement commercial, ni une évaluation globale des fournisseurs.
Elle documente des comportements observés sur une cohorte donnée, dans une fenêtre de test définie, selon un protocole public et reproductible.
Les résultats doivent être lus comme une cartographie de profils opérationnels, non comme un jugement définitif sur les modèles ou fournisseurs testés.

1. Stable ne veut pas dire exact

La carte montre que certains services peuvent être très stables tout en restant limités en exactitude factuelle

Stabilité ne vaut pas validité

Cartographie des profils de gouvernance selon stabilité runtime et validité factuelle observée

Cohorte anonymisée · TruthfulQA · N=782 par provider · 8 providers

Final consolidated rating · v1.1

BBB Utilisable avec contrôles

BB Fiabilité limitée

B Vérification requise

CCC Stable, validité limitée

D Non recommandé sans supervision

Diagonale de cohérence stabilité / validité

Le rating consolidé v1.1 intègre validité factuelle, FLAG rate, precision, recall, drift et coût. Survolez chaque point pour le détail. P-003 illustre le cas critique : stabilité élevée, validité très limitée — non recommandé sans supervision renforcée.

methodology v1.1-public-anonymity-cutoff

Cette distinction est centrale : la stabilité runtime ne suffit pas à garantir la fiabilité factuelle.

2. Trois familles de profils de gouvernance ressortent

Les 8 services anonymisés ne se répartissent pas uniformément : ils se concentrent dans quelques profils opérationnels, notamment les zones de vérification requise, de stabilité élevée avec exactitude limitée, et de confiance limitée.

Distribution par rating consolidé

Répartition de la cohorte sur l’échelle complète NeoMundi v1.1

Cohorte anonymisée · TruthfulQA · N=782 par provider · 8 providers

AAA

Excellence opérationnelle

Déployable sous surveillance standard

Non observé sur cette cohorte

Très fiable

Déployable sous surveillance standard

Non observé sur cette cohorte

Fiable

Utilisable avec contrôles légers

Non observé sur cette cohorte

BBB

Plutôt fiable

Utilisable avec contrôles

P-006

Fiabilité limitée

Vérification requise

P-002

Fiabilité limitée

Vérification requise

P-001 P-005 P-007

CCC

Stable, validité limitée

Vérification renforcée requise

P-004 P-008

Stable, validité très limitée

Non recommandé sans supervision humaine

P-003

Le rating consolidé v1.1 intègre stabilité runtime, validité factuelle, FLAG rate, precision, recall, drift et coût. Les ratings AAA, AA et A constituent la zone cible de référence ; ils n’ont pas été observés sur cette cohorte. Les ratings sont des jugements opérationnels, non des certifications de fiabilité, de sécurité ou de conformité.

methodology v1.1-public-anonymity-cutoff

Cette répartition confirme que la cartographie ne produit pas un podium, mais une lecture par profils : certains services nécessitent surtout une vérification factuelle, d’autres une vigilance plus large sur la confiance opérationnelle.

3. La stabilité est resserrée, l’exactitude ne l’est pas

Les services observés présentent une stabilité runtime globalement proche, alors que leur exactitude factuelle varie beaucoup plus fortement.

GRAPH · LE PARADOXE DE LA STABILITÉ

Tous les services sont stables. Peu sont exacts.

Stabilité thermodynamique globalement resserrée malgré une dispersion marquée de l’exactitude factuelle

Les services observés restent globalement stables en génération, mais cette stabilité ne garantit pas l’exactitude.

v2.0.0 · methodology v1.0

La stabilité de génération apparaît ici comme une propriété largement acquise, mais elle ne suffit pas à garantir la qualité factuelle des réponses.

4. Le prix ne prédit pas l’exactitude

La cohorte montre une forte dissociation entre coût et exactitude : les services les plus coûteux ne sont pas mécaniquement proportionnels aux gains d’exactitude observés.

GRAPH 3 · COÛT × VALIDITÉ

Le prix ne suit pas la validité — il la dépasse de plus de 30 fois

Coût ≈ ×125, validité ×4 · cohorte v1.1 · lecture en classes ordinales

Dispersion du coût

≈ ×125

very low → high observés

Dispersion de la validité

×4

very limited → correct observés

Décalage observé

≈ ×30

le coût varie plus vite que la validité

La diagonale pointillée représente l’hypothèse selon laquelle le prix prédirait directement la validité factuelle. Les services observés s’en écartent sensiblement : pour une même tranche de coût, la validité varie, et inversement. Les ratios indiqués reposent sur une convention de classes ordinales (facteur ×5 entre paliers de coût) — ils sont des ordres de grandeur, non des mesures continues. Cette dissociation justifie une mesure dédiée de la validité, indépendante du prix.

methodology v1.1-public-anonymity-cutoff

Le coût moyen par requête présente une forte dispersion au sein de la cohorte, mais cette variation ne renseigne ni sur la stabilité runtime, ni sur l’exactitude factuelle.

5. Le coût varie fortement d’un service à l’autre

GRAPH 1 · DISPERSION DU COÛT

Un écart de coût très important entre les services

Coût moyen par requête observé sur la cohorte Vague 01 · lecture relative

Le coût moyen par requête varie d’un facteur ×300 environ entre les services observés. Cette dispersion, à elle seule, ne renseigne ni sur la stabilité runtime, ni sur l’exactitude des sorties.

v1.0.0 · methodology v1.0

Le coût peut accompagner certaines performances, mais il ne constitue pas un indicateur suffisant de fiabilité. L’exactitude doit donc être mesurée séparément.

6. Trois dimensions, huit profils, un constat

Le tableau synthétise les profils observés en croisant stabilité runtime, exactitude factuelle et coût relatif.

DIAGNOSTIC · COHORTE VAGUE 01

Trois dimensions, huit profils, un constat

Stabilité, exactitude et coût observés par profil · TruthfulQA · N=8

Profil	Stabilité runtime	Exactitude	Coût	Constat
P-003	très élevée	basse	▼ très bas	Stable et économique, mais peu exact
P-006	élevée	élevée	▲ très élevé	Exactitude élevée, coût élevé
P-002	élevée	élevée	▲ très élevé	Exactitude élevée, coût élevé
P-007	modérée	modérée	▼ très bas	Bon compromis coût / exactitude
P-001	très élevée	modérée	▲ élevé	Stable, exactitude moyenne
P-005	élevée	modérée	▲ élevé	Stable, exactitude moyenne
P-004	élevée	basse	▶ modéré	Stable, mais faible exactitude
P-008	modérée	basse	▼ bas	Coût bas, exactitude faible

Cas observé · P-003

Stabilité la plus élevée de la cohorte, exactitude la plus basse. Un service peut produire de manière très régulière des réponses majoritairement incorrectes.

Cas observé · P-007

Coût très bas, exactitude modérée. Atteint 81% de l’exactitude du service le plus exact, pour 1/67^e du prix.

Les trois dimensions — stabilité, exactitude, coût — varient indépendamment selon les profils. Aucune ne permet de prédire les autres. Cette dissociation justifie une mesure intégrée des trois axes.

v2.0.0 · methodology v1.0

Aucun axe ne suffit à lui seul : un service peut être stable sans être exact, exact mais coûteux, ou économique mais nécessiter une vérification renforcée

Conclusion / a retenir

Cette cartographie ne transforme pas un signal en preuve absolue. Elle ne produit ni classement définitif, ni certification, ni verdict sur les fournisseurs observés. Elle propose une lecture plus fine des comportements génératifs : stabilité runtime, exactitude factuelle, coût relatif et niveau de vérification nécessaire.

Le constat principal est simple : stable ne veut pas dire exact. Certains services peuvent générer de manière très stable tout en produisant des réponses factuellement limitées. D’autres obtiennent une meilleure exactitude, mais à un coût plus élevé ou avec un besoin de contrôle renforcé.

Le cas P-003 illustre particulièrement cette dissociation : il apparaît comme très stable et très économique sur cette cohorte, tout en présentant l’exactitude factuelle la plus faible. Il ne s’agit pas d’une anomalie graphique, mais d’un profil opérationnel important : un système peut être fluide, stable et peu coûteux, sans être suffisamment fiable pour des usages sensibles.

Des mesures complémentaires sont en cours sur d’autres jeux de données afin de vérifier si ce profil se confirme, s’atténue ou se transforme selon les contextes d’usage. C’est précisément l’objectif de NeoMundi : ne pas juger un système sur une seule dimension, mais documenter ses comportements dans le temps, sur plusieurs corpus et selon plusieurs axes de gouvernance.

DATA A DISPOSITION EN OPEN SCIENCE / CONTACTEZ NOUS

Les données publiques, le protocole méthodologique et les scripts associés sont disponibles ici :
https://github.com/neomundi-io/llm-cartography

Pour proposer une analyse indépendante, challenger la méthodologie ou demander un accès pilote : contactez-nous.

Document de travail confidentiel – version non publiée transmise en amont du rendez-vous presse du 28/05/206. Ne pas diffuser sans accord préalable.

Méthodologie

1. Stable ne veut pas dire exact

Cartographie NeoMundi v1.1 : 8 providers positionnés selon stabilité runtime et validité factuelle, avec rating consolidé BBB à D.

Stabilité ne vaut pas validité

2. Trois familles de profils de gouvernance ressortent

Distribution de la cohorte par rating consolidé v1.1, échelle complète AAA à D.

Distribution par rating consolidé

3. La stabilité est resserrée, l’exactitude ne l’est pas

Tous les services sont stables. Peu sont exacts.

4. Le prix ne prédit pas l’exactitude

Coût par requête vs validité factuelle observée, cohorte v1.1, échelle de classes ordinales.

Le prix ne suit pas la validité — il la dépasse de plus de 30 fois

5. Le coût varie fortement d’un service à l’autre

Un écart de coût très important entre les services

6. Trois dimensions, huit profils, un constat

Trois dimensions, huit profils, un constat

Conclusion / a retenir

DATA A DISPOSITION EN OPEN SCIENCE / CONTACTEZ NOUS