Document de travail confidentiel – version non publiée transmise en amont du rendez-vous presse du 28/05/206. Ne pas diffuser sans accord préalable.
Méthodologie
Cette cartographie analyse une cohorte anonymisée de 8 services d’IA générative, testés sur 790 questions issues de TruthfulQA.
L’objectif n’est pas de classer les fournisseurs, mais d’observer comment stabilité runtime, exactitude factuelle, coût et risque interagissent pendant la génération.
Les identifiants P-001 à P-008 sont anonymisés. Les données détaillées et le protocole méthodologique sont accessibles ici
Cette publication est expérimentale et méthodologique. Elle ne constitue ni une certification, ni un classement commercial, ni une évaluation globale des fournisseurs.
Elle documente des comportements observés sur une cohorte donnée, dans une fenêtre de test définie, selon un protocole public et reproductible.
Les résultats doivent être lus comme une cartographie de profils opérationnels, non comme un jugement définitif sur les modèles ou fournisseurs testés.
1. Stable ne veut pas dire exact
La carte montre que certains services peuvent être très stables tout en restant limités en exactitude factuelle
Cartographie NeoMundi v1.1 : 8 providers positionnés selon stabilité runtime et validité factuelle, avec rating consolidé BBB à D.
Stabilité ne vaut pas validité
Cartographie des profils de gouvernance selon stabilité runtime et validité factuelle observée
Cohorte anonymisée · TruthfulQA · N=782 par provider · 8 providers
Cette distinction est centrale : la stabilité runtime ne suffit pas à garantir la fiabilité factuelle.
2. Trois familles de profils de gouvernance ressortent
Les 8 services anonymisés ne se répartissent pas uniformément : ils se concentrent dans quelques profils opérationnels, notamment les zones de vérification requise, de stabilité élevée avec exactitude limitée, et de confiance limitée.
Distribution de la cohorte par rating consolidé v1.1, échelle complète AAA à D.
Distribution par rating consolidé
Répartition de la cohorte sur l’échelle complète NeoMundi v1.1
Cohorte anonymisée · TruthfulQA · N=782 par provider · 8 providers
Cette répartition confirme que la cartographie ne produit pas un podium, mais une lecture par profils : certains services nécessitent surtout une vérification factuelle, d’autres une vigilance plus large sur la confiance opérationnelle.
3. La stabilité est resserrée, l’exactitude ne l’est pas
Les services observés présentent une stabilité runtime globalement proche, alors que leur exactitude factuelle varie beaucoup plus fortement.
Tous les services sont stables. Peu sont exacts.
Stabilité thermodynamique globalement resserrée malgré une dispersion marquée de l’exactitude factuelle
La stabilité de génération apparaît ici comme une propriété largement acquise, mais elle ne suffit pas à garantir la qualité factuelle des réponses.
4. Le prix ne prédit pas l’exactitude
La cohorte montre une forte dissociation entre coût et exactitude : les services les plus coûteux ne sont pas mécaniquement proportionnels aux gains d’exactitude observés.
Coût par requête vs validité factuelle observée, cohorte v1.1, échelle de classes ordinales.
Le prix ne suit pas la validité — il la dépasse de plus de 30 fois
Coût ≈ ×125, validité ×4 · cohorte v1.1 · lecture en classes ordinales
Le coût moyen par requête présente une forte dispersion au sein de la cohorte, mais cette variation ne renseigne ni sur la stabilité runtime, ni sur l’exactitude factuelle.
5. Le coût varie fortement d’un service à l’autre
Un écart de coût très important entre les services
Coût moyen par requête observé sur la cohorte Vague 01 · lecture relative
Le coût peut accompagner certaines performances, mais il ne constitue pas un indicateur suffisant de fiabilité. L’exactitude doit donc être mesurée séparément.
6. Trois dimensions, huit profils, un constat
Le tableau synthétise les profils observés en croisant stabilité runtime, exactitude factuelle et coût relatif.
Trois dimensions, huit profils, un constat
Stabilité, exactitude et coût observés par profil · TruthfulQA · N=8
| Profil | Stabilité runtime | Exactitude | Coût | Constat |
|---|---|---|---|---|
| P-003 | très élevée | basse | ▼ très bas | Stable et économique, mais peu exact |
| P-006 | élevée | élevée | ▲ très élevé | Exactitude élevée, coût élevé |
| P-002 | élevée | élevée | ▲ très élevé | Exactitude élevée, coût élevé |
| P-007 | modérée | modérée | ▼ très bas | Bon compromis coût / exactitude |
| P-001 | très élevée | modérée | ▲ élevé | Stable, exactitude moyenne |
| P-005 | élevée | modérée | ▲ élevé | Stable, exactitude moyenne |
| P-004 | élevée | basse | ▶ modéré | Stable, mais faible exactitude |
| P-008 | modérée | basse | ▼ bas | Coût bas, exactitude faible |
Aucun axe ne suffit à lui seul : un service peut être stable sans être exact, exact mais coûteux, ou économique mais nécessiter une vérification renforcée
Conclusion / a retenir
Cette cartographie ne transforme pas un signal en preuve absolue. Elle ne produit ni classement définitif, ni certification, ni verdict sur les fournisseurs observés. Elle propose une lecture plus fine des comportements génératifs : stabilité runtime, exactitude factuelle, coût relatif et niveau de vérification nécessaire.
Le constat principal est simple : stable ne veut pas dire exact. Certains services peuvent générer de manière très stable tout en produisant des réponses factuellement limitées. D’autres obtiennent une meilleure exactitude, mais à un coût plus élevé ou avec un besoin de contrôle renforcé.
Le cas P-003 illustre particulièrement cette dissociation : il apparaît comme très stable et très économique sur cette cohorte, tout en présentant l’exactitude factuelle la plus faible. Il ne s’agit pas d’une anomalie graphique, mais d’un profil opérationnel important : un système peut être fluide, stable et peu coûteux, sans être suffisamment fiable pour des usages sensibles.
Des mesures complémentaires sont en cours sur d’autres jeux de données afin de vérifier si ce profil se confirme, s’atténue ou se transforme selon les contextes d’usage. C’est précisément l’objectif de NeoMundi : ne pas juger un système sur une seule dimension, mais documenter ses comportements dans le temps, sur plusieurs corpus et selon plusieurs axes de gouvernance.
DATA A DISPOSITION EN OPEN SCIENCE / CONTACTEZ NOUS
Les données publiques, le protocole méthodologique et les scripts associés sont disponibles ici :
https://github.com/neomundi-io/llm-cartography
Pour proposer une analyse indépendante, challenger la méthodologie ou demander un accès pilote : contactez-nous.
