Évaluation Phases : P5 · P8 Compétences : C4 · E2

KPIs ML standards

Définition

Les KPIs ML standards sont les métriques techniques permettant d’évaluer la performance d’un modèle de machine learning. Ils se déclinent selon le type de problème : classification (précision, rappel, F1, AUC-ROC), régression (MAE, RMSE, MAPE, R²), génération (perplexité, BLEU, ROUGE, métriques humaines), détection d’anomalies (précision et rappel sur classe rare). À ces KPIs techniques s’ajoutent des indicateurs d’exploitation (latence, débit, coût par inférence, empreinte carbone).

Pour l’AIBS, les KPIs ML constituent un référentiel à maîtriser conceptuellement pour la phase P5. Ils alimentent la compétence obligatoire C4 (vérifier la faisabilité d’une solution basée sur l’IA), évaluée à l’examen partie 1. La maîtrise attendue est conceptuelle : savoir choisir les KPIs pertinents selon le type de problème et le coût des erreurs métier, sans nécessairement maîtriser les calculs techniques.

Le choix du KPI ML dominant est une décision métier autant que technique. Pour un problème de fraude, le rappel (ne pas manquer une fraude) prime généralement sur la précision (limiter les faux positifs). Pour un problème de recommandation, c’est l’inverse. L’AIBS apporte cette perspective métier au data scientist.

Quand l’utiliser

À cadrer en phase P5 lors de la définition des critères d’évaluation, avant les mesures techniques. Repris en phase P8 pour le monitoring en production.

Mode d’emploi pas-à-pas

Sélectionner les métriques pertinentes selon le type de problème ML
Classification binaire : précision, rappel, F1, AUC-ROC
Classification multi-classe : précision et rappel par classe, F1 macro/micro/pondéré, matrice de confusion
Régression : MAE, RMSE, MAPE, R²
Génération : perplexité, BLEU/ROUGE pour traduction/résumé, métriques humaines (qualité, pertinence, factualité)
Détection d’anomalies : précision et rappel sur classe rare, courbes precision-recall plus pertinentes que ROC
Métriques d’exploitation : latence d’inférence, débit, coût par inférence, empreinte carbone
Définir les seuils d’acceptabilité avant les mesures, en lien avec le coût des erreurs métier

Exemple visuel

KPIs ML par type de problème

Type de problème	KPIs principaux	Quand l’utiliser	Seuil typique
Classification binaire	Précision, Rappel, F1, AUC-ROC	Oui/Non, Fraude/Légitime	AUC > 0,80
Classification multi-classe	F1 macro/micro, matrice de confusion	Routage multi-catégories	F1 macro > 0,75
Régression	MAE, RMSE, MAPE, R²	Prédiction de valeurs continues	MAPE < 15%
Détection d’anomalies	Rappel sur classe rare, courbes PR	Fraude rare, défauts critiques	Rappel > 0,90
Recommandation	NDCG, MAP, hit rate	Suggestion de contenus	NDCG > 0,60
Génération de texte	Perplexité, BLEU, ROUGE, eval humaine	Résumés, traductions, GenAI	Eval humaine 7/10
Reconnaissance vocale	WER (Word Error Rate)	Transcription audio	WER < 10%
Vision (segmentation)	IoU (Intersection over Union)	Détection d’objets	IoU > 0,70

Exemple concret rempli

Exemple appliqué — Définition des KPIs pour un projet bancaire

Une banque retail évalue un projet de détection automatique de fraude par carte de crédit. L’AIBS structure les KPIs avec le data scientist et le responsable risque opérationnel.

Type de problème : classification binaire (fraude / légitime) sur des transactions très déséquilibrées (0,3% de fraudes dans l’historique).

Discussion sur le coût des erreurs métier : - Faux négatif (fraude non détectée) : perte directe de la valeur de la transaction (en moyenne CHF 350) + coût du litige client + risque de réputation. Coût total estimé : CHF 800 à 1 200 par faux négatif. - Faux positif (transaction légitime bloquée) : friction client (carte refusée), risque de désaffection, surcharge du service client (1 appel par blocage). Coût estimé : CHF 25 à 50 par faux positif.

Le rapport de coût est de l’ordre de 20:1 entre faux négatif et faux positif, ce qui oriente la priorité vers le rappel plutôt que la précision.

KPIs définis : - KPI principal : Rappel sur la classe « fraude » — seuil minimum 0,90 (capter au moins 90% des fraudes) - KPI complémentaire : Précision sur la classe « fraude » — seuil minimum 0,30 (au moins 30% des alertes sont de vraies fraudes) - KPI agrégé : F-bêta avec bêta=2 (donne 4× plus de poids au rappel qu’à la précision) - KPI métier : taux de fraude détectée vs historique (objectif : passer de 60% à 90% de détection) - KPI métier : coût total des erreurs (faux négatifs + faux positifs) — objectif de réduction de 40% - KPIs d’exploitation : latence d’inférence < 200 ms (contrainte du parcours de paiement), débit > 10 000 transactions/seconde en pointe, coût d’inférence < CHF 0,001 par transaction

Seuils d’alerte définis : - Rappel descend sous 0,85 → investigation - Précision descend sous 0,25 → ajustement seuil - Latence p99 dépasse 300 ms → escalade infrastructure

Cette grille de KPIs structure ensuite l’évaluation du modèle entraîné sur le jeu de test (mesure des KPIs), puis la décision de mise en production (validation des seuils), puis le monitoring en exploitation (surveillance hebdomadaire des dérives).

Variantes

KPIs spécifiques selon les domaines : NDCG pour le ranking, IoU pour la segmentation d’images, WER pour la reconnaissance vocale, perplexité pour la modélisation linguistique. Métriques composites adaptées au contexte (par exemple F-bêta avec bêta>1 pour favoriser le rappel).

⚠ Piège classique

Sélection d’une métrique unique sans considération du coût relatif des erreurs. Pour un problème de fraude, le rappel prime généralement ; pour un problème de recommandation, c’est l’inverse. L’AIBS apporte la perspective métier (coût des erreurs) ; le data scientist apporte l’expertise technique sur les métriques.

Clé de succès : Choisir les KPIs alignés avec le coût des erreurs métier (FP vs FN).

Boussole AIBS — Manuel méthodologique non officiel pour le brevet fédéral d’AI Business Specialist.

Sources : Profil de qualification AIBS v15.04.2025 · Annexe directives FAAIB v1.01 · Document modules FAAIB v2.0 · Règlement examen v3.0 (mars 2026)

KPIs ML standards

KPIs ML standards

Définition

Quand l’utiliser

Mode d’emploi pas-à-pas

Exemple visuel

KPIs ML par type de problème

Exemple concret rempli

Exemple appliqué — Définition des KPIs pour un projet bancaire

Variantes

Phases d'utilisation