Évaluation Phases : P5 · P8 Compétences : C4 · E2
KPIs ML standards
Définition
Les KPIs ML standards sont les métriques techniques permettant d’évaluer la performance d’un modèle de machine learning. Ils se déclinent selon le type de problème : classification (précision, rappel, F1, AUC-ROC), régression (MAE, RMSE, MAPE, R²), génération (perplexité, BLEU, ROUGE, métriques humaines), détection d’anomalies (précision et rappel sur classe rare). À ces KPIs techniques s’ajoutent des indicateurs d’exploitation (latence, débit, coût par inférence, empreinte carbone).
Pour l’AIBS, les KPIs ML constituent un référentiel à maîtriser conceptuellement pour la phase P5. Ils alimentent la compétence obligatoire C4 (vérifier la faisabilité d’une solution basée sur l’IA), évaluée à l’examen partie 1. La maîtrise attendue est conceptuelle : savoir choisir les KPIs pertinents selon le type de problème et le coût des erreurs métier, sans nécessairement maîtriser les calculs techniques.
Le choix du KPI ML dominant est une décision métier autant que technique. Pour un problème de fraude, le rappel (ne pas manquer une fraude) prime généralement sur la précision (limiter les faux positifs). Pour un problème de recommandation, c’est l’inverse. L’AIBS apporte cette perspective métier au data scientist.
Quand l’utiliser
À cadrer en phase P5 lors de la définition des critères d’évaluation, avant les mesures techniques. Repris en phase P8 pour le monitoring en production.
Mode d’emploi pas-à-pas
- Sélectionner les métriques pertinentes selon le type de problème ML
- Classification binaire : précision, rappel, F1, AUC-ROC
- Classification multi-classe : précision et rappel par classe, F1 macro/micro/pondéré, matrice de confusion
- Régression : MAE, RMSE, MAPE, R²
- Génération : perplexité, BLEU/ROUGE pour traduction/résumé, métriques humaines (qualité, pertinence, factualité)
- Détection d’anomalies : précision et rappel sur classe rare, courbes precision-recall plus pertinentes que ROC
- Métriques d’exploitation : latence d’inférence, débit, coût par inférence, empreinte carbone
- Définir les seuils d’acceptabilité avant les mesures, en lien avec le coût des erreurs métier
Exemple visuel
KPIs ML par type de problème
| Type de problème | KPIs principaux | Quand l’utiliser | Seuil typique |
|---|---|---|---|
| Classification binaire | Précision, Rappel, F1, AUC-ROC | Oui/Non, Fraude/Légitime | AUC > 0,80 |
| Classification multi-classe | F1 macro/micro, matrice de confusion | Routage multi-catégories | F1 macro > 0,75 |
| Régression | MAE, RMSE, MAPE, R² | Prédiction de valeurs continues | MAPE < 15% |
| Détection d’anomalies | Rappel sur classe rare, courbes PR | Fraude rare, défauts critiques | Rappel > 0,90 |
| Recommandation | NDCG, MAP, hit rate | Suggestion de contenus | NDCG > 0,60 |
| Génération de texte | Perplexité, BLEU, ROUGE, eval humaine | Résumés, traductions, GenAI | Eval humaine 7/10 |
| Reconnaissance vocale | WER (Word Error Rate) | Transcription audio | WER < 10% |
| Vision (segmentation) | IoU (Intersection over Union) | Détection d’objets | IoU > 0,70 |
Exemple concret rempli
Exemple appliqué — Définition des KPIs pour un projet bancaire
Une banque retail évalue un projet de détection automatique de fraude par carte de crédit. L’AIBS structure les KPIs avec le data scientist et le responsable risque opérationnel.
Type de problème : classification binaire (fraude / légitime) sur des transactions très déséquilibrées (0,3% de fraudes dans l’historique).
Discussion sur le coût des erreurs métier : - Faux négatif (fraude non détectée) : perte directe de la valeur de la transaction (en moyenne CHF 350) + coût du litige client + risque de réputation. Coût total estimé : CHF 800 à 1 200 par faux négatif. - Faux positif (transaction légitime bloquée) : friction client (carte refusée), risque de désaffection, surcharge du service client (1 appel par blocage). Coût estimé : CHF 25 à 50 par faux positif.
Le rapport de coût est de l’ordre de 20:1 entre faux négatif et faux positif, ce qui oriente la priorité vers le rappel plutôt que la précision.
KPIs définis : - KPI principal : Rappel sur la classe « fraude » — seuil minimum 0,90 (capter au moins 90% des fraudes) - KPI complémentaire : Précision sur la classe « fraude » — seuil minimum 0,30 (au moins 30% des alertes sont de vraies fraudes) - KPI agrégé : F-bêta avec bêta=2 (donne 4× plus de poids au rappel qu’à la précision) - KPI métier : taux de fraude détectée vs historique (objectif : passer de 60% à 90% de détection) - KPI métier : coût total des erreurs (faux négatifs + faux positifs) — objectif de réduction de 40% - KPIs d’exploitation : latence d’inférence < 200 ms (contrainte du parcours de paiement), débit > 10 000 transactions/seconde en pointe, coût d’inférence < CHF 0,001 par transaction
Seuils d’alerte définis : - Rappel descend sous 0,85 → investigation - Précision descend sous 0,25 → ajustement seuil - Latence p99 dépasse 300 ms → escalade infrastructure
Cette grille de KPIs structure ensuite l’évaluation du modèle entraîné sur le jeu de test (mesure des KPIs), puis la décision de mise en production (validation des seuils), puis le monitoring en exploitation (surveillance hebdomadaire des dérives).
Variantes
KPIs spécifiques selon les domaines : NDCG pour le ranking, IoU pour la segmentation d’images, WER pour la reconnaissance vocale, perplexité pour la modélisation linguistique. Métriques composites adaptées au contexte (par exemple F-bêta avec bêta>1 pour favoriser le rappel).
⚠ Piège classique
Sélection d’une métrique unique sans considération du coût relatif des erreurs. Pour un problème de fraude, le rappel prime généralement ; pour un problème de recommandation, c’est l’inverse. L’AIBS apporte la perspective métier (coût des erreurs) ; le data scientist apporte l’expertise technique sur les métriques.
Clé de succès : Choisir les KPIs alignés avec le coût des erreurs métier (FP vs FN).
Boussole AIBS — Manuel méthodologique non officiel pour le brevet fédéral d’AI Business Specialist.
Sources : Profil de qualification AIBS v15.04.2025 · Annexe directives FAAIB v1.01 · Document modules FAAIB v2.0 · Règlement examen v3.0 (mars 2026)