Données Phases : P5 Compétences : C4
ALCOA+ pour qualité données
Définition
ALCOA+ est un référentiel d’évaluation de la qualité des données issu des bonnes pratiques de l’industrie pharmaceutique réglementée. L’acronyme désigne neuf critères : Attribuable (rattachable à sa source), Lisible (Legible, exploitable), Contemporaine (enregistrée au moment de l’événement), Originale (version source ou copie certifiée), Exacte (Accurate, fidèle à la réalité), Complète (sans manque significatif), Cohérente (harmonisée entre sources), Durable (Enduring, conservée dans le temps), Disponible (accessible aux acteurs autorisés).
Pour l’AIBS, ALCOA+ constitue un cadre structurant de la phase P5 lors de l’évaluation de faisabilité de la dimension « données ». Il alimente la compétence obligatoire C4 (vérifier la faisabilité d’une solution basée sur l’IA), évaluée à l’examen partie 1. Bien que d’origine pharmaceutique, le référentiel s’applique à toute donnée critique pour la décision, tous secteurs confondus.
L’évaluation se conduit dimension par dimension, avec un scoring 1 à 5 et des preuves matérielles à l’appui (échantillons examinés, mesures objectives). La synthèse en radar visuel permet d’identifier rapidement les dimensions faibles à renforcer avant l’engagement du projet.
Quand l’utiliser
À conduire en phase P5 lors de l’évaluation de faisabilité de la dimension « données ». Audit complémentaire à mi-parcours du projet pour vérifier la qualité des données effectivement utilisées en développement.
Exemple visuel
Radar ALCOA+ — 9 dimensions
Exemple concret rempli
Exemple appliqué — Évaluation données patient dans un hôpital
Un hôpital évalue la qualité des données patients en vue d’un projet d’aide à la prédiction du risque de réadmission. L’évaluation ALCOA+ est conduite par l’AIBS avec le data scientist, sur un échantillon représentatif de 2 500 dossiers patients sur 3 ans.
Évaluation par dimension :
A — Attribuable (Score : 4/5) Chaque entrée dans le dossier patient électronique est horodatée et associée à un identifiant utilisateur. Les annotations papier scannées (12% du volume historique) ne disposent pas systématiquement d’une signature lisible. Action : projet de complétion rétrospective des 2018-2020 par les services concernés.
L — Lisible (Score : 3/5) Les données structurées (constantes vitales, examens biologiques, médications) sont parfaitement lisibles. Les notes médicales libres présentent une grande variabilité de qualité : abréviations non standardisées, phrases incomplètes, mélange français-allemand-latin. 35% des notes nécessiteraient un travail de normalisation. Action : périmètre du projet limité aux données structurées et aux comptes rendus standardisés.
C — Contemporaine (Score : 4/5) La majorité des données est saisie en temps réel ou dans les 24h. Exception : 8% des comptes rendus de sortie sont rédigés au-delà d’une semaine après la sortie. Action : exclusion de ces dossiers du périmètre d’entraînement.
O — Originale (Score : 5/5) Le dossier patient électronique est la source primaire. Pas d’enjeu d’originalité.
A — Accurate / Exacte (Score : 3/5) Vérification par croisement de 100 dossiers entre dossier électronique et observation directe / entretien soignants : 87% de cohérence parfaite, 13% d’écarts mineurs (typiquement décalages d’heure d’observation, erreurs de saisie d’unités). Action : nettoyage automatique des outliers évidents (valeurs physiologiquement impossibles).
C — Complète (Score : 2/5) Le score le plus faible. Données manquantes significatives sur les antécédents (38%), les traitements pré-hospitaliers (45%), le contexte social (62%). Action structurante : enrichissement du périmètre par les données pharmaceutiques externes pour les antécédents médicamenteux ; acceptation d’un périmètre fonctionnel restreint pour les autres dimensions.
C — Cohérente (Score : 3/5) La codification a évolué dans le temps (passage CIM-10 vers CIM-11 progressif). Les unités de mesure de certains paramètres ont été changées. Action : projet de retraitement de la codification antérieure à 2022, exclusion des données antérieures à 2018.
E — Enduring / Durable (Score : 5/5) Politique de conservation à 30 ans en vigueur, infrastructure de sauvegarde robuste, plan de continuité testé annuellement.
A — Available / Disponible (Score : 4/5) Données accessibles aux acteurs autorisés via le SI patient. Latence d’accès historique pour les dossiers anciens (>10 ans) supérieure à la minute. Action : préchargement des dossiers du périmètre projet.
Score global : 3,7/5. Trois dimensions critiques identifiées : Lisibilité des notes libres, Exactitude des saisies historiques, Complétude des antécédents.
Décision : engagement du projet sous conditions, avec périmètre fonctionnel restreint aux données structurées et aux dossiers postérieurs à 2022. Investissement préalable de 4 mois pour le nettoyage des données prioritaires.
Variantes
ALCOA simple (5 critères de base) pour évaluation rapide. ALCOA++ étendu (avec critères supplémentaires de traçabilité numérique). Adaptation sectorielle pour les contextes spécifiques (FINMA pour banque, OFSP pour santé).
⚠ Piège classique
Évaluation déclarative sans preuves matérielles. La rigueur exige des échantillons examinés et des mesures objectives, pas une auto-évaluation par les producteurs des données. Le data scientist conduit techniquement les mesures ; l’AIBS structure l’évaluation et synthétise les conclusions.
Clé de succès : Issu de la pharma, mais applicable à toute donnée critique pour décision.
Boussole AIBS — Manuel méthodologique non officiel pour le brevet fédéral d’AI Business Specialist.
Sources : Profil de qualification AIBS v15.04.2025 · Annexe directives FAAIB v1.01 · Document modules FAAIB v2.0 · Règlement examen v3.0 (mars 2026)