Shell : Évaluer les performances des modèles de machine learning utilisés dans le secteur de l'énergie

Étude de cas de Shell.

Ce projet s'appuie sur l'apprentissage en profondeur pour effectuer des tâches de vision par ordinateur - segmentation sémantique sur un domaine d'application spécialisé. Le projet avait environ 15 modèles d'apprentissage en profondeur (DL) en déploiement actif. Les modèles DL sont appliqués en cascade aux prédictions générées, qui alimentent ensuite une série de tâches en aval pour générer la sortie finale qui serait entrée dans la tâche d'interprétation manuelle. Par conséquent, l'assurance de l'IA par l'évaluation des performances du modèle est essentielle pour garantir des résultats d'IA robustes et explicables. Trois types de tests d'évaluation de modèle ont été conçus et mis en œuvre dans le pipeline d'inférence DL :

Plus d'informations sur les principes réglementaires du livre blanc sur l'IA.

Les tests de régression et d'intégration forment l'épine dorsale de l'interprétabilité du modèle par rapport à un ensemble de données de test. Pendant le développement du modèle, ils fournissent une ligne de base pour interpréter si les performances du modèle s'améliorent ou se dégradent en fonction des données et des paramètres de formation du modèle. Pendant la phase de déploiement du modèle, ces tests fournissent également une indication précoce de la dérive du concept.

Les tests statistiques sont davantage conçus pour prédire les performances du modèle compte tenu des statistiques des données de test, fournissant ainsi un mécanisme pour détecter la dérive des données au fur et à mesure que les modèles sont déployés. De plus, ils donnent également une indication de la robustesse des performances du modèle DL aux variations statistiques des données de test.

Le résultat de cette technique d'assurance IA est communiqué aux développeurs IA et aux propriétaires de produits pour surveiller les écarts potentiels par rapport aux performances attendues du modèle DL. De plus, si les performances s'écartent, ces équipes peuvent opérationnaliser les mesures d'atténuation appropriées.

Aussi, pour les utilisateurs de première ligne et les parties prenantes de l'entreprise afin de maintenir un haut degré de confiance dans les résultats des modèles DL.

Les développeurs d'IA sont responsables de la conception et de l'exécution des tests d'évaluation du modèle pour renforcer les tests de performance. Les Product Owners sont chargés d'utiliser ces tests comme première ligne de défense avant le déploiement de nouveaux modèles. L'équipe du projet travaille ensemble pour adapter les tests afin de lutter contre la dérive des données et des concepts lors du déploiement.

Dans ce projet, les prédictions des modèles DL génèrent finalement des entrées pour une tâche d'interprétation manuelle. Cette tâche est compliquée, prend du temps et demande beaucoup d'efforts, il est donc crucial que le point de départ (dans ce cas, les prédictions du modèle DL) soit de haute qualité en termes de précision, de couverture de détection et de très faible bruit. De plus, le résultat de l'interprétation manuelle alimente un processus de prise de décision à fort impact.

La qualité et la robustesse de la prédiction du modèle DL sont donc d'une importance primordiale. La métrique la plus importante pour juger des performances de prédiction du modèle ML est le contrôle de qualité humain dans la boucle. Cependant, pour automatiser les tests de performance en une première ligne de défense, la technique de la suite de tests d'évaluation du modèle a été adoptée. Le contrôle de la version des données et la création de pipelines d'expérimentation ML implicites visaient principalement à garantir que les modèles pouvaient être reproduits de bout en bout (données, code et performances du modèle) dans une marge d'erreur acceptable.

Première ligne de défense, tests de performance DL automatisés pour l'assurance qualité

Testez la robustesse du modèle et une meilleure interprétabilité des performances du modèle DL.

Explication solide des performances du modèle DL pour les développeurs d'IA et les utilisateurs finaux

Renforcez la confiance dans les modèles et les flux de travail DL avec la communauté d'utilisateurs

Permet la surveillance du modèle en établissant un mécanisme pour détecter la dérive du concept.

Crochets MLOps pour activer CI-CD pendant le déploiement du modèle.

Un grand nombre de modèles DL avec des tâches très différentes : détection, classification, réduction de bruit.

La complexité et la variabilité des problèmes traités par DL rendent difficile la conception d'indicateurs de performance clés.

Manque de données représentatives de haute qualité qui pourraient être utilisées pour concevoir l'évaluation du modèle

Manque de mesures/seuils clairs pour concevoir des tests de régression, d'intégration et statistiques.

Absence d'une bibliothèque d'évaluation de modèles stable.

Pour plus d'informations sur d'autres techniques, consultez le catalogue d'outils et de mesures de l'OCDE : https://oecd.ai/en/catalogue/overview

Pour plus d'informations sur les normes pertinentes, visitez le AI Standards Hub : https://aistandardshub.org/

Nouvelles

Shell : Évaluer les performances des modèles de machine learning utilisés dans le secteur de l'énergie