Que signifie l’apprentissage automatique ?
L’apprentissage automatique est la sous-catégorie de l’intelligence artificielle (IA) qui construit des modèles algorithmiques pour identifier des modèles et des relations dans les données. Dans ce contexte, le mot machine est un synonyme de programme informatique et le mot apprentissage décrit la façon dont les algorithmes d’apprentissage automatique deviennent plus précis au fur et à mesure qu’ils reçoivent des données supplémentaires.
Le concept de l’apprentissage automatique n’est pas nouveau, mais son application pratique dans les entreprises n’était pas financièrement réalisable avant l’avènement de l’internet et les progrès récents de l’analyse des données massives (big data) et de l’informatique en nuage (cloud computing). En effet, l’apprentissage d’un algorithme de ML pour trouver des modèles dans les données nécessite beaucoup de ressources informatiques et l’accès à des données volumineuses.
Les termes “intelligence artificielle” et “apprentissage automatique” sont parfois utilisés comme synonymes car, jusqu’à récemment, la plupart des initiatives en matière d’intelligence artificielle étaient limitées et la plupart des modèles d’apprentissage automatique étaient conçus pour effectuer une seule tâche, utilisaient l’apprentissage supervisé et nécessitaient de grands ensembles de données étiquetées pour l’apprentissage. Aujourd’hui, l’automatisation des processus robotiques (RPA) peut être utilisée pour automatiser le processus de prétraitement des données et accélérer la formation d’un algorithme d’apprentissage automatique.
Techopedia explique l’apprentissage machine (ML)
Les modèles d’apprentissage automatique de haute qualité nécessitent des données d’entraînement de haute qualité et l’accès à de vastes ensembles de données afin d’extraire les caractéristiques les plus pertinentes pour les objectifs commerciaux spécifiés et de révéler des associations significatives.
Modèles d’apprentissage automatique
Un modèle d’apprentissage automatique est simplement le résultat d’un algorithme d’apprentissage automatique exécuté sur des données. Les étapes de l’élaboration d’un modèle d’apprentissage automatique sont les suivantes :
- Collecte des données d’entraînement.
- Préparer les données pour la formation.
- Décider de l’algorithme d’apprentissage à utiliser.
- Former l’algorithme d’apprentissage.
- Évaluer les résultats de l’algorithme d’apprentissage.
- Si nécessaire, ajuster les variables (hyperparamètres) qui régissent le processus de formation afin d’améliorer les résultats.
Dans un contexte classique de ML, les algorithmes d’apprentissage automatique supervisé nécessitent un ensemble de données composé d’exemples où chaque exemple consiste en une entrée et une sortie. Dans un tel contexte, un objectif typique de la formation d’un algorithme d’apprentissage automatique est de mettre à jour les paramètres d’un modèle prédictif afin de s’assurer que les arbres de décision du modèle produisent systématiquement les résultats souhaités. C’est là que l’entropie entre en jeu.
L’entropie est une formule mathématique utilisée pour quantifier le désordre et le caractère aléatoire d’un système fermé. Dans les projets d’apprentissage automatique, un objectif important est de s’assurer que l’entropie reste aussi faible que possible, car cette mesure déterminera la manière dont les arbres de décision du modèle choisiront de diviser les données.
Formation à l’apprentissage automatique
Il existe trois principaux types d’algorithmes utilisés pour former les modèles d’apprentissage automatique : l’apprentissage supervisé, l’apprentissage non supervisé et l’apprentissage par renforcement.
- Apprentissage supervisé – l’algorithme reçoit des données d’apprentissage étiquetées (entrée) et se voit indiquer la bonne réponse (sortie). Ce type d’algorithme d’apprentissage utilise les résultats d’ensembles de données historiques pour prédire les valeurs de sortie pour de nouvelles données entrantes.
- Apprentissage non supervisé – l’algorithme reçoit des données d’apprentissage non étiquetées. Au lieu d’être invité à prédire la sortie correcte, ce type d’algorithme d’apprentissage utilise les données d’apprentissage pour détecter des modèles qui peuvent ensuite être appliqués à d’autres groupes de données présentant un comportement similaire. Dans certaines situations, il peut être nécessaire d’utiliser une petite quantité de données étiquetées avec une plus grande quantité de données non étiquetées pendant la formation. Ce type de formation est souvent appelé apprentissage automatique semi-supervisé.
- Apprentissage par renforcement – au lieu de recevoir des données de formation, l’algorithme reçoit un signal de récompense et recherche des modèles dans les données qui lui permettront d’obtenir la récompense. Les données d’entrée de ce type d’algorithme d’apprentissage proviennent souvent de l’interaction de l’algorithme d’apprentissage avec un environnement physique ou numérique.
Quelles sont les causes des biais dans l’apprentissage automatique ?
Le grand public souhaite de plus en plus que l’intelligence artificielle – et les algorithmes d’apprentissage automatique en particulier – soit transparente et explicable, mais la transparence algorithmique de l’apprentissage automatique peut être plus compliquée que le simple fait de partager l’algorithme qui a été utilisé pour faire une prédiction particulière.
De nombreuses personnes qui découvrent l’apprentissage automatique sont surprises de découvrir que ce ne sont pas les algorithmes mathématiques qui sont secrets ; en fait, la plupart des algorithmes populaires d’apprentissage automatique utilisés aujourd’hui sont librement accessibles. Ce sont les données d’entraînement qui ont une valeur exclusive, et non l’algorithme utilisé.
Malheureusement, comme les données utilisées pour entraîner un algorithme d’apprentissage sont sélectionnées par un être humain, elles peuvent involontairement introduire un biais dans le modèle de ML en cours de construction. La nature itérative des algorithmes d’apprentissage peut également rendre difficile pour les ingénieurs ML de revenir en arrière et de retracer la logique qui sous-tend une prédiction particulière.
Lorsqu’il est possible pour un scientifique des données ou un ingénieur en ML d’expliquer comment une prédiction spécifique a été faite, un modèle ML peut être qualifié d’IA explicable. Lorsqu’il n’est pas possible de révéler comment une prédiction spécifique a été faite – soit parce que les mathématiques deviennent trop compliquées, soit parce que les données d’entraînement sont exclusives – le modèle de ML peut être qualifié d’IA boîte noire.
MLops
Les projets d’apprentissage automatique sont généralement supervisés par des scientifiques des données et des ingénieurs en apprentissage automatique. Le travail du data scientist consiste généralement à créer une hypothèse et à écrire le code qui, espérons-le, prouvera la véracité de l’hypothèse. Le travail d’un ingénieur en apprentissage automatique se concentre sur les opérations d’apprentissage automatique (MLOps).
Les opérations d’apprentissage automatique sont une approche de la gestion de l’ensemble du cycle de vie d’un modèle d’apprentissage automatique – y compris sa formation, son réglage, son utilisation quotidienne dans un environnement de production et son retrait éventuel. C’est pourquoi les ingénieurs en ML doivent avoir une connaissance pratique de la modélisation des données, de l’ingénierie des fonctionnalités et de la programmation, en plus d’une solide formation en mathématiques et en statistiques.
Dans l’idéal, les data scientists et les ingénieurs en ML d’une même organisation collaboreront pour décider quel type d’algorithme d’apprentissage sera le plus efficace pour résoudre un problème commercial particulier, mais dans certaines industries, le travail de l’ingénieur en ML se limite à décider quelles données doivent être utilisées pour l’entraînement et comment les résultats du modèle d’apprentissage automatique seront validés.
Free Download: AI in the Insurance Industry: 26 Real-World Use Cases |