Qu'est-ce que l'apprentissage supervisé ?

De wikidatamarketing
Sauter à la navigation Sauter à la recherche


L'apprentissage supervisé est un type d'apprentissage automatisé et programmé par l’homme (machine learning), qui permet de prédire des événements à partir de caractéristiques et d’éléments déjà connus.

Rappel : définition du machine learning

Le machine learning a pour objectif d’automatiser les tâches répétitives et courantes grâce à la technologie et aux algorithmes. Pour cela, on se base sur un modèle mathématique afin de reproduire l’apprentissage humain.

On trouve communément trois catégories de machine learning, à savoir : l’apprentissage supervisé (supervised learning), l’apprentissage non supervisé (unsupervised learning) et l’apprentissage par renforcement (reinforcement learning).


L’apprentissage supervisé : prédire un événement futur grâce aux données passées

L’apprentissage supervisé est un concept simple, qui repose sur la « prédiction des données à venir grâce aux données passées ». Si quelqu’un vous explique « Je tiens dans ma main une balle ronde et jaune rebondissante », vous devinerez aisément qu’il s’agit d’une balle de tennis. Vous avez simplement « prédit » le résultat en vous basant sur l’observation qui vous a permis de reconnaître cette balle.

Ainsi les différentes caractéristiques telles que le poids, la forme et la couleur sont considérés comme des « variables observables », et le fait qu’il s’agisse d’une balle de tennis correspond à la « cible ». En communiquant ces variables à un algorithme, et en lui donnant le nom explicite de balle de tennis, on considère alors que l’information est supervisée.

Prenons ensuite un objet dont nous ne connaissons pas le nom, et rassemblons des informations afin de nourrir notre modèle mathématique. Ce dernier sera alors en mesure de prédire le nom le plus probable en se basant sur ce qu’il a appris. Mais il ne peut pas savoir ce qu’il n’a jamais vu : si vous ne donnez à votre modèle que des données sur des balles de ping pong et que vous lui montrez ensuite une balle de football, il ne devinera jamais qu’il s’agit d’un autre type de balle ! Au contraire, si le modèle est exposé à des millions de balles, il vous donnera à chaque fois la bonne réponse en moins d’une seconde.


Quelles applications dans le monde du marketing digital ?

L’apprentissage supervisé permet de résoudre de nombreuses problématiques, à condition d’avoir collecté suffisamment de données auparavant. Cet historique peut provenir de très nombreuses sources : moteurs de recherches, systèmes de recommandation (comme Netflix par exemple) ou encore des modèles tarifaires ou d’attribution publicitaire afin de mieux segmenter et cibler vos utilisateurs. Mais cela ne pourra se faire qu’à condition de disposer d’une quantité suffisante de données, organisées par catégories.

L’apprentissage supervisé est également souvent utile pour prédire les prochaines actions, en ligne ou hors ligne, d’un utilisateur ou client : va-t-il acheter un produit dans un futur proche ? Quel est le risque qu’il abandonne son panier ? En disposant d’un long historique d’achat par exemple, un algorithme est capable de retenir la règle qui explique la cible, mais uniquement s’il a pu disposer d’informations pertinentes auparavant. En effet, si 90 % des utilisateurs ne reviennent pas sur un site e-commerce en raison d’un problème avec l’étape de paiement, mais que les données liées à ce service (car souvent externalisé) ne sont pas disponibles, il est certain que l’algorithme ne parviendra pas à atteindre un niveau de performance optimal.

Chaque algorithme apprend ainsi des règles pour ensuite associer des variables à une cible, exactement comme le ferait un humain. La première étape d’un projet d’apprentissage supervisé consiste donc à réfléchir aux facteurs explicatifs de la cible, puis de s’assurer que les variables utilisées sont des ressources disponibles.


Cette définition vous a été donnée par Romain Warlop, Data Science Manager chez fifty-five