Machine Learning : Apprentissage supervisé (2024)

Comme les humains peuvent distinguer la confiture de la gelée (ou pouvons-nous ? 😉 ), avec l'aide de l'apprentissage automatique, les machines peuvent désormais étiqueter et catégoriser les objets qu'elles voient. Mais ils doivent êtrequalifiépour ça. Voyons ce que cela signifie...

Dans cet article, je veux aborder un sujet très important dans l'apprentissage automatique - l'apprentissage supervisé. Il s'agit de la forme d'apprentissage automatique la plus populaire utilisée dans l'industrie. Après avoir lu ce post :

Vous serez en mesure de comprendre ce qu'est l'apprentissage supervisé et comment cela fonctionne
Vous apprendrez à connaître les types d'apprentissage supervisé
Vous découvrirez quelques exemples d'algorithmes et d'applications du monde réel

Nous voudrions peut-être commencer par les bases et passer rapidement en revue la définition de Machine Learning juste pour couvrir toutes les bases.

L'apprentissage automatique est un domaine d'étude qui concerne la construction de systèmes ou de programmes capables deapprendresans être explicitement programmé. Les systèmes d'apprentissage automatique absorbent d'énormes quantités de données etapprendredes modèles et des étiquettes à partir de cela, pour prédire essentiellement des informations sur des données jamais vues auparavant.

Machine Learning : Apprentissage supervisé (1)

Voici une définition populaire de l'apprentissage automatique :

On dit qu'un programme informatique apprend de l'expérience E par rapport à une classe de tâches T et à une mesure de performance P, si sa performance aux tâches dans T, mesurée par P, s'améliore avec l'expérience E.
Tom Mitchell

Je sais que c'est difficile à comprendre pleinement, alors laissez-moi le décomposer en termes plus simples. Penser àexpérienceen tant que données, lestâcheprédire quelque chose avec ces données, et lemesure de performanceêtre la réponse à la question de savoir si la prédiction est réellement correcte ou non.

Prenons un exemple. Supposons que nous essayons de créer le système de filtre anti-spam de nouvelle génération pour que Google puisse l'utiliser directement dans Gmail. Cela signifierait leexpérienceprendrait des millions et des millions d'e-mails, letâcheserait de prédire si un e-mail particulier est un spam ou non, et leperformanceserait mesuré en analysant si la prédiction de ce système était réellement correcte ou non.

Machine Learning : Apprentissage supervisé (2)

Modèle d'apprentissage automatique

Un modèle d'apprentissage automatique est un algorithme qui a été formé avec un type particulier de données historiques pour prédire quelque chose en l'appliquant à des données jamais vues auparavant. Il peut s'agir d'une étiquette de classe, d'une valeur numérique ou peut-être même de modèles intéressants dans les données pour créer des informations percutantes.

Cette tâche d'un modèle d'apprentissage automatique dépend entièrement du problème à résoudre, qui décide également du type de données que nous allons utiliser. Le problème d'apprentissage automatique que nous essayons de résoudre dicte également comment nousapprochele problème.
Avons-nous une sortie dans les données d'entraînement ?
Si oui, quel type de données de sortie ? Classes discrètes ou valeurs numériques ?

Machine Learning : Apprentissage supervisé (5)

Un dossier de formation comprendcaractéristiques. Comme son nom l'indique, ce sont des attributs des données que nous traitons - une caractéristique ou une propriété de l'objet sur lequel portent les données.

UNétiqueterest un moyen de dire au modèle d'apprentissage automatique si la chose qu'il est censé rechercher dans les nouvelles données est réellement présente ou non dans cet enregistrement de formation particulier - c'est ce que nous prédisons. Ce sont des valeurs discrètes que le modèle d'apprentissage automatique peut prédire pour des données inédites. Pour de tels problèmes d'apprentissage automatique, les caractéristiques sont l'entrée et les étiquettes sont la sortie.

Un modèle d'apprentissage automatique peut également fonctionner en prédisant unvaleur numérique. Supposons que nous travaillions avec des données de voitures. Nous avons les données sur les prix des voitures au cours des 10 dernières années. Les données contiennent des caractéristiques telles que l'entreprise, l'année de fabrication, la puissance, le type de voiture, etc., etc., et bien sûr le prix de la voiture en sortie. Dans ce cas, nous allons construire un modèle d'apprentissage automatique qui prend en compte toutes ces fonctionnalités et nous indique le prix d'une nouvelle voiture.

Machine Learning : Apprentissage supervisé (6)

De retour à notre filtre anti-spam Gmail, nous entraînerions le modèle d'apprentissage automatique avec des millions et des millions d'e-mails. Dans cette situation, les caractéristiques seraient le sujet de l'e-mail, le corps de l'e-mail, le champ email:from, etc. et avec chaque e-mail, nous placerons une étiquette de "spam" ou "pas de spam". De cette façon, le modèle peut différencier quel e-mail transmettre et quel e-mail filtrer.

Et bien sûr, il y aurait beaucoup de prétraitement des données pour convertir le texte et le reste du contenu des e-mails en quelque chose que le modèle d'apprentissage automatique comprend sous la forme d'encodage ou d'intégration. Consultez certainement ces articles si vous souhaitez approfondir la définition de l'apprentissage automatique ou du prétraitement des données -

Alors, qu'est-ce que l'apprentissage automatique ?

Une brève introduction à l'apprentissage automatique et à ses différentes catégories.

Le portail de la science des données

Prétraitement des données : Concepts

Concepts de prétraitement des données : Une introduction solide à tous les concepts et méthodologies du prétraitement des données.

Le portail de la science des données

Le Machine Learning peut se présenter sous deux formes :

Apprentissage automatique supervisé
Apprentissage non supervisé

Le but de cet article est de ne traiter que de l'apprentissage supervisé, mais ne vous inquiétez pas en faisant défiler vers le bas, vous trouverez également un lien vers un article consacré à l'apprentissage non supervisé 🙂

L'apprentissage supervisé est une forme d'apprentissage automatique dans laquelle l'entrée et la sortie de notre modèle d'apprentissage automatique nous sont toutes deux disponibles, c'est-à-dire que nous savons à quoi ressemblera la sortie en regardant simplement l'ensemble de données. Le nom « supervisé » signifie qu'il existe une relation entre les caractéristiques d'entrée et leur sortie respective dans les données. Le but de tout algorithme d'apprentissage automatique que nous implémentons est de prédire une sortie nouvelle mais similaire pour des données inédites en estimant cette relation.

Machine Learning : Apprentissage supervisé (13)

Par exemple, un problème comme identifier si une orange est présente dans une image est quelque chose qu'un modèle d'apprentissage automatique peut gérer. Un autre, peut-être un peu plus utile, pourrait être d'identifier si un certain morceau de texte contient ou non des blasphèmes.

Vous pouvez voir que ces deux problèmes sont clairement très différents. Regardons le tableau suivant :

Problème	Données	Étiqueter	Caractéristiques
Détection orange	Images	Oui Non	Données de pixels extraites des images
Détection des grossièretés	Texte	Propre sale	Vecteurs codés à partir du texte d'entrée

Mais en même temps, ces deux problèmes sont très similaires… comment ça ?
-> Dans ces deux situations, nous formerons un modèle d'apprentissage automatique avec des données dans lesquelles chaque enregistrement de formation ainsi que les données réelles contiennent une étiquette. Cette étiquette nous dira si l'orange est présente ou non dans l'image (Oui / Non), ou si le blasphème est réellement présent dans ce texte particulier (Propre / Sale). En d'autres termes, le modèle d'apprentissage automatique est censé choisir le résultat parmi un ensemble connu de résultats possibles. Cet ensemble de résultats possibles est formé par l'ensemble des étiquettes présentes dans les données. Le modèle essaie d'apprendre la relation entre les entités en entrée et l'étiquette en sortie pendant son apprentissage.

Dans le problème de détection de spam, le modèle analysera le nouvel e-mail et lui attribuera une étiquette "Spam" ou "Pas Spam".
Dans le problème de détection d'orange, le modèle va analyser la nouvelle image et nous dire si une orange est présente dans l'image – « Oui » – ou non – « Non »

Maintenant, si nous revoyons notre problème de prévision du prix des voitures d'avant, nous remarquerons qu'il est également quelque peu similaire. Ici aussi, les données contiennent chaque voiture avec ses propres caractéristiques comme l'entreprise, l'année de fabrication etc. etc. et avec cela, le prix. Dans ce cas, le modèle d'apprentissage automatique est censé estimer ou prédire le prix d'une nouvelle voiture en fonction de la relation qu'il apprend à partir de ces données historiques lors de sa formation.

Sur cette base, passons maintenant à la dernière partie de cet article. Les problèmes de Machine Learning supervisé peuvent être de deux types :

Classification
Régression

Classification

Le filtre anti-spam, le problème de détection orange et le problème de détection des grossièretés sont des problèmes d'apprentissage automatique dans lesquels nous semblons avoir des étiquettes correctement définies et discrètes en sortie. Ainsi, le modèle d'apprentissage automatique n'a qu'à nous indiquer cette étiquette en fonction de ce qu'il apprend des données historiques lors de sa formation. Ce type d'apprentissage supervisé est appelé Classification.

Ces étiquettes discrètes sont souvent appelées classes, et tout problème d'apprentissage automatique supervisé est appelé problème de classification. Certains des cas d'utilisation les plus populaires et les plus largement utilisés de l'apprentissage automatique sont des problèmes de classification, et à cause de cela, certains des algorithmes d'apprentissage automatique les plus largement utilisés et implémentés sont des algorithmes de classification. Pour n'en citer que quelques-uns :

Classificateur naïf de Bayes
K-Voisin le plus proche
Régression logistique
Soutenir les machines vectorielles
Arbres de décision
Forêt aléatoire
Les réseaux de neurones

Machine Learning : Apprentissage supervisé (16)

Régression

Le problème de prédiction du prix des voitures d'avant est un problème d'apprentissage automatique dans lequel nous n'avions pas d'étiquettes ou de classes discrètes, nous avions plutôt des valeurs numériques continues en termes de prix de chaque voiture. En se formant sur les données historiques des prix des voitures, le modèle d'apprentissage automatique apprendra la relation entre les caractéristiques des voitures et leurs prix. Il sera alors en mesure de prédire le prix d'une voiture neuve en regardant ses caractéristiques.

Donc dans ce cas, nous avons une variable de sortie continue, une valeur numérique qui dépend directement des caractéristiques présentes. L'un des cas d'utilisation les plus discutés pour un problème de régression supervisée est la prédiction du cours des actions. Bien qu'il soit très difficile de trouver l'ensemble de données parfait pour former un modèle, les gens utilisent des techniques de régression sur des échantillons de données pour obtenir une estimation approximative des situations réelles afin de faire mieux sur le marché boursier. Quelques algorithmes en régression :

Régression linéaire
Régression multivariée
Régression LASSO
Régression de crête

J'espère que cet article vous a apporté des éclaircissem*nts sur le sujet de l'apprentissage automatique supervisé. C'est un sujet très important en science des données et en apprentissage automatique et il est plus compréhensible et explicable que certains des autres trucs sympas - quelque chose qui est très précieux dans le monde des affaires. L'explicabilité d'un modèle ML est hautement souhaitable dans le monde des affaires car beaucoup d'argent est investi dans tout et on s'attend à ce que les sorties du modèle soient compréhensibles non seulement par l'entreprise mais aussi par les clients. Veuillez aimer / vous abonner / partager au portail de la science des données si vous avez aimé l'article et souhaitez en voir plus !

Merci pour la lecture!

Machine Learning : Apprentissage supervisé (2024)

FAQs

Quel est le but du machine learning supervise ? ›

Le Machine Learning supervisé est un ensemble d'algorithmes qui permettent à l'ordinateur d'apprendre à prédire un résultat à partir d'un ensemble de prédicteurs. Le jeu de données doit inclure une variable dépendante aussi appelée variable Y. Il s'agit de la variable que l'ordinateur devra apprendre à prédire.

Quel est le problème du machine learning ? ›

Si l'on répète à l'envi qu'un volume important de données est l'une des clés de voûte du machine learning, en avoir trop n'aide pas forcément. Ce problème est en lien direct avec le précédent. En effet, la masse d'information n'indique pas leur qualité et leur pertinence au regard d'un cas d'usage spécifique.

Discover More Details ›

Quelle est la relation entre l'IA et le machine learning ? ›

En résumé L'objectif principal de l'Intelligence Artificielle est d'apporter l'intelligence humaine aux machines. Le Machine Learning est un sous-ensemble de l'IA qui aide les ordinateurs à apprendre et à agir comme des humains tout en améliorant leur apprentissage autonome au fil du temps.

Read The Full Story ›

Quelle est la différence entre le machine learning et le deep learning ? ›

Le Machine Learning est une IA capable de s'adapter automatiquement avec une interférence humaine minimale, et le Deep Learning est un sous-ensemble du Machine Learning utilisant les réseaux de neurones pour mimer le processus d'apprentissage du cerveau humain.

Show Me More ›

Quel est l'intérêt du Machine Learning ? ›

L'un des principaux intérêt du machine learning est d'automatiser des tâches. Parmi les applications les plus populaires du machine learning figurent la recommandation de produits, la traduction automatique, les véhicules autonomes ou encore l'aide au diagnostique dans le secteur de la santé.

Explore More ›

Pourquoi on utilise le Machine Learning ? ›

L'intérêt des entreprises pour le machine learning

Il s'agit d'un ensemble de techniques qui permet à des ordinateurs d'apprendre à partir d'une base de données. Les entreprises peuvent utiliser le machine learning pour automatiser leur processus et améliorer la vitesse de réponse de leurs applications.

Discover More ›

C'est quoi la classification supervisée ? ›

Une classification supervisée

C'est-à-dire que les prédictions sont réalisées à partir de données historiques. À l'inverse de l'apprentissage non supervisé où il n'y a pas de classes prédéfinies. Il faut donc constituer les catégories en fonction des attributs communs, pour ensuite réaliser la prédiction.