Machine Learning : Apprentissage supervisé (2024)

Comme les humains peuvent distinguer la confiture de la gelée (ou pouvons-nous ? 😉 ), avec l'aide de l'apprentissage automatique, les machines peuvent désormais étiqueter et catégoriser les objets qu'elles voient. Mais ils doivent êtrequalifiépour ça. Voyons ce que cela signifie...

Dans cet article, je veux aborder un sujet très important dans l'apprentissage automatique - l'apprentissage supervisé. Il s'agit de la forme d'apprentissage automatique la plus populaire utilisée dans l'industrie. Après avoir lu ce post :

  • Vous serez en mesure de comprendre ce qu'est l'apprentissage supervisé et comment cela fonctionne
  • Vous apprendrez à connaître les types d'apprentissage supervisé
  • Vous découvrirez quelques exemples d'algorithmes et d'applications du monde réel

Nous voudrions peut-être commencer par les bases et passer rapidement en revue la définition de Machine Learning juste pour couvrir toutes les bases.

L'apprentissage automatique est un domaine d'étude qui concerne la construction de systèmes ou de programmes capables deapprendresans être explicitement programmé. Les systèmes d'apprentissage automatique absorbent d'énormes quantités de données etapprendredes modèles et des étiquettes à partir de cela, pour prédire essentiellement des informations sur des données jamais vues auparavant.

Machine Learning : Apprentissage supervisé (1)

Voici une définition populaire de l'apprentissage automatique :

On dit qu'un programme informatique apprend de l'expérience E par rapport à une classe de tâches T et à une mesure de performance P, si sa performance aux tâches dans T, mesurée par P, s'améliore avec l'expérience E.

Tom Mitchell

Je sais que c'est difficile à comprendre pleinement, alors laissez-moi le décomposer en termes plus simples. Penser àexpérienceen tant que données, lestâcheprédire quelque chose avec ces données, et lemesure de performanceêtre la réponse à la question de savoir si la prédiction est réellement correcte ou non.

Prenons un exemple. Supposons que nous essayons de créer le système de filtre anti-spam de nouvelle génération pour que Google puisse l'utiliser directement dans Gmail. Cela signifierait leexpérienceprendrait des millions et des millions d'e-mails, letâcheserait de prédire si un e-mail particulier est un spam ou non, et leperformanceserait mesuré en analysant si la prédiction de ce système était réellement correcte ou non.

Machine Learning : Apprentissage supervisé (2)

Modèle d'apprentissage automatique

Un modèle d'apprentissage automatique est un algorithme qui a été formé avec un type particulier de données historiques pour prédire quelque chose en l'appliquant à des données jamais vues auparavant. Il peut s'agir d'une étiquette de classe, d'une valeur numérique ou peut-être même de modèles intéressants dans les données pour créer des informations percutantes.

Machine Learning : Apprentissage supervisé (3)Machine Learning : Apprentissage supervisé (4)

Cette tâche d'un modèle d'apprentissage automatique dépend entièrement du problème à résoudre, qui décide également du type de données que nous allons utiliser. Le problème d'apprentissage automatique que nous essayons de résoudre dicte également comment nousapprochele problème.
Avons-nous une sortie dans les données d'entraînement ?
Si oui, quel type de données de sortie ? Classes discrètes ou valeurs numériques ?

Machine Learning : Apprentissage supervisé (5)

Un dossier de formation comprendcaractéristiques. Comme son nom l'indique, ce sont des attributs des données que nous traitons - une caractéristique ou une propriété de l'objet sur lequel portent les données.

UNétiqueterest un moyen de dire au modèle d'apprentissage automatique si la chose qu'il est censé rechercher dans les nouvelles données est réellement présente ou non dans cet enregistrement de formation particulier - c'est ce que nous prédisons. Ce sont des valeurs discrètes que le modèle d'apprentissage automatique peut prédire pour des données inédites. Pour de tels problèmes d'apprentissage automatique, les caractéristiques sont l'entrée et les étiquettes sont la sortie.

Un modèle d'apprentissage automatique peut également fonctionner en prédisant unvaleur numérique. Supposons que nous travaillions avec des données de voitures. Nous avons les données sur les prix des voitures au cours des 10 dernières années. Les données contiennent des caractéristiques telles que l'entreprise, l'année de fabrication, la puissance, le type de voiture, etc., etc., et bien sûr le prix de la voiture en sortie. Dans ce cas, nous allons construire un modèle d'apprentissage automatique qui prend en compte toutes ces fonctionnalités et nous indique le prix d'une nouvelle voiture.

Machine Learning : Apprentissage supervisé (6)

De retour à notre filtre anti-spam Gmail, nous entraînerions le modèle d'apprentissage automatique avec des millions et des millions d'e-mails. Dans cette situation, les caractéristiques seraient le sujet de l'e-mail, le corps de l'e-mail, le champ email:from, etc. et avec chaque e-mail, nous placerons une étiquette de "spam" ou "pas de spam". De cette façon, le modèle peut différencier quel e-mail transmettre et quel e-mail filtrer.

Et bien sûr, il y aurait beaucoup de prétraitement des données pour convertir le texte et le reste du contenu des e-mails en quelque chose que le modèle d'apprentissage automatique comprend sous la forme d'encodage ou d'intégration. Consultez certainement ces articles si vous souhaitez approfondir la définition de l'apprentissage automatique ou du prétraitement des données -

Alors, qu'est-ce que l'apprentissage automatique ?

Une brève introduction à l'apprentissage automatique et à ses différentes catégories.

Machine Learning : Apprentissage supervisé (10)Le portail de la science des données

Prétraitement des données : Concepts

Concepts de prétraitement des données : Une introduction solide à tous les concepts et méthodologies du prétraitement des données.

Machine Learning : Apprentissage supervisé (12)Le portail de la science des données

Le Machine Learning peut se présenter sous deux formes :

  1. Apprentissage automatique supervisé
  2. Apprentissage non supervisé

Le but de cet article est de ne traiter que de l'apprentissage supervisé, mais ne vous inquiétez pas en faisant défiler vers le bas, vous trouverez également un lien vers un article consacré à l'apprentissage non supervisé 🙂

L'apprentissage supervisé est une forme d'apprentissage automatique dans laquelle l'entrée et la sortie de notre modèle d'apprentissage automatique nous sont toutes deux disponibles, c'est-à-dire que nous savons à quoi ressemblera la sortie en regardant simplement l'ensemble de données. Le nom « supervisé » signifie qu'il existe une relation entre les caractéristiques d'entrée et leur sortie respective dans les données. Le but de tout algorithme d'apprentissage automatique que nous implémentons est de prédire une sortie nouvelle mais similaire pour des données inédites en estimant cette relation.

Machine Learning : Apprentissage supervisé (13)

Par exemple, un problème comme identifier si une orange est présente dans une image est quelque chose qu'un modèle d'apprentissage automatique peut gérer. Un autre, peut-être un peu plus utile, pourrait être d'identifier si un certain morceau de texte contient ou non des blasphèmes.

Vous pouvez voir que ces deux problèmes sont clairement très différents. Regardons le tableau suivant :

ProblèmeDonnéesÉtiqueterCaractéristiques
Détection orangeImagesOui NonDonnées de pixels extraites des images
Détection des grossièretésTextePropre saleVecteurs codés à partir du texte d'entrée

Mais en même temps, ces deux problèmes sont très similaires… comment ça ?
-> Dans ces deux situations, nous formerons un modèle d'apprentissage automatique avec des données dans lesquelles chaque enregistrement de formation ainsi que les données réelles contiennent une étiquette. Cette étiquette nous dira si l'orange est présente ou non dans l'image (Oui / Non), ou si le blasphème est réellement présent dans ce texte particulier (Propre / Sale). En d'autres termes, le modèle d'apprentissage automatique est censé choisir le résultat parmi un ensemble connu de résultats possibles. Cet ensemble de résultats possibles est formé par l'ensemble des étiquettes présentes dans les données. Le modèle essaie d'apprendre la relation entre les entités en entrée et l'étiquette en sortie pendant son apprentissage.

Machine Learning : Apprentissage supervisé (14)Machine Learning : Apprentissage supervisé (15)

  • Dans le problème de détection de spam, le modèle analysera le nouvel e-mail et lui attribuera une étiquette "Spam" ou "Pas Spam".
  • Dans le problème de détection d'orange, le modèle va analyser la nouvelle image et nous dire si une orange est présente dans l'image – « Oui » – ou non – « Non »

Maintenant, si nous revoyons notre problème de prévision du prix des voitures d'avant, nous remarquerons qu'il est également quelque peu similaire. Ici aussi, les données contiennent chaque voiture avec ses propres caractéristiques comme l'entreprise, l'année de fabrication etc. etc. et avec cela, le prix. Dans ce cas, le modèle d'apprentissage automatique est censé estimer ou prédire le prix d'une nouvelle voiture en fonction de la relation qu'il apprend à partir de ces données historiques lors de sa formation.

Sur cette base, passons maintenant à la dernière partie de cet article. Les problèmes de Machine Learning supervisé peuvent être de deux types :

  • Classification
  • Régression

Classification

Le filtre anti-spam, le problème de détection orange et le problème de détection des grossièretés sont des problèmes d'apprentissage automatique dans lesquels nous semblons avoir des étiquettes correctement définies et discrètes en sortie. Ainsi, le modèle d'apprentissage automatique n'a qu'à nous indiquer cette étiquette en fonction de ce qu'il apprend des données historiques lors de sa formation. Ce type d'apprentissage supervisé est appelé Classification.

Ces étiquettes discrètes sont souvent appelées classes, et tout problème d'apprentissage automatique supervisé est appelé problème de classification. Certains des cas d'utilisation les plus populaires et les plus largement utilisés de l'apprentissage automatique sont des problèmes de classification, et à cause de cela, certains des algorithmes d'apprentissage automatique les plus largement utilisés et implémentés sont des algorithmes de classification. Pour n'en citer que quelques-uns :

  • Classificateur naïf de Bayes
  • K-Voisin le plus proche
  • Régression logistique
  • Soutenir les machines vectorielles
  • Arbres de décision
  • Forêt aléatoire
  • Les réseaux de neurones
Machine Learning : Apprentissage supervisé (16)

Régression

Le problème de prédiction du prix des voitures d'avant est un problème d'apprentissage automatique dans lequel nous n'avions pas d'étiquettes ou de classes discrètes, nous avions plutôt des valeurs numériques continues en termes de prix de chaque voiture. En se formant sur les données historiques des prix des voitures, le modèle d'apprentissage automatique apprendra la relation entre les caractéristiques des voitures et leurs prix. Il sera alors en mesure de prédire le prix d'une voiture neuve en regardant ses caractéristiques.

Donc dans ce cas, nous avons une variable de sortie continue, une valeur numérique qui dépend directement des caractéristiques présentes. L'un des cas d'utilisation les plus discutés pour un problème de régression supervisée est la prédiction du cours des actions. Bien qu'il soit très difficile de trouver l'ensemble de données parfait pour former un modèle, les gens utilisent des techniques de régression sur des échantillons de données pour obtenir une estimation approximative des situations réelles afin de faire mieux sur le marché boursier. Quelques algorithmes en régression :

  • Régression linéaire
  • Régression multivariée
  • Régression LASSO
  • Régression de crête

Machine Learning : Apprentissage supervisé (17)Machine Learning : Apprentissage supervisé (18)

J'espère que cet article vous a apporté des éclaircissem*nts sur le sujet de l'apprentissage automatique supervisé. C'est un sujet très important en science des données et en apprentissage automatique et il est plus compréhensible et explicable que certains des autres trucs sympas - quelque chose qui est très précieux dans le monde des affaires. L'explicabilité d'un modèle ML est hautement souhaitable dans le monde des affaires car beaucoup d'argent est investi dans tout et on s'attend à ce que les sorties du modèle soient compréhensibles non seulement par l'entreprise mais aussi par les clients. Veuillez aimer / vous abonner / partager au portail de la science des données si vous avez aimé l'article et souhaitez en voir plus !

Merci pour la lecture!

Machine Learning : Apprentissage supervisé (2024)

FAQs

Quel est le but du machine learning supervise ? ›

Le Machine Learning supervisé est un ensemble d'algorithmes qui permettent à l'ordinateur d'apprendre à prédire un résultat à partir d'un ensemble de prédicteurs. Le jeu de données doit inclure une variable dépendante aussi appelée variable Y. Il s'agit de la variable que l'ordinateur devra apprendre à prédire.

Quels sont les différents types d'apprentissage en machine learning ? ›

Le Machine Learning se décline sous différents types de modèles, qui emploient chacun des techniques algorithmiques différentes. Selon la nature des données et le résultat souhaité, l'un de ces quatre modèles d'apprentissage peut être utilisé : supervisé, non supervisé, semi-supervisé ou par renforcement.

Quelle est la différence entre le machine learning supervise et non supervisé ? ›

Le but du Machine Learning est d'amener la machine à prédire les nouvelles données non étiquetées qui lui seront soumises ensuite. Le Machine Learning supervisé s'inspire des expériences précédentes pour recueillir ou produire des sorties de données.

Quels sont les trois types d'apprentissages possibles pour l'IA ? ›

On distingue trois techniques de Machine Learning : l'apprentissage supervisé, l'apprentissage non-supervisé, et l'apprentissage par renforcement.

Comment fonctionne l'apprentissage supervisé ? ›

Comment fonctionne l'apprentissage supervisé ? Dans l'apprentissage supervisé, les données d'entrainement fournies aux machines fonctionnent comme le superviseur qui apprend aux machines à prédire correctement la sortie. Il applique le même concept qu'un élève apprend dans la supervision de l'enseignant.

Quels sont les deux types d'apprentissage automatique supervise ? ›

L'apprentissage supervisé peut être divisé en deux types de problèmes lors de l'extraction de données, à savoir la classification et la régression : La classification utilise un algorithme pour classer avec précision les données de test dans des catégories spécifiques.

Quelles sont les deux taches supervisées les plus courantes ? ›

Quelles sont les étapes élémentaires lors de l'apprentissage supervisé ? Collecte des données et leur labellisation. (Une tâche qui n'est pas forcément accomplie par le Data Scientist). Nettoyage des données (Valeurs manquantes, redondance, variables inutiles…).

C'est quoi l'apprentissage supervisé et non supervisé ? ›

Les objectifs de l'apprentissage supervisé et non supervisé sont différents. Tandis que la première approche vise à prédire les résultats découlant des données nouvellement ajoutées, la seconde consiste à obtenir de nouveaux insights grâce à de grandes quantités de nouvelles données.

Quels sont les 2 principaux types de problèmes d'apprentissage non supervisé ? ›

Deux types de problèmes d'apprentissage non supervisé

On peut considérer l'apprentissage non supervisé comme étant séparé en deux catégories : le clustering et l'association.

Quelles sont les deux approches en machine learning ? ›

En général, deux principaux types d'algorithmes de machine learning sont utilisés aujourd'hui : l'apprentissage supervisé et l'apprentissage non supervisé.

Quel est le problème du machine learning ? ›

Si l'on répète à l'envi qu'un volume important de données est l'une des clés de voûte du machine learning, en avoir trop n'aide pas forcément. Ce problème est en lien direct avec le précédent. En effet, la masse d'information n'indique pas leur qualité et leur pertinence au regard d'un cas d'usage spécifique.

Quelle est la relation entre l'IA et le machine learning ? ›

En résumé L'objectif principal de l'Intelligence Artificielle est d'apporter l'intelligence humaine aux machines. Le Machine Learning est un sous-ensemble de l'IA qui aide les ordinateurs à apprendre et à agir comme des humains tout en améliorant leur apprentissage autonome au fil du temps.

Quelle est la différence entre le machine learning et le deep learning ? ›

Le Machine Learning est une IA capable de s'adapter automatiquement avec une interférence humaine minimale, et le Deep Learning est un sous-ensemble du Machine Learning utilisant les réseaux de neurones pour mimer le processus d'apprentissage du cerveau humain.

Quel est l'intérêt du Machine Learning ? ›

L'un des principaux intérêt du machine learning est d'automatiser des tâches. Parmi les applications les plus populaires du machine learning figurent la recommandation de produits, la traduction automatique, les véhicules autonomes ou encore l'aide au diagnostique dans le secteur de la santé.

Pourquoi on utilise le Machine Learning ? ›

L'intérêt des entreprises pour le machine learning

Il s'agit d'un ensemble de techniques qui permet à des ordinateurs d'apprendre à partir d'une base de données. Les entreprises peuvent utiliser le machine learning pour automatiser leur processus et améliorer la vitesse de réponse de leurs applications.

C'est quoi la classification supervisée ? ›

Une classification supervisée

C'est-à-dire que les prédictions sont réalisées à partir de données historiques. À l'inverse de l'apprentissage non supervisé où il n'y a pas de classes prédéfinies. Il faut donc constituer les catégories en fonction des attributs communs, pour ensuite réaliser la prédiction.

Quels sont les 2 principaux types de problèmes d'apprentissage supervisé ? ›

L'apprentissage supervisé peut être divisé en deux types de problèmes lors de l'extraction de données, à savoir la classification et la régression : La classification utilise un algorithme pour classer avec précision les données de test dans des catégories spécifiques.

References

Top Articles
Latest Posts
Article information

Author: Virgilio Hermann JD

Last Updated:

Views: 5506

Rating: 4 / 5 (61 voted)

Reviews: 84% of readers found this page helpful

Author information

Name: Virgilio Hermann JD

Birthday: 1997-12-21

Address: 6946 Schoen Cove, Sipesshire, MO 55944

Phone: +3763365785260

Job: Accounting Engineer

Hobby: Web surfing, Rafting, Dowsing, Stand-up comedy, Ghost hunting, Swimming, Amateur radio

Introduction: My name is Virgilio Hermann JD, I am a fine, gifted, beautiful, encouraging, kind, talented, zealous person who loves writing and wants to share my knowledge and understanding with you.