Comme les humains peuvent distinguer la confiture de la gelée (ou pouvons-nous ? 😉 ), avec l'aide de l'apprentissage automatique, les machines peuvent désormais étiqueter et catégoriser les objets qu'elles voient. Mais ils doivent êtrequalifiépour ça. Voyons ce que cela signifie...
Dans cet article, je veux aborder un sujet très important dans l'apprentissage automatique - l'apprentissage supervisé. Il s'agit de la forme d'apprentissage automatique la plus populaire utilisée dans l'industrie. Après avoir lu ce post :
- Vous serez en mesure de comprendre ce qu'est l'apprentissage supervisé et comment cela fonctionne
- Vous apprendrez à connaître les types d'apprentissage supervisé
- Vous découvrirez quelques exemples d'algorithmes et d'applications du monde réel
Nous voudrions peut-être commencer par les bases et passer rapidement en revue la définition de Machine Learning juste pour couvrir toutes les bases.
L'apprentissage automatique est un domaine d'étude qui concerne la construction de systèmes ou de programmes capables deapprendresans être explicitement programmé. Les systèmes d'apprentissage automatique absorbent d'énormes quantités de données etapprendredes modèles et des étiquettes à partir de cela, pour prédire essentiellement des informations sur des données jamais vues auparavant.
Voici une définition populaire de l'apprentissage automatique :
On dit qu'un programme informatique apprend de l'expérience E par rapport à une classe de tâches T et à une mesure de performance P, si sa performance aux tâches dans T, mesurée par P, s'améliore avec l'expérience E.
Tom Mitchell
Je sais que c'est difficile à comprendre pleinement, alors laissez-moi le décomposer en termes plus simples. Penser àexpérienceen tant que données, lestâcheprédire quelque chose avec ces données, et lemesure de performanceêtre la réponse à la question de savoir si la prédiction est réellement correcte ou non.
Prenons un exemple. Supposons que nous essayons de créer le système de filtre anti-spam de nouvelle génération pour que Google puisse l'utiliser directement dans Gmail. Cela signifierait leexpérienceprendrait des millions et des millions d'e-mails, letâcheserait de prédire si un e-mail particulier est un spam ou non, et leperformanceserait mesuré en analysant si la prédiction de ce système était réellement correcte ou non.
Modèle d'apprentissage automatique
Un modèle d'apprentissage automatique est un algorithme qui a été formé avec un type particulier de données historiques pour prédire quelque chose en l'appliquant à des données jamais vues auparavant. Il peut s'agir d'une étiquette de classe, d'une valeur numérique ou peut-être même de modèles intéressants dans les données pour créer des informations percutantes.
Cette tâche d'un modèle d'apprentissage automatique dépend entièrement du problème à résoudre, qui décide également du type de données que nous allons utiliser. Le problème d'apprentissage automatique que nous essayons de résoudre dicte également comment nousapprochele problème.
Avons-nous une sortie dans les données d'entraînement ?
Si oui, quel type de données de sortie ? Classes discrètes ou valeurs numériques ?
Un dossier de formation comprendcaractéristiques. Comme son nom l'indique, ce sont des attributs des données que nous traitons - une caractéristique ou une propriété de l'objet sur lequel portent les données.
UNétiqueterest un moyen de dire au modèle d'apprentissage automatique si la chose qu'il est censé rechercher dans les nouvelles données est réellement présente ou non dans cet enregistrement de formation particulier - c'est ce que nous prédisons. Ce sont des valeurs discrètes que le modèle d'apprentissage automatique peut prédire pour des données inédites. Pour de tels problèmes d'apprentissage automatique, les caractéristiques sont l'entrée et les étiquettes sont la sortie.
Un modèle d'apprentissage automatique peut également fonctionner en prédisant unvaleur numérique. Supposons que nous travaillions avec des données de voitures. Nous avons les données sur les prix des voitures au cours des 10 dernières années. Les données contiennent des caractéristiques telles que l'entreprise, l'année de fabrication, la puissance, le type de voiture, etc., etc., et bien sûr le prix de la voiture en sortie. Dans ce cas, nous allons construire un modèle d'apprentissage automatique qui prend en compte toutes ces fonctionnalités et nous indique le prix d'une nouvelle voiture.
De retour à notre filtre anti-spam Gmail, nous entraînerions le modèle d'apprentissage automatique avec des millions et des millions d'e-mails. Dans cette situation, les caractéristiques seraient le sujet de l'e-mail, le corps de l'e-mail, le champ email:from, etc. et avec chaque e-mail, nous placerons une étiquette de "spam" ou "pas de spam". De cette façon, le modèle peut différencier quel e-mail transmettre et quel e-mail filtrer.
Et bien sûr, il y aurait beaucoup de prétraitement des données pour convertir le texte et le reste du contenu des e-mails en quelque chose que le modèle d'apprentissage automatique comprend sous la forme d'encodage ou d'intégration. Consultez certainement ces articles si vous souhaitez approfondir la définition de l'apprentissage automatique ou du prétraitement des données -
Alors, qu'est-ce que l'apprentissage automatique ?
Le portail de la science des données
Prétraitement des données : Concepts
Le portail de la science des données
Le Machine Learning peut se présenter sous deux formes :
- Apprentissage automatique supervisé
- Apprentissage non supervisé
Le but de cet article est de ne traiter que de l'apprentissage supervisé, mais ne vous inquiétez pas en faisant défiler vers le bas, vous trouverez également un lien vers un article consacré à l'apprentissage non supervisé 🙂
L'apprentissage supervisé est une forme d'apprentissage automatique dans laquelle l'entrée et la sortie de notre modèle d'apprentissage automatique nous sont toutes deux disponibles, c'est-à-dire que nous savons à quoi ressemblera la sortie en regardant simplement l'ensemble de données. Le nom « supervisé » signifie qu'il existe une relation entre les caractéristiques d'entrée et leur sortie respective dans les données. Le but de tout algorithme d'apprentissage automatique que nous implémentons est de prédire une sortie nouvelle mais similaire pour des données inédites en estimant cette relation.
Par exemple, un problème comme identifier si une orange est présente dans une image est quelque chose qu'un modèle d'apprentissage automatique peut gérer. Un autre, peut-être un peu plus utile, pourrait être d'identifier si un certain morceau de texte contient ou non des blasphèmes.
Vous pouvez voir que ces deux problèmes sont clairement très différents. Regardons le tableau suivant :
Problème | Données | Étiqueter | Caractéristiques |
---|---|---|---|
Détection orange | Images | Oui Non | Données de pixels extraites des images |
Détection des grossièretés | Texte | Propre sale | Vecteurs codés à partir du texte d'entrée |
Mais en même temps, ces deux problèmes sont très similaires… comment ça ?
-> Dans ces deux situations, nous formerons un modèle d'apprentissage automatique avec des données dans lesquelles chaque enregistrement de formation ainsi que les données réelles contiennent une étiquette. Cette étiquette nous dira si l'orange est présente ou non dans l'image (Oui / Non), ou si le blasphème est réellement présent dans ce texte particulier (Propre / Sale). En d'autres termes, le modèle d'apprentissage automatique est censé choisir le résultat parmi un ensemble connu de résultats possibles. Cet ensemble de résultats possibles est formé par l'ensemble des étiquettes présentes dans les données. Le modèle essaie d'apprendre la relation entre les entités en entrée et l'étiquette en sortie pendant son apprentissage.
- Dans le problème de détection de spam, le modèle analysera le nouvel e-mail et lui attribuera une étiquette "Spam" ou "Pas Spam".
- Dans le problème de détection d'orange, le modèle va analyser la nouvelle image et nous dire si une orange est présente dans l'image – « Oui » – ou non – « Non »
Maintenant, si nous revoyons notre problème de prévision du prix des voitures d'avant, nous remarquerons qu'il est également quelque peu similaire. Ici aussi, les données contiennent chaque voiture avec ses propres caractéristiques comme l'entreprise, l'année de fabrication etc. etc. et avec cela, le prix. Dans ce cas, le modèle d'apprentissage automatique est censé estimer ou prédire le prix d'une nouvelle voiture en fonction de la relation qu'il apprend à partir de ces données historiques lors de sa formation.
Sur cette base, passons maintenant à la dernière partie de cet article. Les problèmes de Machine Learning supervisé peuvent être de deux types :
- Classification
- Régression
Classification
Le filtre anti-spam, le problème de détection orange et le problème de détection des grossièretés sont des problèmes d'apprentissage automatique dans lesquels nous semblons avoir des étiquettes correctement définies et discrètes en sortie. Ainsi, le modèle d'apprentissage automatique n'a qu'à nous indiquer cette étiquette en fonction de ce qu'il apprend des données historiques lors de sa formation. Ce type d'apprentissage supervisé est appelé Classification.
Ces étiquettes discrètes sont souvent appelées classes, et tout problème d'apprentissage automatique supervisé est appelé problème de classification. Certains des cas d'utilisation les plus populaires et les plus largement utilisés de l'apprentissage automatique sont des problèmes de classification, et à cause de cela, certains des algorithmes d'apprentissage automatique les plus largement utilisés et implémentés sont des algorithmes de classification. Pour n'en citer que quelques-uns :
- Classificateur naïf de Bayes
- K-Voisin le plus proche
- Régression logistique
- Soutenir les machines vectorielles
- Arbres de décision
- Forêt aléatoire
- Les réseaux de neurones
Régression
Le problème de prédiction du prix des voitures d'avant est un problème d'apprentissage automatique dans lequel nous n'avions pas d'étiquettes ou de classes discrètes, nous avions plutôt des valeurs numériques continues en termes de prix de chaque voiture. En se formant sur les données historiques des prix des voitures, le modèle d'apprentissage automatique apprendra la relation entre les caractéristiques des voitures et leurs prix. Il sera alors en mesure de prédire le prix d'une voiture neuve en regardant ses caractéristiques.
Donc dans ce cas, nous avons une variable de sortie continue, une valeur numérique qui dépend directement des caractéristiques présentes. L'un des cas d'utilisation les plus discutés pour un problème de régression supervisée est la prédiction du cours des actions. Bien qu'il soit très difficile de trouver l'ensemble de données parfait pour former un modèle, les gens utilisent des techniques de régression sur des échantillons de données pour obtenir une estimation approximative des situations réelles afin de faire mieux sur le marché boursier. Quelques algorithmes en régression :
- Régression linéaire
- Régression multivariée
- Régression LASSO
- Régression de crête
J'espère que cet article vous a apporté des éclaircissem*nts sur le sujet de l'apprentissage automatique supervisé. C'est un sujet très important en science des données et en apprentissage automatique et il est plus compréhensible et explicable que certains des autres trucs sympas - quelque chose qui est très précieux dans le monde des affaires. L'explicabilité d'un modèle ML est hautement souhaitable dans le monde des affaires car beaucoup d'argent est investi dans tout et on s'attend à ce que les sorties du modèle soient compréhensibles non seulement par l'entreprise mais aussi par les clients. Veuillez aimer / vous abonner / partager au portail de la science des données si vous avez aimé l'article et souhaitez en voir plus !
Merci pour la lecture!