Skip to main content

Qu'est-ce qu'une classification d'exploration de données?

La classification de l'exploration de données est une étape du processus d'exploration de données.Il est utilisé pour regrouper les éléments en fonction de certaines caractéristiques clés.Il existe plusieurs techniques utilisées pour la classification de l'exploration de données, notamment la classification du voisin le plus proche, l'apprentissage des arbres de décision et les machines vectorielles de support.

L'exploration de données est une méthode que les chercheurs utilisent pour extraire des modèles de données.Généralement, un échantillon représentatif est choisi dans le pool de données puis manipulé et analysé pour trouver des modèles.En plus de la classification de l'exploration de données, les chercheurs peuvent également utiliser le clustering, la régression et l'apprentissage des règles pour analyser les données.

Il existe plusieurs algorithmes qui peuvent être utilisés dans la classification de l'exploration de données.La classification du voisin le plus proche est l'un des algorithmes de classification d'exploration de données.Il s'appuie sur un ensemble de formation.Un ensemble de formation est un ensemble de données utilisées pour former l'ordinateur à faire attention à certaines variables.Dans la classification du voisin le plus proche, l'ordinateur classe simplement toutes les données dans le cadre du groupe qui contient des données en valeur la plus proche de l'entrée.

L'apprentissage de l'arborescence de décision utilise un modèle de branchement pour classer les données.L'ordinateur pose essentiellement une série de questions sur les données.Si la réponse à la première question est vraie, elle pose la question 2A.Si la réponse est fausse, elle pose la question 2b.Lorsqu'il est tiré, cette méthode forme un arbre de trajets de ramification.

La classification naïve de Bayes repose sur la probabilité.Il pose une série de questions sur chaque élément de données, puis utilise les réponses pour déterminer la probabilité que les données appartiennent à une classification particulière.Ceci est différent de l'apprentissage des arbres de décision car la réponse à la première question n'influence pas la question qui sera posée ensuite.

Les méthodes plus compliquées de classification d'exploration de données comprennent les réseaux de neurones et les machines vectorielles de support.Ces méthodes sont des modèles informatiques qui seraient difficiles à faire à la main.Les réseaux de neurones sont souvent utilisés dans la programmation de l'intelligence artificielle car elle imite le cerveau humain.Il filtre les informations via une série de nœuds qui trouvent des modèles, puis classent les informations.

Les machines de vecteur de support utilisent des échantillons de formation pour construire un modèle qui classera les informations, généralement visualisée comme un tracé de dispersion avec un large espace entre les catégories.Lorsque de nouvelles informations sont introduites dans la machine, elles sont tracées sur le graphique.Les données sont ensuite classées en fonction de la catégorie de l'information la plus proche du graphique.Cette méthode ne fonctionne que lorsqu'il existe deux options à choisir.