Skip to main content

Qu'est-ce que l'exploration de données statistiques?

L'exploration de données statistiques, également connue sous le nom de connaissances ou de découverte de données, est une méthode informatisée de collecte et d'analyse des informations.L'outil d'exploration de données prend les données et catégorise les informations pour découvrir des modèles ou des corrélations qui peuvent être utilisés dans des applications importantes, telles que la médecine, la programmation informatique, la promotion des entreprises et la conception robotique.Les techniques statistiques d'exploration de données utilisent des mathématiques complexes et des processus statistiques compliqués pour créer une analyse.

L'exploration de données implique cinq étapes majeures.La première application d'exploration de données collecte des données statistiques et place les informations dans un programme de type entrepôt.Ensuite, les données dans l'entrepôt sont organisées et crée un système de gestion.L'étape suivante crée un moyen d'accéder aux données gérées.Ensuite, la quatrième étape développe des logiciels pour analyser les données, également connues sous le nom de régression de l'exploration de données, tandis que la dernière étape facilite l'utilisation ou l'interprétation des données statistiques de manière pratique.

Généralement, les techniques d'exploration de données intègrent des systèmes de données analytiques et de transaction.Le logiciel analytique trie les deux types de systèmes de données à l'aide de questions des utilisateurs ouverts.Les questions ouvertes permettent d'innombrables réponses afin que les programmeurs n'influencent pas les résultats du tri.Les programmeurs créent des listes de questions pour aider à catégoriser les informations à l'aide d'une orientation globale.

Le tri est ensuite basé sur le développement de classes et de groupes de données, d'associations trouvées dans les données et des tentatives de définition de modèles et de tendances basées sur les associations.Par exemple, Google recueille des informations sur les habitudes d'achat des utilisateurs pour aider à placer la publicité en ligne.Les questions ouvertes utilisées pour trier ces données de l'acheteur se concentrent sur les préférences d'achat ou les habitudes de visualisation des utilisateurs d'Internet.

Les informaticiens et les programmeurs se concentrent sur l'analyse des données statistiques collectées.Création d'arbres de décision, de réseaux de neurones artificiels, de méthode du voisin le plus proche, d'induction de règles, de visualisation des données et d'algorithmes génétiques utilisent tous les données statistiquement minées.Ces systèmes de classification aident à interpréter les associations découvertes par les programmes de données analytiques.L'exploration de données statistiques implique de petits projets qui peuvent être réalisés à petite échelle sur un ordinateur domestique, mais la plupart des ensembles d'association d'exploration de données sont si grands et la régression de l'exploration de données si compliquée qu'elles nécessitent un supercalculateur ou un réseau d'ordinateurs à grande vitesse.

L'exploration de données statistiques recueille trois types généraux de données, notamment des données opérationnelles, des données non opérationnelles et des métadonnées.Dans un magasin de vêtements, les données opérationnelles sont des données de base utilisées pour gérer l'entreprise, telles que la comptabilité, les ventes et le contrôle des stocks.Les données non opérationnelles, qui sont indirectement liées à l'entreprise, comprend des estimations des ventes futures et des informations générales sur le marché national des vêtements.Les méta-données concernent les données elle-même.Un programme utilisant Meta Data peut trier les clients de stockage dans des classifications en fonction de la localisation de sexe ou géographique des acheteurs de vêtements ou de la couleur préférée des clients, si ces données ont été collectées.

Une application d'exploration de données peut être extrêmement sophistiquée et que l'outil d'exploration de données statistique peutont des applications pratiques généralisées.L'étude des épidémies de maladies en est un exemple.Un projet d'exploration de données de 2000 a analysé l'épidémie de maladie de Cryptosporidium en Ontario, au Canada, pour déterminer les causes de l'augmentation des cas de maladie.Les résultats de l'exploration de données ont aidé à lier l'épidémie des bactéries aux conditions de l'eau locales et au manque de traitement de l'eau municipale appropriée.Un domaine appelé biosurveillance utilise l'exploration de données épidémiologiques pour identifier les épidémies d'une seule maladie.

Les programmeurs informatiques et les concepteurs utilisent également l'étude de la probabilité et de l'analyse des données statistiques pour développer des machines et des programmes informatiques.Le moteur de recherche Google Internet a été conçu à l'aide de données statistiques MINing.Google continue de collecter et d'utiliser l'exploration de données pour créer des mises à jour et des applications de programme.