Skip to main content

Τι είναι η εξόρυξη στατιστικών δεδομένων;

Η εξόρυξη στατιστικών δεδομένων, επίσης γνωστή ως ανακάλυψη γνώσεων ή δεδομένων, είναι μια μηχανογραφημένη μέθοδος συλλογής και ανάλυσης πληροφοριών.Το εργαλείο εξόρυξης δεδομένων λαμβάνει δεδομένα και κατηγοριοποιεί τις πληροφορίες για να ανακαλύψει μοτίβα ή συσχετισμούς που μπορούν να χρησιμοποιηθούν σε σημαντικές εφαρμογές, όπως φάρμακο, προγραμματισμό υπολογιστών, προώθηση επιχειρήσεων και ρομποτικό σχεδιασμό.Οι τεχνικές εξόρυξης στατιστικών δεδομένων χρησιμοποιούν σύνθετα μαθηματικά και περίπλοκες στατιστικές διαδικασίες για τη δημιουργία μιας ανάλυσης.

Η εξόρυξη δεδομένων περιλαμβάνει πέντε σημαντικά βήματα.Η πρώτη εφαρμογή εξόρυξης δεδομένων συλλέγει στατιστικά δεδομένα και τοποθετεί τις πληροφορίες σε πρόγραμμα αποθήκης.Στη συνέχεια, τα δεδομένα στην αποθήκη οργανώνονται και δημιουργούν ένα σύστημα διαχείρισης.Το επόμενο βήμα δημιουργεί έναν τρόπο πρόσβασης στα διαχειριζόμενα δεδομένα.Στη συνέχεια, το τέταρτο βήμα αναπτύσσει λογισμικό για την ανάλυση των δεδομένων, επίσης γνωστό ως παλινδρόμηση εξόρυξης δεδομένων, ενώ το τελικό βήμα διευκολύνει τη χρήση ή την ερμηνεία των στατιστικών δεδομένων με πρακτικό τρόπο.Το αναλυτικό λογισμικό ταξινομεί και από τους δύο τύπους συστημάτων δεδομένων χρησιμοποιώντας ερωτήσεις χρήστη ανοιχτού τύπου.Οι ανοικτές ερωτήσεις επιτρέπουν αμέτρητες απαντήσεις, ώστε οι προγραμματιστές να μην επηρεάζουν τα αποτελέσματα της διαλογής.Οι προγραμματιστές δημιουργούν λίστες ερωτήσεων για να βοηθήσουν στην κατηγοριοποίηση των πληροφοριών χρησιμοποιώντας μια συνολική εστίαση.

Η ταξινόμηση βασίζεται στη συνέχεια στην ανάπτυξη τάξεων και συστάδων δεδομένων, ενώσεων που βρέθηκαν στα δεδομένα και επιχειρεί να καθορίσει τα πρότυπα και τις τάσεις που βασίζονται στις ενώσεις.Για παράδειγμα, η Google συλλέγει πληροφορίες σχετικά με τους χρήστες που αγοράζουν συνήθειες για να βοηθήσουν στην τοποθέτηση της διαδικτυακής διαφήμισης.Οι ανοικτές ερωτήσεις που χρησιμοποιούνται για την ταξινόμηση αυτού του αγοραστή δεδομένων επικεντρώνονται στις προτιμήσεις αγοράς ή στις συνήθειες προβολής των χρηστών του Διαδικτύου.

Οι επιστήμονες και οι προγραμματιστές υπολογιστών επικεντρώνονται στην ανάλυση των στατιστικών δεδομένων που συλλέγονται.Δημιουργία δέντρων αποφάσεων, τεχνητά νευρωνικά δίκτυα, πλησιέστερη μέθοδος γειτονιάς, επαγωγή κανόνων, απεικόνιση δεδομένων και γενετικοί αλγόριθμοι χρησιμοποιούν όλα τα στατιστικά μειωμένα δεδομένα.Αυτά τα συστήματα ταξινόμησης βοηθούν στην ερμηνεία των ενώσεων που ανακαλύφθηκαν από τα αναλυτικά προγράμματα δεδομένων.Η εξόρυξη στατιστικών δεδομένων περιλαμβάνει μικρά έργα που μπορούν να γίνουν σε μικρή κλίμακα σε έναν οικιακό υπολογιστή, αλλά τα περισσότερα σύνολα σύνδεσης εξόρυξης δεδομένων είναι τόσο μεγάλα και η παλινδρόμηση εξόρυξης δεδομένων τόσο περίπλοκη ώστε να απαιτούν έναν υπερυπολογιστή ή ένα δίκτυο υπολογιστών υψηλής ταχύτητας.

Η εξόρυξη στατιστικών δεδομένων συλλέγει τρεις γενικούς τύπους δεδομένων, συμπεριλαμβανομένων των λειτουργικών δεδομένων, των μη λειτουργικών δεδομένων και των μετα-δεδομένων.Σε ένα κατάστημα ειδών ένδυσης, τα λειτουργικά δεδομένα είναι βασικά δεδομένα που χρησιμοποιούνται για την εκτέλεση της επιχείρησης, όπως η λογιστική, οι πωλήσεις και ο έλεγχος των αποθεμάτων.Τα μη λειτουργικά δεδομένα, τα οποία σχετίζονται έμμεσα με την επιχείρηση, περιλαμβάνουν εκτιμήσεις μελλοντικών πωλήσεων και γενικών πληροφοριών σχετικά με την εθνική αγορά ένδυσης.Τα δεδομένα Meta αφορά τα ίδια τα δεδομένα.Ένα πρόγραμμα που χρησιμοποιεί μετα -δεδομένα μπορεί να ταξινομήσει τους πελάτες αποθήκευσης σε ταξινομήσεις με βάση το φύλο ή τη γεωγραφική θέση των αγοραστών ένδυσης ή του αγαπημένου χρώματος των πελατών, εάν συλλέχθηκαν αυτά τα δεδομένα.έχουν εκτεταμένες πρακτικές εφαρμογές.Η μελέτη των εστιατορίων της νόσου είναι ένα παράδειγμα.Ένα έργο εξόρυξης δεδομένων 2000 ανέλυσε την εκδήλωση της νόσου του Cryptosporidium στο Οντάριο του Καναδά για να προσδιορίσει τις αιτίες της αύξησης των περιπτώσεων ασθενειών.Τα αποτελέσματα της εξόρυξης δεδομένων βοήθησαν στη σύνδεση της επιδημίας των βακτηρίων με τις τοπικές συνθήκες νερού και στην έλλειψη κατάλληλης δημοτικής επεξεργασίας νερού.Ένα πεδίο που ονομάζεται Biosurveillance χρησιμοποιεί εξόρυξη επιδημιολογικών δεδομένων για τον εντοπισμό εστιατορίων μιας ενιαίας νόσου.

Οι προγραμματιστές και οι σχεδιαστές υπολογιστών χρησιμοποιούν επίσης τη μελέτη της ανάλυσης πιθανότητας και στατιστικών δεδομένων για την ανάπτυξη μηχανών και προγραμμάτων υπολογιστών.Η μηχανή αναζήτησης στο Internet Google σχεδιάστηκε χρησιμοποιώντας στατιστικά δεδομένα MIΝινγκ.Η Google συνεχίζει να συλλέγει και να χρησιμοποιεί την εξόρυξη δεδομένων για τη δημιουργία ενημερώσεων και εφαρμογών προγράμματος.