Skip to main content

Τι είναι η εξαγωγή πληροφοριών;

Μερικές φορές γνωστή ως ανάκτηση πληροφοριών, η εξαγωγή πληροφοριών (IE) είναι μια διαδικασία που χρησιμοποιείται με συστήματα υπολογιστών για να επιτρέπεται η εξαγωγή σχετικών δεδομένων από μεγαλύτερα σώματα δεδομένων, χρησιμοποιώντας ορισμένα σύνολο προκαθορισμένων κριτηρίων.Η ιδέα πίσω από την εξόρυξη πληροφοριών είναι να καταστεί δυνατή η εύκολη εντοπισμός και αφομοίωση δεδομένων που σχετίζονται με μια συγκεκριμένη δραστηριότητα, χωρίς να χρειάζεται να περάσουν με μη αυτόματο τρόπο μεγάλες ποσότητες πληροφοριών για να βρεθούν τα ακριβή δεδομένα που απαιτούνται.Η διαδικασία είναι παρόμοια με τις ιδέες της εξόρυξης ιδεών ή της απόξεσης ιστού, καθώς όλες αυτές οι προσεγγίσεις επιδιώκουν να συλλέξουν χρήσιμες πληροφορίες από μια ευρύτερη ομάδα διαθέσιμων δεδομένων.

Η γενική προσέγγιση για την εξαγωγή πληροφοριών απαιτεί τη χρήση προγραμματισμού που είναι σε θέση να σαρώνει πηγές πληροφοριών που θεωρούνται μηχανές αναγνώσιμες.Αυτό μπορεί να περιλαμβάνει έγγραφα έντυπων αντιγράφων που έχουν σαρωθεί σε κάποια ηλεκτρονικά αρχεία, έγγραφα που παρασκευάζονται ως υπολογιστικά φύλλα ή έγγραφα επεξεργασίας κειμένου ή ακόμα και τα δεδομένα που περιέχονται σε ευανάγνωστα πεδία σε μια βάση δεδομένων.Συνήθως, έχουν οριστεί παράμετροι που να επιτρέπουν σε ένα πρόγραμμα λογισμικού να έχει πρόσβαση σε αυτές τις πηγές δεδομένων και να σαρώσει γρήγορα μέσω αυτών χρησιμοποιώντας συγκεκριμένα κριτήρια για να δοθεί προτεραιότητα και να τραβήξει ορισμένους τύπους πληροφοριών από την διαθέσιμη ομάδα.Αυτή η διαδικασία είναι τυπικά διαφορετική από μια απλή διαδικασία αναζήτησης, καθώς η μέθοδος απαιτεί να μην ταιριάζει συγκεκριμένες λέξεις ή φράσεις per se, αλλά χρησιμοποιεί μια διαδικασία που ονομάζεται φυσική επεξεργασία γλώσσας, η οποία βοηθά όχι μόνο στην αξιολόγηση των πραγματικών λέξεων αλλά και στο πλαίσιο καιη έννοια που υπονοείται από αυτό το πλαίσιο.

Οι πολυπλοκότητες που εμπλέκονται στην εξαγωγή πληροφοριών καθιστούν τη χρήση αυτής της προσέγγισης κάπως δύσκολο να διαχειριστεί σε παγκόσμια κλίμακα, αν και υπάρχουν εργαλεία IE που λειτουργούν πολύ καλά μόνο με περιορισμένο αριθμό δεδομένων, όπως οι πηγές δεδομένων που σχετίζονται με τα ηλεκτρονικά αρχείαΣτεγάζεται στον διακομιστή μιας εταιρείας, ή ακόμα και σε μια δεξαμενή πηγών που περιλαμβάνει περιορισμένο αριθμό ειδήσεων.Με αυτή την προσέγγιση είναι δυνατόν να προσδιοριστούν κάποιο είδος συμβάντος, ενδεχομένως να περιορίσουμε ακόμη και τις αποδόσεις στη συμπερίληψη ενός ορισμένου αριθμού συμμετεχόντων στην εκδήλωση και να έχουν τα δεδομένα που έχουν διατεθεί σύμφωνα με σήμερα.

Όπως και με πολλές μορφές τεχνολογίας, τα εργαλεία που χρησιμοποιούνται για την εμπλοκή στην εξαγωγή πληροφοριών είναι συνεχώς εξευγενισμένα.Από τις αρχές του 21ου αιώνα, η δυνατότητα καθορισμού παραμέτρων και η χρήση συνεχώς αυξανόμενων φορέων ηλεκτρονικών δεδομένων ως μέρος της αναζήτησης σχετικών πληροφοριών έχει αυξηθεί σημαντικά.Αυτό περιλαμβάνει τη δυνατότητα αντιμετώπισης μεγάλων όγκων μη δομημένων δεδομένων και χρήσης αυτών των παραμέτρων για να φέρει κάποια σειρά ή δομή σε αυτά τα δεδομένα, καθιστώντας τα πιο χρήσιμα για μελλοντικές αναζητήσεις.