Skip to main content

Τι είναι το OCR (αναγνώριση οπτικού χαρακτήρα);

Η αναγνώριση οπτικού χαρακτήρα (OCR) είναι μια διαδικασία μετατροπής τυπωμένων υλικών σε αρχεία κειμένου ή επεξεργασίας κειμένου που μπορούν εύκολα να επεξεργαστούν και να αποθηκευτούν.Η τεχνολογία επέτρεψε την αποθήκευση αυτών των υλικών χρησιμοποιώντας πολύ λιγότερο χώρο αποθήκευσης από τα υλικά έντυπου αντιγράφου.Η τεχνολογία OCR έχει κάνει τεράστιο αντίκτυπο στον τρόπο αποθήκευσης, κοινόχρηστων και επεξεργασμένων πληροφοριών.Πριν από την αναγνώριση οπτικού χαρακτήρα, αν κάποιος ήθελε να μετατρέψει ένα βιβλίο σε ένα αρχείο επεξεργασίας κειμένου, κάθε σελίδα θα πρέπει να πληκτρολογηθεί λέξη για λέξη.

Η τεχνολογία OCR απαιτεί τόσο υλικό όσο και λογισμικό.Επιπλέον, τα εξελιγμένα συστήματα OCR απαιτούν μια πρόσθετη πλακέτα κυκλώματος στον ίδιο τον υπολογιστή για να ολοκληρώσει τη διαδικασία.Ένας οπτικός σαρωτής σαρώνει το κείμενο σε μια σελίδα και στη συνέχεια σπάει τις γραμματοσειρές σε μια σειρά κουκκίδων που ονομάζεται bitmap.Το λογισμικό μπορεί να διαβάσει τις πιο συνηθισμένες γραμματοσειρές και να διακρίνει όπου οι γραμμές ξεκινούν και σταματούν.Αυτό το bitmap μεταφράζεται στη συνέχεια σε κείμενο του υπολογιστή.

Ενώ η αναγνώριση οπτικού χαρακτήρα έχει κάνει τεράστιες προόδους τα τελευταία χρόνια, εξακολουθεί να μην αποδίδει πάντα καλά στην αναγνώριση γραφής ή γραμματοσειρών που μοιάζουν με χειρόγραφο.Υπάρχουν συστήματα στον τραπεζικό κλάδο που χρησιμοποιούν την τεχνολογία OCR για να προσπαθήσουν να διαβάσουν τα ποσά σε χειρόγραφους ελέγχους, για να προχωρήσουν με την ικανότητα των υπολογιστών να διαβάζουν τους αριθμούς δρομολόγησης και λογαριασμών.Μπορεί να σας βοηθήσει να ρίξετε μια ματιά σε ένα πραγματικό παράδειγμα.Φανταστείτε ένα αστυνομικό τμήμα που έχει αποθηκευτεί όλα τα ποινικά του αρχεία σε τεράστια γραφεία αρχείων.λίγα δευτερόλεπτα.Η εξίσωση ενός συγκεκριμένου αρχείου μπορεί να μην είναι πολύ δύσκολη, αλλά φανταστείτε έναν ντετέκτιβ που προσπαθεί να αναζητήσει όλα τα εγκλήματα που διαπράττονται σε μια συγκεκριμένη διασταύρωση μεταξύ 8:00 και 8:30.Αυτό το παράδειγμα γρατζουνίζει μόνο την επιφάνεια της ισχύος του κειμένου που μπορεί να αναζητηθεί και είναι μόνο ένας λόγος που πολλές εταιρείες και ιδρύματα ξοδεύουν εκατομμύρια δολάρια για να OCR τα δεδομένα κληρονομιάς τους.