Skip to main content

Hva er OCR (optisk karaktergjenkjenning)?

Optisk karaktergjenkjenning (OCR) er en prosess for å konvertere trykt materiale til tekst- eller tekstbehandlingsfiler som enkelt kan redigeres og lagres.Teknologien har gjort det mulig å lagre slike materialer ved hjelp av mye mindre lagringsplass enn papirkopiene.OCR -teknologi har gjort en stor innvirkning på måten informasjon blir lagret, delt og redigert.Før optisk karaktergjenkjenning, hvis noen ønsket å gjøre en bok til en tekstbehandlingsfil, måtte hver side skrives ord for ord.

OCR -teknologi krever både maskinvare og programvare.I tillegg krever sofistikerte OCR -systemer et ekstra kretskort i selve datamaskinen for å fullføre prosessen.En optisk skanner skanner teksten på en side, og bryter deretter skriftene ned i en serie prikker som kalles en bitmap.Programvaren kan lese de fleste vanlige skrifter og skille hvor linjer starter og stopper.Denne bitmappen blir deretter oversatt til datatekst.

Mens optisk karaktergjenkjenning har gjort store fremskritt de siste årene, fungerer den fremdeles ikke alltid bra i å gjenkjenne håndskrift eller skrifter som ligner på håndskrift.Det er systemer innen banknæringen som bruker OCR-teknologi for å prøve å lese beløpene på håndskrevne sjekker, for å gå sammen med datamaskinens evne til å lese ruting og kontonummer.

Det kan bidra til å se på et ekte eksempel.Se for deg en politiavdeling som har alle sine kriminelle poster lagret i store filskap.Selv om skanning av millioner av sider ville være et dyrt og tidkrevende selskap, er fordelene store. Få sekunder.Det er ikke så vanskelig å finne en bestemt post manuelt, men forestill deg en detektiv som prøver å søke etter alle forbrytelsene som er begått i et visst kryss mellom kl. 08.00 og 8.30.Dette eksemplet klør bare overflaten på kraften i søkbar tekst, og det er bare en grunn til at mange selskaper og institusjoner bruker millioner av dollar på å OCR sine gamle data.