Hvad er OCR (optisk karaktergenkendelse)?

Optisk karaktergenkendelse (OCR) er en proces til konvertering af trykt materiale til tekst- eller tekstbehandlingsfiler, der let kan redigeres og gemmes. Teknologien har gjort det muligt at opbevare sådanne materialer ved at bruge meget mindre lagerplads end harddiskmaterialerne. OCR-teknologi har haft en enorm indflydelse på den måde, information gemmes, deles og redigeres. Forud for optisk tegngenkendelse, hvis nogen ville gøre en bog om til en tekstbehandlingsfil, skulle hver side indtastes ord for ord.

OCR-teknologi kræver både hardware og software. Derudover kræver sofistikerede OCR-systemer et ekstra kredsløbskort i selve computeren for at afslutte processen. En optisk scanner scanner teksten på en side og bryder derefter skrifttyperne ned i en række prikker kaldet en bitmap. Softwaren kan læse de mest almindelige skrifttyper og skelne, hvor linjer starter og stopper. Denne bitmap oversættes derefter til computertekst.

Mens optisk karaktergenkendelse har gjort store fremskridt i de senere år, fungerer den stadig ikke altid godt ved at genkende håndskrift eller skrifttyper, der ligner håndskrift. Der er systemer inden for bankbranchen, der bruger OCR-teknologi til at prøve at læse beløbene på håndskrevet kontrol, for at gå sammen med computerens evne til at læse routing og kontonumre.

For at give en idé om OCR's magt kan det hjælpe med at se på et ægte eksempel. Forestil dig en politiafdeling, der har alle sine kriminelle poster opbevaret i store arkiver. Selvom scanning af millioner sider ville være et dyrt og tidskrævende tilsagn, er fordelene enorme.

Når OCR-systemet har konverteret siderne til computerlæsbar tekst, kunne en detektiv for eksempel søge gennem hele historikken på få sekunder. Manuelt at finde en bestemt post er måske ikke så svært, men forestil dig en detektiv, der prøver at søge efter alle forbrydelser begået på et bestemt kryds mellem 8:00 og 8:30. Dette eksempel skraber kun overfladen på kraften i søgbar tekst, og det er kun en grund til, at mange virksomheder og institutioner bruger millioner af dollars til OCR på deres gamle data.

Hvad er OCR (optisk karaktergenkendelse)?

Hjalp denne artikel dig?