Skip to main content

Hvad er OCR (optisk karaktergenkendelse)?

Optisk karaktergenkendelse (OCR) er en proces til konvertering af trykte materialer til tekst- eller tekstbehandlingsfiler, der let kan redigeres og gemmes.Teknologien har gjort det muligt for sådanne materialer at opbevares ved hjælp af meget mindre opbevaringsplads end papirkopierne.OCR -teknologi har haft en enorm indflydelse på den måde, hvorpå information gemmes, deles og redigeres.Før optisk karaktergenkendelse, hvis nogen ønskede at omdanne en bog til en tekstbehandlingsfil, skal hver side indtastes ord for Word.

OCR -teknologi kræver både hardware og software.Derudover kræver sofistikerede OCR -systemer et ekstra kredsløbskort på selve computeren for at afslutte processen.En optisk scanner scanner teksten på en side og bryder derefter skrifttyperne ned i en række prikker kaldet en bitmap.Softwaren kan læse mest almindelige skrifttyper og skelne, hvor linjer starter og stopper.Denne bitmap oversættes derefter til computertekst.

Mens optisk karaktergenkendelse har gjort enorme fremskridt i de senere år, fungerer den stadig ikke altid godt med at genkende håndskrift eller skrifttyper, der ligner håndskrift.Der er systemer inden for bankbranchen, der bruger OCR-teknologi til at forsøge at læse de beløb, der er på håndskrevet kontrol, til at gå sammen med computere Evne til at læse routing- og kontonumrene.

Det kan hjælpe med at se på et ægte eksempel på den virkelige verden.Forestil dig en politiafdeling, der har alle sine kriminelle poster, der er gemt i store filskabe.Selvom scanning af millioner af sider ville være en dyr og tidskrævende virksomhed, er fordelene enorme. Når OCR-systemet har konverteret siderne til computerlæselig tekst, kunne en detektiv for eksempel søge gennem hele historien i enfå sekunder.At finde en bestemt rekord er måske ikke for vanskelig, men forestil dig en detektiv, der prøver at søge efter alle de forbrydelser, der er begået på et bestemt kryds mellem 8:00 og 8:30.Dette eksempel ridser kun overfladen på kraften i søgbar tekst, og det er kun en grund til, at mange virksomheder og institutioner bruger millioner af dollars til at OCR deres arvedata.