Skip to main content

Vad är OCR (optisk karaktärigenkänning)?

Optisk karaktärigenkänning (OCR) är en process för att konvertera tryckta material till text- eller ordbehandlingsfiler som enkelt kan redigeras och lagras.Tekniken har gjort det möjligt att lagra sådana material med mycket mindre lagringsutrymme än papperskopieringsmaterialet.OCR -teknik har gjort en enorm inverkan på hur information lagras, delas och redigeras.Innan optiskt teckenigenkänning, om någon ville förvandla en bok till en ordbehandlingsfil, måste varje sida skrivas ord för Word.

OCR -teknik kräver både hårdvara och programvara.Dessutom kräver sofistikerade OCR -system ett ytterligare kretskort i själva datorn för att slutföra processen.En optisk skanner skannar texten på en sida och bryter sedan teckensnitten ner i en serie prickar som kallas en bitmapp.Programvaran kan läsa vanligaste teckensnitt och skilja där linjer startar och stoppar.Denna bitmapp översätts sedan till datortext.

Medan optiskt karaktärigenkänning har gjort stora framsteg under de senaste åren, fungerar den fortfarande inte alltid bra för att känna igen handskrift eller teckensnitt som liknar handskrift.Det finns system inom bankbranschen som använder OCR-teknik för att försöka läsa beloppen på handskrivna kontroller, för att gå tillsammans med datorns förmåga att läsa routing och kontonummer.

.Det kan hjälpa till att ta en titt på ett verkligt exempel.Föreställ dig en polisavdelning som har alla sina kriminella register lagrade i stora filskåp.Även om skanning av miljoner sidor skulle vara ett dyrt och tidskrävande företag, är fördelarna enorma. När OCR-systemet har konverterat sidorna till datorläsbar text, kan till exempel en detektiv söka igenom hela historien i ennågra sekunder.Att manuellt hitta en viss post kanske inte är för svårt, men föreställ dig en detektiv som försöker söka efter alla brott som begåtts i en viss korsning mellan 8:00 och 8:30.Detta exempel repar bara ytan på kraften i sökbar text, och det är bara en anledning att många företag och institutioner spenderar miljoner dollar för att OCR deras äldre data.