Skip to main content

OCR là gì (nhận dạng ký tự quang học) là gì?

Nhận dạng ký tự quang học (OCR) là một quá trình chuyển đổi tài liệu in thành các tệp xử lý văn bản hoặc từ có thể dễ dàng chỉnh sửa và lưu trữ.Công nghệ đã cho phép các vật liệu như vậy được lưu trữ bằng cách sử dụng không gian lưu trữ ít hơn nhiều so với các tài liệu sao chép cứng.Công nghệ OCR đã tạo ra một tác động rất lớn đến cách lưu trữ, chia sẻ và chỉnh sửa thông tin.Trước khi nhận dạng ký tự quang học, nếu ai đó muốn biến một cuốn sách thành một tệp xử lý văn bản, mỗi trang sẽ phải được gõ Word cho Word. Công nghệ OCR yêu cầu cả phần cứng và phần mềm.Ngoài ra, các hệ thống OCR tinh vi yêu cầu một bảng mạch bổ sung trong chính máy tính để hoàn thành quá trình.Một máy quét quang học quét văn bản trên một trang, sau đó chia các phông chữ thành một loạt các dấu chấm gọi là bitmap.Phần mềm có thể đọc hầu hết các phông chữ phổ biến và phân biệt nơi các dòng bắt đầu và dừng.Bitmap này sau đó được dịch thành văn bản máy tính. Trong khi nhận dạng ký tự quang học đã đạt được những tiến bộ lớn trong những năm gần đây, nó vẫn không luôn luôn hoạt động tốt trong việc nhận ra chữ viết hoặc phông chữ trông giống như chữ viết tay.Có những hệ thống trong ngành ngân hàng sử dụng công nghệ OCR để cố gắng đọc số tiền trên séc viết tay, để đi cùng với khả năng đọc các số định tuyến và số tài khoản.

để đưa ra ý tưởng về sức mạnh của OCR,Nó có thể giúp xem xét một ví dụ trong thế giới thực.Hãy tưởng tượng một sở cảnh sát có tất cả các hồ sơ tội phạm được lưu trữ trong tủ hồ sơ rộng lớn.Mặc dù việc quét hàng triệu trang sẽ là một công việc tốn kém và tốn thời gian, các lợi ích rất lớn.

Một khi hệ thống OCR đã chuyển đổi các trang thành văn bản có thể đọc được máy tính, một thám tử, có thể tìm kiếm trong toàn bộ lịch sử trong một lịch sử trong mộtvài giây.Việc tìm kiếm một hồ sơ cụ thể theo cách thủ công có thể không quá khó, nhưng hãy tưởng tượng một thám tử đang cố gắng tìm kiếm tất cả các tội ác đã gây ra trên một giao điểm nhất định giữa 8:00 đến 8:30.Ví dụ này chỉ làm trầy xước bề mặt sức mạnh của văn bản có thể tìm kiếm, và đó chỉ là một lý do khiến nhiều công ty và tổ chức đang chi hàng triệu đô la để OCR dữ liệu di sản của họ.