Skip to main content

Làm thế nào để các công cụ tìm kiếm hoạt động?

Các công cụ tìm kiếm về cơ bản là các thuật toán máy tính giúp người dùng tìm thấy thông tin cụ thể mà họ đang tìm kiếm.Với hàng nghìn tỷ trang thông tin trực tuyến, không có công cụ tìm kiếm hiệu quả, việc tìm kiếm bất cứ điều gì trên internet sẽ gần như không thể.Các công cụ tìm kiếm khác nhau hoạt động theo các cách cụ thể khác nhau, nhưng tất cả chúng đều sử dụng các nguyên tắc cơ bản giống nhau.

Điều đầu tiên các công cụ tìm kiếm phải làm để hoạt động là tạo cơ sở dữ liệu cục bộ, về cơ bản là Internet.Các công cụ tìm kiếm sớm chỉ lập chỉ mục từ khóa và tiêu đề của các trang, nhưng các công cụ tìm kiếm đương đại lập chỉ mục tất cả các văn bản trên mỗi trang, cũng như rất nhiều dữ liệu khác về mối quan hệ của trang đó với các trang khác và trong một số trường hợpCác phương tiện truyền thông có sẵn trên trang là tốt.Các công cụ tìm kiếm cần lập chỉ mục tất cả các thông tin này để chúng có thể chạy các tìm kiếm trên nó một cách hiệu quả, thay vì phải chạy trên internet mỗi khi truy vấn tìm kiếm được gửi.Các công cụ tìm kiếm sớm thường yêu cầu các trang phải được gửi cho chúng để thu thập dữ liệu chúng, nhưng bây giờ hầu hết các trang được tìm thấy bằng cách theo các liên kết từ các trang khác.Cái được gọi là robot hoặc nhện, các chương trình máy tính được xây dựng để lập chỉ mục các trang, flit từ trang này sang trang khác, ghi tất cả dữ liệu trên trang và theo mọi liên kết đến các trang mới.Các công cụ tìm kiếm khác nhau làm mới các chỉ số của chúng ở các khoảng thời gian khác nhau, tùy thuộc vào số lượng con nhện mà chúng liên tục bò và những con nhện đó nhanh như thế nào, với một số hoạt động trên Internet mỗi ngày hoặc hai người khác chỉ thực hiện làm mới định kỳ mỗi tuần hoặcTháng. Khi con nhện đi qua các trang này, nó ghi lại những từ mà nó tìm thấy trên các trang.Nó ghi chú về số lần mỗi từ xuất hiện, cho dù các từ có được tính theo một số cách nhất định, có thể dựa trên kích thước, vị trí hoặc đánh dấu HTML và quyết định các từ có liên quan như thế nào dựa trên các liên kết đi vào trang vàTrên bối cảnh chung của trang.Sau đó, các công cụ tìm kiếm phải trọng lượng giá trị của mỗi trang và giá trị của mỗi trang cho các từ xuất hiện trên đó.Đây là phần khó nhất của những gì một công cụ tìm kiếm phải làm, nhưng cũng quan trọng nhất.Ở cấp độ đơn giản nhất, một công cụ tìm kiếm có thể đơn giản theo dõi từng từ trên trang và ghi lại trang đó có liên quan đến các tìm kiếm với từ khóa đó.Điều này sẽ không làm được nhiều điều tốt cho hầu hết người dùng, tuy nhiên, những gì mong muốn là trang phù hợp nhất cho truy vấn tìm kiếm của họ.Vì vậy, các công cụ tìm kiếm khác nhau đưa ra những cách khác nhau có tầm quan trọng trọng số. Các thuật toán mà các công cụ tìm kiếm khác nhau sử dụng được bảo vệ tốt, để ngăn chặn mọi người tạo ra các trang để có được thứ hạng tốt hơn hoặc ít nhất là để hạn chế mức độ mà họ có thể làmcái đó.Sự khác biệt này là lý do tại sao các công cụ tìm kiếm khác nhau mang lại kết quả khác nhau cho cùng một điều khoản.Google có thể xác định rằng một trang là kết quả tốt nhất cho một thuật ngữ tìm kiếm và yêu cầu có thể xác định rằng cùng một trang thậm chí không nằm trong top 50. Tất cả chỉ dựa trên cách chúng đánh giá cao các liên kết trong và nước ngoài, mật độ của các từ khóa mà chúngTìm thấy sự quan trọng, cách chúng đánh giá các từ khác nhau của các từ và bất kỳ số lượng yếu tố nhỏ hơn. Xu hướng mới nhất trong các công cụ tìm kiếm và có khả năng là tương lai của tìm kiếm nói chung, là chuyển từ các tìm kiếm dựa trên từ khóa sang các tìm kiếm dựa trên khái niệm.Trong hình thức tìm kiếm mới này, thay vì giới hạn tìm kiếm các từ khóa mà trình tìm kiếm nhập, công cụ tìm kiếm cố gắng tìm ra những từ khóa đó có nghĩa là gì, để nó có thể đề xuất các trang không bao gồm từ chính xác, nhưng dù saoTìm kiếm.Đây vẫn là một lĩnh vực đang phát triển, nhưng cho đến nay dường như có rất nhiều tiềm năng trong việc làm cho các tìm kiếm phù hợp hơn, làm cho web trở thành một nơi thậm chí còn dễ dàng hơn để tìm thấy chính xác những gì bạn đang tìm kiếm.