Tìm hiểu về hoạt động của các công cụ tìm kiếm

Tìm hiểu về hoạt động của các công cụ tìm kiếm Internet và World Wide Web có đến hàng trăm triệu website có sẵn mang các thông tin về nhiều chủ đề khác nhau. Tuy nhiên hầu hết chúng đều được đặt tiêu đề theo ý thích của tác giả, và được đặt trên máy chủ với các tên khó hiểu. Khi bạn cần biết về một chủ đề nào thì sẽ phải đọc các trang nào? Phần lớn mọi người khi băn khoăn về vấn đề này họ sẽ sử dụng một công cụ tìm kiếm trên Internet (Internet search engine).

Search engine trên Internet là các site đặc biệt trên web, được thiết kế để giúp mọi người tìm kiếm thông tin được lưu trên các site khác nhau. Có nhiều cách khác nhau trong cách tìm kiếm này, nhưng tất cả chúng đều thực hiện ba nhiệm vụ cơ bản:

Tìm kiếm Internet – hoặc chọn các mẩu thông tin trên Internet – dựa trên các từ quan trọng

Giữ một chỉ mục cho các từ tìm thấy cùng với địa chỉ tìm thấy chúng

Cho phép người dùng tìm kiếm các từ hoặc cụm từ được tìm kiếm trong chỉ mục đó.
Các cỗ máy tìm kiếm trước kia đều giữ chỉ mục của hàng trăm ngàn trang web và tài liệu, chúng thường nhận có thể một hoặc hai nghìn yêu cầu tìm kiếm mỗi ngày. Ngày nay, cỗ máy tìm kiếm hàng đầu đánh chỉ mục hàng trăm triệu trang và đáp trả đến hàng chục triệu yêu cầu mỗi ngày. Trong bài này chúng tôi muốn giới thiệu về các nhiệm vụ chính sẽ được thực hiện như thế nào, và cách các cỗ máy tìm kiếm này sẽ xử lý như thế nào để cho phép bạn tìm thông tin cần thiết trên web.

Xem xét Web

Khi hầu hết mọi người nói về các cỗ máy tìm kiếm Internet, họ đều cho đó là cỗ máy tìm kiếm World Wide Web. Tuy nhiên trước khi Web trở thành phần dễ thấy nhất của Internet thì thực sự đã có các cỗ máy tìm kiếm để giúp mọi người có thể tìm được các thông tin trên mạng. Các chương trình với những cái tên như "gopher" và "Archie" đã giữ chỉ số của các file được lưu trên máy chủ kết nối với Internet, đã giảm được một cách rõ rệt số lượng thời gian cần thiết để tìm kiếm các chương trình và tài liệu. Vào những năm cuối thập kỷ 80, việc có được các giá trị quan trọng từ Internet có nghĩa là biết cách sử dụng gopher, Archie, Veronica và một số chương trình tương tự khác.

Ngày nay, hầu hết người dùng Internet chưa hiểu nhiều về cách tìm kiếm của họ trên Web, chính vì vậy chúng tôi sẽ giới thiệu vấn đề này bằng cách tập trung vào nội dung của các trang web.

Khởi đầu

Trước khi cỗ máy tìm kiếm có thể cho bạn biết về nơi một file hoặc tài liệu nào đó được lưu trữ thì nó phải tìm ra được chúng. Để tìm các thông tin trên hàng trăm triệu trang web đang tồn tại, mỗi một cỗ máy tìm kiếm phải sử dụng đến các robot phần mềm đặc biệt, các robot phần mềm này được gọi là spider (con nhện), để thành lập danh sách các từ tìm thấy trong các website. Quá trình spider xây dựng danh sách được gọi là Web crawling. Để tạo và duy trì một danh sách hữu dụng cho việc tìm kiếm thì spider của cỗ máy tìm kiếm phải xem được nội dung của các trang web.

Vậy cách spider thực hiện công việc của nó trên Web như thế nào? Điểm khởi đầu là danh sách các máy chủ và trang web phổ biến. Spider sẽ bắt đầu với một site phổ biến nào đó, đánh chỉ mục các từ trên trang của nó và theo các liên kết tìm thấy bên trong site này. Theo cách này, hệ thống Spider sẽ nhanh chóng thực hiện công việc của nó và trải rộng ra toàn bộ các phần được sử dụng rộng rãi nhất của web.

Spider lấy nội dung của trang web và tạo các từ khóa tìm kiếm để cho phép
người dùng trực tuyến có thể tìm các trang mong muốn.

Google.com bắt đầu như một cỗ máy tìm kiếm của trường đại học. Trong bài viết mô tả về cách hệ thống được xây dựng như thế nào, Sergey Brin và Lawrence Page đã lấy một ví dụ về spider của họ có thể làm việc nhanh đến cỡ nào. Họ đã xây dựng hệ thống ban đầu để có thể sử dụng nhiều spider, thường là có đến 3 spiders hoạt động đồng thời. Mỗi Spider có thể giữ tới khoảng 300 kết nối với các trang web mỗi thời điểm. Với hiệu suất đỉnh của nó, sử dụng đến 4 Spider, hệ thống của họ có thể tìm thêm trên 100 trang mỗi giây, tạo ra khoảng 600KB dữ liệu mỗi giây.

Việc giữ được tốc độ tìm kiếm nhanh cũng có nghĩa phải xây dựng hệ thống có thể cung cấp được các thông tin cần thiết cho Spider. Hệ thống Google trước kia có một máy chủ chuyên dụng dùng để cung cấp các URL cho Spider. Thay cho việc phụ thuộc vào nhà cung cấp dịch vụ về DSN để dịch tên của máy chủ thành địa chỉ, Google đã có DSN của chính họ để độ giữ chậm diễn ra chỉ trong khoảng thời gian tối thiểu.

Khi Spider của Google xem các trang HTML, nó lưu ý hai thứ:

Các từ bên trong trang
Nơi tìm thấy các từ
Các từ xuất hiện trong tiêu đề, phụ đề, các thẻ meta và các phần quan trọng khác có liên quan được lưu ý bằng những xem xét đặc biệt cho những tìm kiếm của người dùng sau đó. Spider của Google đã được xây dựng để có thể đánh chỉ mục mọi từ quan trọng trên một trang và chỉ để lại các mạo từ như "a," "an" và "the". Các Spider khác lại sử dụng các phương pháp khác.

Các phương pháp khác mà Spider áp dụng thường là cố gắng làm cho hệ thống của Spider diễn ra nhanh hơn, cho phép người dùng có thể tìm kiếm hiệu quả hơn, hoặc cả hai. Ví dụ, một số Spider giữ liên hệ với các từ trong tiêu đề, các heading nhỏ và liên kết, cùng với 100 từ thường được sử dụng trên trang và các từ trong 20 dòng đầu tiên của văn bản.

quynhduan

Member

Tìm hiểu về hoạt động của các công cụ tìm kiếm

CẨM NANG KẾ TOÁN TRƯỞNG

KÊNH YOUTUBE DKT

SÁCH QUYẾT TOÁN THUẾ