Crawling (Quét web) là gì?

Crawling (Crawling) là quá trình mà công cụ tìm kiếm hoặc trình thu thập dữ liệu web (còn được gọi là robot, spider) tự động duyệt qua các trang web trên internet và thu thập thông tin . Thông qua quá trình này, công cụ tìm kiếm hiểu và lập chỉ mục nội dung của vô số trang web trên internet, từ đó phản ánh vào kết quả tìm kiếm. Sau đây là giải thích chi tiết về khái niệm và quy trình crawling.

Robot quét web ảo - Nguồn:ChatGPT4

Khái niệm Crawling

Trình thu thập dữ liệu web (Web Crawler): Là phần mềm hoặc bot thực hiện crawling. Trình thu thập dữ liệu truy cập vào một trang web cụ thể, theo dõi các liên kết và thu thập cũng như phân tích nội dung của trang.

Lập chỉ mục (Indexing): Là quá trình lưu trữ nội dung của các trang web đã thu thập được thông qua crawling vào cơ sở dữ liệu của công cụ tìm kiếm. Trong quá trình này, công cụ tìm kiếm sẽ phân tích nội dung, siêu dữ liệu, từ khóa và cấu trúc liên kết của từng trang.

Sitemap: Là tệp mô tả cấu trúc và các trang của trang web. Trình thu thập dữ liệu tham khảo sitemap để crawl các trang của trang web một cách hiệu quả.

Quy trình Crawling

Trang bắt đầu: Trình thu thập dữ liệu thường bắt đầu từ một trang web hoặc tên miền gốc đã biết. Trang này được dùng làm điểm xuất phát cho quá trình crawling.

Theo dõi liên kết: Trình thu thập dữ liệu theo dõi các liên kết trong trang web và di chuyển đến các trang khác thông qua các liên kết này. Quá trình crawling diễn ra bằng cách theo dõi mối quan hệ kết nối giữa các trang web.

Thu thập nội dung: Trình thu thập dữ liệu thu thập văn bản, hình ảnh, siêu dữ liệu,... của từng trang. Thông tin này được lưu trữ trong chỉ mục của công cụ tìm kiếm và được sử dụng để tạo ra kết quả tìm kiếm.

Lặp lại: Trình thu thập dữ liệu tiếp tục crawl nhiều trang, phát hiện các liên kết mới và thu thập thêm các trang.

Ví dụ về Crawling

Công cụ tìm kiếm Google : Google crawl toàn bộ web để tạo ra kết quả tìm kiếm. Google sử dụng nhiều trình thu thập dữ liệu khác nhau và thông tin đã crawl được chuyển đổi thành dữ liệu có thể tìm kiếm thông qua quy trình lập chỉ mục của Google.

Crawling chuyên ngành : Ngoài ra còn có các trình thu thập dữ liệu chuyên biệt cho một chủ đề hoặc ngành cụ thể. Ví dụ như Google Scholar (Google Scholar) crawl bài báo khoa học, trang web bất động sản crawl thông tin bất động sản,...

Trang web so sánh giá : Trình thu thập dữ liệu thu thập thông tin giá cả từ các cửa hàng trực tuyến để cung cấp dịch vụ so sánh giá. Ví dụ, crawl thông tin sản phẩm từ nhiều cửa hàng trực tuyến khác nhau để giúp người dùng tìm thấy mức giá tốt nhất.

※ Tại Hàn Quốc, bạn có thể tham khảo ví dụ về "Naver Shopping" khi tìm kiếm, nơi hiển thị thông tin từ nhiều trang web mua sắm khác nhau, không chỉ riêng "Naver". Trang web "Danawa" cũng tương tự như vậy.

Crawling mạng xã hội : Có thể crawl thông tin công khai trên mạng xã hội để sử dụng cho việc phân tích xu hướng, xây dựng chiến lược tiếp thị, ... Ví dụ, có các công cụ thu thập và phân tích thông tin về một hashtag hoặc chủ đề cụ thể trên Twitter.

Crawling là một công nghệ cốt lõi giúp các dịch vụ web khác nhau, bao gồm cả công cụ tìm kiếm, trở nên khả thi. Tuy nhiên, khi crawl, cần tuân thủ các tiêu chuẩn loại trừ robot của trang web (Robots.txt) và các quy định về bảo mật thông tin cá nhân.

Khái niệm Crawling

Quy trình Crawling

Ví dụ về Crawling

Bình luận0