Trình thu thập dữ liệu trên web

Trình thu thập dữ liệu web (còn được gọi là trình thu thập dữ liệu web hoặc rô bốt web) là một chương trình hoặc tập lệnh tự động duyệt World Wide Web theo cách thức tự động, có phương pháp.

Quá trình này được gọi là thu thập dữ liệu Web hoặc spidering.

Nhiều trang web hợp pháp, đặc biệt là các công cụ tìm kiếm, sử dụng spidering như một phương tiện cung cấp dữ liệu cập nhật.

Trình thu thập dữ liệu web chủ yếu được sử dụng để tạo một bản sao của tất cả các trang đã truy cập để xử lý sau bởi công cụ tìm kiếm, sẽ lập chỉ mục các trang đã tải xuống để cung cấp các tìm kiếm nhanh.

Trình thu thập thông tin cũng có thể được sử dụng để tự động hóa các tác vụ bảo trì trên một trang Web, chẳng hạn như kiểm tra các liên kết hoặc xác nhận mã HTML.

Ngoài ra, trình thu thập thông tin có thể được sử dụng để thu thập các loại thông tin cụ thể từ các trang Web, chẳng hạn như thu thập địa chỉ email (thường là thư rác).

Lưu ý: Văn bản trên được trích từ bài viết ” Trình thu thập thông tin trên web ” của Wikipedia , đã được phát hành theo Giấy phép Tài liệu Tự do GNU .

Để biết thêm thông tin, hãy xem nội dung liên quan sau đây trên Khoa học Skynet:

Th6 09, 2019

Những bài viết liên quan

Đồng hồ thông minh chống hack

Th6. 09, 2019 — Đồng hồ điện thông minh rất hữu ích vì chúng cho phép các tiện ích năng lượng theo dõi hiệu quả việc sử dụng năng lượng .... xem thêm

Các nhà khoa học tìm thấy mối liên hệ giữa việc sử dụng phương tiện kỹ thuật số và trầm cảm ở thanh thiếu niên Trung Quốc

Th5. 10, 2019 — Theo một nghiên cứu mới, thanh thiếu niên ở Trung Quốc dành nhiều thời gian hơn cho các hoạt động trên màn hình, như xem TV .... xem thêm

Trí thông minh nhân tạo phân tích các nơ-ron nhanh hơn con người

Th4. 15, 2019 — Kỹ thuật mới này, dựa trên việc sử dụng trí thông minh nhân tạo để giải thích các hình ảnh video, giải quyết một rào .... xem thêm

Mini cheetah là robot bốn chân đầu tiên thực hiện cú nhảy lùi

Th3. 25, 2019 — Chỉ nặng 20 pound - nhẹ hơn một số con gà tây trong Lễ Tạ ơn - bộ tứ khập khiễng không có lực đẩy: Khi bị đá xuống .... xem thêm