Trình thu thập dữ liệu web (còn được gọi là trình thu thập dữ liệu web hoặc rô bốt web) là một chương trình hoặc tập lệnh tự động duyệt World Wide Web theo cách thức tự động, có phương pháp.
Quá trình này được gọi là thu thập dữ liệu Web hoặc spidering.
Nhiều trang web hợp pháp, đặc biệt là các công cụ tìm kiếm, sử dụng spidering như một phương tiện cung cấp dữ liệu cập nhật.
Trình thu thập dữ liệu web chủ yếu được sử dụng để tạo một bản sao của tất cả các trang đã truy cập để xử lý sau bởi công cụ tìm kiếm, sẽ lập chỉ mục các trang đã tải xuống để cung cấp các tìm kiếm nhanh.
Trình thu thập thông tin cũng có thể được sử dụng để tự động hóa các tác vụ bảo trì trên một trang Web, chẳng hạn như kiểm tra các liên kết hoặc xác nhận mã HTML.
Ngoài ra, trình thu thập thông tin có thể được sử dụng để thu thập các loại thông tin cụ thể từ các trang Web, chẳng hạn như thu thập địa chỉ email (thường là thư rác).