Trong SEO, Crawl (hay còn gọi là quá trình thu thập dữ liệu) là hoạt động mà các bot của công cụ tìm kiếm - được biết đến với tên gọi web crawler, spider hoặc robot - thực hiện để khám phá và thu thập nội dung trên website một cách có hệ thống.
Quá trình crawling không chỉ giới hạn ở văn bản mà còn bao gồm tất cả các loại nội dung khác nhau như hình ảnh, video, tài liệu PDF và các định dạng file mà bot có thể truy cập được. Tuy nhiên, điều quan trọng cần lưu ý là nội dung chỉ có thể được phát hiện thông qua các liên kết (links).
Điều này có nghĩa là nếu một trang web hoặc nội dung không có liên kết nào dẫn đến, các bot sẽ không thể tìm thấy và thu thập thông tin từ đó. Chính vì vậy, việc xây dựng cấu trúc liên kết nội bộ hợp lý và đảm bảo mọi nội dung quan trọng đều có thể truy cập được thông qua liên kết là yếu tố then chốt trong chiến lược SEO.
Crawling là bước đầu tiên và quan trọng nhất trong quy trình hoạt động của công cụ tìm kiếm, mở đường cho các giai đoạn tiếp theo như indexing (lập chỉ mục) và ranking (xếp hạng).
Trái với quan điểm phổ biến, Google không hướng đến việc crawl và lập chỉ mục toàn bộ nội dung của tất cả website trên internet. Việc crawl một trang web không được đảm bảo tuyệt đối. Thực tế, hầu hết các website đều có một phần đáng kể các trang chưa bao giờ được Googlebot crawl.
Nếu bạn thấy thông báo loại trừ "Discovered – currently not indexed" trong báo cáo page indexing của Google Search Console, điều này có nghĩa là vấn đề đang ảnh hưởng đến website của bạn. Tuy nhiên, ngay cả khi không thấy thông báo này, không có nghĩa là bạn không gặp vấn đề về crawling.
Có một quan niệm sai lầm phổ biến về các chỉ số có ý nghĩa khi đo lường crawling. Các chuyên gia SEO thường tập trung vào crawl budget - khái niệm này đề cập đến số lượng URL mà Googlebot có thể và muốn crawl trong một khung thời gian cụ thể cho một website nhất định.
Khái niệm này thúc đẩy việc tối đa hóa crawling, được củng cố thêm bởi báo cáo crawl status trong Google Search Console hiển thị tổng số yêu cầu crawl. Tuy nhiên, ý tưởng rằng crawl nhiều hơn sẽ tốt hơn là hoàn toàn sai lầm. Tổng số lần crawl chỉ là một chỉ số phù phiếm.
Việc tăng số lần crawl lên 10 lần mỗi ngày không nhất thiết tương quan với việc lập chỉ mục nhanh hơn cho nội dung bạn quan tâm. Điều duy nhất nó mang lại là tạo thêm tải cho server và khiến bạn tốn thêm chi phí.
Trọng tâm không bao giờ nên là tăng tổng lượng crawling, mà là chất lượng crawling mang lại giá trị SEO.
Crawling chất lượng có nghĩa là rút ngắn thời gian giữa việc xuất bản hoặc cập nhật đáng kể một trang có liên quan đến SEO và lần truy cập tiếp theo của Googlebot. Khoảng thời gian chậm trễ này chính là crawl efficacy (hiệu quả crawl).
Để xác định crawl efficacy, phương pháp được khuyến nghị là trích xuất giá trị datetime tạo hoặc cập nhật từ cơ sở dữ liệu và so sánh với timestamp của lần crawl tiếp theo bởi Googlebot trong các file log server.
Nếu không thể thực hiện được, bạn có thể cân nhắc tính toán bằng cách sử dụng ngày lastmod trong XML sitemap và định kỳ truy vấn các URL liên quan bằng Search Console URL Inspection API cho đến khi nó trả về trạng thái crawl cuối cùng.
Bằng cách định lượng khoảng thời gian chậm trễ giữa xuất bản và crawling, bạn có thể đo lường tác động thực sự của các tối ưu hóa crawl với một chỉ số thực sự quan trọng.
Khi crawl efficacy giảm, nội dung mới hoặc đã cập nhật có liên quan đến SEO sẽ được hiển thị nhanh hơn cho khán giả trên các bề mặt Google. Nếu điểm crawl efficacy của website cho thấy Googlebot mất quá nhiều thời gian để truy cập nội dung quan trọng, bạn có thể làm gì để tối ưu hóa crawling?
Web crawler hoạt động thông qua một quy trình có hệ thống bao gồm việc khám phá URL và tải xuống nội dung trang web. Trong quá trình này, bot sẽ chuyển nội dung thu thập được đến chỉ mục của công cụ tìm kiếm và trích xuất các liên kết dẫn đến những trang web khác.
Các liên kết được phát hiện sẽ được phân loại thành nhiều nhóm khác nhau:
URL mới là những liên kết chưa được công cụ tìm kiếm biết đến trước đó. Đây là những phát hiện quan trọng giúp mở rộng cơ sở dữ liệu của search engine.
URL đã biết nhưng không có hướng dẫn crawling sẽ được revisit định kỳ để xác định xem nội dung trang có thay đổi gì không, từ đó quyết định có cần cập nhật chỉ mục hay không.
URL đã biết và đã được cập nhật với hướng dẫn rõ ràng sẽ được crawl và lập chỉ mục lại, ví dụ như thông qua timestamp last modified trong XML sitemap.
URL đã biết nhưng không có cập nhật với hướng dẫn rõ ràng sẽ không được crawl lại, chẳng hạn như khi nhận được HTTP 304 Not Modified response header.
URL không thể truy cập bao gồm những liên kết nằm sau form đăng nhập hoặc bị chặn bởi thẻ robots "nofollow".
URL bị cấm là những liên kết mà bot không được phép crawl, như những URL bị chặn trong file robots.txt.
Tất cả URL được phép truy cập sẽ được thêm vào danh sách các trang cần truy cập trong tương lai, được gọi là crawl queue (hàng đợi crawl). Tuy nhiên, chúng sẽ được gán các mức độ ưu tiên khác nhau dựa trên không chỉ phân loại liên kết mà còn một loạt các yếu tố khác quyết định tầm quan trọng tương đối của mỗi trang trong "con mắt" của từng công cụ tìm kiếm.
Hầu hết các công cụ tìm kiếm phổ biến đều có bot riêng sử dụng thuật toán cụ thể để xác định nội dung nào cần crawl và thời điểm thực hiện. Điều này có nghĩa là không phải tất cả bot đều crawl giống nhau. Googlebot hoạt động khác biệt so với Bingbot, DuckDuckBot, Yandex Bot, hay Yahoo Slurp, do đó việc hiểu rõ đặc điểm của từng bot sẽ giúp tối ưu hóa website hiệu quả hơn.
Bên cạnh các bot truyền thống, thời gian gần đây chúng ta còn chứng kiến sự xuất hiện của các bot từ các công cụ AI và chatbot:
GPTBot của OpenAI được sử dụng để thu thập dữ liệu huấn luyện cho các mô hình ngôn ngữ lớn như ChatGPT. Bot này có thể được kiểm soát thông qua robots.txt với user-agent "GPTBot".
Bard/Gemini Bot của Google thu thập dữ liệu để cải thiện khả năng phản hồi của chatbot Bard (nay là Gemini), thường hoạt động song song với Googlebot nhưng có mục đích khác biệt.
ClaudeBot của Anthropic crawl nội dung web để hỗ trợ việc cải thiện hiệu suất và độ chính xác của Claude AI.
Các bot AI khác như FacebookBot (Meta AI), Applebot-Extended, và CCBot (Common Crawl) cũng đang ngày càng hoạt động tích cực hơn.
Điều đặc biệt cần lưu ý là các bot AI này thường có tần suất crawl cao hơn và có thể tạo ra lượng traffic đáng kể đến website. Chính vì vậy, việc hiểu rõ đặc điểm của từng loại bot - từ truyền thống đến AI - sẽ giúp bạn tối ưu hóa website hiệu quả hơn và quản lý băng thông server một cách hợp lý.
Crawling đóng vai trò như viên đá tảng của SEO - khả năng hiển thị tự nhiên của website hoàn toàn phụ thuộc vào việc quá trình này được thực hiện tốt hay không.
Nếu một trang web không được crawl, nó sẽ không được xếp hạng trong kết quả tìm kiếm vì khả năng được lập chỉ mục là rất thấp. Đây là quy luật cơ bản nhất: không có crawling thì không có ranking.
Crawling nhanh chóng là yếu tố then chốt đối với những nội dung có giới hạn thời gian. Nếu không được crawl và hiển thị kịp thời, nội dung sẽ trở nên không còn liên quan đến người dùng.
Ví dụ điển hình như tin tức nóng của tuần trước, sự kiện đã qua, hoặc sản phẩm đã hết hàng sẽ không còn thu hút được sự quan tâm của khán giả. Trong những trường hợp này, thời gian là yếu tố quyết định thành công hay thất bại của chiến lược nội dung.
Dù bạn không làm việc trong ngành mà thời gian đưa ra thị trường là yếu tố then chốt, crawling nhanh vẫn luôn mang lại lợi ích. Khi bạn cập nhật một bài viết hoặc thực hiện thay đổi SEO on-page quan trọng, Googlebot crawl càng nhanh thì bạn càng sớm thấy được kết quả từ việc tối ưu hóa - hoặc phát hiện sai sót để kịp thời khắc phục.
Bạn không thể áp dụng nguyên tắc "fail fast" (thất bại nhanh để học hỏi) nếu Googlebot crawl chậm chạp. Tốc độ crawling ảnh hưởng trực tiếp đến khả năng thử nghiệm, đo lường và điều chỉnh chiến lược SEO một cách linh hoạt.
Crawling chính là nền tảng của mọi hoạt động SEO. Nếu quá trình này không được tối ưu hóa đúng cách, mọi nỗ lực khác trong chiến lược SEO của bạn sẽ không thể phát huy hết tiềm năng.
Có năm chiến thuật quan trọng có thể tạo ra sự khác biệt đáng kể cho crawl efficacy của website:
Server hiệu suất cao là yếu tố then chốt. Server phải có khả năng xử lý lượng crawling mà Googlebot muốn thực hiện mà không gây tác động tiêu cực đến thời gian phản hồi hoặc gây ra lỗi.
Kiểm tra trạng thái host của website trong Google Search Console để đảm bảo hiển thị màu xanh, lỗi 5xx dưới 1%, và thời gian phản hồi server duy trì dưới 300 mili giây. Những chỉ số này sẽ giúp Googlebot crawl website một cách mượt mà và hiệu quả.
Khi phần lớn nội dung website có chất lượng thấp, lỗi thời hoặc trùng lặp, điều này sẽ khiến crawler chuyển hướng từ việc truy cập nội dung mới hoặc vừa cập nhật, đồng thời góp phần gây ra tình trạng index bloat.
Cách nhanh nhất để bắt đầu dọn dẹp là kiểm tra báo cáo pages trong Google Search Console để tìm exclusion 'Crawled – currently not indexed'. Trong mẫu được cung cấp, hãy tìm kiếm các pattern folder hoặc tín hiệu vấn đề khác. Với những vấn đề tìm thấy, hãy khắc phục bằng cách gộp nội dung tương tự với 301 redirect hoặc xóa nội dung bằng 404 tùy theo tình况 phù hợp.
Mặc dù rel=canonical links và noindex tags hiệu quả trong việc giữ cho Google index của website tối ưu, chúng lại tốn kém về mặt crawling. Mặc dù đôi khi điều này là cần thiết, hãy cân nhắc xem những trang như vậy có cần được crawl ngay từ đầu hay không. Nếu không, hãy chặn Google ngay từ giai đoạn crawling bằng robot.txt disallow.
Tìm các trường hợp mà việc chặn crawler có thể tốt hơn việc đưa ra hướng dẫn indexing bằng cách xem trong báo cáo coverage của Google Search Console về các exclusion từ canonical hoặc noindex tags.
Ngoài ra, hãy xem xét mẫu của 'Indexed, not submitted in sitemap' và 'Discovered – currently not indexed' URLs trong Google Search Console. Tìm và chặn các route không liên quan đến SEO như:
Trang parameter (ví dụ: ?sort=oldest)
Trang chức năng (như "giỏ hàng")
Không gian vô hạn (như những trang được tạo bởi calendar pages)
Hình ảnh, script hoặc file style không quan trọng
API URLs
Bạn cũng nên xem xét cách chiến lược phân trang đang ảnh hưởng đến crawling.
XML sitemap được tối ưu hóa là công cụ hiệu quả để hướng dẫn Googlebot đến các URL có liên quan đến SEO.
Tối ưu hóa có nghĩa là sitemap cập nhật động với độ trễ tối thiểu và bao gồm ngày và giờ chỉnh sửa cuối cùng để thông báo cho công cụ tìm kiếm biết khi nào trang được thay đổi đáng kể và có nên crawl lại hay không.
Chúng ta biết rằng crawling chỉ có thể xảy ra thông qua liên kết. XML sitemap là nơi tuyệt vời để bắt đầu; liên kết ngoài rất mạnh mẽ nhưng khó xây dựng hàng loạt với chất lượng cao.
Mặt khác, liên kết nội bộ tương đối dễ mở rộng quy mô và có tác động tích cực đáng kể đến crawl efficacy. Tập trung đặc biệt vào navigation mobile toàn site, breadcrumb, quick filter và liên kết nội dung liên quan - đảm bảo không có liên kết nào phụ thuộc vào Javascript.
Crawling là nền tảng không thể thiếu của SEO hiệu quả. Bằng cách áp dụng đúng các chiến lược tối ưu hóa - từ đảm bảo server ổn định, loại bỏ nội dung không có giá trị, hướng dẫn Googlebot crawl đúng nội dung, tối ưu sitemap.xml đến xây dựng liên kết nội bộ - bạn sẽ cải thiện đáng kể crawl efficacy của website.
Hãy nhớ rằng, mục tiêu không phải là tăng số lượng crawl mà là chất lượng crawling. Khi Googlebot có thể crawl nội dung quan trọng nhanh chóng và hiệu quả, website của bạn sẽ có cơ hội tốt hơn để đạt được thứ hạng cao trên kết quả tìm kiếm.
Vinalink Academy hy vọng bài viết này đã giúp bạn hiểu rõ về crawling và cách tối ưu hóa quá trình này. Hãy bắt đầu triển khai những chiến lược này ngay hôm nay để nâng cao hiệu quả SEO của website!