Mọi người có thể tìm thấy doanh nghiệp của bạn khi các trang Web của bạn được Google lập chỉ mục. Chính vì vậy, việc được Google lập chỉ mục đóng một vai trò vô cùng quan trọng, ảnh hưởng đến doanh thu của doanh nghiệp. Tuy nhiên, nhiều trang Web lại không bao giờ được Google lập chỉ mục.
Nếu bạn làm việc với một trang web, đặc biệt là với một trang web lớn, bạn có thể nhận thấy rằng không phải mọi trang trên trang web này đều được lập chỉ mục và có rất nhiều trang phải đợi đến hàng tuần hay hàng tháng thì mới được Google lập chỉ mục.
Nhiều yếu tố khác nhau góp phần tác động vào vấn đề lập chỉ mục này như là chất lượng nội dung và liên kết. Các SEOer hiện nay tin rằng chính những kỹ thuật đã ngăn Google lập chỉ mục nội dung. Tuy nhiên, quan niệm này không hoàn toàn đúng. Mặc dù đúng là Google có thể không tiến hành lập chỉ mục các trang của bạn, nếu bạn không gửi các tín hiệu kỹ thuật nhất quán về những trang mà bạn muốn lập chỉ mục, điều quan trọng ở đây chính là bạn phải nhất quán với chất lượng nội dung của mình.
Hầu hết các trang web, cho dù lớn hay nhỏ thì đều có rất nhiều nội dung cần được lập chỉ mục. Và JavaScript làm cho việc lập chỉ mục trở nên phức tạp hơn, tuy nhiên, trang web của bạn cũng có thể gặp phải các vấn đề nghiêm trọng về lập chỉ mục ngay cả khi nó được viết bằng HTML thuần túy. Trong bài viết dưới này, chúng ta sẽ cùng nhau đi giải quyết một số vấn đề phổ biến nhất, khiến cho trang Web của bạn không được Google lập chỉ mục và cách giảm thiểu chúng.
Lý do tại sao Google không tiến hành lập chỉ mục các trang của bạn.
Sử dụng công cụ kiểm tra lập chỉ mục tùy chỉnh, chúng tôi đã tiến hành kiểm tra một lượng lớn các cửa hàng thương mại điện tử phổ biến nhất ở Hoa Kỳ, để tìm ra các vấn đề về lập chỉ mục. Và chúng tôi phát hiện ra rằng trung bình không thể tìm thấy 15% trang sản phẩm của họ được lập chỉ mục trên Google.
Google Search Console báo cáo một số trạng thái cho các trang chưa được lập chỉ mục, chẳng hạn như “Đã thu thập thông tin – hiện chưa được lập chỉ mục” hoặc “Đã phát hiện – hiện chưa được lập chỉ mục”. Mặc dù thông tin này không giúp giải quyết vấn đề một cách rõ ràng, nhưng đây chính là thông tin tốt để bạn tìm ra nguyên nhân.
Các vấn đề về lập chỉ mục hàng đầu.
Dựa trên một lượng lớn các trang web mà chúng tôi đã thu thập, các vấn đề lập chỉ mục phổ biến nhất được Google Search Console báo cáo là:
- “Đã thu thập thông tin – hiện chưa được lập chỉ mục”
Trong trường hợp này, Google đã truy cập một trang nhưng không tiến hành lập chỉ mục trang đó.
Theo kinh nghiệm của tôi, đây thường là về vấn đề chất lượng nội dung. Với sự bùng nổ thương mại điện tử hiện đang diễn ra, Google sẽ ngày càng trở nên kén chọn hơn khi nói đến chất lượng. Vì vậy, nếu bạn nhận thấy các trang của mình “Đã được thu thập thông tin – hiện chưa được lập chỉ mục”, hãy đảm bảo rằng nội dung trên các trang đó hiện có giá trị duy nhất:
- Sử dụng tiêu đề, mô tả độc đáo.
- Tránh sao chép mô tả sản phẩm từ các nguồn bên ngoài.
- Sử dụng các thẻ chuẩn để hợp nhất nội dung trùng lặp.
- Chặn Google thu thập dữ liệu hoặc lập chỉ mục các trang có chất lượng thấp trên trang web của bạn bằng cách sử dụng tệp robots.txt hoặc thẻ noindex.
- “Đã khám phá – hiện chưa được lập chỉ mục”
Đây là vấn đề lớn, vì nó có thể bao gồm mọi thứ, từ vấn đề thu thập thông tin cho đến chất lượng nội dung không đủ. Đặc biệt là trong trường hợp của các cửa hàng thương mại điện tử lớn, với hàng chục triệu URL trên một trang web.
Google có thể báo cáo rằng các trang sản phẩm thương mại điện tử “Đã được khám phá – hiện chưa được lập chỉ mục” vì:
- Vấn đề về ngân sách thu thập thông tin: có thể có quá nhiều URL trong hàng đợi thu thập thông tin và những URL này có thể được thu thập thông tin và lập chỉ mục sau đó.
- Vấn đề về chất lượng: Google có thể nghĩ rằng một số trang trong Website đó không đáng để tiến hành thu thập thông tin và quyết định không truy cập chúng bằng cách tìm kiếm một mẫu trong URL của chúng.
Nếu bạn phát hiện ra rằng các trang của mình đang gặp vấn đề là “Đã khám phá – hiện chưa được lập chỉ mục”, hãy làm như sau:
- Xác định xem có những mẫu trang nào thuộc danh mục này không. Có thể vấn đề liên quan đến một danh mục sản phẩm cụ thể và toàn bộ danh mục không được liên kết nội bộ. Hoặc có thể một phần lớn các trang sản phẩm đang được đợi trong hàng đợi để tiến hành lập chỉ mục.
- Tối ưu hóa ngân sách thu thập thông tin của bạn. Tập trung vào việc phát hiện các trang có chất lượng thấp mà Google dành nhiều thời gian để thu thập thông tin. Các trang này thông thường bao gồm các trang danh mục được lọc và các trang tìm kiếm nội bộ, trên các thương mại điện tử có hàng chục triệu trang như thế này. Nếu Googlebot có thể tự do thu thập dữ liệu chúng, nó có thể không có đủ tài nguyên để truy cập những nội dung có giá trị trên trang web của bạn, để tiến hành lập chỉ mục trong Google.
- “Nội dung trùng lặp”.
Vấn đề nội dung trùng lặp này có thể do nhiều lý do khác nhau, chẳng hạn như:
- Các biến thể ngôn ngữ (ví dụ: ngôn ngữ tiếng Anh ở Vương quốc Anh, Hoa Kỳ hoặc Canada). Nếu bạn có một trang được nhắm mục tiêu đến các quốc gia khác nhau, một số trang này có thể không được Google lập chỉ mục.
- Nội dung trùng lặp được sử dụng bởi đối thủ cạnh tranh của bạn. Điều này thường xảy ra trong ngành thương mại điện tử, khi một số trang web sử dụng cùng một mô tả sản phẩm do các nhà sản xuất cung cấp.
Bên cạnh việc sử dụng rel = canonical, chuyển hướng 301 hoặc tạo nội dung độc đáo, chúng ta nên tập trung vào việc cung cấp các giá trị hữu ích cho người dùng. Fast-growing-trees.com sẽ là một ví dụ hoàn hảo, thay vì mô tả nhàm chán và các mẹo về trồng và tưới nước, trang web cho phép bạn xem một cách chi tiết các Câu hỏi thường gặp về nhiều sản phẩm. Ngoài ra, bạn có thể dễ dàng so sánh giữa các sản phẩm tương tự với nhau.
Đối với nhiều sản phẩm, nó cung cấp Câu hỏi thường gặp. Ngoài ra, các khách hàng còn có thể đặt một câu hỏi chi tiết về một loại cây và nhận được câu trả lời từ cộng đồng.
Cách kiểm tra mức độ phù hợp chỉ mục của trang web của bạn.
Bạn có thể dễ dàng kiểm tra xem có bao nhiêu trang trong trang web của mình không được lập chỉ mục bằng cách mở báo cáo Trạng thái lập chỉ mục trong Google Search Console. Điều đầu tiên bạn nên xem ở đây là số lượng trang bị loại trừ. Sau đó, cố gắng tìm một mẫu – những loại trang nào đang không được lập chỉ mục.
Nếu bạn sở hữu một cửa hàng thương mại điện tử, hầu hết bạn sẽ thấy các trang sản phẩm chưa được lập chỉ mục. Mặc dù đây luôn phải là một dấu hiệu cảnh báo, nhưng bạn cũng không thể mong đợi tất cả các trang sản phẩm của mình được lập chỉ mục, đặc biệt là đối với một trang web lớn.
Ví dụ: một cửa hàng thương mại điện tử lớn nhất định sẽ có các trang trùng lặp và các sản phẩm hết hạn hoặc hết hàng. Các trang này có thể có chất lượng kém khiến cho chúng luôn phải đứng ở hàng đợi lập chỉ mục của Google.
Ngoài ra, các trang web thương mại điện tử lớn có xu hướng gặp vấn đề về ngân sách thu thập thông tin. Tôi đã thấy các trường hợp cửa hàng thương mại điện tử có hơn một triệu sản phẩm, trong khi 90% trong số đó được phân loại là “Đã khám phá – hiện chưa được lập chỉ mục”. Tuy nhiên, nếu bạn thấy rằng các trang quan trọng của mình đang bị loại khỏi chỉ mục của Google, thì bạn phải quan tâm tới nó nhiều hơn.
Cách gia tăng xác suất Google lập chỉ mục các trang của bạn.
Mỗi trang web đều khác nhau và có thể bị các vấn đề lập chỉ mục khác nhau. Tuy nhiên, dưới đây là một số phương pháp hay nhất để giúp các trang của bạn được lập chỉ mục một cách nhanh chóng:
- Tránh các tín hiệu “Soft 404”.
Đảm bảo rằng các trang của bạn không chứa bất kỳ thứ gì có thể biểu thị sai trạng thái “soft 404”. Điều này bao gồm bất kỳ điều gì từ việc sử dụng “Không tìm thấy” hoặc “Không có sẵn” trong bản sao, cho đến việc có số “404” trong URL.
- Sử dụng liên kết nội bộ để Liên kết.
Liên kết nội bộ là một trong những tín hiệu quan trọng cho Google biết rằng: một trang nhất định là một phần quan trọng của trang web và xứng đáng được lập chỉ mục. Không để lại các trang đơn lẻ trong cấu trúc trang web của bạn và nhớ đưa tất cả các trang có thể lập chỉ mục vào sơ đồ trang web của bạn.
- Thực hiện chiến lược thu thập thông tin hợp lý.
Đừng để Google “tự do” thu thập thông tin trên trang web của bạn. Nếu mất quá nhiều tài nguyên được sử dụng để thu thập thông tin ở các phần ít có giá trị hơn trong trang Web của bạn, thì có thể khiến cho Google mất nhiều thời gian hơn để tìm được nội dung tốt. Hãy tiến hành phân tích nhật ký máy chủ để có thể có một bức tranh đầy đủ nhất về những gì Googlebot thu thập dữ liệu và cách tối ưu hóa nó.
- Loại bỏ nội dung chất lượng thấp và trùng lặp.
Mọi trang web lớn đều có chứa một số trang không nên được tiến hành lập chỉ mục. Để Google không tìm thấy các trang chất lượng kém này hãy sử dụng thẻ noindex và tệp robots.txt một cách thích hợp. Bởi, nếu bạn để Google dành quá nhiều thời gian cho những phần tồi tệ nhất trên trang web của mình, nó có thể sẽ đánh giá thấp chất lượng tổng thể của toàn bộ trang Web.
- Gửi tín hiệu SEO nhất quán.
Một ví dụ phổ biến về việc gửi các tín hiệu SEO không nhất quán tới Google chính là thay đổi các thẻ chuẩn bằng JavaScript. Như Martin Splitt của Google đã đề cập trong “JavaScript SEO Office Hours”, bạn không bao giờ có thể chắc chắn Google sẽ làm gì, nếu bạn có một thẻ chuẩn trong HTML nguồn và một thẻ khác sau khi hiển thị JavaScript.
Websites ngày càng lớn
Trong vài năm qua, Google đã có những bước nhảy vọt trong việc xử lý JavaScript, giúp công việc của những SEOer trở nên dễ dàng hơn. Ngày nay, ít khi thấy các trang web hỗ trợ JavaScript mà không được lập chỉ mục bởi vì nền tảng công nghệ cụ thể mà họ đang sử dụng.
Google nói:
“Google có một số lượng tài nguyên hữu hạn, vì vậy khi đối mặt với số lượng gần như vô hạn nội dung có sẵn trực tuyến, Googlebot chỉ có thể tìm và thu thập thông tin một phần trăm các nội dung đó. Sau đó, trong số nội dung chúng tôi đã thu thập thông tin, chúng tôi chỉ có thể lập chỉ mục một phần.”
Nói cách khác, Google chỉ có thể truy cập một phần của tất cả các trang trên web và lập chỉ mục một phần hay thậm chí còn nhỏ hơn. Và ngay cả khi trang web của bạn tuyệt vời, thì cũng đừng quá lo lắng nếu nó chưa được lập chỉ mục hoàn toàn.
Google có thể sẽ không truy cập mọi trang trong trang web của bạn, ngay cả khi nó có ít tài nguyên. Chính vì vậy, công việc của bạn là đảm bảo rằng Google có thể khám phá và lập chỉ mục các trang cần thiết, quan trọng đối với doanh nghiệp của bạn.
Bài viết được dịch tại Moz và đăng tải duy nhất lên SEOMxh.com
NGUỒN: https://moz.com/blog/why-getting-indexed-is-difficult