Google Index là một tính năng SEO quan trọng hàng đầu từ trước đến nay. Để có được lượng truy cập tự nhiên từ các kết quả tìm kiếm đồng thời đạt thứ hạng cao trên bảng xếp hạng, website của bạn phải được Google index trước tiên. Nếu website không được index, kết quả tất yếu là nó sẽ không nhận được bất kỳ lượng truy cập tự nhiên nào bởi không ai có thể tìm thấy nội dung của bạn một cách tự nhiên.
Khi bạn gặp phải tình huống như vậy, bước thứ nhất đó là chẩn đoán được lý do tại sao website lại không thể hiển thị trong kết quả tìm kiếm. Danh sách dưới đây sẽ giúp bạn làm điều này.
Đây là danh sách được thống kê các lý do từ phổ biến nhất đến ít phổ biến. Bạn có thể nghiên cứu danh sách này theo thứ tự từ đầu đến cuối để tìm ra nguyên nhân và cách khắc phục.
Trang web được index theo tên miền www- hoặc không có www-
www. Là tên miền phụ (subdomain). Vì vậy, một tên miền kiểu http://tenmien.com sẽ không giống với http://www.tenmien.com. Chính vì vậy bạn nên chắc chắn rằng cả hai dạng tên miền này đều được submit trong tài khoản Google Webmaster Tools và sẽ được index. Thêm vào đó bạn cũng nên chọn chế độ tên miền chính nhưng phải xác minh cả hai tên miền.
Google chưa kịp dò đến website của bạn
Đây là vấn đề thường xuyên xảy ra với các site mới. Chính vì vậy, bạn không nên quá nóng vội, hãy đợi trong ít nhất là một vài ngày để Google có thời gian thu thập thông tin. Nhưng nếu sau đó mà Google vẫn chưa chịu index cho site của bạn thì bạn nên kiểm tra lại sitemap của mình xem nó đã được cập nhật và hoạt động ổn định không. Nếu bạn chưa tạo hoặc submit một sitemap cho website thì điều này có thể gây ra vấn đề website không thể index được.
Bạn nên yêu cầu Google dò tìm thông tin và index website của bạn. Dưới đây là hướng dẫn của Google từng bước để giúp website index theo đúng cách.\:
- Trong trang chủ Google Search Console Tools, click vào site mà bạn muốn index.
- Trong phần Dashboard, bên dưới mục Crawl, click vào Fetch as Google.
- Trong phân ô điền, đánh phần còn lại của URL mà bạn muốn check
- Trong ô chọn bên dưới, chọn Desktop (bạn cũng có thể chọn dạng khác, tuy nhiên hiện tại chúng ta đang xem xét submit một trang index trên web search)
- Sau đó nhấn Fetch. Google sẽ xem xét URL mà bạn đã yêu cầu. Cần phải mất 10 – 15 giây thì trạng thái của Fetch sẽ được cập nhật (hoặc có thể sớm hơn).
- Một khi bạn nhìn thấy biểu tượng “Successful”, bấm vào Submit to Index, sau đó sẽ hiện ra một ô có hai sự lựa chọn:
- Để submit URL đơn lẻ cho Google Index, chọn mục 1 và click Submit. Bạn có thểl submit tối đa 500 URLs 1 tuần theo cách này.
- Để submit URL bạn chọn và tất cả các liên kết trực tiếp ở trong trang này, chọn mục thứ 2. Bạn có thể submit khoảng 10 yêu cầu như thế này trong 1 tuần.
Website hoặc trang web bị chặn robots.txt
Một vấn đề khá phổ biến nữa khi một website hoặc một trang web không thể index đó là do nó đã chặn robots.txt. Tuy nhiên, lỗi này có thể sửa lại rất dễ dàng. Bạn chỉ cần gỡ bỏ một đoạn trong phần robots.txt và sau đó site sẽ xuất hiện lại trong kết quả tìm kiếm. Tìm hiểu thêm về robots.txt tại đây.
Website không có Sitemap.xml
Tất cả các website đều nên có một sitemap.xml để giúp cho Google dễ dàng hơn trong việc dò quét thông tin có trong website theo một hệ thống đã được sắp xếp trước như bản đồ chẳng hạn. Điều này rất hữu ích cho việc index của website. Bạn có thể đọc các chính sách về Google Sitemap và tạo ra một cái rất dễ dàng.
Nếu bạn đã từng gặp phải các vấn đề liên quan đến Index trên bất cứ phần nào của trang web, bạn nên xem xét lại toàn bộ website và resubmit lại sitemap.xml của mình để thêm phần chắc chắn.
Lỗi thu thập thông tin (Crawl Errors)
Trong một số trường hợp, Google sẽ không thể index một số trang trong website của bạn vì nó không thể dò được thông tin trong trang đó. Tuy nhiên mặc dù không thể dò nhưng vẫn có thể nhìn thấy chúng.
Để xác định những lỗi thu thập thông tin đã nói phía trên, hãy vào Google Webmaster Tools è Chọn website mà bạn muốn kiểm tra è nhấp vào “Crawl” è Nhấp vào “Crawl Errors”. Nếu bạn thấy có bất kỳ lỗi nào, ví dụ như trang không thể index (unindexed pages), bạn sẽ thấy nó nằm trong danh sách “top 1000 lỗi thường gặp của các trang web”.
Website của bạn có quá nhiều nội dung lặp
Quá nhiều nội dung lặp trong website có thể khiến cho công cụ tìm kiếm bị nhầm lẫn và từ bỏ việc quá trình thu thập thông tin cũng như index website. Nếu có nhiều URLs có có cùng một dạng nội dung giống như thì bạn đã mắc phải lỗi này. Để sửa chữa vẫn đề này, chọn trang mà bạn muốn giữ và dùng lệnh 301 redirect cho các trang còn lại.
Điều này đôi khi sẽ được giải quyết với các Canonical URLs (dùng để ngăn chặn trùng lặp nội dung trong website), nhưng bạn hãy cẩn thận với phương pháp này. Một số site đã bị thông báo rằng những Canonical URLs gây hiểu nhầm trực tiếp làm gián đoạn quá trình index.
Website bật Privacy Settings
Nếu website sử dụng nền tảng WordPress, bạn có thể vô tình bật các thiết lập riêng tư (bảo mật) lên khiến cho các công cụ tìm kiếm không thể dò tìm được nội dung.
Để giải quyết vấn đề này, vào phần Admin è Settings è Privacy để kiểm tra.
Site bị chặn bởi .htaccess
File .htaccess của bạn đóng góp một phần trong sự tồn tại của website trên máy chủ, file này cho phép website đó xuất hiện trên toàn thế giới Internet. Và file .htaccess này được viết theo kiểu Apache. Mặc dù .htaccess rất tiện dụng và hữu ích, tuy nhiên nó cũng thường được sử dụng để chặn các robot dò tìm và ngăn cho website không thể index.
Site có NOINDEX trong thẻ Meta
Một cách nữa để “giúp” cho website của bạn không bao giờ chạm mặt được các robots dò tìm và không thể index đó chính là có NOINDEX trong thẻ Meta. Thẻ đó thường sẽ giống như thế này:
<META NAME=”ROBOTS” CONTENT=”NOINDEX, NOFOLLOW”>
Đây có lẽ là lỗi mà ít ai để ý nhất. Barry Schwartz đã viết về vấn đề này trong SEO Roundtable:
“Tôi đã chứng kiến trường hợp này ở rất nhiều trong các diễn đàn. Vì vấn đề này thôi mà đã có hơn 500 công ty lớn đã phải gọi điện để nhờ tôi tư vấn và gỡ rối dùm. Tôi nhìn thấy những lỗi như thế này quá nhiều lần rồi, và nguyên nhân chính là do website có thẻ noindex trong trang chủ của họ. Đôi khi các công ty cũng rất khó để nhận ra được lỗi nhỏ này trong khi chuyển hướng, vì vậy sử dụng một công cụ tiêu đề kiểm tra http để xác minh trước khi chuyển hướng. Nhưng tốt nhất để tránh vấn đề này xảy ra hãy cẩn thận và check nó ngay từ đâu.
Bỏ dòng code này đi website của bạn sẽ index lại trong kết quả tìm kiếm.
Website gặp phải vấn đề về AJAX/JavaScript
Google cũng sẽ index cả JavaScript và AJAX, nhưng những ngôn ngữ này không dễ để index như HTML. Chính vì vậy, nếu bạn đặt cấu hình các trang AJAX và mã JavaScript không chính xác, thì chắc chắn Google sẽ không index trang đó của bạn.
Trang web mất thời gian tải quá lâu
Google không thích những website mà mất cả tiếng đồng hồ mới chịu load xong. Nếu các spider thu thập thông tin gặp phải những trang như thế này, nó sẽ không index được.
Máy chủ gặp trục trặc
Nếu các crawlers không thể truy cập vào website của bạn được thì làm sao nó có thể index? Điều này quá hiển nhiên, nhưng tại sao nó lại diễn ra. Hãy kiểm tra lại các kết nối của bạn. Nếu máy chủ của bạn bị lỗi thường xuyên, thì đó cũng có thể là lý do tại sao trang web không thể index. Đây là lúc thích hợp để bạn mua một server mới.
Website của bạn đã bị deindex
Lý do này thực sự rất xấu. Đó là khi website của bạn đã index kết quả rồi nhưng vì lý do nào đó (bị phạt) nên không thể index lại được nữa. Bạn có thể nhận điều này rõ hơn khi trang web đã hiển thị ở một thứ hạng cao nhưng đột nhiên “mất dấu” khỏi bảng xếp hạng. Chắc chắn lúc đó bạn đã bị một hình phạt nào đó. Nếu website của bạn có tiền sử hoạt động bất hợp lệ (mà chính bạn cũng không biết) thì có cũng là yếu tố khiến cho website của bạn (đến một thời điểm nào đó) sẽ không thể index được.
Khi website của bạn bị gỡ bỏ khỏi index, bạn sẽ phải rất vất vả để có thể khôi phục lại được thứ hạng. Chính vì vậy nó mất rất nhiều thời gian tìm hiểu, nghiên cứu mới có thể đưa ra cách khắc phục. Bạn có thể tham khảo ở nhiều bài viết khác ví dụ như bài viết này của Eric Siu nói về cùng chủ đề này. Cuối cùng thì tôi cũng khuyên bạn nên sử dụng những phương pháp SEO lành mạnh để ngăn chặn những hình phạt này sẽ xảy đến.
Kết luận
Index là chìa khóa dẫn đến cánh cửa thành công trong SEO. Nếu website của bạn hay các trang web nào đó trong website không thể index được thì bạn cần phải tìm hiểu lý do tại sao và đưa ra cách thuyết phục.
Bài viết được đăng tải duy nhất lên SEOMxh.com – Mọi sao chép vui lòng ghi nguồn SEOMxh.com