5 bước để tăng khả năng index của site

5 bước để tăng khả năng index của site

'Thủ Thuật SEO - SEO Tip', Posted by MozSeo on 10/10/16, 58 lần trả lời

MozSeo MozSeo
  1. Crawl và index là 2 công việc chính của Google bot nhưng chúng ta có thể hỗ trợ cho nó bằng cách điều chỉnh một số thứ trên website của mình. Những sự điều chỉnh trên site giúp cho bot làm tốt việc của nó hơn và giúp site có thứ hạng tốt hơn. 5 bước sau đây sẽ giúp bạn tối ưu khả năng được crawl và index của website.

    1. Cơ bản
    a. Robots.txt

    Robots.txt là một file văn bản hướng dẫn Google bot trong việc crawl website. Ví dụ như chỉ cho nó danh mục được crawl. Những chỗ chứa dữ liệu nhạy cảm như trang login của người dùng hay tài khoản cá nhân thì không nên được crawl.

    Khi tạo file robots.txt, điều quan trọng là bạn cho bot vào tất cả những trang mà bạn muốn website được hiển thị. Ví dụ, bạn không nên chặng CSS và JavaScript trong robots.txt.

    Nếu bạn muốn bỏ những danh mục không được crawl vào file này thì bạn nhập vào dòng sau:

    Dấu sao tượng trưng cho tất cả các trang trong danh mục đó. Bạn có thể lưu file trên Search Console hoặc theo đường dẫn seomxh.com/robots.txt

    Mẹo nhỏ: Bạn có thể sử dụng search console để kiểm tra khả năng truy cập của bot vào site của mình.

    robot.

    b. XML sitemap

    Ngoài robots.txt còn một file nữa chiếm vị trí quan trọng trong việc crawl và index website là XML sitemap. Đây là một file mà robot đọc được, liệt kê tất cả những URL trên website. File này được lưu dưới dạng xml. Trong file này bạn có thể thêm thông tin khác ngoài URL như thời gian cập nhật URL và độ ưu tiên.
    Khi bạn tạo file XML sitemap, hãy thêm nó vào Search Console để báo với Google các URL mà website có. Tuy nhiên, XML sitemap chỉ gợi ý URL cho bot thôi chứ thật ra không hướng dẫn cho nó cách crawl như robots.txt.

    XML sitemap thường được làm rất qua loa mặc dù nó giúp ích cho bot rất nhiều khi crawl website đặc biệt là website mới và những web lớn. Ví dụ, bạn có content ích được link về từ các trang khác, nếu được liệt kê trong sitemap, Google sẽ biết được và crawl nó.

    Cấu trúc của XML site map khi không có những yếu tố khác như sau:

    unnamed.

    Có rất nhiều cách để tạo sitemap. Một số CMS cho phép tạo sitemap tự động hoặc sử dụng các công cụ miễn phí.

    Google cũng khuyên bạn nên chia sitemap ra khi có nhiều hơn 50,000 URL. Trong trường hợp này, sitemap sẽ là tập hợp của những sitemap con có dạng như sau:

    unnamed2.

    Mẹo

    Trong trường hợp bạn muốn Google recrawl lại nhanh chóng các trang khi thực hiện chỉ sửa bạn có thể vào Search Console để gửi link cho Google nhờ index lại. Bạn có thể thực hiện với 500 URL mỗi tháng cho mỗi website.

    tim-nap.

    2. Tận dụng tài nguyên crawl

    Google bot là chương trình được lập trình sẵn để crawl URL và sau đó index, xếp hạng nó. Để làm được điều này, bot có tài nguyên để sử dụng. Số trang được crawl và index phụ thuộc vào page rank của từng website, đồng nghĩa với việc tiếp cận dễ dàng hay không của bot tới trang web.

    Một cấu trúc website được tối ưu sẽ giúp bot làm việc dễ dàng hơn. Cụ thể, một cấu trúc phẳng giúp cho bot có thể tiếp cận được mọi trang trên site. Cũng như người dùng, họ không bao giờ click hơn trang để xem nội dung muốn biết, Google cũng không muốn đi quá sâu nếu như cấu trúc link phức tạp.

    Việc crawl của bot cũng bị ảnh hưởng bởi internal link nữa. Ví dụ như sử dụng thanh menu để điều hướng, bạn có thể cung cấp cho bot hướng đi tới các link sâu ở trong site. Bằng cách này các link quan trọng có thể dẫn trực tiếp từ trang chủ tới nhanh hơn. Cách sử dụng anchor để mô tả link đích cũng giúp bot có nhiều thông tin hơn để đánh giá content.

    Để giúp bot crawl nhanh hơn, bạn nên giúp chúng hiểu được các thẻ <h>. Bạn cần sử dụng thẻ <h> theo một cấu trúc logic. Ví dụ sử dụng h1 cho tiêu đề và h2, h3 cho tiêu đề con…

    Có nhiều CMS sử dụng thẻ h để format các tiêu đề trên site nhưng việc làm này có thể làm bối rối bot khi nó crawl. Bạn có thể sử dụng lại CSS để điều chỉnh chữ mà không sử dụng thẻ <h> bừa bãi.

    3. Tránh để cho bot đi vào trang lỗi

    Mỗi khi bot vào trang lỗi thì nó sẽ không thể đi tới những trang khác được và phải trở lại điểm xuất phát. Trình duyệt và bot thường không thể tìm thấy trang sau khi website xóa sản phẩm khỏi shop online hoặc thay đổi URL. Trong trường hợp này, server trả về lỗi 404. Tuy nhiên, lỗi này lặp lại nhiều có thể làm cho tiêu hao tài nguyên của bot.

    Các trang mồ côi là trang mà nó không hề có link trỏ về nhưng có thể có external link đi ra ngoài. Bot có thể không thể vào crawl trang này hoặc bị bắt dừng lại không crawl tiếp. Cũng như lỗi 404, bạn nên tránh các trang mồ côi làm tiêu hao tài nguyên crawl.

    4. Tránh content trùng lặp

    Theo Google thì content trùng lặp không khiến website bị phạt. Tuy nhiên, nó không có nghĩa là bạn nên để chúng tồn tại trên site của mình. Nếu SEO không làm gì thì search engine sẽ tự chọn URL để hiển thị trên kết quả tìm kiếm. Hãy kiểm tra và kiểm soát URL mà Google hiển thị cho bạn, sử dụng 3 cách sau:

    - 301 redirect: bạn có thể sử dụng để tránh phiên bản có www và không có. Bạn có thể sẽ phải vào .htaccess để đặt redirect vĩnh viễn
    - Canonical: thông thường các shop sẽ gặp tình trạng này khi một sản phẩm có nhiều URL khác nhau. Bạn có thể sử dụng thẻ canonical để cho bot biết đâu là trang gốc của sản phẩm đó.
    - Rel=alternate: thẻ này rất hữu ích với website có nhiều ngôn ngữ hoặc phiên bản desktop và mobile khác nhau. Thẻ này giúp cho Google bot biết đâu là URL phụ với cùng 1 content.

    5. Kiểm tra và sửa lỗi nhanh

    Kiểm tra dữ liệu trong Search Console thường xuyên là cách tốt nhất để hiểu Google crawl và index website như thế nào. Search Console cung cấp cho bạn nhiều hướng để tối ưu crawl cho web.

    thu-thap-du-lieu.

    Trong phần crawl error bạn sẽ thấy danh sách chi tiết các trang lỗi 404 để chỉnh sửa.

    Còn đây là dữ liệu về tần suất Google bot vào thăm website của bạn và dung lượng dữ liệu mà nó download khi crawl. Những chỗ lõm xuống trên biểu đồ có thể là lỗi khi bot crawl website của bạn.

    thong-ke-thu-thap-du-lieu.

    Kết luận

    Những hướng dẫn trong bài viết này giúp bạn tối ưu website để được crawl và index tốt nhất bởi Google bot. Và điều này sẽ giúp website của bạn dễ dàng được tìm thấy hơn trên kết quả tìm kiếm.

    Bài viết được đăng tải duy nhất lên SEOMxh.com​
     
    Đang tải...
    zoozao, thuyln2, hoangkiso and 4 others like this.
  2. dungtroy

    dungtroy Active Member

    Bài viết:
    39
    Đã thích:
    2
    Đọc xong bài này có khi phải cài cái xml luôn; cơ bản các bước đầu làm cho nuột, sau đó mới tình chuyện seo off page, seo mà ko bị google phạt thì dần nó cũng phải lên thôi
     
  3. tungtruong91

    tungtruong91 Well-Known Member

    Bài viết:
    67
    Đã thích:
    5
    đây là những cách cơ bản seoer nào cũng biết được hết. Dù sao cũng thanks bạn đã chia sẻ, sẽ giúp ích nhiều có những người mới vào nghề
     
  4. mailong90

    mailong90 Well-Known Member

    Bài viết:
    364
    Đã thích:
    47
    chuẩn rồi, mình luôn onpage hết sức sau đó mới bắt đầu đi off, onpage mà không chuẩn thì lâu lên lắm
     
  5. minhphuc0101

    minhphuc0101 Well-Known Member

    Bài viết:
    47
    Đã thích:
    7
    Lâu nay mình không thật sự chú ý tới tài nguyên crawl của bot trên site của mình. Giờ phải xem chỉ số này thường xuyên hơn thôi. Cảm ơn mod nhé, bài hay
     
  6. hamducbuon

    hamducbuon New Member

    Bài viết:
    3
    Đã thích:
    1
    Trước giờ viết bài xong đa số index chậm hoặc có khi không index luôn.
    Cảm ơn Mod đã chia sẻ !
     
  7. o0scap01

    o0scap01 Member

    Bài viết:
    15
    Đã thích:
    0
    đó giờ không chú ý tới cái crawl error luôn :( sẳn bác nào cho hỏi tí từ khóa em đi link thì nó không lên top trong khi từ khóa không đi thì nó lại có top =.=" ngược đời thế
     
  8. Hồng Anh Nguyễn

    Hồng Anh Nguyễn Well-Known Member

    Bài viết:
    48
    Đã thích:
    2
    Mình nghĩ chỉ nói như thế này thì vẫn khó hiểu quá. Nếu có video hướng dẫn cụ thể thì sẽ tốt hơn
     
  9. binhchelsea

    binhchelsea Active Member

    Bài viết:
    44
    Đã thích:
    4
    Thử hỏi các bác là web em ko có xlm thì có sao ko nhỉ , mình thấy bình thường kao sao cả
     
  10. tainguyen

    tainguyen Hãy cố gắng hơn ngày hôm qua!

    Bài viết:
    1,311
    Đã thích:
    194
    Mình thì dùng cách cổ điển là: tăng nội dung mới hàng ngày, đúng lịch. Lượng bot vào trang được duy trì hàng ngày nên không hề sợ giảm index lại còn được index bài viết rất nhanh!
     
Đang tải...
Đang tải...