Giúp Google thu thập dữ liệu trang Web (Crawl) hiệu quả hơn

Thảo luận trong 'Tin Tức Về Các Bộ Máy Tìm Kiếm' bắt đầu bởi Search Engine, 20/5/15.

  1. Search Engine

    Search Engine Administrator

    Bài viết:
    397
    Đã thích:
    516
    Công cụ tìm kiếm thu thập thông tin của trang web, quá trình này gọi là Crawl, web của bạn càng lớn thì quá trình này càng tốn nhiều thời gian. Vấn là quá trình crawl web của Google tốn khá nhiều thời gian. Nhưng nếu web của bạn có dưới 1000 trang thì bạn không cần quan tâm nhiều tới vấn đề này. Con nếu bạn muốn mở rộng trang thì hãy tiếp tục đọc, sự chuẩn bị từ đầu sẽ giảm những vấn đề có thể khiến bạn nhức đầu về sau. Trong bài viết, chúng tôi chia sẻ về crawl hiệu quả là như thế nào và làm sao để Google crawl web của bạn hiệu quả.

    Tất cả công cụ tìm kiếm đề thu thập dữ liệu theo 1 cách giống nhau, trong bài này chúng tôi nói riêng cho Google và Googlebot

    Website của bạn được crawl như thế nào?


    Google sẽ tìm kiếm các đường link có mặt trên trang web của bạn, các đường dẫn đó chất chồng lên nhau, tạm gọi là chồng trang. Quá trình này khá đơn giản:

    1. Googlebot chọn 1 trang trong chồng chất các đường dẫn
    2. Thu thập thông tin dữ liệu trong trang đó, cập nhật tất cả dữ liệu về cho Google
    3. Lấy tất cả các đường link từ trang đó bỏ tiếp vào chồng trang ban đầu

    Trong quá trình thu thập dữ liệu của mình, sẽ có lúc google bot gặp phải redirect, đường dẫn đó sẽ lại tiếp tục được cập nhật vào chồng trang.

    Mục tiêu quan trọng nhất của bạn là làm sao để Google bot có thể thu thập được hết dữ liệu của tất cả các trang. Mục tiêu thứ 2 là làm sao để những nội dung mới cập nhật được crawl một cách nhanh nhất. Cấu trúc website tốt sẽ giúp bạn được 2 mục tiêu này và điều này là bắt buộc phải làm cho dù bạn có quản lý website rất tốt.

    Độ sâu của thu thập dữ liệu (crawl depth)

    Một điều không thể bỏ qua khi nhắc đến quá trình crawl là khái niệm độ sâu của việc thu thập dữ liệu, crawl depth. Giả sử bạn có 1 link từ website dẫn sang trang con, trang này dẫn link tới các trang khác và các trang khác nữa… google bot sẽ phải thu thập dữ liệu trong thời gian nhất định. Trong 1 số trường hợp, tôi sẽ quyết định lúc nào bot của google không cần phải thực hiện crawl nữa. Trường hợp này là ví dụ của thứ tự ưu tiên các link trong website.

    Điều này nghe có vẻ mang tính lý thuyết, vì vậy tôi sẽ cho bạn ví dụ thực tế. Nếu bjan có 10000 bài viết trong cùng 1 danh mục và mỗi trang hiển thị 10 bài viết. Các trang này có nút <<Tiếp theo >> và <<Trở lại >>, lúc này Google sẽ phải crawl với độ sâu 1000 trang để có thể lấy hết dữ liệu 10000 bài viết. Trong nhiều trường hợp, tôi sẽ không dùng cách này.

    Và nó khiến cho các việc sau đây thực sự quan trọng với web của bạn

    • Sử dụng danh mục (category)/tag và những phân chia khác để phân nhỏ website, nhưng đừng lạm dụng. Nguyên tắc khi sử dụng tag là nó phải kết nối với 3 bài viết khác nhau. Nhớ tối ưu hóa luôn các bài lưu trữ của web.

    • Tạo link tới các trang khác bằng cách đánh số trang, điều này khiến cho bot của google đi tới các trang này nhanh hơn. Lúc này, bạn có 1 trang link tới 10 trang khác, theo như ví dụ vừa rồi thì độ sâu mà Google phải crawl chỉ còn là 100 trang.

    • Đảm bảo tốc độ tải trang, nếu website của bạn chậm thì quá trình crawl sẽ tốn nhiều thời gian hơn.
    XML sitemap và quá trình Crawl website

    Website của bạn sẽ phải có 1 hoăc nhiều sitemạp, các file XML cung cấp thông tin cho Goole biết có URL nào trong trang web của bạn. Một cấu trúc sitemap tốt có thể chỉ ra URL nào bạn vừa mới cập nhật. Hầu hết các công cụ tìm kiếm đều thu thập dữ liệu trong sitemap của bạn thường xuyên hơn ở những chỗ khác trên web.

    Trong Google Webmaster Tools, sitemap cung cấp cho bạn thêm một lợi ích nữa. Với mỗi sitemap, Google cho bạn biết những lỗi và những việc cần lưu ý. Bạn có thể theo dõi các thông tin này khi tạo sitemap khác nhau cho các URL khác nhau. Điều này có nghĩa là bạn sẽ theo dõi được các URL nào trên web gặp nhiều lỗi nhất.

    Lỗi khiến cho quá trình crawl kém hiệu quả


    Quá nhiều lỗi 404

    Trong khi crawl trang web của bạn, Google sẽ gặp phải lỗi, thông thường nó sẽ chọn tiếp một trang khác trong chồng trang và tiếp tục công việc của mình. Nếu bạn có quá nhiều lỗi trong quá trình crawl web, google bot giảm tốc độ thu thập dữ liệu của web lại. Nó làm điều này vì quá trình crawl vướng phải lỗi vì tốc độ quá nhanh. Để ngăn google bot giảm tốc độ crawl web lại, bạn nên khăc phục càng nhiều lỗi càng tốt.

    Google sẽ báo cáo tất cả các lỗi này trong GWT, cũng như Bing và Yandex. Plugin SEO Premium của Wordpress có thể giúp bạn cập nhật và sửa các lỗi này từ GWT ngay từ bảng điều khiển admin.

    Hy vọng bạn không phải là vị khách đầu tiên của chúng tôi có 3000 URL và 20000 lỗi trong GWT. Hãy sửa các lỗi này thường xuyên, ít nhất mỗi tháng 1 lần.

    Quá nhiều trang redirect 301


    Tôi vừa tư vấn cho một website chuyển đổi domain, một trang web rất lớn, vì vậy tôi dùng công cụ của chúng tôi để thu thập dữ liệu website và tìm ra các lỗi cần khắc phục. Sau đó tôi tìm được một vấn đề rất lớn với trang web. Có một nhóm URL luôn luôn dẫn link tới các trang khác mà không dấu gạch chéo cuối cùng (dấu gạch /). Nếu bạn đi tới các trang không có dấu gạch này bạn sẽ bị redirect… tới trang có dấu gạch chéo.

    Nếu vấn đềy này xảy ra với 1 2 URL thì không có gì nghiêm trọng, thường thì nó xảy ra với trang chủ. Tuy nhiên lỗi xảy ra với 250000 URL của website thì đó là một vấn đề lớn. Google bot sẽ không phải crawl 250000 trang mà là 500000 và rõ ràng là nó không hề hiệu quả.

    Điều đó giải thích tại sao bạn luôn phải cập nhật các đường link trong trang web khi bạn thay đổi đường dẫn tĩnh. Nếu bạn không làm thì sau thời gian sẽ có nhiều hơn các điều hướng redirect 301. Nó làm chậm quá trình bot crawl web của bạn và chậm tốc độ tải trang của người dùng. Nhiều hệ thống tốn 1 giây để server chuyển hướng và thêm 1 giây nữa khi tải trang.

    Cái bẫy google bot

    Nếu trang của bạn có được tín nhiệm tốt từ Google thì những việc hài hước có thể diễn ra. Google sẽ thu thập dữ liệu dù cho các link đó là các đường link vô nghĩa. Đây là ví dụ về trường hợp hài hước tôi gặp phải khi làm cho trang Guardian.

    Tại Guardian chúng tôi cho lưu trữ các bài viết theo ngày cho tất cả các danh mục chính. Guardian xuất bản rất nhiều nội dung và các lưu trữ theo ngày này rất hiệu quả. Bạn có thể click về các ngày trước, ví dụ như trở về ngày 25/12 của năm 0. Và chúng tôi thấy Google thu nhập dữ liệu tới tận 1600 năm về trước nghĩa là phải click về tận 150000 lần.

    Chúng tôi gọi đây là Cái bẫy Google bot, bẫy này khiến cho bot crawl web cực kì kém hiệu quả. Khắc phục trình trạng này sẽ làm cho thứ hạng từ khóa tốt lên trong thấy. Trang của bạn càng lớn thì những lỗi này càng khó tìm thấy. Điều này đúng với cả những bậc thầy về SEO.

    Công cụ để sửa các lỗi và giúp việc thu thập dữ liệu của Google hiệu quả hơn

    Nếu bạn đang gặp các vấn đề tương tự và mong muốn tìm thấy một cách khắc phục thì bạn có thể cần những công cụ sau. Chúng tôi dùng Screaming Frog thường xuyên khi xem xét các website của mình. Nó là một công cụ đa năng cho các SEOer. Hãy cẩn thận, nó không phâỉ một công cụ đơn giản, mà là một công cụ đầy sức mạnh có thể làm sập cả trang web nếu dùng không đúng cách.

    Hãy bắt đầu với việc crawl web của bạn, tạo bộ lọc cho đường dẫn HTML. Sau đó, sắp xếp thứ tự trạng thái các link HTTP. Bạn sẽ thấy được các trang của mình đang có trạng thái tốt/xấu như thế nào.

    [​IMG]

    Ghi nguồn diễn đàn seo seomxh.com khi đăng tải lại bài viết này.

    Link: Giúp Google thu thập dữ liệu trang Web (Crawl) hiệu quả hơn
     
    Đang tải...
    Thế Hùng and SEOMxh like this.
  2. conggameviet

    conggameviet Well-Known Member

    Bài viết:
    94
    Đã thích:
    10
    Đọc bài viết mới thấy cái sai lầm của mình là nhồi nhét từ khóa quá nhiều vào tag trong khi bài viết chỉ ra là một tag cần liên kết đến 3 bài viết là tốt nhất. Còn việc web crawl thì site chưa có nhiều nội dung nên chưa bị gì cả. Bây giờ việc cần làm đó chính là xắp xếp lại category để sao cho hiệu quả nhất với người dùng và cả bot google.
     
  3. ngocdt1

    ngocdt1 Member

    Bài viết:
    19
    Đã thích:
    2
    mình vẫn hay dùng tag ở trang chủ để gom trang có nội dung tương tự
     
  4. giangle_seo

    giangle_seo Well-Known Member

    Bài viết:
    206
    Đã thích:
    2
    Em cũng gặp phải lỗi tương tự như bác, thường em hay viết bài theo cảm tính và tìm cách nhét nhiều từ khóa vào bài để còn chèn link, đúng là không ổn thật
     
  5. sontung1404

    sontung1404 Member

    Bài viết:
    17
    Đã thích:
    3
    Cái công cụ Screaming Frog tải ở đâu vậy bạn, cho anh em xin link tải luôn, và cách dùng nó ra làm sao nữa.
     
Đang tải...
Đang tải...