Những điều thú vị về robots.txt

Những điều thú vị về robots.txt

'Thủ Thuật SEO - SEO Tip', Posted by MozSeo on 26/11/16, 25 lần trả lời

MozSeo MozSeo
  1. Một trong những thứ nhàm chán nhất khi chúng ta làm technical SEO chính là robots.txt. Nhưng đôi khi cũng sẽ phải có những lỗi nhỏ phát sinh trong file này và bạn cần phải hiểu về nó để sửa chữa. Về cơ bản thì robots.txt đơn giản là một file để chỉ dẫn cho bọ nơi nào nó có thể đi và nơi nào không.

    Những phần cơ bản của robots.txt
    • User-agent – loại robot
    • Disallow – chặn không cho bọ vào
    • Allow – cho phép bọ vào những trang này
    • Crawl-delay – cho bọ đợi một khoảng thời gian rồi mới bắt đầu crawl tiếp
    • Sitemap – xác định khu vực để sitemap
    • Noindex – nói với Google xóa các trang này khỏi danh sách index
    • # - ghi chú và sẽ không được đọc bởi bọ
    • * - phần chữ
    • $ - kết thúc URL
    Những thứ khác bạn cần biết về robots.txt
    • File robots.txt nên ở trong thư mục gốc, ví dụ như domain.com/robots.txt
    • Mỗi subdomain đều cần có file robots.txt, điều đó có nghĩa là domain.com/robots.txt không giống với www.domain.com/robots.txt
    • Bọ có thể bỏ qua file robots.txt của bạn
    • Disallow đơn giản là không cho bọ vào một khu vực nào đó. Nhiều người thường sử dụng de-index nhưng nó sẽ không hiệu quả và trang của bạn vẫn được hiển thị nếu có internal link tới nó.
    • Bạn có thể chỉnh được crawl-delay trong Search Console
    • Bạn phải allow CSS và cả JS nữa, ví dụ như sau:
    • Bạn cần xác nhận file robots.txt trong Search Console
    • Đừng chặn bọ và crawl content trùng lặp của bạn vì Google không khuyến khích bạn làm vậy, họ sẽ tự xử lý được chuyện đó.
    • Đừng disallow các trang đã được redirect, bọ sẽ không đi theo các trang này
    • Disallow trang sẽ khiến nó không thể xuất hiện trong archive.org được
    • Bạn có thể search trong archive.org phiên bản robots.txt cũ của mình chỉ cần gõ vào domain.com/robots.txt
    • Dung lượng tối đa cho file robots.txt là 500KB
    Còn đây là những thứ thú vị dành cho bạn

    Nhiều công ty đã làm những thứ thú vị trong file robots.txt của họ, bạn hãy xem nhé.

    Tác phẩm ASCII

    Nike.com đã để slogan của họ vào robots.txt một cách hài hước, với dòng chữ “just crawl it” và thêm vào cả logo nữa.

    nike-robot.

    Seer còn thêm cả thông điệp tuyển dụng vào nữa

    seer-robots-txt.
    TripAdvisor cũng có thông điệp tuyển dụng của họ trong robots.txt

    tripadvisor-robots-txt.
    Robot hài hước

    Yelp nhắc nhở robot về 3 luật về robot nổi tiếng của Asimov

    yelp-robots-txt.

    last.fm cũng vậy

    lastfm-robots-txt.

    Theo YouTube thì chúng ta đã thua trong cuộc chiến với robot

    youtube-robots-txt.

    One Power thì đưa câu nói trong Star Wars vào robots.txt của mình

    pageonepower-robots-txt.

    Google thì muốn Larry Page và Sergey Brin được an toàn, tránh khỏi tầm mắt của Kẻ hủy diệt (trong bộ phim Terminators) khi ghi trong file robots.txt của họ.

    google-killer-robots-txt.

    Sử dụng robots.txt để trò chuyện với người khác

    Một trong những ví dụ ưa thích của tôi là của Oliver Mason, người đã disallow mọi thứ trong robots.txt. Bạn hãy vào xem trang của anh ấy nhé, đọc dòng cuối để thấy anh ấy cũng hối hận một chút về quyết định của mình.

    Trong website của tôi cũng có thông điệp với những người vào đọc robots.txt của mình. Thoạt nhìn qua thì giống như tôi disallow mọi thứ nhưng không phải vậy. Trong file viết thế này:

    stoxseo-robots-txt.

    Nhưng tôi save nó lại với một dấu BOM ở trước dòng đầu tiên, vì vậy dòng này sẽ sai về mặt cấu trúc. Nhưng do dòng thứ nhất xác định tất cả mọi robot thực hiện lệnh disallow ở dưới sai cấu trúc nên lệnh này cũng sai luôn.

    bom-robot.

    Cả một website ở trong file robots.txt

    Đây là một công trình của Alec Bertram và anh ấy có cả mã nguồn của mình cũng như hướng dẫn bạn cách làm. File robots.txt này được dùng cho vinna.cc. Nó được nhúng vào cả một trò game. Bạn có thể vào https://vinna.cc/robots.txt để chơi trò Robots Robots Evolution ngay bây giờ.
    Robots Robots Revolution
    vinna.cc


    worlds-greatest-seo.

    Bài viết được SEOMxh thực hiện và chia sẻ duy nhất trên SEOMxh.com
     

    Các file đính kèm:

    Đang tải...
  2. Hân Nguyễn

    Hân Nguyễn Member

    Bài viết:
    74
    Đã thích:
    7
    cái js và css có cần thiết phải allow không mod, mình không để gì hết trong file robot cũng được mà GG bot không chặn thì nó sẽ vào. Theo em nghĩ js css không cần thiết phải allow trong file robot
     
  3. suakhoatoanquoc

    suakhoatoanquoc Member

    Bài viết:
    390
    Đã thích:
    81
    Đúng là mấy bác này chăm chút cho file robots.txt thật, của mình thì cứ đơn giản cho phép tất cả cho tự nhiên :). Có bản cũng vì ngu code nên cũng chỉ để đơn giản đỡ loằng ngoàng
     
  4. kuem

    kuem Member

    Bài viết:
    149
    Đã thích:
    15
    Các Pro cho em hỏi cái này tý: site của em cũng lâu rồi, tổng bài viết thì khoảng 900 thôi nhưng khi search site:dommain thì Index nó lên tới 2100, mà những link cũ mà em xóa hay sửa lại thành link mới thì Google nó không cập nhật link mới, toàn thấy link cũ ngoài Google, bấm vô toàn 404. Làm sao khắc phục ạ?
     
  5. huuloc4193

    huuloc4193 New Member

    Bài viết:
    67
    Đã thích:
    3
    cái trò chơi game trên file robot. bá đạo quá :) có bác nào share code tương tượng như vậy không
     
  6. lamlehang

    lamlehang Member

    Bài viết:
    166
    Đã thích:
    18
    Bài viết chứa đựng nhiều yếu tố mình không hiểu cho lắm tại mình không phải dân seo đào tạo bài bản nên đọc chả hiểu mấy.
     
  7. hathuan

    hathuan Member

    Bài viết:
    77
    Đã thích:
    6
    không nên mất nhiều thời gian vào 1 việc :)) mình thì làm như bình thường thôi\
     
  8. feedingtea

    feedingtea Member

    Bài viết:
    106
    Đã thích:
    6
    Mình thì chỉ mới biết chút ít về robots txt này. Thật lòng không nghĩ là nó có nhiều công dụng như vậy.
     
  9. tuankt14b6

    tuankt14b6 Member

    Bài viết:
    174
    Đã thích:
    26
    - Theo mình robots.txt là một file dẫn hướng như sitemap, chỉ khác biệt ở đây là robots.txt chỉ định cho những con bọ của google biết chỉ được phép vào đây nếu là allow và không được phép vào thư mục này nếu là disallow và nó còn một số lệnh khác để làm cho file robots.txt trở lên tinh tế hơn, và nó không bị nhàn chán như thông thường.
     
  10. benhxahoihcm

    benhxahoihcm Member

    Bài viết:
    293
    Đã thích:
    29
    Bây giờ mình làm file robots.txt toàn là Allow hết chả cần phải chặn chiếc gì cả cho nó mất công.
    GG nó biết phải xử lý thông tin thế nào mà có chặn nó cũng biết mà thôi.
     
Đang tải...
Đang tải...