Bí ẩn chuyện án phạt duplicate content

Bí ẩn chuyện án phạt duplicate content

'Thủ Thuật SEO - SEO Tip', Posted by MozSeo on 1/10/16, 37 lần trả lời

MozSeo MozSeo
  1. Có rất nhiều người sợ duplicate content còn hơn là link spam. Và cũng có rất nhiều bí ẩn đằng sau câu chuyện người ta cho rằng duplicate content sẽ khiến họ bị phạt hay các trang cùng site sẽ đánh lẫn nhau. Tôi thấy có rất nhiều diễn đàn, topic trên Reddit và cả các trang tin tức về SEO nói rằng họ thật sự không biết Google xử lý content trùng lặp như thế nào.

    Thật ra, Google đã cố gắng xóa tan nghi ngờ nhiều năm về trước. Susan Moska viết trên Google Webmaster blog vào năm 2008:

    Hãy để chuyện này trôi vào quá khứ mãi mãi: không có thứ gì gọi là án phạt cho content trùng lặp cả. Họ chí ít là nó không giống như cái mà mọi người thường nghĩ. Bạn có thể giúp mọi người bằng cách không gợi ra những bí ẩn về án phạt cho duplicate content nữa.

    Duplicate content là gì?

    Theo Google thì:
    Người ta thường nhầm lẫn rằng Google phạt content trùng lặp bởi cách mà Google xử lý nó. Thật sự thì content trùng lặp chỉ được lọc đi trên kết quả tìm kiếm thôi. Bạn có thể thấy bằng cách thêm &filter=0 vào cuối URL và bỏ bộ lọc đi.

    Thêm &filter=0 vào cuối URL của một kết quả tìm kiếm từ khóa “raleigh seo meetup” sẽ cho bạn thấy một trang 2 lần. Thật sự Meetup đã không làm tốt công việc của họ vì họ có 2 phiên bản website (HTTP và HTTPS) và nó sử dụng thẻ canonical để điều hướng nhưng nó lại đưa ra một trang giống nhau. Và 2 trang này cũng không đánh lẫn nhau hay gây hại gì tới website của họ.
    4019-1dc58066a99432537f6374340b656adf.
    Bao nhiêu phần trăm website bị trùng lặp?

    Theo Matt Cutts, 25 tới 30 phần trăm website bị trùng lặp về content. Theo một nghiên cứu gần đây của Raven Tool từ dữ liệu phân tích các website của họ thì 29% trang bị trùng lặp content.

    Google nhận định sao về content trùng lặp?

    Có rất nhiều bài viết tốt từ Google, tôi chỉ đưa ra những đoạn tóm tắt hay nhất cho bạn:
    • Content trùng lặp không khiến cho site của bạn bị phạt.
    • Google hiểu rằng người dùng muốn một kết quả tìm kiếm đa dạng và sẽ không hiển thị một bài viết nhiều lần, bởi vậy họ lọc lại và chỉ hiển thị một kết quả.
    • Google thật sự thiết kế thuật toán để ngăn chặn content trùng lặp gây ảnh hưởng tới các website. Thuật toán này nhóm các phiên bản khác nhau của content trùng lặp lại và URL tốt nhất trong nhóm này sẽ được hiển thị và họ cũng sử dụng các yếu tố khác (như link) để chọn kết quả hiển thị.
    • Duplicate content sẽ không gây ảnh hưởng gì trừ khi nó được sử dụng với mục đích tăng thứ hạng một cách tiêu cực.
    • Điều tệ nhất mà bạn gặp phải với bộ lọc của Google là có thể phiên bản bạn không mong muốn hiển thị được hiển thị thay vì những phiên bản khác.
    • Google cố gắng xác định nguồn gốc của content và hiển thị nó.
    • Nếu có ai đó cố gắng copy content của bạn mà không xin phép bạn có thể sử dụng DMCA.
    • Đừng chặn Access của bot vào duplicate content vì nếu nó không thể crawl nó không thể tổng hợp được kết quả và các tín hiệu khác.
    Nguồn những bài viết mà tôi tổng hợp:
    Nguyên nhân gây trùng lặp content
    • HTTP và HTTPS
    • www và không www
    • ID cho session
    • Dấu “/”
    • Các phiên bản trang khác như m. hay AMP
    • Môi trường hosting
    • Phân trang
    • Phiên bản quốc gia/ngôn ngữ
    Giải pháp cho content trùng lặp

    Các giải pháp sẽ tùy vào trường hợp của bạn:
    • Không làm gì hết và hy vọng Google index đúng. Tôi mặc dù không khuyến khích làm vậy như bạn có thể đã đọc những cách Google xử lý ở trên và nó có thể phù hợp với bạn.
    • Đặt thẻ canonical. Các thẻ này được sử dụng để dẫn tín hiệu về trang mà bạn muốn. Nếu bạn có thẻ canonical đặt đúng thì các trang trùng lặp thật sự không phải là lỗi
    • 301 redirect: nó sẽ sẽ giúp ngăn chặn duplicate content tốt bằng cách không hiển thị phiên bản mà bạn không muốn.
    • Rel=”alternate”: nó giúp cho biết phiên bản thay thế của một trang ví dụ như trang mobile hay trang quốc gia/ngôn ngữ khác. Với quốc gia/ngôn ngữ khác, thẻ href lang sẽ giúp xác định trang nào được hiển thị trên kết quả tìm kiếm. Vài tháng trước, John Mueller từ Google đã nói đặt đúng thẻ href lang không giúp tăng thứ hạng mà nó chỉ giúp hiển thị đúng phiên bản trên kết quả tìm kiếm.
    • Rel=”prev” và rel=”next” sử dụng cho phân trang

    Kết luận

    Có những thứ khác sẽ gây ra vấn đề cho bạn như content spam nhưng thường thì nó là vấn đề của chính người quản trị trang web. Đừng disallow robots.txt cũng đừng nofollow hay noindex mà hãy dùng các tín hiệu ở trên để giúp xác định các bạn muốn Google xử lý content của mình.

    Bí ẩn về án phạt dành cho content trùng lặp nên được dẹp bỏ, các thông tin sai lệch không nên được lan truyền nữa. Có rất nhiều cách để đánh dấu tín hiệu cho các trang và nếu bạn không biết cách làm thì Google sẽ cố gắng giúp bạn xác định các trang đó.

    Bài viết được dịch tại SEL và đăng tải duy nhất lên SEOMxh.com
    Mọi sao chép vui lòng để nguồn bài Bí ẩn chuyện án phạt duplicate content
     

    Các file đính kèm:

    Đang tải...
    Last edited by a moderator: 8/10/16
  2. nvthanh77

    nvthanh77 Active Member

    Bài viết:
    30
    Đã thích:
    3
    Vậy mình nghĩ những nội dung trùng lặp chứa những liên kết trong nội dung đó cũng được google đánh giá là backlink kém chất lượng rồi.
     
    quannhvn thích bài này.
  3. yennhikorea

    yennhikorea Well-Known Member

    Bài viết:
    215
    Đã thích:
    21
    Moz cho e hỏi cái phần thêm &filter=0 để kiểm tra trùng lặp là như thế nào vậy em thêm vào sau url rồi search trên google mà nó chẳng ra cái gì cả :(
     
  4. Thế Hùng

    Thế Hùng Well-Known Member

    Bài viết:
    163
    Đã thích:
    121
    Vừa thấy mấy thành comment tay nhanh hơn đọc đâu rồi nhỉ :D Bài viết này là trùng lặp trên site liên quan gì đến mấy các bác coppy đi đăng tin đâu trời
     
    quannhvn and MozSeo like this.
  5. taidat1230

    taidat1230 Active Member

    Bài viết:
    38
    Đã thích:
    0
    như vậy trùng lập nội dung cũng không ảnh hưởng nhiều đến site chính à
     
  6. anhcuong87

    anhcuong87 Member

    Bài viết:
    9
    Đã thích:
    2
    Đối với việc trùng lặp khác site thì GG sẽ lọc những kết quả trùng lặp và sẽ hiển thị trang có nội dung tốt nhất nên việc trùng lặp nội dung không hề bị phạt. Những trang có nội dung trùng lặp, nếu có chỉnh sửa để nội dung tốt hơn, cấu trúc site tốt hơn vẫn có thể đánh bật top của trang cũ. Việc copy 1 bài đang top về chỉnh sửa và tối ưu lại vẫn hoàn toàn có thể đánh chiếm luôn vị trí của trang đó sau khi đăng lên
     
  7. mr2loveme

    mr2loveme Well-Known Member

    Bài viết:
    65
    Đã thích:
    6
    tại sao http và https lại bị coi là trùng lặp? Bởi mình đọc ở nhiều nơi thì thấy họ bảo là khi chuyển từ http sang https chỉ mất thời gian cập nhật ban đầu thôi, sau ít bữa là lại như cũ mà
     
  8. minhduc00

    minhduc00 Member

    Bài viết:
    5
    Đã thích:
    0
    Chỉ hiện thị một kết quả được đánh giá là tốt nhất còn các kết quả khác sẽ bị đánh giá thấp đi hoặc không hiện thị trên kết quả tìm kiếm - thế này có khác gì bị phạt đâu nhỉ
     
  9. colostem

    colostem Member

    Bài viết:
    23
    Đã thích:
    2
    Nếu nội dung trùng lập bị phạt thì làm gì có nhiều phiên bản web cùng bán một loại sản phẩm! Google sẽ có cách giải quyết êm thắm!
     
  10. MozSeo

    MozSeo Administrator

    Bài viết:
    1,255
    Đã thích:
    1,433
    Bạn tìm kiếm nội dung liên quan tới web bạn thì cho đoạn kia vào nó lọc ra các bài liên quan tới cái bạn tìm
    Tức là bạn dùng cả 2 bản http và https cùng 1 thời điểm thì đây được coi là trùng . Còn nếu bạn dùng 1 trong 2 thì đâu bị coi là trùng đâu . Như seomxh.com này bạn
     
Đang tải...
Đang tải...