Công cụ tìm kiếm xử lý các liên kết như thế nào?

Thảo luận trong 'Thảo Luận SEO Và Trợ Giúp SEO' bắt đầu bởi minhkiet0907, 4/5/15.

Trạng thái chủ đề:
Không mở trả lời sau này.
  1. minhkiet0907

    minhkiet0907 Member

    Bài viết:
    11
    Đã thích:
    0
    Hiểu được cách công cụ tìm kiếm xử lý và thu thập liên kết sẽ giúp cho bạn định hướng con đường tối ưu hóa website của mình nhằm tạo thuận lợi cho quá trình index trang.
    [​IMG]
    Có bao giờ bạn tự hỏi công cụ tìm kiếm thu thập dữ liệu, phân tích, index và xếp hạng các trang như thế nào không?

    Có bao giờ bạn tự hỏi 404s, rel=canonicals, noindex, nofollow, và robots.txt làm việc như thế nào không? Sau đây là những giải thích rất cơ bản về cách công cụ tìm kiếm thu thập trang và liên kết:

    Thu thập dữ liệu

    Công cụ tìm kiếm thu thập dữ liệu (ví dụ minh họa là một con nhện như hình) ghé thăm một trang web bất kỳ. Cái đầu tiên mà nó thu thập đó là file robots.txt.

    Giả sử tập tin này không tồn tại hoặc có thể thu thập thông tin trên toàn bộ trang web. Công cụ vẫn sẽ thu thập thông tin trên tất cả các trang này và lấy cơ sở dữ liệu. Nghĩa là, nó như một hệ thống thu thập dữ liệu theo kế hoạch có sẵn nhằm sao lưu và ưu tiên thu thập ngẫu nhiên trên các trang.
    Khi đó, nó thu thập một danh sách tất cả các trang chứa liên kết. Nếu gặp liên kết nội bộ, công cụ này sẽ dựa vào chúng để thu thập thông tin các trang khác. Nếu gặp liên kết ngoài, nó sẽ đưa vào một cơ sở dữ liệu.
    Xử lý liên kết

    Sau khi các đồ thị liên kết được xử lý, công cụ tìm kiếm sẽ lấy tất cả các liên kết ra khỏi cơ sở dữ liệu và kết hợp chúng lại, gán các giá trị liên quan cho chúng. Các giá trị có thể là tích cực hoặc tiêu cực. Ví dụ, nếu có 1 trang spam và trang này liên kết đến các trang khác, nó có thể đem đến giá trị liên kết xấu vào những trang đó.
    Trang ở ví dụ trên có giá trị tốt nhiều hơn so với spam. Vì vậy, nó là một trang tốt. Trang này sẽ được công cụ tìm kiếm đánh giá cao.

    Chặn trang với Robots.txt

    Trở lại với ví dụ ban đầu. Giả sử tập tin robots.txt cho biết các công cụ tìm kiếm không thể truy cập vào một trong các trang này.

    Điều đó có nghĩa rằng trong khi công cụ tìm kiếm đang thu thập thông qua các trang web và lập danh sách liên kết, không có bất kỳ dữ liệu về trang đó được bao gồm trong file robots.txt.

    Trở lại với đồ thị liên kết như ví dụ. Giả sử rằng các trang này bị chặn bởi robots.txt:
    Công cụ tìm kiếm vẫn sẽ thu thập tất cả các liên kết đến trang đó và đếm chúng. Tuy nhiên, công cụ tìm kiếm không thể nhìn thấy bất kỳ giá trị nào của những trang này.

    Sử dụng 404 hoặc 410 để loại bỏ trang

    Tiếp theo, giả sử rằng thay vì chặn trang đó với robots.txt, đơn giản hãy loại bỏ nó. Vì vậy, các công cụ tìm kiếm sẽ cố gắng để truy cập vào trang này, nhưng sẽ biết được trang này không còn tồn tại nữa.
    Điều này có nghĩa là khi đồ thị liên kết được xử lý, các liên kết đến trang đó sẽ vô hiệu lực và được lưu trữ lại sau khi trang này hồi phục.
    Tuy nhiên, đôi khi các trang ưu tiên sẽ được thu thập thông tin và index.
    [​IMG]
    Công cụ tìm kiếm index như thế nào?

    Các từ xác định và yếu tố index trên một trang sẽ kết hợp các từ và các yếu tố trong một cơ sở dữ liệu.

    Công cụ tìm kiếm sử dụng thuật toán của nó để xác định các trang web được index, đánh giá các liên kết dẫn đến trang web và tên miền, xử lý hàng chục của các số liệu đã biết và chưa biết khác để đi đến một giá trị cuối cùng. Nếu Panda hay Penguin đang “chú ý” trang web này thì đây sẽ là một vấn đề quan trọng. Giá trị cuối cùng sẽ quyết định thứ hạng trang đó trong kết quả tìm kiếm.

    Loại bỏ trang với Noindex

    Noindex hoạt động tương tự như robots.txt ngoại trừ thay vì bị chặn thu thập trang, công cụ tìm kiếm hoàn toàn có thể truy cập vào nó nhưng sau đó phải ra khỏi trang này. Công cụ tìm kiếm vẫn sẽ thu thập các liên kết trên trang để thêm vào cơ sở dữ liệu và nó vẫn sẽ gán giá trị cho các liên kết dẫn đến trang đó.
    Tuy nhiên, nó sẽ không củng cố giá trị các trang khác và không dừng việc gán giá trị qua các trang. Tất cả những việc mà Noindex thực hiện đó là yêu cầu công cụ tìm kiếm không index trang.

    Do đó, chỉ có một cách để ngăn chặn việc gán giá trị của liên kết cho các trang đó là sử dụng 404 hoặc 410. 410 có vẻ triệt để hơn 404, tuy nhiên cả hai sẽ khiến trang của bạn không thể index. Có nhiều cách khác để ngăn chặn gán giá trị từ liên kết này sang liên kết khác nhưng ít khi quản trị web kiểm soát các trang web khác, họ chỉ theo dõi các trang của mình.

    Hy vọng rằng bài viết này sẽ giúp bạn hiểu được cách công cụ tìm kiếm truy cập vào các trang web và sự khác biệt giữa robots.txt và noindex.

    Dịch:seovietnam.net.vn
    Nguồn: SearchEngineLand
     
    Đang tải...
  2. blogsechia1

    blogsechia1 Member

    Bài viết:
    7
    Đã thích:
    1
    Bot của Google thì nhiều vô kể, chỉ riêng những site tin tức nổi tiếng như VnExpress hay Dân Trí thì nó nằm thường xuyên và cập nhật từng phút. Google thường Index theo một lịch trình cập nhật bài nên bạn nhớ viết bài thường xuyên để được index nhanh nhé
     
  3. nghiaSQ

    nghiaSQ Well-Known Member

    Bài viết:
    55
    Đã thích:
    1
    đúng là nể công cụ tìm kiếm google thật. Có rất nhiều liên kết và đầy lên theo từng giây, từng phút vậy mà nó vẫn xắp sếp được thứ hạng rất chuẩn =)
     
  4. gamehayst

    gamehayst Well-Known Member

    Bài viết:
    812
    Đã thích:
    62
    máy chủ Gôgle chắc nó khủng lắm mới duyệt được hết các loại dữ liệu này. Trrên thế giới có hàng tỉ trang web mà nó vẫn fân loại được thì đúng là quá khủng
     
  5. lanhuongit

    lanhuongit Well-Known Member

    Bài viết:
    49
    Đã thích:
    3
    Đây phải nói con người quá thông minh, sản xuất ra công cụ thông minh như thế này
     
  6. sim3gchoipad.com

    sim3gchoipad.com Well-Known Member

    Bài viết:
    54
    Đã thích:
    6
    google phải công nhận quá thông minh, nó hoàn toàn xứng đáng số một
     
  7. cuonlamseo

    cuonlamseo Well-Known Member

    Bài viết:
    118
    Đã thích:
    3
    bác gu gồ làm mình vừa nể vừa sợ, cái gì cũng có thể làm được
     
Trạng thái chủ đề:
Không mở trả lời sau này.
Đang tải...
Đang tải...