Google PageRank được tính như thế nào?

Thảo luận trong 'Thủ Thuật SEO - SEO Tip' bắt đầu bởi TinSEOMxh, 7/11/18.

  1. TinSEOMxh

    TinSEOMxh Moderator

    Bài viết:
    23
    Đã thích:
    11
    shutterstock_412854712-300x200.

    Sớm nay, Dixon Jone từ Majestic đã chia sẻ trên Twitter một bản giải thích đầy đủ và có thể nói là dễ hiểu về cách mà PageRank hoạt động.

    Tôi đã tự mình xem video mà Jone chia sẻ và nghĩ rằng đúng là thời điểm tốt để nhìn lại những công thức toán học điên rồ, cái đã tạo nên vết lõm cho thế giới này trong suốt 20 năm qua.

    Nhắc ngoài lề một chút, như chúng ta đã biết thì năm 2016 PageRank đã bị gỡ bỏ khỏi thanh công cụ, nhưng nó vẫn là một phần quan trọng trong thuật toán tổng thể và rất đáng để tìm hiểu.

    Jones bắt đầu với những công thức đơn giản và hoặc ít nhất là dễ hiểu

    majestic1.

    Đối với những người không thích toán hoặc với những ai đã quên một vài thuật ngữ kĩ thuật của lớp giải tích cuối cùng, thì công thức này có thể được đọc to như sau:

    PageRank của một trang trong lần lặp này bằng 1 trừ đi một hệ số giảm dần, cộng với mỗi liên kết tới trang (ngoại trừ các liên kết đến chính nó), thêm thứ hạng trang của trang đó chia cho số lượng liên kết từ trang ra ngoài và giảm trừ đi bởi hệ số giảm dần”

    Quay lại tài liệu gốc của Google

    Trong video Jones chuyển qua một phiên bản tính toán đơn giản hơn, nhưng vẫn hữu ích cho việc tính toán. Ông đưa ra bản excel, và vạch ra thuật toán xếp hạng qua 15 lần lặp. Tuyệt vời.

    Cá nhân tôi thì muốn nhiều hơn một chút về toán học ở đây, vì vậy tôi đã quay trở lại và đọc phiên bản đầy đủ của tài liệu"Phân tích một công cụ tìm kiếm Web siêu văn bản quy mô lớn" (một bước đầu tiên rất tự nhiên). Đây là bài viết được viết bởi Larry Page và Sergey Brin vào năm 1997. Còn được biết đến như là bài báo để họ giới thiệu về Google, và được xuất bản trong Khoa Khoa học Máy tính Stanford. (Phải, nó dài và tôi sẽ phải làm việc muộn một chút tối nay đây. Không vấn đề gì!)

    Mở đầu của bài viết: "Trong bài báo này, chúng tôi giới thiệu về Google như là một nguyên mẫu của một công cụ tìm kiếm quy mô lớn, để việc sử dụng nhiều cấu trúc hiển thị trong dạng siêu văn bản."

    Bình thường, theo đúng phong cách mà họ vẫn sử dụng.

    Có một thực tế thú vị, Công cụ tìm kiếm rất riêng của chúng tôi đã được trích dẫn trong bài viết đầu tiên của Google! Không ai khác ngoài Page và Brin, nói rằng đã có 100 triệu tài liệu web vào tháng 11/1997.

    Dù sao thì, trở lại với công việc của mình thôi.

    Dưới đây là cách tính PageRank ban đầu được xác định:

    “Tài liệu trích dẫn học thuật đã được áp dụng cho trang web, chủ yếu được xác định bằng cách tính các trích dẫn hoặc liên kết trỏ về đến một trang nhất định. Nó đưa ra một số phỏng đoán về tầm quan trọng hoặc chất lượng của một trang. PageRank mở rộng ý tưởng này bằng cách không tính các liên kết từ tất cả các trang như nhau và bằng cách chuẩn hóa theo số lượng liên kết trên một trang. PageRank được định nghĩa như sau:

    Chúng tôi giả sử trang A có các trang T1… Tn trỏ đến trang đó (tức là, là trích dẫn). Tham số d là một yếu tố giảm dần có thể được đặt giữa 0 và 1. Chúng ta thường đặt d là 0,85. Trong phần tiếp theo, chúng tôi đề cập thêm chi tiết về chỉ số d này. Ngoài ra C (A) được định nghĩa là số lượng các liên kết đi từ trang A. PageRank của trang A được đưa ra như sau:

    PR(A) = (1-d) + d (PR(T1)/C(T1) + … + PR(Tn)/C(Tn))

    Lưu ý rằng PageRanks hình thành sự phân phối xác suất trên các trang web, do đó PageRank của tổng tất cả các trang web sẽ là một.

    PageRank hay PR (A) có thể được tính toán bằng cách sử dụng một thuật toán lặp đơn giản, và tương ứng với eigenvector chính của ma trận liên kết được chuẩn hóa của web. Một PageRank cho 26 triệu web page có thể được tính toán trong một vài giờ trên một máy trạm kích thước trung bình. Có nhiều chi tiết khác nằm ngoài phạm vi của bài báo này. ”

    Điều này có nghĩa là gì?

    Hãy tiếp tục cùng chúng tôi nào! Đây là công thức của chúng ta:

    PR(A) = (1-d) + d (PR(T1)/C(T1) + … + PR(Tn)/C(Tn))

    Lưu ý điều này giống như hình bên trên, ngoại trừ hình ảnh "đơn giản hóa" phần thứ hai của phương trình bằng cách thay thế một sigma - cái được sử dụng như là ký hiệu cho phép tổng trong toán học (∑), tức là áp dụng công thức này cho tất cả các trang từ 1 tới n và sau đó tăng dần lên.

    Vì vậy, để tính PageRank của trang A được đưa ra, trước tiên chúng ta lấy 1 trừ đi hệ số giảm dần (d). D thường được thiết lập là .85, như đã thấy trong bài báo gốc của họ.

    Sau đó chúng tôi lấy PageRanks của tất cả các trang trỏ đến và đi từ trang A, thêm chúng lên và nhân với hệ số giảm 0,85.

    Không tệ phải không? Nói bao giờ cũng dễ hơn làm mà.

    PageRank là thuật toán lặp

    Có lẽ mắt bạn đã lóe lên ở phần này, nhưng Brin và Sergey đã sử dụng từ “eigenvector” trong định nghĩa của họ. Tôi đã phải đi tìm hiểu nó.

    Rõ ràng, eigenvectors đóng một vai trò nổi bật trong các phương trình vi phân. Tiền tố "eigen" xuất phát từ tiếng Đức có nghĩa là "riêng" hoặc "đặc tính". Cũng tồn tại các từ như eigenvalues - giá trị riêng và eigenequations - sự kỳ thị.

    Như Rogers đã chỉ ra trong bài viết của mình về PageRank, sự thay đổi lớn nhất đối với chúng tôi đó là về eigenvector - một dạng toán học cho phép bạn tính toán với nhiều phần biến đổi. “Chúng tôi có thể tiếp tục và tính toán PageRank của trang mà không biết giá trị cuối cùng của PR của các trang khác. Điều này nghe có vẻ kỳ lạ nhưng về cơ bản, mỗi khi chúng tôi thực hiện phép tính, chúng tôi sẽ ước tính gần đúng hơn về giá trị cuối cùng. Thế nên, tất cả những gì chúng ta cần làm là nhớ từng giá trị mà chúng ta đã tính toán và lặp lại các phép tính nhiều lần cho đến khi các con số không còn thay đổi nhiều.

    Hay nói cách khác, tầm quan trọng của eigenvector là để chỉ ra PageRank là một thuật toán lặp lại. Càng có nhiều lần bạn lặp lại phép tính, bạn càng tiến gần đến con số chính xác nhất.

    PageRank được hiển thị trực quan trong Excel

    Trong video của mình, Jones đi khá nhanh tới phần thú vị, đó là lý do tại sao nó rất hiệu quả chỉ trong 18 phút. Ông đã chứng minh cách PageRank được tính toán bằng việc lấy ví dụ 5 trang web liên kết đến và đi từ các trang web khác.

    pagerank2.

    Sau đó ông quay trở lại với phép tính trên excel

    majestic3.

    Và cho thấy việc bạn sẽ lặp lại ra sao bằng cách lấy hàng số ở dưới cùng và lặp lại phép tính.

    Khi làm điều này, các con số cuối cùng bắt đầu tăng lên (điều này chỉ sau 15 lần lặp lại):

    majestic4.

    Một số quan sát thú vị khác mà Jone đưa ra:
    1. Số lượng liên kết (tổng số) là chỉ số xấu. Chúng ta cần phải quan tâm nhiều hơn về thứ hạng của từng trang.
    2. Đây là tính thứ hạng ở cấp độ trang, không phải là uy tín của tên miền. PageRank từng chỉ xem xét trên các trang riêng lẻ.
    3. Phần lớn các trang hầu như không có bất kỳ thứ hạng nào cả
    Còn đây, chính là đoạn tweet khiến tôi chìm sâu vào chủ đề này. Hy vọng tất cả các bạn đều thích!
    Bài viết được dịch tại SEJ và đăng tải duy nhất lên SEOMxh.com
    Nguồn:
    slidesharecdn.com​
     
    Đang tải...
    Chỉnh sửa cuối: 7/11/18
  2. thaomaixinhgai

    thaomaixinhgai Member

    Bài viết:
    82
    Đã thích:
    3
    Sao bảo google khai tử chỉ số pr rồi, nó không còn quan trọng trong seo nữa rồi cơ mà
     
  3. xuannam2909

    xuannam2909 Member

    Bài viết:
    373
    Đã thích:
    62
    Google chỉ giảm chỉ tiêu xếp hạng củ pr thôi bạn ah, kể cả như alexa cũng thế, chứ nó ko phải là ko công nhận cái gì hết
     
Đang tải...

Đang tải...