熱門:

2021年3月30日

車品覺 全民大數據

用維基百科數據「摘星」

美國《時代》周刊每年公布世界上最具影響力的100名公眾人物「時代百大人物」(TIME 100)。 在互聯網數據產業並未發達的年代,評選模式多採用讀者投票方式進行,或者由幾個德高望重的評委決定一切。隨着技術不斷進步,通過數據採集來建立模型解決問題的方式逐漸被大眾認可,例如谷歌的成名作Page Rank、Netflix劇集的人氣排行榜,都已成為人們生活一部分。

筆者在2020年身處香港疫情期間,除了完成拙作《數循環》之外,因為受到巴拉巴西(Albert-László Barabási)著作《成功竟然有公式:大數據科學揭露成功的秘訣》(The Formula: The Universal Laws of Success)的啟發,一鼓作氣也完成了一個比較科學化的演算項目。

巴拉巴西認為人的能力雖是有限,但成功可以無限;成功的定義更多來自社會對你的認同,尤其是進入二十一世紀之後,網絡影響力已經成為了成功的重要因素。作為教授,他的學生身體力行,研究出利用維基百科的數據,建立一個為名人排名的算法。筆者受到以上的啟發,希望做一個更聚焦於華人影響力的指數(Historical Popularity Index)。

經過半年籌備,得到阿里巴巴商學院研究生及熱愛大數據的朋友支持,起動一個名為「擇星榜」(www.kollogy.com)的項目。

「擇星榜1.0」目的是通過維基百科的數據建立一個合理高效、穩定及可解釋的華人影響力排行榜的模型。模型包括兩部分︰漢語語系及非漢語語系對中國公眾人物影響力的不同算法,排列出一個較客觀的、綜合華人視角及全球視角的人物影響力排名。

冀為科學普及化出力

基於維基百科在谷歌搜尋的排名優勢,維基的瀏覽量與人物的被關注度有強關聯關係。「擇星榜」的算法利用了維基百科開放數據作為基礎,選擇了瀏覽量、閱讀深度和時序因素作為主要變量,同時參考了名人的出生年份、編輯次數及語言版本的多寡。因為模型中使用了不同指標,我們要對指標之間進行結構性調整,以減少模型中不同指標之間的相互影響及加強其平穩性。然而,任何的算法都需要時間去沉澱及不斷改進,「擇星榜」也不例外,必然有很多地方有待提升。

有朋友問我為什麼要浪費時間去做一些不賺錢的事情,但筆者一直秉持一個理念:未來數據將成為生活中的一部分,每個人都需要認識大數據,因此推動大數據科學普及化是有必要的。

車品覺_紅杉資本中國專家合夥人、阿里巴巴商學院特聘教授暨學術委員會委員

 

(編者按:車品覺著作《覺悟.大數據》現已發售)

歡迎訂購:實體書、電子書

訂戶登入

回上

信報簡介 | 服務條款 | 私隱條款 | 免責聲明 | 廣告查詢 | 加入信報 | 聯絡信報

股票及指數資料由財經智珠網有限公司提供。期貨指數資料由天滙財經有限公司提供。外滙及黃金報價由路透社提供。

本網站的內容概不構成任何投資意見,本網站內容亦並非就任何個別投資者的特定投資目標、財務狀況及個別需要而編製。投資者不應只按本網站內容進行投資。在作出任何投資決定前,投資者應考慮產品的特點、其本身的投資目標、可承受的風險程度及其他因素,並適當地尋求獨立的財務及專業意見。本網站及其資訊供應商竭力提供準確而可靠的資料,但並不保證資料絕對無誤,資料如有錯漏而令閣下蒙受損失,本公司概不負責。

You are currently at: www.hkej.com
Skip This Ads