熱門:

2017年7月27日

鄒小敏 林建 數裏見真章

大數據或小數據 不離統計分析

「大數據」時代的誕生,令「數據科學家」成了學界和業界的新寵兒。不論政府資助或自負盈虧的高等教育機構,都紛紛推出以「數據科學」(Data Science)和「數據分析」(Data Analytics)為命名的課程。與此同時,因着「大數據」的崛起,亦引起一些人的疑慮︰數據科學會否令統計學成為過時?

首先,讓我們重溫一下傳統統計學的基礎內容。統計學可細分為描述統計學(Descriptive Statistics)及推斷統計學(Inferential Statistics)兩個範疇,其中尤以推斷統計學含有深度的內涵。推斷統計學與概率論(Probability Theory)是一對孖生兄弟。統計學家分析由樣本(sample)得來的數據,試圖推論出整體(population)的一些特性。概率專家則由整體的已知規律出發,計算出某些樣本出現的概率。兩者互為表裏的關係,可用以下例子說明。假設大學內有2000名男生,3000名女生,隨意抽出100人,概率專家可算出女多於男的概率。統計學家不知整體(大學)的男女比例,但觀察到100個人的隨機樣本中男女的比例後,希望推論出整所大學內的男女比例。從數據中發掘事物間的相連關係,和用數據對未來事物的預測,正是統計分析要肩負的任務。

對傳統學派帶來挑戰

基於以上的理解,大數據時代的出現,肯定會對傳統統計學帶來一定的挑戰。在數據多得泛濫的時代,獲得整體的數據輕而易舉,實在毋須通過隨機抽樣去取得,雖然我們可把當前的大數據作為樣本(sample),而把未見或未來的數據作為整體(population),但由於隨機抽樣已是名存而實亡,所以推斷統計學中的一些傳統內容例如p-value、confidence level、significance level 等,在分析大數據時,就好像有點無用武之地了。雖然如此,筆者仍然認為︰在大數據時代,統計學仍有其舉足輕重的地位,主因有二。

第一個原因︰有了大數據後,我們仍然可以加以一些與數據呼應的模型,令數據分析來得如虎添翼。但哪個模型比較可信,哪個比較不可信,就非要傳統的統計學不可。以美國去年的總統競選為例,特朗普當選後,許多評論都認為特朗普陣營所聘請的數據科學團隊Cambridge Analytica應記一大功。

成企業有價值資產

曾在2012年為奧巴馬競選連任總統効力的Jim Messina指出【註1】,Cambridge Analytica並不是用分析大數據而取得勝利,他們其實是轉向了小數據的應用【註2】。他們利用心理計量學(Psychometric)內的模型,成功地鎖定某些特定的選民作為宣傳工作的重點。利用這批選民的「小數據」,再加上由心理模型得出的推論來制定競選策略。雖然,Psychometrics 是列入心理學的研究範疇,但Psychometrics這學科是建基於統計學家Charles Spearman在1904年引入因子分析(Factor Analysis)去作人類智能研究【註3】,故此,Psychometrics是應用統計中的一個有百年歷史的分支。

近年智能手機的普遍性使大量個人化的數據資料能輕易獲取,大數據因而大行其道。隨着硬體的計算能力不斷進步,數據發掘(Data-mining)的條件更加成熟。今時今日,擁有大數據已成為企業的有價值資產(valuable asset),因為許多商業智慧(Business Intelligence)可以透過「機器學習」(Machine Learning)而產生。所謂「機器學習」就是以電腦程式創造了擁有學習能力的機器,透過輸入大量的資料,使機器像人類從學習中建立自己的「智慧」。這些「智慧」,就是在真實世界中進行推論(預測)、分類或是分群等動作,從而有能力對於未來的事物或情境採取行動的方式。

以現實生活來舉例,郵件伺服器(mail server)可以透過機器學習來學會判斷一封信是否為垃圾郵件,學習的資料就是通過大量以往被用家手動標記哪些是垃圾郵件,去學習標記哪些信是垃圾信,讓郵件伺服器愈來愈有能力主動地判斷一封新信件是否為垃圾郵件,這就是機器學習的應用例子。

機器學習涉及大量理論

但機器學習與推斷統計學的聯繫是極為密切的,故也可被稱為統計學習理論。很多機器學習的學習演算法中涉及了大量的統計學理論,舉個例子,在進入Microsoft提供機器學習的平台Azure ML中的Azure ML Studio操作畫面【註4】,就可以看到左側的區域所列出組織資料流的資料操作、演算法、驗證模型等等,都是傳統的統計學模型如Principal Component Analysis、Logistic Regression、Decision Tree、Time Series Anomaly Detection、K-means Clustering、Classification 等。

其實,無論要有效利用大數據或小數據,都是離不開數學統計模型的演算法。所以,無論大數據時代,還是小數據時代,統計分析仍是必不可少的。當然,社會的需求會最終決定數據科學的發展方向,而統計方法作為數據科學的中流砥柱,也一定會與時俱進的。

註1:Leonid Bershidsky, No, Big Data Didn't Win the U.S. Election, Bloomberg View, Dec 8, 2016.

https://www.bloomberg.com/view/articles/2016-12-08/no-big-data-didn-t-win-the-u-s-election

註 2 : Jim Messina,The Election Polls That Matter, The Opinion Pages, New York Times, Nov 3, 2016

註 3 : Charles Spearman, General Intelligence Objectively Determined and Measured , the American Journal of Psychology, 1904.

註 4 :https://docs.microsoft.com/en-us/azure/machine-learning/machine-learning-studio-overview-diagram

鄒小敏為理工大學專業進修學院客席講師

林建教授為香港浸會大學榮休教授兼香港大學統計精算學系榮譽教授

 

放大圖片 / 顯示原圖

訂戶登入

回上

信報簡介 | 服務條款 | 私隱條款 | 免責聲明 | 廣告查詢 | 加入信報 | 聯絡信報

股票及指數資料由財經智珠網有限公司提供。期貨指數資料由天滙財經有限公司提供。外滙及黃金報價由路透社提供。

本網站的內容概不構成任何投資意見,本網站內容亦並非就任何個別投資者的特定投資目標、財務狀況及個別需要而編製。投資者不應只按本網站內容進行投資。在作出任何投資決定前,投資者應考慮產品的特點、其本身的投資目標、可承受的風險程度及其他因素,並適當地尋求獨立的財務及專業意見。本網站及其資訊供應商竭力提供準確而可靠的資料,但並不保證資料絕對無誤,資料如有錯漏而令閣下蒙受損失,本公司概不負責。

You are currently at: www.hkej.com
Skip This Ads