熱門:

2019年8月20日

黃錦輝 行業微觀

數據為王 決定人工智能

人工智能(AI)系統利用機器(軟件或硬件)代替人類的行為,要達到這目標,持續學習非常重要。人類自小便爭取機會多讀書、看報紙、看電視、上網等,目的就是增廣見聞,充實自己。同樣地,電腦也仿效人類不斷學習,此行為便是多年來科學家積極鑽研的「機器學習」(Machine Learning, ML)。機器學習是體現人工智能的「關鍵促成技術」(Key Enabling Technology),概括而言其落實可以基於不同方法,例如數學模型(Mathematical Modeling)、計算機算法(Computational Algorithm)、神經網絡(Neural Network)等。

「深度學習」技術應用廣泛

值得注意是近年「深度學習」(Deep Learning, DL)技術大行其道,它是基於「多層」神經網絡的機器學習方法。簡單來說,一層神經組織負責處理一項任務,「多層」即是把多項任務串起來統一處理。

以「人臉識別」應用為例,系統之目的是從一張照片中識別出目標人物,整理過程中第一層任務是把相中所有物件(object)的邊界(boundary)認出;第二層把各部位的相關邊界連接起來識別人臉的部位(例子臉形、眼睛、耳朵、眼眉等);第三層把各部位本身及與其他部位之間的特徵找出來,最後第四層把所有人臉特徵組合起來判斷相中人的身份。

透過「深度學習」,系統訓練可以一次過把四層的任務,一層接一層地同時處理,這做法可減少每一層獨立處理之後再互相連接的時候所產生之錯誤,分別包括自身及複合錯誤。「深度學習」被人工智能業界廣泛使用來研發創新的應用系統,如「實時機器翻譯」(Real-time Machine Translation),效果顯著。

機器學習依靠大數據作模型培訓,因此數據質量是機器學習的關鍵問題。數據不足可以嚴重影響學習的可靠性,情況等同在統計學中數據不足會局限統計結果的覆蓋範圍,繼而系統的準確率。

事實上,這亦是學術界做科研經常碰到的瓶頸問題,原因是工商業界擁有全球九成以上的應用數據,尤其是互聯網巨擘例如騰訊、谷歌等公司,學術界能使用的少之又少。針對數據短缺問題,有人工智能科學家提出以下折衷方案:

‧「遷移學習」(Transfer Learning)是將一個源領域(source domain)已訓練好的模型遷移至目標領域(target domain),從而建構出另一個相應而有效的目標模型。此舉可以避免機器學習由零開始,節省大量訓練數據的需求。以自然語言處理應用為例,既然系統已學會處理西班牙語,便可以把技術遷移至學習意大利語。又例如機器人經培訓後學會踏雙輪單車,它便很容易去學會駕駛電單車。

‧「聯邦學習」(Federated Learning)促進數據共享,各領域都擁有自己專有數據的電腦節點,透過分布式互相學習,可以強化各自的人工智能。由於各節點的數據格式不一致,難以集中管理,有見及此,近期科學家積極研究利用基於去中心化原理的「區塊鏈」技術,進行高效分布式學習。

科研偏重商業 弊多於利

在數碼經濟社會中,「數據是王者」(Data is King),可是這現象引發「富者愈富,窮者愈窮」的馬太效應。大型跨國企業會利用自己的「大數據」推陳出新,研發出創新的人工智能產品,而中小型企業及學術界因數據不足,在發展速度上望塵莫及。若然情況沒法改善,全球的科研便會偏重於商業應用,而忽略基礎科學,長遠而言對未來人文發展弊多於利。

香港中文大學工程學院副院長(外務)

香港資訊科技聯會前會長

 

訂戶登入

回上

信報簡介 | 服務條款 | 私隱條款 | 免責聲明 | 廣告查詢 | 加入信報 | 聯絡信報

股票及指數資料由財經智珠網有限公司提供。期貨指數資料由天滙財經有限公司提供。外滙及黃金報價由路透社提供。

本網站的內容概不構成任何投資意見,本網站內容亦並非就任何個別投資者的特定投資目標、財務狀況及個別需要而編製。投資者不應只按本網站內容進行投資。在作出任何投資決定前,投資者應考慮產品的特點、其本身的投資目標、可承受的風險程度及其他因素,並適當地尋求獨立的財務及專業意見。本網站及其資訊供應商竭力提供準確而可靠的資料,但並不保證資料絕對無誤,資料如有錯漏而令閣下蒙受損失,本公司概不負責。

You are currently at: www.hkej.com
Skip This Ads