熱門:

2018年6月14日

李亞力 數裏見真章

機器學習預測後市走向

人工智能(Artificial Intelligence) 近年來在多個應用領域都有了極速的發展。大部分專家認為,金融市場有大量準確的數據,所以人工智能應該能夠在金融業,在預測價格走勢方面有所突破。如何具體地運用人工智能去作出預測,相信不少讀者感到興趣。以下本文將會詳細介紹如何利用模式識別 (Pattern recognition)技術用於機器學習(Machine learning),並以此預測恒生指數的短期走勢。

機器學習是當今推動人工智能的一個主要部分,AI是一種非常豐富的技術,幾乎能用於生活中的每一個環節,例如面部識別(Facial recognition),自動駕駛(Autonomous driving),聲控輔助(Voice assistance),虛擬現實(Virtual reality)等,人工智能的核心是一種被稱為模式識別的技術。

在最基本的應用中,我們收集歷史數據,並把這數據的歷史結果進行匹配。那麼,在未來,如果遇到相同的數據,我們可以把它們與過去發現的相同結果進行匹配。例如,從已知的肺癌病例中提取組織樣本。然後我們在所有可能的維度上仔細測量這些癌細胞的組織樣本,例如顏色、長度、寬度、高度、氣味、位置及集群簇(clustering)等。

數據與結果可匹配

然後我們也對健康細胞進行相同的測量,這些測量值是歷史數據。歷史的結果是這些細胞是否癌變,這種把歷史數據與歷史結果相匹配的方法並不新鮮。但是現代先進計算能力的出現,令這個過程變得更加簡單和準確。然而,並非每項歷史數據與歷史結果相匹配的測量對結果都具相同預測能力。例如,說不定細胞的顏色比細胞的長度更能準確地預測細胞癌變率。換句話說,必須為不同的因素測量(Factor)分配不同的權重(Weight),以便優化(Optimize)我們的預測能力。因此,我們必須針對不同的歷史測量嘗試不同的權重,以找出哪一組權重將最準確地預測歷史結果。這種預測方法計算非常密集,在過去只是一個夢想,最近幾年通過新算法(Google)和先進計算機芯片(Intel)才能實現。

方法如下︰在這裏我們使用一種非常傳統的模式識別技術,稱為K個最近鄰域(K nearest neighbors-KNN),讓我們回到肺癌的例子。首先要找出可以告訴我們細胞是否癌變的相關因素。然後,當我們遇到一個新的未知細胞時(癌變與否),對這細胞的相關因素進行測量,並計算出這些新的因子測量結果與所有歷史因子測量結果之間的距離,找出哪個歷史測量結果與新測量結果的距離為最短,這就是所謂的最近鄰域。

如果找到的最近鄰域指示出這種歷史測量的記錄結果是非癌性的話,那麼這新細胞的預測即是非癌性。這種預測方法叫做1個最近鄰域(K=1)。我們可以很容易地推廣到超過一個最近鄰域的預測方法。假設K=3,那麼我們要求電腦計算找出那3個歷史測量與新測量具有最短的距離。假設這3個最近鄰域的歷史結果是(1)癌性,(2)非癌性和(3)非癌性。然後通過多數投票(Majority voting),這新細胞的預測即是非癌性(2對1)。

需進行三步曲計算

當然,這是一個財務專欄,對預測新細胞癌變率不感興趣,實際上希望模式識別技術可以準確預測恒生指數走勢。這預測程序是個3步曲︰(1)訓練(Training),(2)測試(Testing),(3)預測(Predicting)。首先,根據歷史數據和密集計算(訓練),確定那些因素與恒指一起移動。可以使用的歷史數據包括美股道瓊斯指數,A股滬綜指和深成指等,數據也可包括1天、2天或3天滯後(Lagging)的變化(上升或下降)。

把這數據跟恒指的歷史變動(上升或下跌)一起進行匹配,一旦找出了最有效的相關因素,就可以通過歷史數據(測試)來調整每個相關因素的權重,以查看那一組權重具有最佳的預測能力。掌握了相關因素和最佳權重,就可利用它們預測未來的恒指走勢,作為一個實驗測試。在實驗結束後,計算出在總次數中正確預測恒指移動的成功率。這個成功率實際上是統計檢驗的測試統計數據(Test statistic),這統計檢驗的零假設(Null hypothesis)認為用模式識別技術來預測恒生指數走勢的準確性並不高於拋硬幣的或然率,即50%。一般來說機器學習算法高於60%是正常的,高於70%即比較優越。

有效猜測移動方位

參考數據︰現在我們用18個解釋變量(Explanatory variable)來預測恒生指數在任何一天是上升還是下降,並不是要預測恒生指數移動的大小,而只是移動的方向。如果用恒指期貨合約進行交易,那麼正確地猜測移動方向就足以盈利。另外,稍後會看到,僅僅猜測方向比擊倒有效市場假說(Efficient market hypothesis)或甚至傳通通計技術,例如邏輯回歸(Logistic regression)要容易得多。有關預測的成效,下期待續。

作者為香港大學統計及精算學系講師

 

訂戶登入

回上

信報簡介 | 服務條款 | 私隱條款 | 免責聲明 | 廣告查詢 | 加入信報 | 聯絡信報

股票及指數資料由財經智珠網有限公司提供。期貨指數資料由天滙財經有限公司提供。外滙及黃金報價由路透社提供。

本網站的內容概不構成任何投資意見,本網站內容亦並非就任何個別投資者的特定投資目標、財務狀況及個別需要而編製。投資者不應只按本網站內容進行投資。在作出任何投資決定前,投資者應考慮產品的特點、其本身的投資目標、可承受的風險程度及其他因素,並適當地尋求獨立的財務及專業意見。本網站及其資訊供應商竭力提供準確而可靠的資料,但並不保證資料絕對無誤,資料如有錯漏而令閣下蒙受損失,本公司概不負責。

You are currently at: www.hkej.com
Skip This Ads