熱門:

2019年6月24日

龐兆恩 數裏見真章

尋找決策樹最優結構

計算機運算能力的進步造就了AI應用在最近幾年的突破,因為有了科技的優勢,AlphaGo在下棋時能在短時間內模擬非常多的可能性,就算擁有人類最強大腦,也不能比它算的步數多。

以前做量化研究,計算簡單的單因子線性回歸會花上不少時間,現在利用決策樹分析十年數據,一台性能較好的台式電腦可能不到幾分鐘就能完成計算。運算效率提高當然是好事,但如果應用不當也會衍生隱憂。機器學習的一個重要原理,是利用搜索算法為模型找出參數值,快速運算可以讓搜索過程很快完成,卻也很容易引致過度擬合(Overfitting)問題。

三類交叉驗證法

控制過度擬合是在機器學習裏面一個重要議題,能否得出一個好的預測模型往往取決於過度擬合的控制。簡單來說,過度擬合是指模型過度學習一組特定訓練資料,當數據在訓練資料範圍以外,原來的模型無法適應而失去預測能力。一個簡單的比喻就是有學生在考試前把所有的模擬試卷做完,把最難的題目都記得怎樣做,拿到滿分,惟他沒有學懂學科真正的原理,在公開試只要題目一轉,就給難倒。

進行量化分析時,很多時候花了不少心思去做回測,把樣本內回測的回報圖都做成直線一樣,一旦進行真正交易時,表現卻跟回測統計並不一致,大有可能是掉進了過度擬合的陷阱。

要檢查有沒有過度擬合的問題,最常用方法的就是利用交叉驗證(Cross Validation)。交叉驗證基本原理是把數據進行分組,一組為訓練數據(Training Set),另一組為驗證數據(Validation Set),首先利用訓練數據對模型進行訓練,再利用驗證數據來測試模型的準確率。

交叉驗證的分組方法大致可分為3類,最簡單的分組方法就是把整組數據分成兩部分,訓練數據佔p%,驗證數據佔1-p %。比方說有10年的數據,可以把前7年定為訓練數據,後3年定為驗證數據,這分組方法叫Hold-out 交叉驗證。

第二種方法叫留一驗證(Leave-one-out),留一的意思就是在全部樣本中留出一個樣本,剩餘的樣本用來訓練模型,這程序會重複直到每一個樣本都被當作過一次驗證資料。

第三種分組方法叫k折交叉驗證(K-fold),也是最常用的方法,做法是將數據隨機平均分成k份,然後將其中一個份數據當做驗證數據,剩下的k-1組數據作為訓練資料,這樣就會有k次的訓練和驗證,最終準確度將是k個驗證準確度的平均數。

筆者利用2005年至2018年的滬深300指數成分股數據做了一個交叉驗證的分析,預測模型是CART決策樹。第一步挑選了5個因子作模型基礎,這5個因子分別是價值,波幅、動能、反轉、股本回報率,這5個因子用作為決策樹模型的屬性(attribute),預測目標則是每月的相對回報。理論上一棵沒有限制的決策樹可以在訓練數據上做到完全擬合(perfect fit),因此樣本內準確度將會達到百分百。當決策樹樹形有着限制,擬合程度就會降低。

按股票回報預測分組

【附表】顯示不同樹形的樣本內準確度(準確度由Mean Square Error代表),樹形由最簡單的一層開始,一直到8層,最後是一棵沒限制的完全長成樹,從結果可以看到當樹的結構愈複雜,樣本內準確度就愈高,也代表擬合度愈高。【附表】同時展示了交叉驗證的結果,跟樣本內的有着明顯區別。當決策樹樹形愈趨複雜時,樣本外的預測能力並沒有一致增加。

分析結果指出,最優的樹形是一棵3層的決策樹,沒有任何限制的決策樹得出的錯誤率反而最高。交叉驗證可以幫助找出最理想的決策樹樹形來進行股票回報預測。得出股票回報預測後,可以根據股票回報預測高低分組,例如可以分成5組,把預測最高的一組構成股票組合,目標是跑贏指數,同時也可以利用預測最高的一組建長倉,預測最低的一組建短倉,造成長短倉策略。

最後一提的是機器學習在資本市場上的應用跟其他領域很不一樣,在圖形辨識或生物認證的範疇裏,AI預測的準確度可以很高,相反在股票投資裏,如果到達55%左右的命中率已經是很不錯的成績,因此淺層的機器學習比較適用於股票市場研究,過度複雜的模型反而阻礙了模型的功效發揮。

作者為Rivermap Quantitative Research創辦人,專注於量化投資研究

 

訂戶登入

回上

信報簡介 | 服務條款 | 私隱條款 | 免責聲明 | 廣告查詢 | 加入信報 | 聯絡信報

股票及指數資料由財經智珠網有限公司提供。期貨指數資料由天滙財經有限公司提供。外滙及黃金報價由路透社提供。

本網站的內容概不構成任何投資意見,本網站內容亦並非就任何個別投資者的特定投資目標、財務狀況及個別需要而編製。投資者不應只按本網站內容進行投資。在作出任何投資決定前,投資者應考慮產品的特點、其本身的投資目標、可承受的風險程度及其他因素,並適當地尋求獨立的財務及專業意見。本網站及其資訊供應商竭力提供準確而可靠的資料,但並不保證資料絕對無誤,資料如有錯漏而令閣下蒙受損失,本公司概不負責。

You are currently at: www.hkej.com
Skip This Ads