2024年5月31日
數據正以指數級速度生成,而用於解析(parse)這些數據的演算法技術也同樣迅速發展。這為投資開創了全新機遇,並提供運用另類數據的創新方法。投資專業人士現正探索一個由非結構化數據、另類數據和開放數據輔助的領域。CFA協會2023年7月進行的一項關於另類和非結構化數據的調查顯示,超過一半的投資專業人士正在把非結構化數據納入其工作流程,另有64%表示使用另類數據──這種轉變促使業界重新評估另類和非結構化數據的分析方法和框架。
在過去幾十年,金融分析的主要方法圍繞着利用結構化的數字數據。隨着數碼革命持續,新的另類數據供應商開始大量湧現,如何資本化數據成為了新趨勢。非結構化數據的指數級增長,促使對處理和提取有價值見解的技術需求增加,導致數據科學成為投資公司內部高度追捧的專業領域。
先了解各種來源
在定義投資決策過程中使用的數據時,第一個區分等級是要了解數據的各種來源,當中包括公司、政府、個人以及衞星和探測器。公司數據包括財務報表、營運指標、策略計劃以及個人或實體與公司產品及服務互動時所產生的數據。此類互動數據涉及信用卡交易、應用程式下載次數的統計和電郵收據。政府數據則涵蓋與國家經濟健康狀況和表現的相關統計數據,而政府互動數據則從政府日常活動中產生的數據,即商業許可、授予的專利以及公共服務的使用情況,例如交通工具和公共設施使用率。個人數據則透過個人的線上活動產生數據,包括社交媒體上的互動、消費者評論和搜尋引擎的相關數據。最後,衞星和探測器等技術以地理位置資訊、衞星圖像和物聯網(IoT)設備(如製造設備使用模式)等形式
產生數據。
第二個區分等級視乎該數據屬傳統或非傳統數據。非傳統數據亦稱為另類數據,是指任何有別於傳統投資來源的數據,例如財務報表、市場數據和經濟指標。根據上述CFA協會的調查,最常用的另類數據是公開可用的政府數據(9%)、新聞和媒體上的情緒數據(8%)、就業數據(7%)、網絡擷取數據(7%)、ESG(環境、社會及企業管治)數據(7%)等。
最後一個區分等級是數據的形式。非結構化數據缺乏特定的格式或組織,導致難以使用傳統數據處理工具進行分析。非結構化數據的例子包括社交媒體貼文、消費者評論、衞星圖像和來自互聯網設備的原始探測器數據。非結構化數據的特徵是其非表格和非關聯性質, 相反,結構化數據的組織良好且易於搜尋。此外,還有半結構化數據形式,例如電郵收據和JSON(JavaScript Object Notation)檔案。這些檔案具有一定程度的組織性,但不如數據庫或電子表格嚴謹。
下圖為使用業績發布時所產生的數據為例子,以表格形式分解數據類型和結構,以助理解這些概念。
自然語言處理技術
ESG標準為投資者帶來一個動態領域,因為ESG數據中具有自身的主觀性和複雜性。這是一個適合採用人工智能和其他客製化方法來分析數據,並在此複雜環境中捕捉投資回報的領域。在當今資訊高速發展的環境中,重要的ESG標準或會發生變化,從傳統的二氧化碳排放問題,擴展到包括地緣政治衝突的影響,如供應鏈變化、武器製造以及其他問題。此外,可獲取的大部分ESG數據都是公司自我報告,並且通常滯後於公司目前執行ESG項目的狀況。
自然語言處理和電腦視覺技術的進步大大提升了投資專業人士從非結構化數據(如ESG)中提取有價值見解的能力。同時,開源(open-source)社群的興起使得一些最先進的工具現時亦可免費使用,這些廣泛可用的工具令投資專業人士更加容易在使用非結構化數據和開源替代數據來源中找到價值。對於投資公司而言,隨着使用這些工具的障礙不斷減少,擁有內部拆解分析非結構化數據的能力將變得愈來愈關鍵。
對於投資專業人士來說,要推動我們在日益技術化的金融領域前進,必須緊貼技術趨勢,掌握用於剖析複雜數據集的程式語言,並且敏銳地認清幫助改善工作流程的工具。
作者為CFA協會高級研究主管
訂戶登入
上一篇: | AI市場狂熱並非捕風捉影 |