熱門:

2023年10月11日

車品覺 全民大數據

理解4V特性共同點

過去10年間,大數據的發展深深地影響大型AI(人工智能)模型(如深度學習和機器學習模型)的進步及應用。隨着大數據的普及與可訪問性增加,大規模模型訓練呼之欲出。雲計算及先進的數據分析技術,使我們能夠處理和分析之前無法處理的非結構化數據(例如文章、影像等),從而訓練出更複雜的模型,如BERT和GPT-4等大規模語言模型的應用。

然而,筆者覺得大數據和大型語言模型(LLM)之間存在許多相似性,值得用家們參考,這些共通點可以通過大數據的「4V」特性來理解:Volume(體量)、Velocity(速度)、Variety(多樣性)和Veracity(真實性)。

一、體量:大數據和LLM都需要處理大量數據。處理這些數據的成本包括硬體、軟件、人力等資源。同時,數據的保護和私隱也是重要成本。當然更值得我們深思的是,往後走下去,數據量真是愈多愈好嗎?還是會出現飽和現象?

二、速度:在大數據和LLM中,處理速度至為重要。大數據需要快速捕獲、儲存、處理和分析,而LLM需要快速處理和理解輸入的文本數據,以滿足用戶的實時需求,但追求速度的背後,當然是高昂成本及投資回報。

三、多樣性:大數據和LLM都要處理多種來源的數據。處理和分析不同類型數據,可以讓我們從多個角度理解一個問題,從而獲得更全面的洞察。那麼大模型是否會像大數據一樣,需要有很多小模型作為交接點,從而產出價值?

四、真實性:大數據的價值和LLM的表現,很大程度上取決於數據的質量。但因多源異構的關係,數據質量是無法像小數據作清洗及驗證,因此在使用時都要格外小心及作多方驗證,甚至僅可以作為大方向指引,或者與傳統分析一併使用。

當處理大數據和LLM時,還需要考慮數據的私隱和安全問題。對於大數據,監管主要關注是如何收集、儲存和使用數據,以及如何保護數據的安全和私隱。對於LLM,雖然亦需要保護訓練數據的私隱,但更重要的是,如何確保模型生成的文本不會洩露敏感訊息。

毋庸置疑,LLM具有巨大的潛力,可以提高生產力,甚至幫助獲取新的知識和技能。我們需要在創意與效率之間找到平衡,筆者建議企業或個人在使用GPT類似的產品時,最好先從自己熟悉的範疇開始,學習如何與人工智能合作,最好預設它不一定會給你最準確的答案,而是提供較有創意但又模糊(Probabilistic)的建議供參考。

車品覺_香港科技園有限公司董事、香港大學中國商學院客座副教授

 

(編者按:車品覺著作《覺悟.大數據》現已發售)

歡迎訂購:實體書、電子書

訂戶登入

回上

信報簡介 | 服務條款 | 私隱條款 | 免責聲明 | 廣告查詢 | 加入信報 | 聯絡信報

股票及指數資料由財經智珠網有限公司提供。期貨指數資料由天滙財經有限公司提供。外滙及黃金報價由路透社提供。

本網站的內容概不構成任何投資意見,本網站內容亦並非就任何個別投資者的特定投資目標、財務狀況及個別需要而編製。投資者不應只按本網站內容進行投資。在作出任何投資決定前,投資者應考慮產品的特點、其本身的投資目標、可承受的風險程度及其他因素,並適當地尋求獨立的財務及專業意見。本網站及其資訊供應商竭力提供準確而可靠的資料,但並不保證資料絕對無誤,資料如有錯漏而令閣下蒙受損失,本公司概不負責。

You are currently at: www.hkej.com
Skip This Ads