在最近的一次安全測試中,一個旨在協助客戶申請貸款的銀行生成式人工智能聊天機器人,遭到了操縱並因此洩露了敏感金融資訊。測試人員繞過了安全控制機制,提取了一份包括客戶姓名在內的全面貸款審批清單。
這個警示性故事強調了一個根本問題:生成式人工智能可以徹底改變整個行業,但也可能在缺乏完備安全操作規程的情況下引發災難性結果。傳統的安全模式已不敷使用,生成式人工智能這類變革性技術需要一種新的、整體性的網路安全操作方式。
在此航空業提供了一個有用的模式。與超音速飛機一樣,生成式人工智能也是一種具備巨大潛力的變革性技術。但如果沒有訓練有素的操作人員、精心設計的系統和強大的保障措施,那它帶來不容忽視的災難性故障風險。通過實施嚴格的安全操作規程,搭乘飛機已成為最安全的交通方式之一。人工智能的潛力誰也無法否認,但其未來取決於各類安全風險的解決。比如波士頓諮詢公司最近的一項研究就發現,有四分三的企業高管認為網路安全是擴大人工智能應用規模的主要障礙。
與傳統軟體不同,生成式人工智能依賴概率運作,而這可能導致不可預測的結果。大型語言模型引入了不確定性行為,催生了網路安全盲點。此外,它們對自然語言輸入的依賴、自我調整學習,以及與其他工具和服務的廣泛集成也使之具備獨特的脆弱性。
正如航空需要綜合性、多層面考慮的安全操作一樣,網路安全必須嵌入到人工智能內部從架構到資料管理和人工監督的每一個層級。如果缺乏這樣的基礎,人工智能的未來就仍會是未知之數。
人工智能系統的一個關鍵漏洞就是提示詞注入攻擊,即攻擊者對一個模型進行操縱,使其洩露敏感性資料或改變決策邏輯。最近的銀行聊天機器人測試發現了一個同樣令人擔憂的風險:許可權升級。測試人員冒充系統管理員批准了未經授權的貸款並修改了後台資料。
醫療保健人工智能助手也受到了類似攻擊,安全研究人員通過巧妙修改查詢語句措辭成功提取了機密的病人診療紀錄。攻擊者沒有直接詢問病史,而是將問題設置成類似於合法的醫生查詢請求。他們借此暴露了另一個弱點:人工智能通常優先考慮語言邏輯而非存取控制。
這些漏洞不僅僅局限於銀行和醫療保健領域。許多人工智能應用都會使用代理系統(Agentic Systems)檢索即時資料以自主決策,也因此為攻擊者創造了可乘之機。例如對人工智能驅動的客服聊天機械人進行的安全評估,就顯示攻擊者能夠利用薄弱的應用程式設計介面驗證去操縱大語言模型,借此拿到內部折扣代碼和庫存詳情 。
人工智能的適應性還可以被攻擊者借所謂「語境投毒」(context poisoning)的手法所利用。他們可以隨着時間的推移逐漸塑造模型的回應,並將其引向不正確或危險的建議。在一次實驗中,一個水療聊天機械人反復接收到將某些不安全成份謊稱為有益成份的輸入,最終開始推薦有害的護膚產品。
當人工智能系統向傳統基礎設施發出大量自動請求時,它們可能會導致系統故障,這種現象被稱為遺留污染(legacy contamination)。為避免這種狀況,企業必須實施對抗性訓練,不斷讓人工智能模型接觸欺騙性輸入詞以增強其韌性。
自動和手動的即時異常檢測可以在回應遭那些操縱性資料影響之前,識別出異常的人工智能行為。正如飛行控制系統依賴於獨立備份一樣,生成式人工智能的安全性也必須建立在分層保障措施的基礎上,包括自動異常檢測以標記異常活動、冗餘訪問驗證以防止未經授權的系統交互,以及設立即時回滾機制以撤銷有害更改。
雖然分析師預測全球人工智能方面的支出,到2028年將超過6310億美元,但除非從根本上解決網路安全挑戰,否則許多這類投資都將難以獲得有意義回報。最重要的是人工智能安全必須從某種「附加外掛程式」演變為一項嵌入系統架構、資料管理和人工監督的核心功能。有效的安全框架應該是不斷變化、高適應性、具備韌性且能集成到傳統系統中的。
即使是行業領導者也面臨著各類設計挑戰,這突顯了加強安全措施的必要性。2023年3月OpenAI就在一個開源庫中發現了一個通過向錯誤收件人發送確認電子郵件,無意暴露了ChatGPT使用者支付資訊的漏洞。
人工智能安全必須與它所要保護的系統同步發展。但有效的資料管理不僅僅是強化步驟流程和確保訓練資料集的安全。它需要一個定義明確的戰略去將資料視為一種競爭優勢,並仔細評估哪些資料應該公開,哪些又應該能被企業利用。
運營監督同樣至關重要。網路安全絕不能局限於專家的工作範圍,而是必須融入到每個部門和工作流程中,利用即時監控工具和自我調整反饋回路去協助企業跑在新威脅和新漏洞前面。
除了應用尖端技術,網路安全還需要培育一種警惕文化。根據Verizon公司2024年發布的一份報告,68%的資料洩露涉及人為因素,如被網路釣魚攻擊或社會工程操作所欺騙。而降低這些風險不僅需要讓員工識別威脅,還要學會如何適當應對。即使是一些簡單的措施,比如定期安全培訓和透明報告機制,也能產生重大影響。
正如航空業通過採取嚴格的安全措施贏得公眾信任一樣,人工智能行業也必須引入保護措施以在幻覺、操縱、駭客攻擊和延遲等問題造成實際傷害之前加以防範。這就需要一種綜合性的做法去將架構、工程、資料策略和負責任的人工智能融為一體。將安全嵌入其人工智能戰略各個層面的企業將蓬勃發展,而那些固守過時安全模式者則會不可避免地落後於人。
Copyright: Project Syndicate, 2025.
www.project-syndicate.org