在新聞學的理論上,媒體報道需要具事實及客觀性,但在現實中,新聞報道往往並非如此。商業及政治傳媒機構往往基於經濟利益或政治宣傳理由,發表具偏見的言論。再者,在當下訊息爆炸時代,網上獨立新聞工作者往往隨意地推出主觀的帖文,這些海量具偏見的資訊在網絡上泛濫,令社會更難把關。而長期閱讀帶有偏見的新聞報道,難免會令讀者的思想變得極端,影響社會和平及穩定的發展。因此,辨識新聞報道中的偏見,是近期人工智能(AI)的熱門研究題目,筆者亦參與多年。本文簡介筆者自動偏見辨識研究背後資訊分類的基本原則。
言辭可誇張 訊息或偏頗
媒體在報道有關社會事件、問題或衝突等的新聞時,傾向於對某一方、某一政策或者某一觀點提供持續性支持或反對的意見,這現象在學術上被定義為「媒體偏見」(Media Bias)。在西方,「媒體偏見」通常會與政治立場拉上關係。技術上,要直觀地識別出新聞報道中的偏見,我們可以從新聞文本出發,將「媒體偏見」分類為言辭上的偏見及訊息上的偏見。
在言辭上,偏見表達方式可分類為「嘩眾取寵」(Exaggeration)、「刻板印象」(Stereotype)、「斷章取義」(Quote Out Of Context)、「子虛烏有」(Hypothetical)等。媒體報道中常見「爆」、「瘋」等誇張詞語,用來吸引讀者注意力,但這些用詞手法難免會誇大或縮小相關問題的重要性,更會引起讀者恐慌或忽視。如果在報道中加深了對某些群體的刻板印象,將會導致在多元社會中不同群體之間的矛盾,甚至引發互相之間的仇恨。斷章取義也是一種常見的媒體報道的形式,僅僅選用採訪對象陳述中的一小部分,來支持自己的主觀意見。而預測性地說「假設……將會……」也是一種主觀偏見,誘導讀者接受報道者自己的觀點,包括與事實不符的言論。
然而,相比言辭上的偏見,訊息內容上的偏見則更難以識別。內容偏見可分為三大類,訊息遺漏、意見失衡、內容具煽動性等。其中最容易被識別的就是煽動性的報道,也就是新聞學所指的「膻色腥」(Sensational)報道。這類內容主要是利用嘩眾取寵、聳人聽聞的方式,不惜罔顧事實真相,不顧一切去吸引讀者的注意力。相比之下,其他兩種散播偏見的手法則較為隱蔽。舉例,凡事都有兩面,必然會有支持及反對者;正因如此,有些媒體為了表達自己對事件的支持,故意遺漏掉反對者的聲音;又或者相反地為了表達反對意見,而對事件的優點避而不談。另外,不平衡的報道是指媒體對自己所支持的觀點濃墨重彩,而對其他事情則一筆帶過,草草了事便算。
慎防LLM把謊言當主流
人工智能「媒體偏見識別」系統建基於「大型語言模型」(Large Language Model, LLM)。運用傳統「深度學習」(DL)方法,「偏見識別」LLM學習大量具偏見句子的表達方式,從中分析及了解句子的語法(Syntax)及語義(Semantic)之常用規則,之後用作偏見預測。然而,這方法對識別言辭上的偏見較為有效,對辨別訊息上的偏見卻較弱,因為語義分析遠比語法困難。要解決這問題,其中一個做法是在學習過程中,在面對同一事件時多輸入不同立場的媒體報道。不過,大家要注意的是,相關LLM學習算法本身是否帶有偏見。有研究指出,基於統計學「多數決定」(Majority Rule)原則,LLM通常是「左傾」的。所謂「謊言重複一千遍就是真理」;同樣地「千個偏見」便會被定性為主流意見。因此,用戶不應不假思索便全盤接納AI「偏見識別」的分析結果。
立法會議員
香港中文大學工程學院副院長(外務)
香港專業及資深行政人員協會副會長