利用人工智能辨別媒體偏見政經評論分析 - 專題

在新聞學的理論上，媒體報道需要具事實及客觀性，但在現實中，新聞報道往往並非如此。商業及政治傳媒機構往往基於經濟利益或政治宣傳理由，發表具偏見的言論。再者，在當下訊息爆炸時代，網上獨立新聞工作者往往隨意地推出主觀的帖文，這些海量具偏見的資訊在網絡上泛濫，令社會更難把關。而長期閱讀帶有偏見的新聞報道，難免會令讀者的思想變得極端，影響社會和平及穩定的發展。因此，辨識新聞報道中的偏見，是近期人工智能（AI）的熱門研究題目，筆者亦參與多年。本文簡介筆者自動偏見辨識研究背後資訊分類的基本原則。

言辭可誇張訊息或偏頗

媒體在報道有關社會事件、問題或衝突等的新聞時，傾向於對某一方、某一政策或者某一觀點提供持續性支持或反對的意見，這現象在學術上被定義為「媒體偏見」（Media Bias）。在西方，「媒體偏見」通常會與政治立場拉上關係。技術上，要直觀地識別出新聞報道中的偏見，我們可以從新聞文本出發，將「媒體偏見」分類為言辭上的偏見及訊息上的偏見。

在言辭上，偏見表達方式可分類為「嘩眾取寵」（Exaggeration）、「刻板印象」（Stereotype）、「斷章取義」（Quote Out Of Context）、「子虛烏有」（Hypothetical）等。媒體報道中常見「爆」、「瘋」等誇張詞語，用來吸引讀者注意力，但這些用詞手法難免會誇大或縮小相關問題的重要性，更會引起讀者恐慌或忽視。如果在報道中加深了對某些群體的刻板印象，將會導致在多元社會中不同群體之間的矛盾，甚至引發互相之間的仇恨。斷章取義也是一種常見的媒體報道的形式，僅僅選用採訪對象陳述中的一小部分，來支持自己的主觀意見。而預測性地說「假設……將會……」也是一種主觀偏見，誘導讀者接受報道者自己的觀點，包括與事實不符的言論。

然而，相比言辭上的偏見，訊息內容上的偏見則更難以識別。內容偏見可分為三大類，訊息遺漏、意見失衡、內容具煽動性等。其中最容易被識別的就是煽動性的報道，也就是新聞學所指的「膻色腥」（Sensational）報道。這類內容主要是利用嘩眾取寵、聳人聽聞的方式，不惜罔顧事實真相，不顧一切去吸引讀者的注意力。相比之下，其他兩種散播偏見的手法則較為隱蔽。舉例，凡事都有兩面，必然會有支持及反對者；正因如此，有些媒體為了表達自己對事件的支持，故意遺漏掉反對者的聲音；又或者相反地為了表達反對意見，而對事件的優點避而不談。另外，不平衡的報道是指媒體對自己所支持的觀點濃墨重彩，而對其他事情則一筆帶過，草草了事便算。

慎防LLM把謊言當主流

人工智能「媒體偏見識別」系統建基於「大型語言模型」（Large Language Model, LLM）。運用傳統「深度學習」（DL）方法，「偏見識別」LLM學習大量具偏見句子的表達方式，從中分析及了解句子的語法（Syntax）及語義（Semantic）之常用規則，之後用作偏見預測。然而，這方法對識別言辭上的偏見較為有效，對辨別訊息上的偏見卻較弱，因為語義分析遠比語法困難。要解決這問題，其中一個做法是在學習過程中，在面對同一事件時多輸入不同立場的媒體報道。不過，大家要注意的是，相關LLM學習算法本身是否帶有偏見。有研究指出，基於統計學「多數決定」（Majority Rule）原則，LLM通常是「左傾」的。所謂「謊言重複一千遍就是真理」；同樣地「千個偏見」便會被定性為主流意見。因此，用戶不應不假思索便全盤接納AI「偏見識別」的分析結果。

立法會議員

香港中文大學工程學院副院長（外務）

香港專業及資深行政人員協會副會長

利用人工智能 辨別媒體偏見

利用人工智能辨別媒體偏見