2022年6月25日
要試驗一部機械是否有獨立思考,最著名的是圖靈測試(Turing Test),由英國天才科學家圖靈(Alan Turing)在1950年提出,但過了72年,圖靈測試已經過時,並不準確,AI界開始用更高級的測試方法。
定斷是否擁思考能力
圖靈稱這個測試為「模仿遊戲」(Imitation Game),指出如果一個人透過打字跟兩組對象對話,一個是人類,另一個是機械,而機械能持續騙過訪問者,令他不能分辨哪個回覆由真人發出,那麼可判斷這部機械擁有思考能力。不過,科網巨企近年發展出「大型語言模型」(large language model)等電腦程式,對話技術仿真度很高,LaMDA便是其中之一,這些程式或者通過到圖靈測試,但只能在特定條件下才表現得像人類,不能說具獨立思考的能力。
因此AI界近年不再以通過圖靈測試為榮,改用其他測試包括通用語言理解評估(General Language Understanding Evaluation,簡稱GLUE)、史丹福問答數據集(Stanford Question Answering Dataset,簡稱SQuAD)等。GLUE涵蓋9項測試,包括聽取句子中的人名和組織名、聽取句子中的同音異形字等。SQuAD基於數百篇維基百科文章而訂出的閱讀理解測驗。
無論是什麼測試,都存在根本問題──為了顯示機械已達很高的AI水平,如何騙過測試變成技術研究的一大目標,蓋過其他更實在的任務。《財富》雜誌專責AI新聞的記者Jeremy Kahn於2018曾指出,這是圖靈測試遺下的道德問題,對AI研究影響至今。
訂戶登入