AI(Artificial Intelligence,人工智慧,以下通稱為AI)作為現今世代已變成不得不學習的「工具」,總是會輕易相信AI所回答的資訊,然而在使用AI的過程中總是會發覺有時AI回答的答覆反而沒有Google搜尋引擎來的「準確」,若是沒有特別去查證事實,很容易會引起某種得到正確答案的「幻覺」。
最近才從 OpenAI 離職的知名專家安德烈.卡爾帕西(Andrej Karpathy)說,產生幻覺的現像是生成式人工智慧的底層技術---大型語言模型(LLM)的最大特點。
AI的數據資料庫以及回應藉由演算預測出可能的回答,但真實性卻是可以藉由在與AI對話的過程當中去做變更、更新關鍵字,因此出來的事實有可能是AI預測捏造出來的「幻覺」回覆。
避免這個現象發生的技術是一項挑戰,不過,據 Marktechpost 報導,Google DeepMind 和史丹佛大學似乎找到了某種變通辦法。
研究人員提出了一種基於 LLM 的系統---「搜尋增強事實性評估器」(Search-Augmented Factuality Evaluator,簡稱 SAFE),它可以對人工智慧聊天機器人生成的長格式回覆進行事實檢查。他們的研究成果連同所有實驗程式碼和資料集已作為預印本發表在 arXiv (一個收集物理學、數學、計算機科學、生物學與數理經濟學的論文預印本的網站,成立於1991年8月14日)上。
系統通過四個步驟對答案進行分析、處理和評估,以驗證其精準性和真實性。首先,SAFE 將答案分割成單個事實,對其進行修改,並與Google搜尋結果進行比較。系統還會檢查各個事實與原始問題的相關性。
為了評估 SAFE 的性能,研究人員建立了一個包含約 16,000 個事實的資料集 LongFact。然後,他們在四個不同系列(Claude、Gemini、GPT、PaLM-2)的 13 個 LLM 中測試了該系統。在 72% 的情況下,SAFE 提供了與人類註釋者相同的結果。在存在分歧的情況下,SAFE 的正確率為 76%。
此外,研究人員還聲稱,使用 SAFE 的成本比人工註釋員或事實檢查員低 20 倍,因此提供了一個經濟可行的解決方案,而且可以大規模應用。
現今科技更新速度極快,AI的進步只會越來越完善,希望「搜尋增強事實性評估器」能夠更加的完善並應用在AI上,能夠將資料庫內的資訊應用更加的準確,以將這個工具發揮到效果最大化,同時也讓使用者可以更加便利以及方便取得「真實」資訊。

怎麼使用?好像還不是很清楚。