可信大模型新挑戰:噪聲思維鏈提示下的魯棒推理,準確率直降40%

當前,大語言模型(Large Language Model, LLM)藉助上下文學習(In-context Learning)和思維鏈提示(Chain of Thoughts Prompting),在許多複雜推理任務上展現出了強大的能力。

然而,現有研究表明,LLM 在應對噪聲輸入時存在明顯不足:當輸入的問題包含無關內容,或者遭到輕微修改時,模型極容易受到干擾,進而偏離正確的推理方向。如圖 1 左所示,Q1 中的「We know 6+6=12 and 3+7=10 in base 10」 是關於 base-9 計算的噪聲信息,該信息容易誤導模型輸出錯誤的結果。

圖 1. 噪聲問題(Noisy Questions)和噪聲思維鏈(Noisy Rationales)的示例

已有的魯棒研究大多側重於噪聲問題(Noisy Questions),然而,LLM 在噪聲思維鏈(Noisy Rationales)下的推理還沒有得到充分的探究。在本工作中,我們將噪聲思維鏈定義爲:包含不相關或者不準確推理步驟的思維鏈,如圖 1 右側 R1 中的「13 + 8 = 21」步驟,對於 base-9 計算來說,是錯誤的推理步驟。

這些噪聲思維鏈通常源自 LLM 的實際應用,比如衆包平臺、對話系統、機器生成數據等場景,人類和機器在推理中都會不可避免地犯錯,從而產生噪聲思維鏈。因此,噪聲思維鏈的實際影響和技術挑戰不容小覷。當前,我們仍然不清楚 LLM 在面對噪聲思維鏈提示時的魯棒性能如何,也缺少有效的應對策略。因此,非常有必要構建一個新的數據集,用於系統評估當前 LLM 在噪聲思維鏈場景下的魯棒性,以及驗證相應的魯棒推理策略。

對此,我們構建了NoRa 數據集,並進行了大量的實驗評測。結果表明,GPT-3.5-Turbo、Gemini-Pro、Llama2-70B 和 Mixtral-8x7B 等開源或閉源 LLM 都極容易受到噪聲思維鏈的影響。其中,GPT-3.5-Turbo 的準確率至多可降低40.4%。因此,我們也呼籲大家更多地關注大模型推理的魯棒性問題。

我們的主要貢獻有如下三點:

接下來將從新問題、新數據集、新方法這三個角度,簡要地介紹我們關於大模型推理魯棒性的研究結果,相關論文已發表於 NeurIPS 2024 會議。

新問題:Noisy Rationales

思維鏈可以有效提升大模型的推理能力 [1]。具體來說,通過給出帶有中間推理步驟的示例,LLM 可以很快地適應到新任務上,而無需進行參數修改(見圖 2 右上角)。現有工作中,通常假設思維鏈包含清楚且正確的推理步驟,但實際情況可能並非如此。

圖 2. 各種 setting 下的模型輸入

目前,已經有許多工作探索了 Noisy Questions 對 LLM 推理性能的影響(見圖 2 左下角),揭示了 LLM 對輸入中微小修改的敏感性 [2,3]。

然而,在人工標註或機器生成的思維鏈中,可能會包含一些與問題不相關或不準確的推理步驟(見圖 2 右下角),這些噪聲思維鏈可能會對推理性能產生負面影響,但目前 LLM 對噪聲思維鏈(Noisy Rationales)的魯棒性依舊未知。

因此,本文提出了新的研究問題 Noisy Rationales:當示例的推理步驟中包含無關的或者不準確的內容時,LLM 的推理魯棒性如何?對這一問題的探索,有助於深入理解和提升 LLM 在非完備場景中的推理能力。

新數據集:NoRa

爲了評估 LLM 在噪聲思維鏈下的魯棒性,我們構建了 NoRa(Noisy Rationales)數據集,NoRa 涵蓋了 3 種推理任務類型:數學推理、符號推理和常識推理,共包含26391個問題以及5種子任務。

一條思維鏈(Rationale)包含多個連續的推理步驟(Thoughts);噪聲思維鏈(Noisy Rationale)包含的噪聲推理步驟(Noisy Thoughts)被定義爲如下兩類(示例見圖 3):

圖 3. NoRa 數據集的樣本

在構建數據集時,我們通過插入 Noisy Thoughts 來生成噪聲思維鏈,這些噪聲僅影響推理鏈的細節,而不改變問題和最終答案的正確性。此外,我們使用不同的噪聲比例(Noise Ratio,即 Noisy Thoughts 佔所 Thoughts 的比例,如 0.3、0.5、0.8)來控制任務的困難程度,Noise Ratio 越大任務難度也越大。NoRa 數據集的統計信息如圖 4 所示。

圖 4. NoRa 數據集的統計信息

NoRa 數據集 測評結果

我們以 GPT-3.5-Turbo 爲 base model,測試了其在 NoRa 上的表現,並且對比了多種去噪方法。這些去噪方法可以分爲兩類:

圖 5. 各種去噪方法 在 NoRa 數據集上的測評結果

實驗結果(圖 5)表明:

此外,我們還進行了各種消融研究,來探索不同因素對 NoRa 數據集評估結果的影響(見圖 6),我們發現:

圖 6. 消融實驗:(左) 溫度係數對性能的影響;(中) 示例個數對性能的影響;(右) 各種模型的性能

新方法:CD-CoT

根據測評結果,大語言模型在應對噪聲思維鏈提示時,其自身的去噪能力非常有限;即便使用自我糾正或自一致性方法,效果仍不理想。

因此,我們認爲有必要引入外部監督信號來增強模型魯棒性,且這種監督信號既要足以實現去噪,又要在實際應用中切實可行。對此,我們提出了一種簡單有效的去噪推理方法,CD-CoT(Contrastive Denoising with Noisy Chain of Thoughts)。

CD-CoT 借鑑了對比學習的思路,通過讓 LLM 顯式地對比有噪和乾淨的思維鏈,從而識別出噪聲信息。方法主要包括四個關鍵步驟,步驟 1&2 進行顯式的去噪,步驟 3&4 進行精細推理並獲得最終答案。

四個步驟具體如下:

完整的 CD-CoT 算法請見圖 9。

圖 7. CD-CoT 算法的步驟 1&2

圖 8. CD-CoT 算法的步驟 3&4

圖 9. 完整的 CD-CoT 算法

CD-CoT 實驗結果

我們在 NoRa 數據集上全面測試了 CD-CoT,並對比了多個需要額外監督信息的去噪方法(見圖 10),我們發現:

圖 10. 各種需要額外監督信息的方法 在 NoRa 數據集上的測評結果

此外,通過諸多消融實驗,我們發現:

圖 11. 關於 CD-CoT 超參數的消融研究

圖 12. 關於 CD-CoT 在不同 LLM 上的效果的消融研究

更多的實驗分析和技術細節,請移步參閱我們的論文及源碼,我們也將持續更新本工作的內容。

我們希望通過這項工作,呼籲人們更多地關注 LLM 推理的魯棒性問題,並開展關於大模型推理魯棒性的探討與研究。非常感謝大家關注我們的工作!

參考文獻

[1] Wei J, Wang X, Schuurmans D, et al. Chain-of-thought prompting elicits reasoning in large language models. NeurIPS 2022.

[2] Shi F, Chen X, Misra K, et al. Large language models can be easily distracted by irrelevant context. ICML 2023.

[3] Tian Q, Zhu H, Wang L, et al. R3 Prompting: Review, Rephrase and Resolve for Chain-of-Thought Reasoning in Large Language Models under Noisy Context. EMNLP 2023.

[4] Huang J, Chen X, Mishra S, et al. Large language models cannot self-correct reasoning yet. ICLR 2024.

[5] Xi Z, Jin S, Zhou Y, et al. Self-polish: Enhance reasoning in large language models via problem refinement. EMNLP 2023.

[6] Robey A, Wong E, Hassani H, et al. Smoothllm: Defending large language models against jailbreaking attacks. Arxiv 2023.

[7] Zhang Z, Zhang G, Hou B, et al. Certified robustness for large language models with self-denoising. Arxiv 2023.

[8] Wang X, Wei J, Schuurmans D, et al. Self-Consistency Improves Chain of Thought Reasoning in Language Models. ICLR 2023.

課題組介紹

香港浸會大學可信機器學習和推理課題組 (TMLR Group) 由多名青年教授、博士後研究員、博士生、訪問博士生和研究助理共同組成,課題組隸屬於理學院計算機系。課題組專攻可信表徵學習、可信基礎模型、基於因果推理的可信學習等相關的算法,理論和系統設計以及在自然科學上的應用,具體研究方向和相關成果詳見本組 GitHub (https://github.com/tmlr-group)。

課題組由政府科研基金以及工業界科研基金資助,如香港研究資助局傑出青年學者計劃,國家自然科學基金面上項目和青年項目,以及微軟、英偉達、字節跳動、百度、阿里、騰訊等企業的科研基金。青年教授和資深研究員手把手帶,GPU 計算資源充足,長期招收多名博士後研究員、博士生、研究助理和研究實習生。此外,本組也歡迎自費的訪問博士後研究員、博士生和研究助理申請,訪問至少 3-6 個月,支持遠程訪問。有興趣的同學請發送個人簡歷和初步研究計劃到郵箱 (bhanml@comp.hkbu.edu.hk)。