人類教AI,AI變聰明 : RLHF技術如何讓AI更懂你的心

你是否曾遇過,跟AI聊天機器人對話時,總是覺得它好像不太懂你的意思?或是,它給出的答案雖然正確,卻不是你想要的?為了解決這個問題,研究人員提出了一種新的技術,叫做「基於人類反饋的強化學習」(Reinforcement Learning from Human Feedback, RLHF)。RLHF 的基本原理是,讓人類對 AI 的行為和決策進行反饋,從而幫助 AI 學習和改進。
圖1

AI為何需要人類的「輔導」?
你可能會問,AI不是已經很聰明了嗎?為什麼還需要人類的幫助?事實上,雖然大型語言模型(LLM),例如GPT-3,擁有令人震驚的能力,能夠寫作、解答問題甚至創作詩歌,但它們有時也會「誤解」我們的意思。 就像有時你和朋友聊天一樣,即使是最好的朋友也會有同樣的情況,人工智慧也需要更好地理解我們。

RLHF如何運作?
1. 收集反饋:首先,我們通過問卷調查、互動等方式收集人類對AI行為的反饋。
2. 學習與調整:然後,AI使用這些反饋來調整其決策過程,嘗試更好地遵循人類的指示。
3. 測試與改進:最後,AI通過更多的互動測試其新學到的行為,並根據新的反饋進行改進。
圖2

RLHF可以應用於各種需要AI與人類交互的場景,例如:
1. 聊天機器人:RLHF可以讓聊天機器人更準確地理解人類的意圖,並給出更符合期望的答案。
2. 機器翻譯:RLHF可以讓機器翻譯更加準確和流暢。
3. 教育:RLHF可以幫助AI個性化教學,讓每個學生都能獲得最適合自己的學習內容。
4. 工作:RLHF可以幫助AI完成各種需要人類判斷和決策的工作,例如撰寫報告、分析數據等。

有一篇很早提出RLHF的研究論文: 《Training language models to follow instructions with human feedback》中,作者們使用RLHF技術訓練了一個名為「InstructGPT」的AI模型。實驗結果表明,InstructGPT模型在以下方面取得了顯著的提升:
• 理解人類意圖:InstructGPT模型能夠更準確地理解人類的意圖,並生成更符合期望的回答。
• 減少有害輸出:InstructGPT模型能夠生成更安全、更符合倫理的內容。
• 提高信息真實性:InstructGPT模型生成的內容更加真實可信。

透過RLHF訓練後的 InstructGPT甚至只需要1.3B(13億)參數模型就能超越175B的模型(也有經過監督式訓練) (圖3)
圖3

圖4 展示了強化學習 (Reinforcement Learning) 的流程,用於微調語言模型 (Language Model) 以遵循指令。以下是流程的詳細說明:
步驟 1:收集示範數據並訓練監督策略
1. 向系統提供提示,例如「向 6 歲的孩子解釋登月」。
2. 人類標籤員示範所需的輸出,例如「從前,有些人想去月球...」
3. 使用此數據訓練監督學習模型,這是一種從標記示例中學習的機器學習模型。
步驟 2:收集比較數據並訓練獎勵模型
1. 向語言模型提供相同的提示,並生成多個輸出。
2. 人類標籤員比較輸出並從最佳到最差對其進行排名。
3. 使用此數據訓練獎勵模型,該模型可預測人類對特定輸出的接受程度。
步驟 3:使用強化學習針對獎勵模型優化策略
1. 向語言模型提供新的提示。
2. 語言模型生成輸出。
3. 使用獎勵模型計算輸出的獎勵。
4. 使用此獎勵更新語言模型的策略,這本質上是一組規則,模型使用這些規則生成文字。
5.重複該過程,語言模型學習生成更有可能獲得獎勵模型獎勵的輸出。
圖4

總結一下這套流程,強化學習是一種訓練語言模型執行難以使用傳統獎勵函數指定的任務的方法。通過使用人類反饋來指導學習過程,模型可以學習生成更符合人類偏好的輸出。在這個具體的例子中,研究人員使用強化學習來微調 GPT-3 語言模型,使其能夠遵循各種書面指令。他們首先收集了一組人類編寫的演示,展示了模型在給定特定提示時所需的輸出行為。然後,他們使用此數據訓練了一個監督學習模型,該模型能夠根據之前的示範生成新的輸出。接下來,研究人員收集了一組人類標記的比較,比較了模型在更大的提示集上輸出的質量。他們使用此數據訓練了一個獎勵模型,該模型能夠預測人類對特定輸出的偏好。最後,研究人員使用獎勵模型作為獎勵函數,並使用強化學習算法微調了監督學習模型。這使得模型能夠學習生成更有可能獲得人類獎勵的輸出。

RLHF技術是一項很有潛力的技術,可以幫助AI變得更聰明、更懂人類。隨著RLHF技術的不斷發展,我們可以期待AI在未來能為我們提供更多更好的服務。

P.S.特別感謝 #ChatGPT 潤飾此篇文章。 🤖


撰文:許楷翊


參考文獻:
Ouyang, L., Wu, J., Jiang, X., Almeida, D., Wainwright, C., Mishkin, P., ... & Lowe, R. (2022). Training language models to follow instructions with human feedback. Advances in Neural Information Processing Systems, 35, 27730-27744.

留言