Karpathy 指出現行強化學習(RL)方法「非常糟糕」,其主要缺陷是什麼?
Answer
Karpathy 指出強化學習(RL)方法的主要缺陷
Andrej Karpathy 認為,儘管強化學習(RL)在 AlphaGo 擊敗世界棋王後備受矚目,但現行 RL 方法「非常糟糕」。他強調,這並非否定 RL 的價值,而是因為過去的方法更糟。
Karpathy 將 RL 的學習過程比喻為「透過吸管吸取監督訊號」,指出 RL 的核心缺陷在於其學習方式。模型在解決問題時會嘗試多種路徑,但 RL 只根據最終答案是否正確來獎勵或懲罰整個行為序列中的每一步。這種方法效率低落,因為即使在成功的路徑上,許多錯誤步驟也會被錯誤強化。
相較之下,人類在解決問題後會反思,分析哪些步驟是關鍵、哪些是多餘的。Karpathy 認為,RL 缺乏這種反思能力,導致學習過程充滿雜訊且效率低下。