MuZero 的原理與《因果革命》反事實推論的關聯

The Evolution of AlphaGo to MuZero
DeepMind recently released their MuZero algorithm, headlined by superhuman ability in 57 different Atari games. Reinforcement Learning agents that can play Atari games are interesting because, in…


原本的 AlphaGo, AlphaZero 系列之所以這麼厲害,是因為用了"蒙地卡羅樹搜索",對N步之後的遊戲樹狀圖進行展開,然後評估下了這一步之後,所有可能盤面的平均分數,用這分數當作是reward 來訓練RL。

而"蒙地卡羅樹搜索"之所以這麼適合用在棋類遊戲的原因,是因為棋類遊戲的環境狀態可以被"完美模擬"。例如象棋,你每走一步,在棋盤上就是移動一格,狀態是確定的。然而在video game 或現實世界中,角色在畫面中的動態是連續的,可以非常精細,因此你很難對這樣的環境建模。

MuZero 用了一個簡單的辦法來解決這個問題,就是他把環境狀態(此處即遊戲畫面的影像)透過一個神經網路h 轉換成embedding  S,然後用另外一個神經網路g 根據動作 a 來對 S進行變換,產生下一步的狀態 embedding S',然後用另一個神經網路f 作用在S'上,得到新狀態的評估分數。

有了上面這套轉換方式,就可以利用"蒙地卡羅樹搜索"的方式,把N個動作之後可能的遊戲狀態在embedding space 中展開,直接在embedding space 評估操作的結果,並得到reward來訓練RL。

所以關鍵在於,不管input是什麼,只要先把他轉換到embedding space,然後在embedding space 中進行操作,評估結果。最後再把結果跟真實世界的結果做比較,降低兩者間的差異(loss),就能夠得到一個近乎通用的模型。

所以,這裡的embedding space 就相當於人的"心理模型",而在embedding space 展開遊戲狀態,就類似於人類在"心理模型"中進行各種的實驗及推敲,最後推敲出一個結果,再把這個結果轉換到現實世界的場景。

其中,"蒙地卡羅樹搜索"就扮演了類似《因果革命》中"反事實"的角色,因為它是在embedding space 中進行探索,而embedding space 只是真實世界的一個模型而已,所以其上的推論並非事實,而是"反事實";而RL 本身才是扮演了《因果革命》中"介入"的角色,因為它才是真的跟環境互動,並且從互動結果中得到經驗的部分。

所以,我們能不能說,在embedding space中的"蒙地卡羅樹搜索"學到了某種"動作"跟"真實世界"的因果關係?儘管這embedding space 只對RL 有看過的環境進行訓練。

至於人類哲學中,一些經驗無法觸及到的概念,有沒有可能是在embedding space 建模過程中,由於其數學構造必須滿足某些真實世界的 constraint,所以無可避免的產生了這些概念呢?