MuZero 的原理與《因果革命》反事實推論的關聯

Last updated on Jan 6, 2021

原本的 AlphaGo, AlphaZero 系列之所以這麼厲害，是因為用了"蒙地卡羅樹搜索"，對N步之後的遊戲樹狀圖進行展開，然後評估下了這一步之後，所有可能盤面的平均分數，用這分數當作是reward 來訓練RL。

而"蒙地卡羅樹搜索"之所以這麼適合用在棋類遊戲的原因，是因為棋類遊戲的環境狀態可以被"完美模擬"。例如象棋，你每走一步，在棋盤上就是移動一格，狀態是確定的。然而在video game 或現實世界中，角色在畫面中的動態是連續的，可以非常精細，因此你很難對這樣的環境建模。

MuZero 用了一個簡單的辦法來解決這個問題，就是他把環境狀態(此處即遊戲畫面的影像)透過一個神經網路h 轉換成embedding S，然後用另外一個神經網路g 根據動作 a 來對 S進行變換，產生下一步的狀態 embedding S'，然後用另一個神經網路f 作用在S'上，得到新狀態的評估分數。

有了上面這套轉換方式，就可以利用"蒙地卡羅樹搜索"的方式，把N個動作之後可能的遊戲狀態在embedding space 中展開，直接在embedding space 評估操作的結果，並得到reward來訓練RL。

所以關鍵在於，不管input是什麼，只要先把他轉換到embedding space，然後在embedding space 中進行操作，評估結果。最後再把結果跟真實世界的結果做比較，降低兩者間的差異(loss)，就能夠得到一個近乎通用的模型。

所以，這裡的embedding space 就相當於人的"心理模型"，而在embedding space 展開遊戲狀態，就類似於人類在"心理模型"中進行各種的實驗及推敲，最後推敲出一個結果，再把這個結果轉換到現實世界的場景。

其中，"蒙地卡羅樹搜索"就扮演了類似《因果革命》中"反事實"的角色，因為它是在embedding space 中進行探索，而embedding space 只是真實世界的一個模型而已，所以其上的推論並非事實，而是"反事實"；而RL 本身才是扮演了《因果革命》中"介入"的角色，因為它才是真的跟環境互動，並且從互動結果中得到經驗的部分。

所以，我們能不能說，在embedding space中的"蒙地卡羅樹搜索"學到了某種"動作"跟"真實世界"的因果關係？儘管這embedding space 只對RL 有看過的環境進行訓練。

至於人類哲學中，一些經驗無法觸及到的概念，有沒有可能是在embedding space 建模過程中，由於其數學構造必須滿足某些真實世界的 constraint，所以無可避免的產生了這些概念呢？