MuZero 的原理與《因果革命》反事實推論的關聯

原本的 AlphaGo, AlphaZero 系列之所以這麼厲害,是因為用了"蒙地卡羅樹搜索",對N步之後的遊戲樹狀圖進行展開,然後評估下了這一步之後,所有可能盤面的平均分數,用這分數當作是reward 來訓練RL。
而"蒙地卡羅樹搜索"之所以這麼適合用在棋類遊戲的原因,是因為棋類遊戲的環境狀態可以被"完美模擬"。例如象棋,你每走一步,在棋盤上就是移動一格,狀態是確定的。然而在video game 或現實世界中,角色在畫面中的動態是連續的,可以非常精細,因此你很難對這樣的環境建模。
MuZero 用了一個簡單的辦法來解決這個問題,就是他把環境狀態(此處即遊戲畫面的影像)透過一個神經網路h 轉換成embedding S,然後用另外一個神經網路g 根據動作 a 來對 S進行變換,產生下一步的狀態 embedding S',然後用另一個神經網路f 作用在S'上,得到新狀態的評估分數。
有了上面這套轉換方式,就可以利用"蒙地卡羅樹搜索"的方式,把N個動作之後可能的遊戲狀態在embedding space 中展開,直接在embedding space 評估操作的結果,並得到reward來訓練RL。
所以關鍵在於,不管input是什麼,只要先把他轉換到embedding space,然後在embedding space 中進行操作,評估結果。最後再把結果跟真實世界的結果做比較,降低兩者間的差異(loss),就能夠得到一個近乎通用的模型。
所以,這裡的embedding space 就相當於人的"心理模型",而在embedding space 展開遊戲狀態,就類似於人類在"心理模型"中進行各種的實驗及推敲,最後推敲出一個結果,再把這個結果轉換到現實世界的場景。
其中,"蒙地卡羅樹搜索"就扮演了類似《因果革命》中"反事實"的角色,因為它是在embedding space 中進行探索,而embedding space 只是真實世界的一個模型而已,所以其上的推論並非事實,而是"反事實";而RL 本身才是扮演了《因果革命》中"介入"的角色,因為它才是真的跟環境互動,並且從互動結果中得到經驗的部分。
所以,我們能不能說,在embedding space中的"蒙地卡羅樹搜索"學到了某種"動作"跟"真實世界"的因果關係?儘管這embedding space 只對RL 有看過的環境進行訓練。
至於人類哲學中,一些經驗無法觸及到的概念,有沒有可能是在embedding space 建模過程中,由於其數學構造必須滿足某些真實世界的 constraint,所以無可避免的產生了這些概念呢?
