deep learning那些老套就不說了cnn rnn還算了解一些也是reduce成了很多graphical model來理解。主要說reinforcement learning,這東西也是老概念,最早出名的就是88年的sutton的td了。使用bootstrap可以大幅增加學習速度,但是結果就是很不穩定,畢竟是用estimation做update target。最近最有名的無非就是bootstrap套上deep learning那套了,那套理論支援一塌糊塗,基本靠emperical intuition來強行控制target的variance。其實也有一些method是有很好的理論支援的,各種idea都有,有改改gradient讓他去適應error,有把非線性的reduce到線性 on policy的。但是他們也有他們自己的問題。所以從理論的角度,現在的情況就是,現在都在用的method你可以prove他diverge,不diverge的沒什麼人用。可以說整個rl領域還是非常emperical。一直到現在分析他們還用的老的那套stochastic approx的theory。
deep learning那些老套就不說了cnn rnn還算了解一些也是reduce成了很多graphical model來理解。主要說reinforcement learning,這東西也是老概念,最早出名的就是88年的sutton的td了。使用bootstrap可以大幅增加學習速度,但是結果就是很不穩定,畢竟是用estimation做update target。最近最有名的無非就是bootstrap套上deep learning那套了,那套理論支援一塌糊塗,基本靠emperical intuition來強行控制target的variance。其實也有一些method是有很好的理論支援的,各種idea都有,有改改gradient讓他去適應error,有把非線性的reduce到線性 on policy的。但是他們也有他們自己的問題。所以從理論的角度,現在的情況就是,現在都在用的method你可以prove他diverge,不diverge的沒什麼人用。可以說整個rl領域還是非常emperical。一直到現在分析他們還用的老的那套stochastic approx的theory。