强化学习笔记(7)-时序差分方法
Temporal-Difference Learning
Temporal-Difference Learning
Stochastic Approximation & Stochastic Gradient Descent
Monte Carlo Learning
Value iteration & Policy iteration
Bellman Optimal Equation
Bellman Equation 贝尔曼公式
基本概念
由于Safari对扩展的支持出现的较晚,在Safari上的扩展远不及Chrome的多,本文将以CF Analytics为例,介绍如何将Chrome扩展转为Safari扩展。
Theorem 若 $A^2 = A$,则 $r(A) = tr(A)$
由于毕业论文是图论方向的,所以写一篇图论的基础知识笔记.