RL-model-content 发表于 2021-07-01 分类于 RL model 本文参考是知乎上的一个专栏,阿里嘎多参考地址 机器学习 线性回归理论推导 感知机 BP神经网络反向传播推导 Logistic回归推导 SVM 决策树 K近邻 朴素贝叶斯推导 强化学习 基本概念 马尔科夫决策过程 值函数和贝尔曼方程 动态规划方法 蒙特卡洛方法 时间差分方法 Q-Leaning 和 Sarsa 多臂赌博机 Policy Gradient推导过程 DQN的理解 DQN的三个经典变种 DDPG AC、A2C、A3C算法