0%

RL-model-content

发表于 2021-07-01 分类于 RL model

本文参考是知乎上的一个专栏，阿里嘎多
参考地址

机器学习

线性回归理论推导
感知机
BP神经网络反向传播推导
Logistic回归推导
SVM
决策树
K近邻
朴素贝叶斯推导
强化学习
基本概念
马尔科夫决策过程
值函数和贝尔曼方程
动态规划方法
蒙特卡洛方法
时间差分方法
Q-Leaning 和 Sarsa
多臂赌博机
Policy Gradient推导过程
DQN的理解
DQN的三个经典变种
DDPG
AC、A2C、A3C算法