EranKK

科技行业挑过水,金融行业搬过砖。媒体行业码过字,交易行业割过肉。

0%

RL for strong stock 001

强化学习

强化学习是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益。强化学习是除了监督学习和非监督学习之外的第三种基本的机器学习方法。与监督学习不同的是,强化学习不需要带标签的输入输出对,同时也无需对非最优解的精确地纠正。

强化学习是可以自我进化的

所以,类比到现实生活中,强化学习更像是巴普洛夫的狗,对于Env的不同刺激,Agent会分别作出不同的反应,同时Reward的反馈也不尽相同,那么,也就是如果对于之前做作出的Action进行学习的话,必定,最终的目标函数也就是越接近。

对于二级市场来说,将投资者看作是模型中的Agent,行情走势便是模型中的Environment,由于投资者对于行情会有不同的反应,那么其买卖行为,便可以构成有操作空间的Action,与此同时,Action所带来的结果,便是盈亏情况,就组成了这个模型中的Reward

现实生活中的例子(每天)

通常我们做股票(此处排除小白哈)
对拥有完整交易系统或者操作逻辑的朋友们来说

  1. 收盘后,针对当天发生的交易进行简单的分析与汇总,形成一个基础的复盘笔记与粗略的交易计划。
  2. 第二天开盘前,收集相关的新闻或消息,结合昨天的复盘笔记与交易计划,形成完整版的交易计划
  3. 开盘后,按照自己的交易计划,顺着今日的行情发展,做出相应的操作

混合在一起

如果我们把现实中的例子结合到模型中来的话,我们会发现有几点,非常有借鉴意义

  • 首先,针对于每天的固定流程,是可以类比成模型训练中的每一次迭代
  • 另外,如果单纯考虑来市场最纯粹的目的,那就是赚钱,即账户数额持续增长,理论上是趋向于正无穷,这样才会有实际意义
  • 并且,分析大体分为两类:
    技术分析:针对于技术分析的最基本的数据,无非是高开低收量,这些最基础的市场信息,和其他基于此衍生出来的一些技术指标;
    基本面分析:对于基本面来说都话,所依赖的数据包括上市公司的资料、机构的研报等文本数据,涉及到对应的文本分析等

总结

据上文所属,模型的基本假设便是成立的,那么困难点便是在于实现步骤的门槛上
刚好之前所乱点的技能树就匹配上了
接下来,就一步一步的来记录这其中的步骤吧