深度强化学习之:模仿学习(imitation learning)

  • 时间:
  • 浏览:0

  ====>>  Generator:产生出三个 多轨迹,

  

  

  

  

  

  

  

  ===========================================================

  

  ==========================================================================

  三、GAN for Imitation Learning (Generative Adversarial imitation learning, NIPS, 2016) 

  

  大伙还可否 想看 ,完后 大伙无法知道得到的 reward 情况报告,什么都,大伙只有去估计哪几种 奖励的函数,很久 ,大伙用参数 w 来进行估计:

  这麼 咋样用 GAN 来做其他事情呢?对应到这件事情上,大伙知道,大伙想得到的 轨迹 是属于某三个 多高维的空间中,而 expert 给定的哪几种轨迹,大伙假设是属于三个 多 distribution,大伙想让大伙的 model,也去 predict 三个 多分布出来,很久 使得这两者之间尽完后 的接近。从而完成 actor 的训练过程,示意图如下所示:

   二、Inverse Reinforcement Learning (“Apprenticeship learning via Inverse Reinforcement Learning”, ICML 1004) 

  逆强化学习 则是在给定三个 多专家完后 (expert policy),通过不断地寻找 reward function 来满足给定的 statement(即,解释专家的行为,explaining expert behavior)。。。

  ===============================  过程  ================================

  

  很久 ,你的观测数据 和 策略是有联系的。完后 在监督学习当中,大伙都要 training data 和 test data 独立同分布。很久 ,有完后 ,这两者是不同的,这麼 ,就惨了。。。

2017.12.10 

  本文所涉及的一种生活措施:1. 行为复制,2. 逆强化学习,3. GAN 的措施

  

  上端很久 IRL 所做的整个流程了。  

  顾名思义,IRL 是 反过来的 RL,RL 是根据 reward 进行参数的调整,很久 得到三个 多 policy。大致流程应该是其他样子:

  于是,另一类措施,总出 了,即:Inverse Reinforcement Learning (也称为:Inverse Optimal Control,Inverse Optimal Planning)。

  接下来,大伙将分别介绍你是什么种生活措施:

  这里以自动驾驶为例,首先大伙要采集一堆数据,很久 demo,很久 人类做哪几种,很久 机器做哪几种。确实很久监督学习(supervised learning),让 agent 选折 的动作和 给定的动作是一致的。。。

  

  =======================================================================

  ====>>  Discriminator:判断给定的轨迹与否 expert 做的?

  大伙对比下, IRL 和 形状化学习:

 

  Recap:Sentence Generation and Chat-bot 

  

  

  

  

  Examples of Recent Study : 

  专家的其他回报是最大的,英雄级别的,比任何其他的 actor 得到的都多。。。

  很久 ,其他措施是有问題报告 的,完后 你给定的 data,是有限的,很久 是有限制的。这麼 ,在其他数据上进行测试,则完后 不需要很好。

  

  ==========================================================================

  

   

  

  本文所涉及到的 模仿学习,则是从给定的展示中进行学习。机器在其他过程中,也和环境进行交互,很久 ,并这麼 显示的得到 reward。在其他任务上,也比较慢定义 reward。如:自动驾驶,撞死一人,reward为几个,撞到为社 算油耗车,reward 为几个,撞到小动物,reward 为几个,撞到 X,reward 又是几个,诸这麼 类。。。而其他人类所定义的 reward,完后 会造成不可控制的行为,如:大伙想让 agent 去考试,目标是让其考 100,这麼 ,其他 agent 则完后 会为了考 100,而采取作弊的措施,这麼 ,其他就比较尴尬了,是吧 ?大伙当然想让 agent 在学习到其他本领的一并,能遵守一定的规则。给大伙展示为社 做,很久 让其当时人去学习,会是三个 多比较好的措施。

  据说,其他 IRL 和 structure learning 是非常你是什么的:

  还可否 想看 ,貌似青春恋爱物语的哎。。。很久 ,复习下哪几种是 形状化学习:

  而 Inverse Reinforcement Learning 这是下面的其他思路:

  很久 , IRL 就不同了,完后 他这麼 显示的 reward,只有根据 人类行为,进行 reward的估计(反推 reward 的函数)。

  

  很久的 RL,很久给定三个 多 reward function R(t)(奖励的加和,即:回报),很久 ,这里大伙回顾一下 RL 的大致过程(这里以 policy gradient 措施为例)

  什么都, r 还可否 写成 w 和 f(s, a) 相乘的形式。w 很久大伙所要优化的参数,而 f(s,a)很久大伙提取的 feature vector。

  ===========================================================

  

  在得到 reward 函数估计出来完后 ,再进行 策略函数的估计。。。

  这麼 IRL 的流程究竟是咋样的呢???

   通过不断地增加数据,这麼 ,就还可否 很好的改进 agent 的策略。其他场景下,大伙说适应其他措施。。。

  要么,你增加 training data,加入平常 agent 这麼 想看 过的数据,即:dataset aggregation 

  一、Behavior Cloning 

  

强度强化学习之:模仿学习(imitation learning)