论文笔记之:Collaborative Deep Reinforcement Learning for Joint Object Search

  • 时间:
  • 浏览:1

      m 是

      --- gated cross connections between different Q-networks;

  本文提出五种协助的多智能体 deep RL algorithm 来学习进行联合物体定位的最优策略。亲戚亲戚他们他们他们他们他们他们 歌词 的 proposal 服从现有的 RL 框架,很久允很多个智能体之间进行合作。在五种领域当中,一另一个 开放的难题:

  On the one hand, it is interesting to consider such a collabrative detection "game" played by multiple agents under an RL setting; 

  3. Collaborative RL for Joint Object Search 

  2. propose a novel multi-agent Q-learning solution that facilitates learnable inter-agent communication with gated cross connections between the Q-networks;

  有有哪些物体在交互的具体情况下,还可不还可不可以 提供更多的 contextual cues 。有有哪些线索有很好的潜力来利于更加有效的搜索策略。

  亲戚亲戚他们他们他们他们他们他们 歌词 检查了在交互过程中,多个物体之间的 Joint Active Search 的难题。

      本文是基于 Q-function 进行拓展的,常规的 Q-function 还可不还可不可以 看做是:$Q(s, a; \theta)$,而 Deep Q-network 却说用 NN 来估计 Q 函数。假设对于每一一另一个 agent i 亲戚亲戚他们他们他们他们他们他们 歌词 有一一另一个 Q-networks $Q^{(i)}(a^{(i), s^{(i)}; \theta^{(i)}})$,还可不还可不可以也能 ,在 multi-agent RL 设定下,很自然的就还可不还可不可以 设计出一一另一个 利于 inter-agent communication 的 Q 函数出来,如:

Motivation:

      3.2.1 Q-Networks with Gates Cross Connections  

      --- a vitrual agent implementation that facilitates easy adaptation to existing deep Q-learning algorithm. 

    3.2. Collaborative RL for Joint Object Localization 

  传统的 bottom-up object region proposals 的办法,很久提取了较多的 proposal,是是因为后续计算还可不还可不可以依赖于抢的计算能力,如 GPU 等。还可不还可不可以也能 ,在计算机不足的具体情况下,则会是是因为应用范围受限。而 Active search method (却说 RL 的办法) 则提供了不错的办法,还可不还可不可以 很大程度上降低还可不还可不可以评估的 proposal 数量。

  2. how to jointly learn good policies for all agents. 

  3. 本文办法有效的探索了 相关物体之间有用的 contextual information,很久进一步的提升了检测的效果。

  所提出的创新点:

    3.1. Single Agent RL Object Localization 

  1. 是物体检测领域的第一一另一个 做 collaborative deep RL algorithm ;

Collaborative Deep Reinforcement Learning for Joint Object Search  

  1. how to make communications effective in between different agents ; 

      3.2.2 Joint Exploitation Sampling  

CVPR 2017

  On the other hand, it seems especially beneficial in the context of visual object localization where different objects often appear with certain correlation patterns, 如:行人骑自行车,座子上的杯子,等等。

  

      本文将 single agent 的办法推广到 multi-agent,关键的概念有:

  本文提出通过 gated cross connections between the Q-networks 来学习 inter-agent communication。

      --- joint exploitation sampling for generating corresponding training data, 

        其中,m(i) 代表了从 agent i 发送出来的信息;M(-i) 代表了从很多 agent 得到的信息。

      作者这里首先回顾了常见的单智能体进行物体检测的大致思路,此处不再赘述。