Junr_0926 - 简书

IP属地：北京

模型搜索
1. 前言最近做了一段时间的模型搜索，实验过程中发现模型搜索作用还是很明显的。本篇文章主要回顾了一下近几年一些关于模型搜索的文章： RL-ba...

2.3 2262 1 9
Policy Gradient Methods, DPG 和 DDPG
1. 介绍首先了解一下策略梯度法，之后再对DPG和DDPG两篇论文进行学习。 2. 梯度策略法梯度策略法 ( Policy Gradient...

0.2 4583 0 3

MXNet中的图是怎么构建的？
1. 介绍这是一篇粗浅并且可能存在错误的个人理解我们在使用MXNet的时候，都是通过调用python端提供的接口。通过一步步地构建symbo...

1172 0 0
MXNet: Barrier
1. KVStore里的Barrier 在mxnet的分布式训练里，主要模式就是参数服务器。每个worker或者agent就是一台machine...

774 0 0
MXNet: wait_to_read 方法
wait_to_read 在mxnet中，类ndarray可以调用 wait_to_read，官方给出的该函数解释是： Waits until ...

0.2 1291 0 1
Continuous control with deep Reinforcement Learning 笔记
1. 介绍这篇论文将DQN应用于动作空间是连续的情况。我们知道，DQN的输入通常是高纬度的观测空间（例如图像像素），输出则是离散的动作空间。生...

955 0 0
Deterministic Policy Gradient Algorithms 笔记
1. 介绍 Policy gradient算法在增强学习中有非常多的应用，尤其是动作空间连续的情况。通常我们使用一个函数来表示策略。通常poli...

3154 0 0

Mimicking Very Efficient Network for Object Detection 笔记
1. 介绍如今大多数的检测模型的backbone都需要在ImageNet预训练，才能达到一个较好的结果。但是如果是新设计的网络结构，就需要先在...

1412 0 0
Distilling the Knowledge in a Neural Network 笔记
1. 介绍在论文中，作者提出了先训练一个大的笨重的模型，再使用distilling来将笨重的模型的知识迁移到小的模型中，用于实际部署。通常情况...

1414 0 0