C++ Parameter Pack
可变参数函数模板通常是递归的。第一步调用处理包中的第一个实参,然后用剩余的实参调用自身。为了终止递归,我们还需要定义一个非可变参数的函数模板:
1 | // template specialization |
Reference
Summaries of GAN
Cross Domain
Image-to-Image Translation
Supervised
- Pix2pix
- tf.nn.sigmoid_cross_entropy_with_logits,没有经过 sigmoid 处理。
- -tf.log(predict_real + EPS) ,predict_real 经过 sigmoid 处理。
- nn.BCELoss
- Pix2pix
Unsupervised
Reinforcement Learning
Markov Decision Processes (MDP)
马尔科夫决策过程是强化学习的理论基础。不管我们是将强化学习应用于五子棋游戏、星际争霸还是机器人行走,我们都假设背后存在了一个马尔科夫决策过程。只不过有的时候我们知道马尔科夫决策过程所有信息(状态集合,动作集合,转移概率和奖励),有的时候我们只知道部分信息(状态集合和动作集合),还有些时候马尔科夫决策过程的信息太大无法全部存储 (比如围棋的状态集合总数为 319×19 )。强化学习算法按照上述不同情况可以分为两种: 基于模型 (Model-based) 和非基于模型 (Model-free)。基于模型的强化学习算法是知道并可以存储所有马尔科夫决策过程信息,非基于模型的强化学习算法则需要自己探索未知的马尔科夫过程。[3]
Reinforcement Learning
与 其他的Machine Learning
的区别 马尔科夫决策过程(Markov Decision Processes)非监督的:我们通常只得到 reward signal。每次系统的 action 只能得到代表这次行为的好坏的标量,比如是 10 points,但是我们不知道他的最好的值是多少。