2020-04-25

Initialization in DL

Template in tensorflow

def init_weights():
    def uniform(stdev, size):
        if _weights_stdev is not None:
            stdev = _weights_stdev
        return np.random.uniform(
            low=-stdev * np.sqrt(3),
            high=stdev * np.sqrt(3),
            size=size
        ).astype('float32')

    # https://keras.io/initializers/
    if initialization == 'lecun':  # and input_dim != output_dim):
        # disabling orth. init for now because it's too slow
        weight_values = uniform(
            np.sqrt(1. / input_dim),
            (input_dim, output_dim)
        )
        # tf.contrib.layers.variance_scaling_initializer(
        #     factor=1.0,
        #     mode='FAN_IN',
        #     uniform=True,
        #     seed=None,
        #     dtype=tf.float32
        # )
    elif initialization == 'glorot' or initialization == 'xavier' or (initialization is None):
        weight_values = uniform(
            np.sqrt(2. / (input_dim + output_dim)),
            (input_dim, output_dim)
        )
        # tf.contrib.layers.variance_scaling_initializer(
        #     factor=1.0,
        #     mode='FAN_AVG',
        #     uniform=True,
        #     seed=None,
        #     dtype=tf.float32
        # )
    elif initialization == 'he':
        weight_values = uniform(
            np.sqrt(2. / input_dim),
            (input_dim, output_dim)
        )
        # tf.contrib.layers.variance_scaling_initializer(
        #     factor=2.0,
        #     mode='FAN_IN',
        #     uniform=True,
        #     seed=None,
        #     dtype=tf.float32
        # )
    elif initialization == 'glorot_he':
        weight_values = uniform(
            np.sqrt(4. / (input_dim + output_dim)),
            (input_dim, output_dim)
        )
        # tf.contrib.layers.variance_scaling_initializer(
        #     factor=2.0,
        #     mode='FAN_AVG',
        #     uniform=True,
        #     seed=None,
        #     dtype=tf.float32
        # )
    elif initialization == 'orthogonal' or \
            (initialization is None and input_dim == output_dim):
        # From lasagne
        def sample(shape):
            if len(shape) < 2:
                raise RuntimeError("Only shapes of length 2 or more are "
                                   "supported.")
            flat_shape = (shape[0], np.prod(shape[1:]))
            # TODO: why normal and not uniform?
            a = np.random.normal(0.0, 1.0, flat_shape)
            u, _, v = np.linalg.svd(a, full_matrices=False)
            # pick the one with the correct shape
            q = u if u.shape == flat_shape else v
            q = q.reshape(shape)
            return q.astype('float32')

        weight_values = sample((input_dim, output_dim))
    elif initialization[0] == 'uniform':
        weight_values = np.random.uniform(
            low=-initialization[1],
            high=initialization[1],
            size=(input_dim, output_dim)
        ).astype('float32')
    else:
        raise Exception('Invalid initialization!')
    
    weight = tf.get_variable(name='W', dtype=tf.float32,
                             initializer=weight_values)

问题

为什么要打破网络的对称性。

对称性是指某一个隐藏层中的所有hidden units都是一样的。如果网络是对称的，隐藏层相当于只有一个有意义的 hidden unit（只学到了一个特征）。而理想的情况是每一个hidden unit都学到了各自的特征，因此要打破网络的对称性。
为什么不能全初始化为0。

如果全部初始化为0，那么会使得网络变成对称的（此时没有考虑bias，没有使用dropout）。

为什么神经网络参数不能全部初始化为全0？

关于神经网络参数初始化为全0的思考

为什么神经网络中从输入层到隐含层的权值必须互不相等？ - 知乎

WatsonYang's Blog

Enrich yourself.

Initialization in DL

Category

Lecun

Xavier (or Glorot)

He / MSRA initialization

Glorot_He

RandomUniform

TruncatedNormal

Orthogonal

Template in tensorflow

问题

Reference

Comments