如何在TensorFlow中添加正则化？

我发现在使用TensorFlow实现的许多可用的neural network代码中，正则化术语通常是通过手动添加额外的损失值来实现的。

我的问题是：

有没有一种更优雅或推荐的正规化方式比手动？
我也发现get_variable有一个参数regularizer 。应该如何使用？根据我的观察，如果我们通过正规化器（例如tf.contrib.layers.l2_regularizer ，将会计算一个表示正则化术语的张量，并将其添加到一个名为tf.GraphKeys.REGULARIZATOIN_LOSSES的图集合中，该集合是否会被自动使用通过TensorFlow（例如在训练时用于优化器）？还是预计我应该自己使用该集合？

正如你在第二点所说的那样，使用regularizer论者是推荐的方法。你可以在get_variable使用它，或者在variable_scope设置一次，并让所有的variables正则化。

损失收集在图表中，您需要手动将它们添加到您的成本函数中。

  reg_losses = tf.get_collection(tf.GraphKeys.REGULARIZATION_LOSSES) reg_constant = 0.01 # Choose an appropriate one. loss = my_normal_loss + reg_constant * sum(reg_losses)

希望有所帮助！

现有答案的几个方面并不是很清楚，所以这是一个循序渐进的指南：

定义一个正规化者。这是可以设置正则化常数的地方，例如：
```
 regularizer = tf.contrib.layers.l2_regularizer(scale=0.1) 
```
创buildvariables通过：
```
  weights = tf.get_variable( name="weights", regularizer=regularizer, ... ) 
```
等价地，variables可以通过常规weights = tf.Variable(...)构造函数创build，然后是tf.add_to_collection(tf.GraphKeys.REGULARIZATION_LOSSES, weights) 。
定义一些loss项并添加正则化项：
```
 reg_variables = tf.get_collection(tf.GraphKeys.REGULARIZATION_LOSSES) reg_term = tf.contrib.layers.apply_regularization(regularizer, reg_variables) loss += reg_term 
```
注意：它看起来像tf.contrib.layers.apply_regularization是作为一个AddN实现的，所以或多或less相当于sum(reg_variables) 。

使用contrib.learn库的另一个选项如下，基于Tensorflow网站上的Deep MNIST教程。首先，假设您已经导入了相关库（例如import tensorflow.contrib.layers as layers ），您可以使用单独的方法定义一个networking：

 def easier_network(x, reg): """ A network based on tf.contrib.learn, with input `x`. """ with tf.variable_scope('EasyNet'): out = layers.flatten(x) out = layers.fully_connected(out, num_outputs=200, weights_initializer = layers.xavier_initializer(uniform=True), weights_regularizer = layers.l2_regularizer(scale=reg), activation_fn = tf.nn.tanh) out = layers.fully_connected(out, num_outputs=200, weights_initializer = layers.xavier_initializer(uniform=True), weights_regularizer = layers.l2_regularizer(scale=reg), activation_fn = tf.nn.tanh) out = layers.fully_connected(out, num_outputs=10, # Because there are ten digits! weights_initializer = layers.xavier_initializer(uniform=True), weights_regularizer = layers.l2_regularizer(scale=reg), activation_fn = None) return out

那么，在一个主要的方法中，你可以使用下面的代码片段：

 def main(_): mnist = input_data.read_data_sets(FLAGS.data_dir, one_hot=True) x = tf.placeholder(tf.float32, [None, 784]) y_ = tf.placeholder(tf.float32, [None, 10]) # Make a network with regularization y_conv = easier_network(x, FLAGS.regu) weights = tf.get_collection(tf.GraphKeys.TRAINABLE_VARIABLES, 'EasyNet') print("") for w in weights: shp = w.get_shape().as_list() print("- {} shape:{} size:{}".format(w.name, shp, np.prod(shp))) print("") reg_ws = tf.get_collection(tf.GraphKeys.REGULARIZATION_LOSSES, 'EasyNet') for w in reg_ws: shp = w.get_shape().as_list() print("- {} shape:{} size:{}".format(w.name, shp, np.prod(shp))) print("") # Make the loss function `loss_fn` with regularization. cross_entropy = tf.reduce_mean( tf.nn.softmax_cross_entropy_with_logits(labels=y_, logits=y_conv)) loss_fn = cross_entropy + tf.reduce_sum(reg_ws) train_step = tf.train.AdamOptimizer(1e-4).minimize(loss_fn)

为了实现这个目的，你需要按照我之前链接到的MNIST教程，导入相关的库，但学习TensorFlow是一个很好的练习，很容易看出正则化如何影响输出。如果您将正则化作为参数，则可以看到以下内容：

 - EasyNet/fully_connected/weights:0 shape:[784, 200] size:156800 - EasyNet/fully_connected/biases:0 shape:[200] size:200 - EasyNet/fully_connected_1/weights:0 shape:[200, 200] size:40000 - EasyNet/fully_connected_1/biases:0 shape:[200] size:200 - EasyNet/fully_connected_2/weights:0 shape:[200, 10] size:2000 - EasyNet/fully_connected_2/biases:0 shape:[10] size:10 - EasyNet/fully_connected/kernel/Regularizer/l2_regularizer:0 shape:[] size:1.0 - EasyNet/fully_connected_1/kernel/Regularizer/l2_regularizer:0 shape:[] size:1.0 - EasyNet/fully_connected_2/kernel/Regularizer/l2_regularizer:0 shape:[] size:1.0

注意正则化部分根据可用的项目给出三个项目。

在正则化为0,0.0001,0.01和1.0的情况下，我得到的testing精度值分别为0.9468,0.9476,0.9183和0.1135，表明高正则化术语的危险性。

如何在TensorFlow中添加正则化？

convert_imageset.cpp指南

：检查失败：检查失败：hdf_blobs_ – > shape（0）== num（200 vs. 6000）

张量stream的tf.nn.max_pool中的“SAME”和“VALID”填充有什么区别？

InfogainLoss图层

如何解释机器学习模型的“损失”和“准确性”

估计人工neural network的神经元数量和层数

在TensorFlow中使用预先训练的单词embedded（word2vec或Glove）

多层感知器（MLP）体系结构：select隐藏层的数量和隐藏层的大小的标准？

为什么在反向传播neural network中必须使用非线性激活函数？

如何在caffe中训练/testing我自己的数据集？