Building Input Functions with tf.contrib.learn
这个教程将指引你构建tf.contrib.learn的输入函数(input functions).
Custom Input Pipelines with input_fn
用tf.contrib.learn训练网络时,可能会传递特征和目标数据到fit,evaluate,predict节点中,这里是上一节的示例:
training_set = tf.contrib.learn.datasets.base.load_csv_with_header(
filename=IRIS_TRAINING, target_dtype=np.int, features_dtype=np.float32)
test_set = tf.contrib.learn.datasets.base.load_csv_with_header(
filename=IRIS_TEST, target_dtype=np.int, features_dtype=np.float32)
...
classifier.fit(x=training_set.data,
y=training_set.target,
steps=2000)
当要求的数据操作不是很多时,这样做是可行的,但是如果有更过的特征,就会用到定制的输入函数来抽象逻辑。
Anatomy of an input_fn
下面的代码描述了输入函数的基本框架:
def my_input_fn():
# Preprocess your data here...
# ...then return 1) a mapping of feature columns to Tensors with
# the corresponding feature data, and 2) a Tensor containing labels
return feature_cols, labels
输入函数的主题包括了预处理输入数据的逻辑,比如通过规范化来清洗数据。
输入函数必须返回最终的特征数据和目标数据。
feature_cols是对应特征数据张量的键值对的字典。labels是目标值。
Converting Feature Data to Tensors
如果你的特征或目标诗句是pandas dataframe或numpy array,你需要先将它转换为张量。
对于连续的数据,你可以用tf.constant来构建
feature_column_data = [1, 2.4, 0, 9.9, 3, 120]
feature_tensor = tf.constant(feature_column_data)
对于稀疏矩阵来说,你需呀转换为sparseTensor,有三个参数:
- dense_shape,张量的形状
- indices,张量中非0元素的下标
- values,一个一维的张量,在indices中的对应值
下面的代码定义了一个3行5列的sparseTensor,index[0,1]为6,[2,4]为0.5.
sparse_tensor = tf.SparseTensor(indices=[[0,1], [2,4]],
values=[6, 0.5],
dense_shape=[3, 5])
它表示了这样的数据:
[[0, 6, 0, 0, 0]
[0, 0, 0, 0, 0]
[0, 0, 0, 0, 0.5]]
Passing input_fn Data to Your Model
在训练时feed数据,你需要传递输入函数到input_fn参数来构建fit节点:
classifier.fit(input_fn=my_input_fn, steps=2000)
注意,input_fn同时提供了特征和目标数据,代替了x参数和y参数。不能同时传递input_fn和x,y参数.
注意input_fn参数接收的是函数对象my_input_fn,而不是函数调用my_input_fn(),这意味着如果你按照下列代码传递数据,将会导致TypeError.
classifier.fit(input_fn=my_input_fn(training_set), steps=2000)
当然你也可以使用warpper function,functools.parptial或者lambda来传递输入函数。如下:
def my_input_function_training_set():
return my_input_function(training_set)
classifier.fit(input_fn=my_input_fn_training_set, steps=2000)
classifier.fit(input_fn=functools.partial(my_input_function,
data_set=training_set), steps=2000)
classifier.fit(input_fn=lambda: my_input_fn(training_set), steps=2000)
同样地,你可以用相同的输入函数来evaluate或predict。
这样的做法增强了代码的可维护性,无需捕捉x和y形成不同的变量(x_train, x_test, y_train, y_test)。