tensorflow - 如何在我的模型中使用预训练的 bert 模型作为嵌入层?
问题描述
我在我的功能模型中使用了 bert-for-tf2 的这个预训练模型,如下所示:
def build_model(model_dir, batch_size, max_seq_num, max_seq_len):
bert_params = bert.params_from_pretrained_ckpt(model_dir)
l_bert = bert.BertModelLayer.from_params(bert_params, name="bert", trainable=False)
input_ids = tf.keras.layers.Input(shape=(max_seq_num, max_seq_len,), dtype='int32', name='input_ids')
reshaped_input_ids = tf.reshape(input_ids, (batch_size * max_seq_num, max_seq_len))
token_type_ids = tf.keras.layers.Input(shape=(max_seq_num, max_seq_len,), dtype='int32', name='token_type')
reshaped_token_type_ids = tf.reshape(token_type_ids, (batch_size * max_seq_num, max_seq_len))
mask_ids = tf.keras.layers.Input(shape=(max_seq_num, max_seq_len,), dtype='int32', name='mask_ids')
reshaped_mask_ids = tf.reshape(mask_ids, (batch_size * max_seq_num, max_seq_len))
# provide a custom token_type/segment id as a layer input
bert_embedd = l_bert([reshaped_input_ids, reshaped_token_type_ids], mask=reshaped_mask_ids) # [batch_size*max_seq_num, max_seq_len, hidden_size]
model = tf.keras.models.Model(inputs=[input_ids, token_type_ids, mask_ids], outputs=bert_embedd)
model.build(input_shape=[(batch_size, max_seq_num, max_seq_len),
(batch_size, max_seq_num, max_seq_len),
(batch_size, max_seq_num, max_seq_len)])
bert.load_bert_weights(l_bert, os.path.join(model_dir, "bert_model.ckpt")) # should be called after model.build()
model.summary()
tf.keras.utils.plot_model(model, show_shapes=True)
learning_rate = 1e-2
model.compile(optimizer=tf.keras.optimizers.Adam(learning_rate=learning_rate),
loss=tf.keras.losses.MeanSquaredError(), metrics=['mse'])
return model
我可以成功构建模型。但是当我将数据输入模型时:
model = build_model(path, 16, 16, 16)
x_input = np.random.randint(0, 10000, size=[16, 16, 16])
x_token_type = [[[i] * 16 for i in range(16)] for _ in range(16)]
x_mask = np.ones(shape=[16, 16, 16])
y_predict = model(x_input, x_token_type, x_mask)
出现错误:
ValueError: Layer model expects 2 input(s), but it received 1 input tensors. Inputs received: ...
解决方案
在最后一条指令中,
y_predict = model(x_input, x_token_type, x_mask)
需要两个输入,但您只提供一个。
我认为您有三个输入 - <code>x_input x_token_type
、 和x_mask
。如果你想训练你的模型,试试这个:
model.fit([x_input, x_token_type, x_mask])
推荐阅读
- excel - 无法弄清楚如何索引、匹配和使用表中组合的 if 函数
- unit-testing - 在 Artos 中配置并行测试
- xpages - 如何使用 SSJS 从外部休息服务获取返回值
- javascript - 需要我发布到 npm 的包时遇到问题
- ip-camera - 在 ubuntu 的 OpenCV 中访问我的 ip wifi 摄像头,并且不会连接/流式传输
- jquery - 在 jQuery UI datepicker dateFormat 中允许使用破折号和斜杠
- google-apps-script - 适用于所有打开以适应屏幕以适应受保护工作表范围的用户的 google 工作表宏
- java - 如何根据使用 JSoup 选择的 JList 下载文件?
- r - 在 scale_x_discrete 中创建下标
- mysql - MySql:查找类型中每个产品子类型的最近日期