首页 > 解决方案 > 如何处理批次内不同实例中的不确定句子数量?

问题描述

我遇到了编码问题。在我的数据集中,一个实例包含几个句子(不同实例中的数量不同)。它们不能连接起来作为一个单一的。如何使用 PyTorch 有效地处理此类数据?或者我必须一个一个地处理实例?

标签: pythonnlppytorchreasoning

解决方案


这是一个非常广泛的问题。但是,我可以想到两个不太复杂的解决方案。

  1. 使用虚拟句子填充实例并掩盖虚拟句子,同时学习实例的表示。
  2. 您可以根据句子数量对实例进行分组以创建小批量以避免填充。但是,如果不是这种情况,至少尝试将句子数量相似的实例分组以最小化填充量。

您可以研究学习文档表示的现有实现,例如Hierarchical Attention Networks for Document Classification 论文


推荐阅读