python - 如何处理批次内不同实例中的不确定句子数量?
问题描述
我遇到了编码问题。在我的数据集中,一个实例包含几个句子(不同实例中的数量不同)。它们不能连接起来作为一个单一的。如何使用 PyTorch 有效地处理此类数据?或者我必须一个一个地处理实例?
解决方案
这是一个非常广泛的问题。但是,我可以想到两个不太复杂的解决方案。
- 使用虚拟句子填充实例并掩盖虚拟句子,同时学习实例的表示。
- 您可以根据句子数量对实例进行分组以创建小批量以避免填充。但是,如果不是这种情况,至少尝试将句子数量相似的实例分组以最小化填充量。
您可以研究学习文档表示的现有实现,例如Hierarchical Attention Networks for Document Classification 论文。
推荐阅读
- python - 如何在运行时访问容器内的环境变量?
- android - 从 Play 商店安装时,Android Cordova 应用程序崩溃
- c++ - 如何在 C++ 中将 '\' 替换为 '\\' 以处理转义序列?
- javascript - 如何修复 wp 超级缓存错误消息?
- wpf - 如何允许手写笔/笔和手指触摸滚动 WPF Scrollviewer
- c++ - 从不同的容器中移动构造`std::map`
- java - DBHandlerNewzealand 类?
- sql - 使用 with 和 inside case 后使用参数设置查询
- replace - Couchbase 创建不可变属性或包含创建日期时间的元信息
- javascript - 在 AMP html 中添加自定义 js 文件?