首页 > 解决方案 > PyTorch TabularDataset 拆分显示错误的结果

问题描述

我一直在关注这个关于情绪分析的教程。作者有一个关于我们如何使用自己的数据集而不是 PyTorch 内置数据集的笔记本。所以我跟随他的脚步,在清理并删除标点符号和不必要的列并最终将数据集修剪为仅 500000 行之后,将我的数据集拆分为和csv 文件。traintestvalidation

因此,在完成所有这些并按照作者的脚步创建我的字段、创建 train_data、valid_data 和 test_data 并最终创建 vocab 之后,我想我会检查我的 train_data 变量中的内容,我得到了这个:{'text': ['0'], 'polarity': '0'}。为什么会显示这个?

这是我的代码:

TEXT = data.Field()
POLARITY = data.LabelField()
fields = [('text', TEXT), ('polarity', POLARITY)]
train_data, valid_data, test_data = data.TabularDataset.splits(
                                        path = 'data',
                                        train = 'train.csv',
                                        validation = 'valid.csv',
                                        test = 'test.csv',
                                        format = 'csv',
                                        fields = fields,
                                        skip_header = True
)
print(vars(train_data[0]))

标签: pythonpytorchtorchtext

解决方案


推荐阅读