pandas - 将数据帧转换为张量
问题描述
我有一个数据框,可以说一个形状 [10,4],其中形状 [1,246] 的第 3 列和第 4 列。我该如何转换它,或者说重塑它以使其可以转换为适当的张量。
简单的问题:-我实际上有一个形状为 [10,2] 的数据集,我正在使用它来训练 bert。在使用 bert 标记器对其一列进行标记后,我得到形状为 [1,23] 的 input_ids,它被保存为数据框中的新列,将形状更改为 [10,3],其中 3 列的形状为 [1,23]。现在我想将它提供给我的 bert 模型进行训练,我需要将其转换为张量。帮我解决这个问题的最佳方法。
下图可以帮助您了解我面临的问题。
整个数据框的形状为 [5000,4],其中元素 column[input_ids] 数组的形状为 [1,56],其中 56 是最大标记词。
解决方案
我认为您正在寻找 Numpy 数组,如下所示:
a = [1, 2]
np.asarray(a)
array([1, 2])
推荐阅读
- apache - 使用 apache 将特定 HTTPS 请求重定向到特定端口
- json - 用于 json 的 t-sql 在结果中跳过列名
- python - 读取 CSV 并将数据上传到 Elasticsearch
- c# - LINQ Min() 和 Max() 优化
- swift - UIImageView 与 aspectToFi 并仅裁剪图像的顶部
- c# - 使用带有 ApiController 的 signalR 和 reactjs fetch 返回数据?
- jquery - Jquery ( Javascript ) id 选择器查询
- visual-studio - TFVC 默认忽略 bin/debug 和 obj/debug
- c++ - boost::asio 使用带有 thread_group 的 strand 仅使用 thread_group 中的第一个线程
- c# - WPF - 当用户点击复选框时如何获取treeviewitem