首页 > 解决方案 > 如何选择 python pandas 排列列与行

问题描述

我对熊猫很陌生(几个月),我开始建立一个基于熊猫数据数组的项目。

这样的 pandas 数据数组将包含在一个表中,该表包括文本集合中存在的不同类型的单词(大约 100k 文档和大约 200 个关键词)。

例如,想象一下“汽车”和“摩托车”这个词以及编号为 doc1、doc2 等的文档。

我该如何安排?a) 每列的名称是文档编号和索引词“汽车”和“摩托车”或 b) 反过来;索引是文档编号,列标题是单词?

我对 pandas 没有足够的了解,无法预见这种选择的后果。所有代码都将基于该决定。

附带说明一下,数组不是静态的,时不时会有更多的文档和更多的单词被添加到数组中。

你会推荐什么?甲还是乙?为什么?

谢谢。

标签: pythonpandasindexingrowmultiple-columns

解决方案


通常在 pandas 中,我们遵循实例是列(这里是文档编号)和特征是列(这里是单词)的做法。所以,更喜欢使用方法'b'。


推荐阅读