首页 > 解决方案 > 转换源数据的最佳方法?

问题描述

在 R 中工作。但我认为这个问题是普遍的。

华尔街日报对美国疾病感染率的数据集进行了可视化: 在此处输入图像描述

X 轴是年份。Y轴是状态。

每块瓷砖的红色阴影是该年记录的特定州的感染率强度。

被可视化的源数据集排列如下: 在此处输入图像描述

数据集中的每一行对应一个国家在给定年份的单一感染率。因此,可视化中的每个红色图块对应于数据集中的一行。

但是如果数据集看起来像这样呢? 在此处输入图像描述

现在,每一行对应一个状态。每个州/行都有多个感染率,每年记录一个。这可能与现实世界中捕获数据的方式相匹配,因为对于每一年或每一天(在冠状病毒的情况下)您跟踪感染率,您只需添加一个新列(而不是 50 个新行)。

问题是,虽然这种布局更人性化,但它对 R 语言不是很友好。我们可以轻松地根据源数据集排列创建切片可视化,其中数据按感染率排列,但如果按状态排列则不那么容易。

所以,最后,我的问题是——有没有一种简单的方法可以在 Excel 中将数据从第二个布局转换为第一个布局?

标签: rimportimport-from-excelimport-from-csv

解决方案


您可以使用免费的开源OpenRefine工具中的转置功能来准备数据文件,然后再将其加载到 R 中。


推荐阅读