首页 > 解决方案 > 将最新的 MovieLens 数据集(评分)转换为包含 NA 的矩阵

问题描述

我正在尝试将最新的 MovieLens 数据集(小)转换为矩阵。基本上它是一个包含三列的“列表”:userID、movieID 和 rating。我希望用户是行,项目是列,评级应该是矩阵的内容。

我之前已经在 stackoverflow 上搜索过,但我找到的最接近的方法是:Transforming Dataset into value matrix

实际上,这种方法确实非常有效,但是如果我使用 sparseMatrix 函数,我在矩阵中没有 NA。当然 sparseMatrix 是节省存储容量的好方法,但我需要矩阵中的 NA,因为我使用它们来计算两个用户之间相似项目的数量等。

数据集如下所示:

|userId|movieId|rating
|1     |1      |3.5   
|1     |3      |2.5   
|1     |5      |3.0   
|1     |412    |2.5  
|2     |13     |4.5   
|3     |412    |5    

等等。

现在我想将此数据集转换为矩阵,使其看起来像这样:

   1   | 2 | 3 | 4 | 5 | ... 
1| 3,5 |NA |2,5| NA|3,0| ... 
_____________________

2| NA |NA  |NA | NA| NA| ... 
_____________________

3| NA |NA  |NA | NA|5,0| ... 
______________________

我希望这种可视化有助于理解我的问题。如果它看起来不像 stackoverflow 上的典型问题,我很抱歉,但我在这里很新。

如果你们中的一个人能解决我的问题,那就太棒了!提前谢谢了!

亲切的问候

标签: r

解决方案


推荐阅读