首页 > 解决方案 > 我尝试将 gz 文件读入 R,但收到一条错误消息:第 1 行没有 9 个元素

问题描述

这是我的代码:

imdb <- read.table(gzfile("/imdb_dataset/title.basics.tsv.gz"), sep = " ")

错误:

Error in scan(file = file, what = what, sep = sep, quote = quote, dec = dec,  : 
  line 1 did not have 9 elements

该文件,您可以在其中查看列的分隔方式等。

tsv截图

事实上,第一行有 9 个元素,那可能是什么问题呢?

tt0000010   short   Exiting the Factory La sortie de l'usine Lumière à Lyon 0   1895    \N  1   Documentary,Short
tt0000011   short   Akrobatisches Potpourri Akrobatisches Potpourri 0   1895    \N  1   Documentary,Short
tt0000012   short   The Arrival of a Train  L'arrivée d'un train à La Ciotat    0   1896    \N  1   Action,Documentary,Short

标签: r

解决方案


我发现您的导入存在 2 个潜在问题:

  1. 你给一个空格(" ")而不是一个制表符("\t")作为分隔符,但你说它是一个 tsv
  2. 有一堆\N字符可以把它扔掉 - 尝试替换那些

推荐阅读