我正在阅读一个标准文本数据文件(步态周期数据),它由以下格式组成,其中!用于指定它后面的文本是一个变量名,随后的行后面跟着平均值(m)和标准偏差( s) 该变量的数据。变量可以是标量、向量或张量。

#Some header lines
#in these variable names below the N just refers to the N used to compute mean and SD
#not the number of data points in the variable
!ScalarVariable1 N1 
m1 s1
!ScalarVariable2 N2
m2 s2
!VectorVariable3 N3
m3_1 s3_1
m3_2 s3_2
m3_100 s3_100
!VectorVariable4 N4
m4_1 s4_1
m4_2 s4_2
m4_100 s4_100

我正在尝试找到一种读取变量名称并将数据存储在数据帧或单个数组或(理想情况下我认为)结构中的好方法。数据帧存储很棘手,因为长度各不相同:如图所示,有长度为 1 的标量,有已知长度(此处为 100)的归一化向量,但还有另一类长度为 N 的向量,它们取决于时间长度审判了。最后还有张量,有的有 3 列数据,有的有 6 列,这些也有均值和标准差。

readLines()用来导入文件,这给了我一个数组中的每一行文本。在matlab中,当我解决这个问题时,我将数据作为文本行完全按照readLines()提供的方式读取,然后遍历这个数组以通过检测来计算变量名之间的行数!,存储一个索引列表,其中包含与每个标题相关联的值的数量,然后去返回并使用变量名(例如 )将数据读入结构形式GCD.velocity。我是 R 的新手,不知道如何解决这个解析问题。只是寻求帮助以正确的方向开始,即使意味着现在只处理已知的 100 数组长度。谢谢。

以下是文件中的一些示例行,涵盖了所有类型的数据和标题。从所有标题开始,然后是标量,然后是向量,12 列张量,6 列张量(--- 仅指示分隔符跳转到新变量,而不是在文件中):

G:\Gait Data\2015\GCD\xxx_07.gcd : Left(Angles,Forces) : Right(Angles,Forces) : +X
G:\Gait Data\2015\GCD\xxx_05.gcd : Left(Angles,Forces) : Right(Angles,Forces):-X
G:\Gait Data\2015\GCD\xxx_10.gcd : Left(Angles,Forces) : Right(Angles,Forces):-X
G:\Gait Data\2015\GCD\xxx_12.gcd : Left(Angles,Forces) : Right(Angles,Forces):-X
G:\Gait Data\2015\GCD\xxx_13.gcd : Left(Angles,Forces) : Right(Angles,Forces) : +X
!Mass 5    
29.0000 0.0000
!Height 5
1310.0000 0.0000
!LeftLegLength 5
640.0000 0.0000
!LeftTrunkObliquity 5
5.4914 1.8161
4.9017 1.7414
4.3771 1.6795
3.9143 1.6484
!LeftGroundReaction-3-2 5
-9.8387 -3.3189 30.0240 0.000 0.000 0.0418 7.9230 4.3737 17.2863 0.000 0.000 0.2978
-56.6241 -14.5228 123.1434 0.000 0.000 0.0923 6.0863 7.5595 35.1965 0.000 0.000 0.3562
-40.9967 4.3286 255.1618 0.000 0.000 0.5213 11.8429 9.5473 49.7839 0.000 0.000 0.3331
-85.3239 8.8256 428.0071 0.000 0.000 0.7669 9.9698 14.0490 44.5523 0.000 0.000 0.5099
!RightPelvicOrigin-3 5
-446.5973 -2.6151 -22.3667 24.8248 8.4681 0.9047
-426.1199 -3.9391 -21.4263 23.8164 7.1312 0.7944
-407.3914 -4.9089 -19.4336 22.8752 6.0196 1.1956
-389.6329 -5.7206 -16.6267 22.0211 5.1385 1.7573
-373.1119 -6.4350 -13.3333 21.2372 4.5618 2.2868

使用一些正则表达式和R's 的内置read.table函数,我们可以实现这一点,然后您可以使用list2env将变量获取到全局环境中,即您将拥有标量作为向量和向量/张量作为具有相同名称的 data.frames在文件中:

input <- readLines("example.file")
input <- input[-(1:grep("^!",input)[1]-1)]
input <- input[!grepl("^--+$", input)]
str_extract(grep("^!", input, value=T), "(?<=!)\\S+") -> cs

input.t <- lapply( str_split( paste0(input, collapse='\n') , "\n(?=!)")[[1]] , function(x){
            res <- read.table(text=str_replace(x, "![^\n]+\n", ""))
            if(nrow(res)==1) unlist(res, use.names=F) else res

setNames(input.t, cs) -> input.t

list2env(input.t, .GlobalEnv)
#> <environment: R_GlobalEnv>
#> [1] 0.3186621 0.3861956
#> [1] 1.8439012 0.3019289
#>           V1        V2
#> 1 -0.1964990 0.9647295
#> 2 -0.4015327 0.5645811
#> 3 -1.1161385 0.6641921
#> 4  0.7292709 1.6256362
#> 5  0.6351160 0.5434198
#> 6  0.8395378 1.2967163


input <- readLines("example.file")
input <- input[-(1:grep("^!",input)[1]-1)]
input <- input[!grepl("^--+$", input)]
sub("^!(\\S+) .*$", '\\1', grep("^!", input, value=T)) -> cs

input.t <- lapply( strsplit( paste0(input, collapse='\n') , "\n(?=!)", perl=T)[[1]] , function(x){
            res <- read.table(text=sub("![^\n]+\n", "",x ))
            if(nrow(res)==1) unlist(res, use.names=F) else res

setNames(input.t, cs)
[1] 29  0

[1] 1310    0

[1] 640   0

      V1     V2
1 5.4914 1.8161
2 4.9017 1.7414
3 4.3771 1.6795
4 3.9143 1.6484

        V1       V2       V3 V4 V5     V6      V7      V8      V9 V10 V11    V12
1  -9.8387  -3.3189  30.0240  0  0 0.0418  7.9230  4.3737 17.2863   0   0 0.2978
2 -56.6241 -14.5228 123.1434  0  0 0.0923  6.0863  7.5595 35.1965   0   0 0.3562
3 -40.9967   4.3286 255.1618  0  0 0.5213 11.8429  9.5473 49.7839   0   0 0.3331
4 -85.3239   8.8256 428.0071  0  0 0.7669  9.9698 14.0490 44.5523   0   0 0.5099

         V1      V2       V3      V4     V5     V6
1 -446.5973 -2.6151 -22.3667 24.8248 8.4681 0.9047
2 -426.1199 -3.9391 -21.4263 23.8164 7.1312 0.7944
3 -407.3914 -4.9089 -19.4336 22.8752 6.0196 1.1956
4 -389.6329 -5.7206 -16.6267 22.0211 5.1385 1.7573
5 -373.1119 -6.4350 -13.3333 21.2372 4.5618 2.2868

笔记 :

该解决方案与列无关,因为无论您有 1000 列还是只有 1 列,只要它们用空格分隔即可。可以在read.table调用中设置分隔符
