首页 > 解决方案 > 使用 Perl 在逗号和制表符上拆分文本文件并重新排序列

问题描述

我正在尝试使用 Perl 将一些数据重新组织成更有用的格式。目前的数据如下所示:

Code             Number
|a,c,2,d,c|        5
|b,d,6,c,b|        2
|d,a,1,b,c|        3

这两列由制表符分隔。但是,我希望代码列中的数字位于字母之前,因此输出如下所示:

Code            Number
|2,a,c,d,c|        5
|6,b,d,c,b|        2
|1,d,a,b,c|        3

作为对 Perl 没有太多经验的人,我能想到的最好的方法是基于逗号将文件拆分为数组的哈希,然后我可以重新排序列,以便首先包含数字的列。理想情况下,无论数字在代码中的哪个位置,我都希望它能够工作,例如,如果上述输出也|a,2,c,d,c|可以|a,c,2,d,c|实现|a,c,d,2,c|。但是,这样做的一个问题是“代码”列中的不同字母和数字没有不同的标题,我怀疑这可能会在我尝试创建文件的哈希时引起一些问题。

到目前为止,我有这段代码:

use strict;
use warnings;

my $file = 'file.txt';
my $output = 'output.txt';

open (my $fh2, '>', $output) or die "Could not open $output $!";
close $fh2;

my %data;
my @datanames;

open ($fh, '<', $file) or die "Could not open $file $!";
open ($fh2, '>>', $output) or die "Could not open $output $!";
while (<$fh>) {
chomp;
my @list=split(/\,/); 
for (my $j=0; $j<=$#list; $j++) {
    if ($.==1) {
        $datanames[$j]=$list[$j];
    }

    else {
        push @{$data{$datanames[$j]}}, $list[$j];
    }
  }
}
foreach (@datanames){
   local $"="\n"; 
   print $fh2 "$_\n@{$data{$_}}\n";
}
close $fh;
close $fh2;

print 'done\n';

如果我有严格和警告,这会给我大量未初始化的值错误,即使我没有,它也只会打印标题(代码和数字),然后是每一行,|然后是列中的数字值code。它看起来像这样:

Code     Number
|2
|6
|1

我不确定如何从这一点向前推进,甚至不确定我是否要以正确的方式解决我的问题。任何帮助,将不胜感激。

标签: arraysperlhash

解决方案


无需在任何地方存储任何东西。使用List::MoreUtils ::part 根据列是否包含数字来对列进行分区。

#! /usr/bin/perl
use warnings;
use strict;
use feature qw{ say };

use List::MoreUtils qw{ part };

print scalar <>;  # header
while (<>) {
    my @cols = split /\t/;
    my @subcols = split /[,|]/, $cols[0];
    my @parts = part { /[0-9]/ } @subcols[1 .. $#subcols];
    print '|', join ',', @{ $parts[1] }, @{ $parts[0] };
    print "|\t", $cols[1];
}

推荐阅读