首页 > 解决方案 > 如何在与 GNU-parallel 并行的循环中并行化 csh

问题描述

我有以下创建多个对象的脚本。

我尝试在终端中简单地运行它,但似乎需要很长时间。如何使用 GNU 并行运行它?

下面的脚本创建一个对象。它通过 niy = 1 到 niy = 800,并且对于 niy 的每个增量,它循环通过 njx = 1 到 675。

#!/bin/csh


set njx = 675 ### Number of grids in X
set niy = 800  ### Number of grids in Y
set ll_x = -337500 
set ll_y = -400000 ### (63 / 2) * 1000 ### This is the coordinate at lower right corner
set del_x = 1000
set del_y = 1000

rm -f out.shp
rm -f out.shx
rm -f out.dbf
rm -f out.prj


shpcreate out polygon    
dbfcreate out -n ID1 10 0 



@ n = 0 ### initilzation of counter (n) to count gridd cells in loop
@ iy = 1  ### initialization of conunter (iy) to count grid cells along north-south direction

echo ### emptly line on screen

while ($iy <= $niy)  ### start the loop for norht-south direction
   echo ' south-north'   $iy '/' $niy ### print a notication on screen

   @ jx = 1 
   while ($jx <= $njx)### start the loop for east-west direction 
      @ n++ 


      set x = `echo $ll_x $jx $del_x | awk '{print $1 + ($2 - 1) * $3}'`
      set y = `echo $ll_y $iy $del_y | awk '{print $1 + ($2 - 1) * $3}'`
      set txt = `echo $x $y $del_x $del_y | awk '{print $1, $2, $1, $2 + $4, $1 + $3, $2 + $4, $1 + $3, $2, $1, $2}'`

      shpadd out `echo $txt`
      dbfadd out $n

      @ jx++
   end ### close the second loop

   @ iy++
end ### close the first loop

echo 



### lines below create a projection file for the created shapefile using

cat > out.prj  << eof
PROJCS["Asia_Lambert_Conformal_Conic",GEOGCS["GCS_WGS_1984",DATUM["D_WGS_1984",SPHEROID["WGS_1984",6378137.0,298.257223563]],PRIMEM["Greenwich",0.0],UNIT["Degree",0.0174532925199433]],PROJECTION["Lambert_Conformal_Conic"],PARAMETER["False_Easting",0.0],PARAMETER["False_Northing",0.0],PARAMETER["Central_Meridian",120.98],PARAMETER["Standard_Parallel_1",5.0],PARAMETER["Standard_Parallel_2",20.0],PARAMETER["Latitude_Of_Origin",14.59998],UNIT["Meter",1.0]]
eof

###
###
###


标签: parallel-processingcshgnu-parallel

解决方案


内部部分被执行了 540,000 次,并且在每次迭代中,您调用 3 个awk进程来执行 3 个简单的数学运算……那是 160 万个 awks。

而不是这样,我编写了一个 awk 来生成所有循环并进行所有数学运算,然后可以将其输入bashcsh实际执行它。

我写了这个并在原始版本达到 16% 的时候完全运行它。我没有非常彻底地检查它,但你应该能够很容易地纠正任何小错误:

#!/bin/bash

awk -v njx=675 -v niy=800 -v ll_x=-337500 -v ll_y=-400000 '
   BEGIN{
      print "shpcreate out polygon"
      print "dbfcreate out -n ID1 10 0"
      n=0

      for(iy=1;iy<niy;iy++){
         for(jx=1;jx<njx;jx++){
            n++
            x = llx + (jx-1)*1000
            y = lly + (iy-1)*1000
            txt = sprintf("%d %d %d %d %d %d %d %d %d %d",x,y,x, y+dely, x+delx, y+dely, x+delx,y,x,y)
            print "shpadd out",txt
            print "dbfadd out",n
         }
      }
   }' /dev/null

如果输出看起来不错,您可以运行它bashcsh像这样运行它:

./MyAwk | csh

shpadd请注意,我对这些 Shapefile (?) 工具或工具一无所知dbfadd。它们可能会或可能不会并行运行 - 如果它们类似于sqlite并行运行它们不会对您有太大帮助。我猜上面的更改足以对您的运行时做出巨大的改进。如果没有,这里有一些你可以考虑的其他事情。

  • 您可以在开始的每一行中附加一个 & 符号 ( &),dbfadd或者shpadd让几个并行开始,然后wait在每 8 行之后打印一个,以便您以块的形式并行运行 8 个东西。

  • 您可以将脚本的输出直接输入GNU Parallel,但我不知道行的顺序是否至关重要。

  • 我认为这是在创建某种数据库。如果在 RAM 支持的文件系统上运行它可能会更快,例如/tmp.

  • 我注意到这里有一个用于操作 Shapefile 的 Python 模块。我不禁想到那会快很多很多倍。


推荐阅读