首页 > 解决方案 > 如何使用 apache Pig 插入过滤数据的索引?

问题描述

我想使用 Pig 脚本为过滤的数据集/记录提供像 1、2、... 这样的索引,我以设定的格式加载到表中,所以在加载时我无法添加索引/id。我试过 Rank 功能,但它在我的公司环境下不起作用,我不能使用 UDF。当前代码是这样的,我想在filterTable中插入索引。

table1 = LOAD 'tmp' using TransactionLoader(...);
filterTable = FOREACH table1 {
       rec = FILTER records BY (record MATCHES '.*\t2\t.*');
       GENERATE rec;
};

非常感谢任何帮助,谢谢!

标签: hadoopapache-pig

解决方案


如果你不能写一个 UDF,Rank是唯一的选择final = rank filterTable;


推荐阅读