hadoop - 如何使用 apache Pig 插入过滤数据的索引?
问题描述
我想使用 Pig 脚本为过滤的数据集/记录提供像 1、2、... 这样的索引,我以设定的格式加载到表中,所以在加载时我无法添加索引/id。我试过 Rank 功能,但它在我的公司环境下不起作用,我不能使用 UDF。当前代码是这样的,我想在filterTable中插入索引。
table1 = LOAD 'tmp' using TransactionLoader(...);
filterTable = FOREACH table1 {
rec = FILTER records BY (record MATCHES '.*\t2\t.*');
GENERATE rec;
};
非常感谢任何帮助,谢谢!
解决方案
如果你不能写一个 UDF,Rank
是唯一的选择final = rank filterTable;
推荐阅读
- node.js - 使用 Node Js 的 AWS Lambda 在 http.request() 上提供“连接 ETIMEDOUT”
- python - __getitem__ 的 idx 如何在 PyTorch 的 DataLoader 中工作?
- javascript - scrollTop 在 iOS Safari 上的行为完全相反
- javascript - 我们可以使用 jsx 字段生成对象吗?
- javascript - 从 Object.freeze 获取随机对象
- javascript - Meteor 1.8.1 SSL 双连接
- stormcrawler - AWS 节点上的 Storm-crawler 种子注入失败
- python - Django在if语句中重定向不起作用
- java - 这个setter方法有什么问题?(爪哇)
- r - 小鼠的插补方法 - 数据集中的相关性。R