首页 > 解决方案 > 如何从列中的字符串列表中提取特定单词

问题描述

我在表中有以下数据。

Archer late
Patrick late
Marie Walter late
Michael-d'souza late

我想用猪从这个列表中删除后期?我可以regex用来删除这个词吗?有人可以帮我解决这个问题吗?

编辑:

我使用了以下命令但失败了:

EXTRACT(姓氏,'(\b[Dd]+[Ee]+[Cc]+[Ee]+[Aa]+[Ss]+[Ee]+[Dd]+\b)'))

标签: apache-pig

解决方案


调用 REPLACE 怎么样?

A = LOAD 'input.txt' AS (a0:chararray);
B = FOREACH A GENERATE REPLACE(a0, 'late','');
dump B;

推荐阅读