regex - 猪拉丁语 REGEX_EXTRACT:
问题描述
我正在尝试使用 regex_extract 从推文中获取 # 之后的所有内容。我正在使用这段代码,但我什么也没得到,没有错误,只是空白的地方,我应该从推文中获取摘录,我做错了什么?
grunt> a = load '/user/manuelrivera11828510/lab/pig/full_text.txt' AS (id:chararray, ts:chararray, location:chararray, lat:float, lon:float,
tweet:chararray);
grunt> b = foreach a generate id, ts, (lat, lon) as location, REGEX_EXTRACT(tweet, '(.*)#(\\s{8})([:| ])(.*)',2) as hash;
这就是我得到的(一个例子):
(USER_8f811b71,2010-03-06T16:12:59,(40.722733,-73.5367),)
谢谢,
解决方案
(?<=\\#).*
应该给你你正在寻找的东西。?<= 是积极的向后看,后跟 \ 用于转义 #.Finally .* 将匹配 # 前面的所有内容
a = load '/user/manuelrivera11828510/lab/pig/full_text.txt' AS (id:chararray, ts:chararray, location:chararray, lat:float, lon:float, tweet:chararray);
b = foreach a generate id, ts, (lat, lon) as location, REGEX_EXTRACT(tweet, '(?<=\#).*',1) as hash;`
见下文,正则表达式匹配“geteverything in fron of hash”
推荐阅读
- javascript - 获取状态代码 0 角度 HttpClient?
- python - 尝试安装 numpy - python 3 时出错
- javascript - 如何在测试网中使用 Waves Transactions 库?
- perl - 在perl中将此时间格式“2019-02-28T08:42:57+0000”转换为YYYY-MM-DD格式
- c++ - 在 Visual Studio 2017 中设置 OpenGL
- windows - 无论系统语言如何,从 CMD 启用“审计过程跟踪”
- redirect - 如何在 c#、.net 核心中返回状态代码并返回到 mvc 中的任何控制器
- asp.net - c#中具有动态类型的运算符关键字
- whatsapp - 根据屏幕大小更改whatsapp url
- javascript - React Native Android In App Purchase 错误