regex - 如何在同一行上通过逗号输出多个正则表达式匹配
问题描述
我想使用 grep/awk/sed 为日志文件的每一行提取匹配的字符串。然后将其放入 csv 文件中。突出显示的字符串(1432,53,http://www.espn.com/)
如果输入是:
2018-10-31 18:48:01.717,INFO,15592.15627,PfbProxy::handlePfbFetchDone(0x1d69850, pfbId=561, pid=15912, state=4, fd=78, timer=61), FETCH DONE: len=45, PFBId=561, pid=0, loadTime= 1434 ms, objects= 53 , fetchReqEpoch=0.0, fetchDoneEpoch:0.0, fetchId=26, URL= http://www.espn.com/
2018-10-31 18:48:01.806,DEBUG,15592.15621,FETCH DONE: len=45, PFBId=82, pid=0, loadTime= 1301 ms, objects= 54 , fetchReqEpoch=0.0, fetchDoneEpoch:0.0, fetchId=28 , URL= http://www.diply.com/
上述日志行的预期输出:
URL,LoadTime,Objects
http://www.espn.com/,1434,53
http://www.diply.com/,1301,54
这是一个示例,实际的日志文件将包含更多数据。
--我的解决方案-到目前为止-
现在我使用 grep 来获取所有包含关键字 'FETCH DONE' 的行(这些行包含我正在寻找的字符串)。
我确实想出了与我需要的数据匹配的正则表达式,但是当我 grep 并将其放入文件中时,它会在新行上打印每个字符串,这并不是我想要的。我使用的 grep 和正则表达式(在线正则表达式工具:https ://regexr.com/42cah ):
echo -en 'url,loadtime,object\n'>test1.csv #add header
grep -Po '(?<=loadTime=).{1,5}(?= )|((?<=URL=).*|\/(?=.))|((?<=objects=).{1,5}(?=\,))'>>test1.csv #get matching strings
实际输出:
URL,LoadTime,Objects
http://www.espn.com
1434
53
http://www.diply.com
1301
54
预期输出:
URL,LoadTime,Objects
http://www.espn.com/,1434,53
http://www.diply.com/,1301,54
我正在尝试使用 awk 来匹配多个正则表达式并在两者之间打印逗号。由于某种原因,我根本无法让它工作,即使我的正则表达式匹配正确的字符串。
我的另一个想法是使用 sed 将一些 '\n' 替换为 ',':
for(i=1;i<=n;i++)
if(i % 3 != 0){
sed REPLACE "\n" with "," on i-th line
}
我很确定有一种更有效的方法
解决方案
使用 sed:
sed -n 's/.*loadTime=\([0-9]*\)[^,]*, objects=\([0-9]*\).* URL=\(.*\)/\3,\1,\2/p' input | \
sed 1i'URL,LoadTime,Objects'
推荐阅读
- vue.js - 功能组件的子事件处理程序中的“this”上下文
- android - 因违反广告政策而导致的 admob 横幅广告填充率大幅下降
- docusignapi - Docusign API - DateSignedTabs 时区
- javascript - Material UI:嵌套组件样式覆盖未应用
- shiny - 如何部署我的闪亮应用程序?(错误打开连接)
- javascript - 找到模式并动态构建正则表达式以匹配字符串
- python - 快速方法在大量随机固定长度字符串中找到彼此汉明距离 x 内的字符串
- email - Gmail 断开与跟踪的链接
- netlogo - NETLOGO:沿河网节点传递水量
- html - CSS DIV位置问题(2个绝对位置的div)