html - 使用模式获取特定以提取 R 中字符串的特定部分
问题描述
我有一个数据框,其中包含一个“URL”列和一个“从评论中提取”列。我想从网站上获得完整的评论,而不是获得其余的 html 代码。
我需要 R 在 html 代码中定位提取,然后提取由前一个“<div”和下一个“/div>”分隔的所有文本。这看起来像:(不需要的文本)<div (...) extract (...) /div>(不需要的文本)
这是我尝试过的尝试
library(XML)
library(xml2)
library(RCurl)
library(stringr)
df$Review <- str_extract_all(RCurl::getURL(df$Link, ssl.verifypeer = TRUE),paste0(c("^(<div).{1,1000000}"),paste(df$Estratto),c(".{1,1000000}(/div>)")))
这个问题可能是我告诉 R 提取以“<div”开头并以“/div>”结尾的字符串,而不是“提取包含我的字符串的完整 div 类”。
我该如何进行?
解决方案
这对你有用吗?
library(stringr)
st
[1] "<divwww.google.com/div>" "<divwww.yahoo.com/div>"
str_extract(st, '(?<=div)(.*)(?=/div>)')
[1] "www.google.com" "www.yahoo.com"
推荐阅读
- java - Apache POI 单元格样式在 Linux 环境中不起作用
- rdlc - 在 Aspnet Core 中将 RDLC 渲染为 PDF 或 Excel
- python - 从带有 astropy 的图像中获取数据?
- react-native - 选择所有复选框组 - 反应原生
- java - 可以在 Spring Data 中的列表上使用 Containing 吗?
- json - 我们如何处理 MongoDB 连接、模式?
- mysql - 在 WHERE 子句中具有多个返回值的 MySQL 子查询返回空集
- jmeter - 测试 solr-nutch 应用程序的 Jmeter vs apache 基准测试?
- java - 如何用用户输入的值填充二维数组?
- rust - 如何在 Rust 中迭代多个选项向量?