java - 使用 JSoup 从网站源代码中提取 JavaScript 行
问题描述
我有来自网站的这个 JavaScript 源代码。
<script>"@context": "http://schema.org/","@type": "Product","name": "Shower head","image": "https://example.com/jpeg.png","description": "Hello stackoverflow","url": "link.com","offers": {"@type": "Offer","priceCurrency": "USD","price": "10.00","itemCondition": "http://schema.org/NewCondition","availability": "http://schema.org/InStock","url": "MyUrl.com","availableAtOrFrom": {"@type": "Place","name": "Geneva, NY","geo": {"@type": "GeoCoordinates","latitude": "42.8361","longitude": "-76.9874"}},"seller": {"@type": "Person","name": "Edward"}}}</script>
我正在尝试使用这个 JSoup 代码来提取最后一行"name": "Edward"
public class JsoupCrawler {
public static void main(String[] args) {
try {
Document doc = Jsoup.connect("https://example.com").userAgent("mozilla/17.0").get();
Elements temp = doc.select("script.name");
int i=0;
for (Element nameList:temp) {
i++;
System.out.println(i+ " "+ nameList.getElementsByTag(" ").first().text() );
}
}
catch (IOException e) {
ex.printStackTrace();
}
}
}
有人可以帮我解决这个问题,还是不可能?
解决方案
JSoup 正在解释 HTML。元素的内容<script>
包含 JavaScript,因此 JSoup 无法解释元素内部的<script>
内容。
看起来好像<script>
元素的内容是用 JSON 格式化的。所以你可以使用 JSoup 来获取<script>
元素的内容,然后尝试将这个字符串感受到一个 JSON 解释库中。如果您想深入了解,请看这里:How to parse JSON in Java
如果这是一次性的,并且您可以相信元素的内容<script>
不会发生太大变化,您也可以使用正则表达式来获取所需的部分。但是,我建议使用 JSON 库。
推荐阅读
- java - 如何使用 Mockito 在单元测试中模拟 ObservableTransformer
- css - 使用混合线性梯度和径向梯度
- html - css nth-of-type 不适用于 safari (mac)
- javascript - 是否有任何理由在 Node.js 中“.destroy()”一个可读流?
- asp.net - 文本框值不在预期范围内
- emacs - Beancount:使用“:”符号作为注释符号,如;做
- graph - 制造质量的图形数据库建模
- meshlab - 我可以在 meshlab 中编写自己的着色器吗?似乎我只能使用现有定义的
- php - JSON 通过 Insomnia 发送,但 PHP 接收到一个空数组
- mysql - 使用 MySQL 查询模拟移动时间线