xpath - 如何在此网站上指定正确的 xpath 进行解析?
问题描述
我需要从这个表中提取公司名称、电子邮件、URL、地址和电话号码...
公司名称非常简单,它们的正确 xpath 位置是:
//*[@id="s5_component_wrap_inner"]/div[2]/div[2]/strong
但是,地址和电话/传真信息仅用<br>
's 分隔。
我试过指定:
//*[@id="s5_component_wrap_inner"]/div[2]/div[2]/text()
无济于事。我正在使用 Octoparse 8.0
以下是页面上的表格条目示例:
<strong>Freie Grundschule 'Clara Schumann'</strong><br>Inselstraße 18, 04103 Leipzig<br />Tel.: 03 41 / 39 39 - 6 10, Fax: 03 41 / 39 39 - 6 11<br /><span id="cloak1ad4f2fdfed5ab713a02c518f5f184cd">Diese E-Mail-Adresse ist vor Spambots geschützt! Zur Anzeige muss JavaScript eingeschaltet sein!</span><script type='text/javascript'>
document.getElementById('cloak1ad4f2fdfed5ab713a02c518f5f184cd').innerHTML = '';
var prefix = 'ma' + 'il' + 'to';
var path = 'hr' + 'ef' + '=';
var addy1ad4f2fdfed5ab713a02c518f5f184cd = 'grundschule-lpz' + '@';
addy1ad4f2fdfed5ab713a02c518f5f184cd = addy1ad4f2fdfed5ab713a02c518f5f184cd + 'rahn-schulen' + '.' + 'de';
var addy_text1ad4f2fdfed5ab713a02c518f5f184cd = 'grundschule-lpz' + '@' + 'rahn-schulen' + '.' + 'de';document.getElementById('cloak1ad4f2fdfed5ab713a02c518f5f184cd').innerHTML += '<a ' + path + '\'' + prefix + ':' + addy1ad4f2fdfed5ab713a02c518f5f184cd + '\'>'+addy_text1ad4f2fdfed5ab713a02c518f5f184cd+'<\/a>';
</script>, <a href="http://www.rahndittrich.de/gs-lpz/" target="_blank">www.rahndittrich.de/gs-lpz/</a><br /><span style="font-size:10px;line-height: normal; ">Begabtenförderung, Ganztagsschule<br /></span>
解决方案
推荐阅读
- visual-studio - 在 VS2015 VC++ Redistributables 中找不到多字节字符集
- ajax - Flask:请求方法不通过 AJAX 从 Web 表单中获取日期时间值
- android - Android布局成反应原生视图
- python - 希望根据数据框中其他两行的计算将值插入熊猫数据框的列
- c# - 试图将显示的天数减少到物理天数,而不是最后一个点的天数
- python - Keras 在自定义层之间共享权重
- java - Recyclerview 选择 + 可点击项目
- javac - Java 类型推断失败:
不是功能接口 - c# - 如何在 C# 中将文件/文件路径从一个 Button_Click 事件传递到另一个事件?
- javascript - 收藏夹的本地存储列表