首页 > 解决方案 > 如何在此网站上指定正确的 xpath 进行解析?

问题描述

我需要从这个表中提取公司名称、电子邮件、URL、地址和电话号码...

公司名称非常简单,它们的正确 xpath 位置是:

//*[@id="s5_component_wrap_inner"]/div[2]/div[2]/strong

但是,地址和电话/传真信息仅用<br>'s 分隔。

我试过指定:

//*[@id="s5_component_wrap_inner"]/div[2]/div[2]/text()

无济于事。我正在使用 Octoparse 8.0

以下是页面上的表格条目示例:

    <strong>Freie Grundschule 'Clara Schumann'</strong><br>Inselstraße 18, 04103 Leipzig<br />Tel.: 03 41 / 39 39 - 6 10, Fax: 03 41 / 39 39 - 6 11<br /><span id="cloak1ad4f2fdfed5ab713a02c518f5f184cd">Diese E-Mail-Adresse ist vor Spambots geschützt! Zur Anzeige muss JavaScript eingeschaltet sein!</span><script type='text/javascript'>
    				document.getElementById('cloak1ad4f2fdfed5ab713a02c518f5f184cd').innerHTML = '';
    				var prefix = '&#109;a' + 'i&#108;' + '&#116;o';
    				var path = 'hr' + 'ef' + '=';
    				var addy1ad4f2fdfed5ab713a02c518f5f184cd = 'gr&#117;ndsch&#117;l&#101;-lpz' + '&#64;';
    				addy1ad4f2fdfed5ab713a02c518f5f184cd = addy1ad4f2fdfed5ab713a02c518f5f184cd + 'r&#97;hn-sch&#117;l&#101;n' + '&#46;' + 'd&#101;';
    				var addy_text1ad4f2fdfed5ab713a02c518f5f184cd = 'gr&#117;ndsch&#117;l&#101;-lpz' + '&#64;' + 'r&#97;hn-sch&#117;l&#101;n' + '&#46;' + 'd&#101;';document.getElementById('cloak1ad4f2fdfed5ab713a02c518f5f184cd').innerHTML += '<a ' + path + '\'' + prefix + ':' + addy1ad4f2fdfed5ab713a02c518f5f184cd + '\'>'+addy_text1ad4f2fdfed5ab713a02c518f5f184cd+'<\/a>';
    		</script>, <a href="http://www.rahndittrich.de/gs-lpz/" target="_blank">www.rahndittrich.de/gs-lpz/</a><br /><span style="font-size:10px;line-height: normal; ">Begabtenförderung, Ganztagsschule<br /></span>

标签: xpathweb-scraping

解决方案


推荐阅读