php - 包含 Unicode 字符的 DOMXPath 查询属性
问题描述
是否可以访问包含 Unicode 类名的元素?
我实际上正在访问这个站点,但是它们的类名以 Unicode 字符 U+1F41D HONEYBEE 为前缀
$html = file_get_contents('https://www.honestbee.my/en/groceries/stores/bens-independent-grocer/products/720365');
$doc = new \DOMDocument();
$doc->loadHTML($html);
$xpath = new \DOMXpath($doc);
$elements = $xpath->query("//[@class='ap0']");
if (!is_null($elements)) {
foreach ($elements as $element) {
echo "<br/>[". $element->nodeName. "]";
$nodes = $element->childNodes;
foreach ($nodes as $node) {
echo $node->nodeValue. "\n";
}
}
}
不幸的是它抛出错误
ErrorException : DOMXPath::query(): Invalid expression
at /paht/to/test-dom.php:83
79| $doc->loadHTML($html);
80|
81| $xpath = new \DOMXpath($doc);
82|
> 83| $elements = $xpath->query("//[@class='ap0']");
84| if (!is_null($elements)) {
85| foreach ($elements as $element) {
86| echo "<br/>[". $element->nodeName. "]";
87|
Exception trace:
1 DOMXPath::query("//[@class='ap0']")
/paht/to/test-dom.php:83
我在这里指的是表情符号代码,尝试过\uD83Dap0
也不起作用
解决方案
$doc->saveHTML()
好吧,在尝试并注意到所有 Unicode 字符都已损坏之前,我陷入了字符编码和诸如此类的兔子洞。我的猜测是,它DOMDocument::loadHTML
会将所有内容都视为 ISO-8859-1,这是 HTML 4 的默认编码。因此,通过添加 XML 序言,我们可以欺骗它以将其解析为 UTF-8。这允许您按类名搜索,无论它使用什么字符:
<?php
$html = file_get_contents('https://www.honestbee.my/en/groceries/stores/bens-independent-grocer/products/720365');
$prologue = '<?xml encoding="UTF-8">';
$doc = new \DOMDocument();
$doc->loadHTML($prologue . $html);
$xpath = new \DOMXpath($doc);
$elements = $xpath->query("//div[@class='ap0']");
foreach ($elements as $element) {
echo "<br/>[". $element->nodeName. "]";
$nodes = $element->childNodes;
foreach ($nodes as $node) {
echo $node->nodeValue. " \n";
}
}
还值得注意的是,您的“无效表达式”错误不是由于蜜蜂,而是因为您的查询中没有元素名称。在我的回答中,我使用了 div,如果你想搜索所有可以使用 *.
推荐阅读
- r - 向这个 ggridge 图添加标签
- javascript - Bootstrap modal - 使用 Safari 和 Chrome 停止视频的问题
- java - 在 JUnit 规则运行之前使用 Spring TestExecutionListener 初始化状态
- oracle - Oracle - 如何从 YEAR、WEEKNUM 和 WEEKDAY 获取日期?
- swift - 快速点击 Post Method api 时出现问题
- windows - 是否可以在没有管理员权限的情况下在 Virtualbox 共享文件夹中使用符号链接?
- python - 神经网络中的术语:softmax 激活函数中的退火温度参数是什么?
- scheme - 如何产生 f 的根的猜测流?
- javascript - 进行 ajax 调用时,Node.js 端点 & 符号被附加
- slack - 如何在两个时间范围内的消息之间进行搜索?