首页 > 解决方案 > 包含 Unicode 字符的 DOMXPath 查询属性

问题描述

是否可以访问包含 Unicode 类名的元素?

我实际上正在访问这个站点,但是它们的类名以 Unicode 字符 U+1F41D HONEYBEE 为前缀

$html = file_get_contents('https://www.honestbee.my/en/groceries/stores/bens-independent-grocer/products/720365');
$doc = new \DOMDocument();
$doc->loadHTML($html);

$xpath = new \DOMXpath($doc);

$elements = $xpath->query("//[@class='ap0']");
if (!is_null($elements)) {
    foreach ($elements as $element) {
        echo "<br/>[". $element->nodeName. "]";

        $nodes = $element->childNodes;
        foreach ($nodes as $node) {
            echo $node->nodeValue. "\n";
        }
    }
}

不幸的是它抛出错误

ErrorException  : DOMXPath::query(): Invalid expression                                                                                                     
 at /paht/to/test-dom.php:83                                                                        
   79|         $doc->loadHTML($html);                                       
   80|                                                                      
   81|         $xpath = new \DOMXpath($doc);                                
   82|                                                                      
 > 83|         $elements = $xpath->query("//[@class='ap0']");             
   84|         if (!is_null($elements)) {                                   
   85|             foreach ($elements as $element) {                        
   86|                 echo "<br/>[". $element->nodeName. "]";              
   87|                                                                      

Exception trace:

1   DOMXPath::query("//[@class='ap0']")                                  
    /paht/to/test-dom.php:83

我在这里指的是表情符号代码,尝试过\uD83Dap0也不起作用

标签: phphtmlxpathunicodedomxpath

解决方案


$doc->saveHTML()好吧,在尝试并注意到所有 Unicode 字符都已损坏之前,我陷入了字符编码和诸如此类的兔子洞。我的猜测是,它DOMDocument::loadHTML会将所有内容都视为 ISO-8859-1,这是 HTML 4 的默认编码。因此,通过添加 XML 序言,我们可以欺骗它以将其解析为 UTF-8。这允许您按类名搜索,无论它使用什么字符:

<?php
$html = file_get_contents('https://www.honestbee.my/en/groceries/stores/bens-independent-grocer/products/720365');
$prologue = '<?xml encoding="UTF-8">';
$doc = new \DOMDocument();
$doc->loadHTML($prologue . $html);
$xpath = new \DOMXpath($doc);
$elements = $xpath->query("//div[@class='ap0']");
foreach ($elements as $element) {
    echo "<br/>[". $element->nodeName. "]";
    $nodes = $element->childNodes;
    foreach ($nodes as $node) {
        echo $node->nodeValue. " \n";
    }
}

还值得注意的是,您的“无效表达式”错误不是由于蜜蜂,而是因为您的查询中没有元素名称。在我的回答中,我使用了 div,如果你想搜索所有可以使用 *.


推荐阅读