首页 > 解决方案 > 获取 href 属性值时 HTMLAgilityPack 中的错误。C#

问题描述

在 HTMLAgilityPack 中发现了一个令人讨厌的错误,其中某些属性值未完全返回 - 它们被截断。具体来说,当尝试从锚标记中获取 href 值时,仅返回根域,后面的任何内容(查询字符串)都将被完全忽略。有人知道一个好的解决方法吗?

例子:

node.SelectSingleNode("//link").Attributes["href"].Value

返回 https://www.example.com 而不是返回https://www.example.com/mypage.php?_src=ffk_title &ffkid=66534&site=data:http%3A%2F%2Fwww.othersite.com%2Frss% 2F

链接看起来像这样

<a class="tlink" href="https://www.example.com/mypage.php?_src=ffk_title&amp;ffkid=66534&amp;site=data:http%3A%2F%2Fwww.othersite.com%2Frss%2F" target="_blank">Click to get feed</a>

无论如何-现在,我将只获取链接标记并使用旧方法进行解析-我认为如果 href 标记中有非典型字符,HTMLAgilityPack 会感到困惑。我希望这只是我做错了,但这种怪癖真的很伤人。

标签: c#attributeshtml-agility-pack

解决方案


对于锚标记,您应该使用//aXPath 表达式:

node.SelectSingleNode("//a").Attributes["href"].Value;

此外,如果您需要引用具有特定类的锚点,您可以使用:

node.SelectSingleNode("//a[@class='tlink']").Attributes["href"].Value;

一个可行的例子可以看这里


推荐阅读