首页 > 技术文章 > HttpWebRequest结合HtmlAgilityPack实现网页form提交

JemmyChou 2016-02-02 12:00 原文

年前一个项目,需要在某个系统实现系统自动操作。

系统页面使用form提交,页面参数较多,也参数设计一系列计算逻辑,改动一个值,其他值自动改变。

传统方法使用正则表达式匹配参数,构建post参数进行请求;但这个方法使用在这个方法显然不使用,参数太多,且包含一系列计算逻辑。

如此,使用到了开源组件HtmlAgilityPack,下面这句是官方介绍:

This is an agile HTML parser that builds a read/write DOM and supports plain XPATH or XSLT (you actually don't HAVE to understand XPATH nor XSLT to use it, don't worry...).——http://htmlagilitypack.codeplex.com

简单的翻译一下就是:HtmlAgilityPack是一个支持XPATH/XSLT解析html和读/写DOM的这么一个工具。

有了HtmlAgilityPack,我们可以简单的拿到form标签下的所有标签;一系列的计算逻辑也变得很简单,我们不用关注javasctrip计算的值是如何赋值,赋值在哪个标签。只需要使用相同的逻辑赋值在相同的标签即可。

HtmlAgilityPack用法就不做示例了,很简单,百度一下就有。基本操作有几个:

    HtmlAgilityPack.HtmlDocument doc = new HtmlAgilityPack.HtmlDocument();

    HtmlNode.ElementsFlags.Remove("form");                 // dom包含form

    HtmlNode.ElementsFlags.Remove("option");               // dom包含option

    doc.LoadHtml("tml");

    // 选取多个节点

     HtmlNode node= doc.DocumentNode.SelectNodes("xpath");

    // 选取单个节点

     HtmlNodeCollection  nodes = doc.DocumentNode.SelectSingleNode("xpath");  

    // 获取属性值

    node.GetAttributeValue("attributename", "defaultvalue"); 

    // 设置属性值

    node.SetAttributeValue"attributename", "attributevalue"); 

    // 追加页面内容

     doc.DocumentNode.SelectSingleNode("xpath").InnerHtml = httpResult.Html;

XPATH:

  

表达式描述
nodename 选取此节点的所有子节点。
/ 从根节点选取。
// 从匹配选择的当前节点选择文档中的节点,而不考虑它们的位置。
. 选取当前节点。
.. 选取当前节点的父节点。
@ 选取属性。
通配符描述
* 匹配任何元素节点。
@* 匹配任何属性节点。
node() 匹配任何类型的节点。

推荐阅读