首页 > 解决方案 > 如何使用 lwp 模块从 HTML 源文件中获取一个表?

问题描述

我是初学者。我想知道如何使用 LWP 模块从源 HTML 文件中获取一张表?是否可以将正则表达式与 LWP 一起使用?

标签: perllwp

解决方案


您可以使用 LWP 获取网页的 HTML 源代码。最容易的是,使用LWP::Simpleget()中的函数。

my $html = get('http://example.com/');

现在,$html您有一个包含 HTML 的文本字符串(可能是一个很长的文本字符串)。您可以使用任何您想从该字符串中提取数据的技术。

提示:使用正则表达式可能是一个非常糟糕的主意。它会比您预期的要困难得多,并且可能非常脆弱。也许使用更好的工具 - 如HTML::TableExtract代替。)


推荐阅读