首页 > 解决方案 > html/web 抓取 C# 特定文件结构

问题描述

我更喜欢在 C# 中执行此操作,但如果最好的是在 R 或 Python 中,我可以在需要时通过其中一个推送包含结果的文件。为朋友这样做,所以想在一个易于使用的 exe 中完成所有操作。

我正在寻找从几百个 HTML 文件中提取一行的最佳方法,并且它始终是每个 html 文件中的第 23 行。(如果您打开文件进行编辑)

通过文件的迭代没什么大不了的,但我正在寻找的是一种只收集 tr class=g 中的第 4 个 td 的方法,但是文件中有许多相同的 tr 类

<tr class=g><td class=s1>Talent</td><td>Good</td><td>Average</td><td>Poor</td><td>Brilliant</td><td>Good</td><td>Good</td></tr>

在上面的例子中,“辉煌”是我试图找到的,但前提是这个职位有辉煌这个词。

提前致谢。

标签: c#

解决方案


有点不清楚您所说的第 23 行是什么意思。您是指文件中的第 23 行,还是浏览器中的第 23 行?

如果是第一种情况,最简单的方法是简单地加载每个文件并扫描新行。由此,您将能够确定何时到达第 23 行。

但是,如果您想加载 HTML 并能够使用类似 jQuery 的选择器(例如 )来扫描元素tr .g,我会推荐类似我的 HTML 解析器HtmlMonkey的东西。该库将解析 HTML,然后让您轻松搜索元素。它是一个 NuGet 包,但也可以在 Git Hub 上使用。


推荐阅读