c# - html/web 抓取 C# 特定文件结构
问题描述
我更喜欢在 C# 中执行此操作,但如果最好的是在 R 或 Python 中,我可以在需要时通过其中一个推送包含结果的文件。为朋友这样做,所以想在一个易于使用的 exe 中完成所有操作。
我正在寻找从几百个 HTML 文件中提取一行的最佳方法,并且它始终是每个 html 文件中的第 23 行。(如果您打开文件进行编辑)
通过文件的迭代没什么大不了的,但我正在寻找的是一种只收集 tr class=g 中的第 4 个 td 的方法,但是文件中有许多相同的 tr 类
<tr class=g><td class=s1>Talent</td><td>Good</td><td>Average</td><td>Poor</td><td>Brilliant</td><td>Good</td><td>Good</td></tr>
在上面的例子中,“辉煌”是我试图找到的,但前提是这个职位有辉煌这个词。
提前致谢。
解决方案
有点不清楚您所说的第 23 行是什么意思。您是指文件中的第 23 行,还是浏览器中的第 23 行?
如果是第一种情况,最简单的方法是简单地加载每个文件并扫描新行。由此,您将能够确定何时到达第 23 行。
但是,如果您想加载 HTML 并能够使用类似 jQuery 的选择器(例如 )来扫描元素tr .g
,我会推荐类似我的 HTML 解析器HtmlMonkey的东西。该库将解析 HTML,然后让您轻松搜索元素。它是一个 NuGet 包,但也可以在 Git Hub 上使用。
推荐阅读
- kotlin - 如何解释 Kotlin 中的实现
- javascript - 从一个对象中删除与其他对象项匹配的项
- html - 为 div 之外的所有内容着色,但在另一个 div 中以另一种颜色着色
- java - 进入 Toast 后,我的天气应用程序崩溃了
- open-policy-agent - OPA 冲突政策
- javascript - 没有为 React App 加载 CSS 模块
- android - Dose android 提供跨多个应用程序的订阅?
- javascript - 在饼图 Highcharts 中显示数据表边框
- python - Gekko 优化
- amazon-s3 - 为 Amazon S3 存储桶键创建索引