首页 > 解决方案 > 提取报纸文章的作者(正则表达式问题)

问题描述

我正在尝试在 VB.Net 中提取这两篇报纸文章的作者(我以为我可以使用正则表达式,但我没有找到可靠的方法):

  1. https://www.faz.net/aktuell/wirtschaft/kein-brexit-chaos-an-grenze-zwischen-frankreich-und-grossbritannien-17130243.html

  2. https://www.nytimes.com/2021/01/04/world/europe/assange-extradition-denied.html

到目前为止,我尝试了这个(对于第 1 条):

Dim x As New WebClient()
Dim source As String = x.DownloadString("https://www.faz.net/aktuell/wirtschaft/kein-brexit-chaos-an-grenze-zwischen-frankreich-und-grossbritannien-17130243.html")
Dim pattern1 As String = Chr(34) & "author" & ":" & Chr(34) & "(.*)" & Chr(34) & ","
Dim m As Match = Regex.Match(source, pattern1)
MsgBox(m.Groups(0).ToString)

消息框应显示名称 Philip Plickert,但它不返回任何内容。

有人可以给我一个提示或代码我该怎么做(我对正则表达式很陌生)?

标签: regexvb.net

解决方案


试试这个模式:

/<a class=\"atc-MetaAuthorLink\" href=".+">(.+)<\/font>/g

在这里玩它:

https://regex101.com/r/GDOBLq/1


推荐阅读