首页 > 解决方案 > 爬取 Edgar SEC 数据库时符合 XML 命名空间

问题描述

我正在尝试使用 R 中的以下代码从 SEC Edgar 数据库下载数据:

text<- "https://www.sec.gov/Archives/edgar/data/1602065/0001602065-20-000056.txt" %>% 
  GET(., add_headers("User-Agent" = "your$email.com")) %>% 
  read_html(.) %>%
  html_nodes("p") %>%
  html_text()

运行代码会产生以下错误消息:

“read_xml.raw 中的错误(x,编码 = 编码,...,as_html = TRUE,选项 = 选项):名称 t5o:2j 不符合 XML 命名空间 [202”]

(对于每个返回错误的文档,“t5o:2j”部分可能不同。)

我尝试的大约 40% 的文档 (500) 会返回这样的错误。

有没有人知道如何修复这样的错误?

标签: rnlptext-miningrvest

解决方案


推荐阅读