r - 爬取 Edgar SEC 数据库时符合 XML 命名空间
问题描述
我正在尝试使用 R 中的以下代码从 SEC Edgar 数据库下载数据:
text<- "https://www.sec.gov/Archives/edgar/data/1602065/0001602065-20-000056.txt" %>%
GET(., add_headers("User-Agent" = "your$email.com")) %>%
read_html(.) %>%
html_nodes("p") %>%
html_text()
运行代码会产生以下错误消息:
“read_xml.raw 中的错误(x,编码 = 编码,...,as_html = TRUE,选项 = 选项):名称 t5o:2j 不符合 XML 命名空间 [202”]
(对于每个返回错误的文档,“t5o:2j”部分可能不同。)
我尝试的大约 40% 的文档 (500) 会返回这样的错误。
有没有人知道如何修复这样的错误?
解决方案
推荐阅读
- here-olp - 如何从 compileInFn 写入日志消息?
- selenium-webdriver - Selenium Click 无法在 Windows 7 中使用 IE11 处理弹出消息
- sql - 更新主键列中的所有值
- ios - 方向更改时的自定义 TableViewCell 自动布局问题
- android - 非游戏应用程序被三星游戏启动器视为游戏
- android - 如何在 BaseActivity 中使用 ProgressBar 而不是弃用的 ProgressDialog?
- php - 覆盖子主题中的模块
- python - 减去索引 - TypeError: cannot perform __sub__ with this index type:
- postgresql - 以特定格式将 LocalDate 字段写入数据库
- pytest - 如何使用 PEP 420 命名空间包对项目进行 Pytest?