r - 读取 HTML 实体
问题描述
在 R 中使用 xml2 包将 HTML 实体转换为 Unicode 字符:
xml2::read_html("<html> This is a dash – <html>")
# {xml_document}
# <html>
# [1] <body><p> This is a dash \u2013 </p></body>
我想保留 HTML 实体,因为如果我以后使用 pandoc 将 HTML 转换为 LaTeX,\u2013
将被删除,而–
被正确转换为--
.
我怎样才能做到这一点?
编辑
我在 Linux R 3.6.1 - 包 xml2 1.2.0
解决方案
不是实际的解决方案,而是一种解决方法:
Sys.setenv(LANG="en_US.UTF-8")
xml2::read_html("<html> This is a dash – <html>")
# {xml_document}
# <html>
# [1] <body><p> This is a dash – </p></body>
请注意,我仍然丢失了 HTML 实体,但输出是正确的并且与 Windows 输出一致(基于发布的评论)。
仅当我在终端模拟器中运行 R 时,该修复程序才有效。如果我在 Emacs 中运行 R,我会不断得到\u2013
.
推荐阅读
- amazon-web-services - Why does AWS RDS still shows burst balance 0 with disk size 2TB gp2?
- javascript - React 没有使用 e.target.getAttribute() 方法获取自定义属性
- python - 谁能帮我解释这个 python 程序的第 2 行?
- java - 在 Spring 中将 XML 文件上传到 Java 后端
- python - 从交互式图表中抓取 JSON 数据 - 额外数据错误 `json.load()`
- bootstrap-4 - Bootstrap:行中的元素未与页面左侧对齐
- c++ - 我想通过 Arduino 读取 ML-NTC2 温度传感器的值。但我得到错误:从'char*'到'const uint8_t*'的无效转换
- apache-spark - 在启用了推测的情况下,如何在 Spark 中管理写入?
- numpy - 从包含 ma.masked 的列表创建屏蔽数组
- java - Python 程序如何调用 Maven Central 工件中的 Java 类?