首页 > 解决方案 > 使用 rvest 进行网页抓取时,如何在每个 html 换行标记处将字符串分解为列的元素?

问题描述

这是我用来抓取美国 50 个州列表的代码。

html_page %>%
 html_nodes(".hentry__content") %>% 
  html_nodes('p')%>% .[[5]] %>%
  html_text()

我得到的结果是这样的:

  1. 阿拉巴马\n2. 阿拉斯加\n3. 亚利桑那\n4. 阿肯色州\n5. 加利福尼亚\n6. 科罗拉多\n7. 康涅狄格\n8. 特拉华\n9. 佛罗里达\n10. 格鲁吉亚\n11. 夏威夷\n12. 爱达荷州\n13. 伊利诺伊州\n14. 印第安纳州\n15. 爱荷华\n16. 堪萨斯\n17. 肯塔基\n18. 路易斯安那州\n19. 缅因州\n20 ETC 直到 50...

我需要的是一段代码,它将每个状态存储为一个名为 State_Names 的单个列表的元素,在该列表中使用 break 标记来分隔元素。

标签: rweb-scrapingsplitrvest

解决方案


推荐阅读