首页 > 解决方案 > 如何使用cheerio.js 从文档中删除

问题描述

我正在尝试从 cherio.js 解析的 html 文档中删除<!DOCTYPE html>和删除。<?xml ...>有可能做到吗?

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">

<html>
  <head></head>
  <body>
    <div>text</div>
  </body>
</html>

标签: javascriptnode.jsweb-scrapingcheerio

解决方案


您可以简单地提取 html。您需要做的就是再次添加html标签

const cheerio = require('cheerio');

const html = `
<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">

<html>
  <head></head>
  <body>
    <div>text</div>
  </body>
</html>
`;
const $ = cheerio.load(html);
console.log($('html').html());

推荐阅读