首页 > 解决方案 > 混淆 :escape \ or not /\ in javascript 的正则表达式

问题描述

要从字符串中提取 html 部分:

在正则表达式中使用转义:

RegExp('<script type="text\/javascript">[^]+<\/script>');

var content = '<p>test</p><script type="text/javascript">somany lines and \n\
                 so many lines</scr' + 'ipt>';
var reg_escape = new RegExp('<script type="text\/javascript">[^]+<\/scr' + 'ipt>');
var onlyHtml = content.replace(reg_escape,"");
alert(onlyHtml);

在正则表达式中没有转义:

RegExp('<script type="text/javascript">[^]+</script>');

var content = '<p>test</p><script type="text/javascript">somany lines and \n\
                 so many lines</scr' + 'ipt>';
var reg_escape = new RegExp('<script type="text/javascript">[^]+</scr' + 'ipt>');
var onlyHtml = content.replace(reg_escape,"");
alert(onlyHtml);

他们都得到相同的结果——只提取 html 部分。现在在正则表达式中有一个带有转义的整个 html 文件:

<!DOCTYPE html>
<html lang="en">
<head>
    <meta charset="UTF-8">
    <title></title>
    <style type='text/css'>
    div#html{
        border:1px solid red;
        height:80px;
        width:80px;
        float:left;
    }
    div#content{
        clear:both;
        width:400px;
        height:400px;
        border:1px solid black;
    }
   </style>
</head>
<body>
    <div id='html'>html</div>
    <div id='content'>
    </div>        
    <script type='text/javascript'>
    var html_string = document.body.innerHTML;
    var content = document.getElementById('content');
    var ob_html = document.getElementById('html');
    var reg = new RegExp('<script type="text\/javascript">[^]+<\/script>');
    var onlyHtml = html_string.replace(reg,"");
    alert(onlyHtml);
   </script>    
</body>
</html>

另存为with_escape.html并使用浏览器打开它,您从with_escape.html.

正则表达式中有一个没有转义的整个 html 文件:

<!DOCTYPE html>
<html lang="en">
<head>
    <meta charset="UTF-8">
    <title></title>
    <style type='text/css'>
    div#html{
        border:1px solid red;
        height:80px;
        width:80px;
        float:left;
    }
    div#content{
        clear:both;
        width:400px;
        height:400px;
        border:1px solid black;
    }
   </style>
</head>
<body>
    <div id='html'>html</div>
    <div id='content'>
    </div>        
    <script type='text/javascript'>
    var html_string = document.body.innerHTML;
    var content = document.getElementById('content');
    var ob_html = document.getElementById('html');
    var reg = new RegExp('<script type="text/javascript">[^]+</script>');
    var onlyHtml = html_string.replace(reg,"");
    alert(onlyHtml);
   </script>    
</body>
</html>

另存为without_escape.html并使用浏览器打开它,您无法从中提取html部分without_escape.html。出现错误:

在此处输入图像描述

\为什么在前面的代码片段中,不管是否逃逸/\

标签: javascriptregexescaping

解决方案


在 JS 字符串字面量中/\/意思完全一样。

在 HTML 文档</script>中是脚本元素的结束标记,但<\/script>不是。

\当您将其嵌入 HTML 文档时,没有该版本的版本会失败,因为您在表达式中间终止了脚本元素。


推荐阅读