antlr - 解析字符串 antlr
问题描述
我将字符串作为解析器规则而不是词法分析器,因为字符串可能包含带有表达式的转义符,例如"The variable is \(variable)"
.
string
: '"' character* '"'
;
character
: escapeSequence
| .
;
escapeSequence
: '\(' expression ')'
;
IDENTIFIER
: [a-zA-Z][a-zA-Z0-9]*
;
WHITESPACE
: [ \r\t,] -> skip
;
这不起作用,因为.
匹配任何标记而不是任何字符,因此将匹配许多标识符并且空白将被完全忽略。
如何解析可以在其中包含表达式的字符串?
研究 Swift 和 Javascript 的解析器,这两种语言都支持这样的东西,我不知道它们是如何工作的。据我所知,他们只是输出一个字符串,例如“我的带有(变量)的字符串”,而实际上无法将变量解析为它自己的东西。
解决方案
这个问题可以使用词法模式来解决,方法是为字符串内部设置一种模式,为外部设置一个(或多个)模式。在外面看到 a"
会切换到里面模式,看到 a \(
or"
会切换回外面。唯一复杂的部分是在外面看到 a )
:有时它应该切换回内部(因为它对应于 a \(
),而有时它不应该(当它对应于一个 plain 时(
)。
实现这一点的最基本方法是这样的:
词法分析器:
lexer grammar StringLexer;
IDENTIFIER: [a-zA-Z_][a-zA-Z0-9_]* ;
DQUOTE: '"' -> pushMode(IN_STRING);
LPAR: '(' -> pushMode(DEFAULT_MODE);
RPAR: ')' -> popMode;
mode IN_STRING;
TEXT: ~[\\"]+ ;
BACKSLASH_PAREN: '\\(' -> pushMode(DEFAULT_MODE);
ESCAPE_SEQUENCE: '\\' . ;
DQUOTE_IN_STRING: '"' -> type(DQUOTE), popMode;
解析器:
parser grammar StringParser;
options {
tokenVocab = 'StringLexer';
}
start: exp EOF ;
exp : '(' exp ')'
| IDENTIFIER
| DQUOTE stringContents* DQUOTE
;
stringContents : TEXT
| ESCAPE_SEQUENCE
| '\\(' exp ')'
;
在这里,我们每次看到 a (
or时都推送默认模式,每次看到 a 时\(
都弹出模式)
。这样,只有在堆栈顶部的模式是字符串模式时,它才会回到字符串内部,只有(
在最后一个\(
.
这种方法有效,但缺点是不匹配)
会导致空堆栈异常,而不是正常的语法错误,因为我们调用popMode
的是空堆栈。
为了避免这种情况,我们可以添加一个成员来跟踪我们在括号内的嵌套深度,并且在嵌套级别为 0 时(即如果堆栈为空)不弹出堆栈:
@members {
int nesting = 0;
}
LPAR: '(' {
nesting++;
pushMode(DEFAULT_MODE);
};
RPAR: ')' {
if (nesting > 0) {
nesting--;
popMode();
}
};
mode IN_STRING;
BACKSLASH_PAREN: '\\(' {
nesting++;
pushMode(DEFAULT_MODE);
};
(我省略的部分与之前的版本相同)。
这工作并为不匹配)
的 s 产生正常的语法错误。但是,它包含动作,因此不再与语言无关,如果您打算使用多种语言的语法,这只是一个问题(并且取决于语言,您甚至可能很幸运,代码可能在所有语言中都有效您的目标语言)。
如果您想避免操作,最后一种选择是使用三种模式:一种用于任何字符串之外的代码,一种用于字符串内部,另一种用于\()
. 第三个将与外部几乎相同,除了它会在看到括号时推送和弹出模式,而外部不会。为了使两种模式产生相同类型的令牌,第三种模式中的规则都会调用type()
. 这将如下所示:
lexer grammar StringLexer;
IDENTIFIER: [a-zA-Z_][a-zA-Z0-9_]* ;
DQUOTE: '"' -> pushMode(IN_STRING);
LPAR: '(';
RPAR: ')';
mode IN_STRING;
TEXT: ~[\\"]+ ;
BACKSLASH_PAREN: '\\(' -> pushMode(EMBEDDED);
ESCAPE_SEQUENCE: '\\' . ;
DQUOTE_IN_STRING: '"' -> type(DQUOTE), popMode;
mode EMBEDDED;
E_IDENTIFIER: [a-zA-Z_][a-zA-Z0-9_]* -> type(IDENTIFIER);
E_DQUOTE: '"' -> pushMode(IN_STRING), type(DQUOTE);
E_LPAR: '(' -> type(LPAR), pushMode(EMBEDDED);
E_RPAR: ')' -> type(RPAR), popMode;
请注意,我们现在不能再在解析器语法中使用字符串文字,因为当使用相同的字符串文字定义多个词法分析器规则时,不能使用字符串文字。所以现在我们必须在解析器中使用LPAR
而不是'('
等等(DQUOTE
出于同样的原因,我们已经不得不这样做了)。
由于此版本涉及大量重复(尤其是随着令牌数量的增加)并阻止在解析器语法中使用字符串文字,因此我通常更喜欢带有操作的版本。
所有三个替代方案的完整代码也可以在 GitHub 上找到。
推荐阅读
- javascript - Cloudflare 阻止我访问我的 wordpress 网站,因为我试图从 zoho 聊天插件中添加 javascript 代码片段
- aggregate - Tableau 计算的最低级别字段聚合 SUM 和所有其他字段的最小值
- javascript - JSON.stringify 如何自动将 moment 对象转换为 iso 字符串?
- python - python - 如何基于单词字典在python中生成单词金字塔?
- database - 一般问题 - 我如何熟悉 PostgreSQL 数据库?
- java - Java 是否优化循环检查?
- python - 如何从框架中获取文件路径
- ios - 使用警报操作更新对象(行)后从 firebase 重新加载数据
- linux - linux diff文件夹和文件结构
- reactjs - create-react-app 中的 Polyfill 不起作用